「クロール」を含む日記

はてなキーワード: クロールとは

2024-04-04

■はてなーは画像生成AIを誤解しているようだけど

はてなーは「電子書籍が出れば紙書籍が売れなくなるのは当然の流れ」というノリで生成AIとイラストレーターのことを語ってるけど、実際のところは「漫画村で読めるから単行本は買わない」というノリに近いのが今の生成AIの現状なんですよ。

ここら辺は漫画家の中でも理解できていない人がいて、森川ジョージさんが正にそれで同業者からフルボッコにされている真っ最中なんだけどね。

還暦近い方なので仕方ないところではあるんだけど、漫画家協会の理事やってるから面倒なんだよなぁ、マジで。

なので欧米では法で規制しようかという話も当然のように出ているわけです。

将棋 AIはAI同士で対局を繰り返してその棋譜を元に強くなるんだけど、画像生成AIは現状はどうしても人間が描いたイラストを元にせざるを得ないので問題を孕みまくっているんですよね。

クリーンなデータセットを元に学習すれば良いんだけど、そのようなイラストは現状だと著作権切れの古いイラストしかないんじゃないかな？

そんな面倒なことをせず、Pixivというジャップが大量に良いイラストを纏めてくれてるからクロールしてぶっこ抜いて使おうぜ、というのが今の画像生成AIの現状だと思う。

それでも身内だけで使ったり、自分の画力向上のための添削ツールとして使ったりするくらいならまだ理解できるんだけど…

現状だと「才能ないし努力もしたくないけど、SNSで漫画やイラストでチヤホヤされてるインフルエンサーが羨ましくて仕方が無い！　でも自分では努力したくないでござる！」というクズが画像生成AIで勝ち誇ったり、勝手に嫉んだ漫画家やイラストレーターに似た画風の画像を出力して誹謗中傷に使ってるから問題になっているんだよ。

先月までアニメやってた「即死チートが最強すぎて、異世界のやつらがまるで相手にならないんですが。」の主人公のクラスメイトが他人から貰ったチートでイキってたけど、正にあんな感じのクズが量産されてるんだよね。（「即死チート」の作者は人間の愚かさというものがよくわかってらっしゃる。）

そして最近だと更に先鋭化してAIを使ってるに違いない、とAI 警察化して勝手に認定して冤罪発生させまくりなんだよなぁ。

イラストレーターが潔白証明しても耳を貸さないし、懲りないし、本当にクズなんだわ…

とにかく、功罪のうち、罪の方が大きすぎるのでイラストレーターや漫画家はピリピリしてるんですよ。

はてなーの中には「Winny 本体が悪いんじゃなくて、悪用するユーザーが悪いんだ！」という人が居るかもしれないけど、今の画像生成AIは「違法画像を大量に同梱したWinnyを配布している」状態なんですよ。

ダメに決まってるだろ、常識に考えて。

さっさと法規制して欲しいものだけど、日本でそれ関係の国会議員である赤松健氏はこの件に関しては動くことは期待できないと思うんだ…

だってデビュー作が「AIが止まらない」だよ？

AIが擬人化して開発者である主人公とラブコメする作品を描いた人なんだよ？

最新作の「UQ HOLDER!」では人類の進歩を全肯定し、そのために血を流しながら前に進むような漫画を描いた人だよ？

AIという先進技術を規制するのとは正反対の立場な人なんですよ。

なので、イラストレーターや漫画家諸氏は赤松健氏以外の議員にロビー活動をした方が良いと思います。

Permalink | 記事への反応(2) | 21:23

2024-04-01

■anond:20240401155117

パイプラインと言ったらデータ収集から訓練までの一通りのことを言うよ

で、じゃあデータはどうしているのかというと、クロールしてる

あるコンテンツの検索エンジンを作っているのだけど、基本的にはデータはクロールで確保

で機械学習の教師データは？というのは、distant supervisionでラベルづけしてるよ

Permalink | 記事への反応(1) | 15:53

■anond:20240401152523

俺が書いたことがあるのは以下

NLP系のタスク。情報検索、推薦システム、文書分類、クロール等。
社内のセールス系連中の仕事の自動化
Web システムのバックエンド (php, python, java, perl)

Permalink | 記事への反応(3) | 15:30

2024-03-02

■[感想]ラチェット＆クランク パラレル・トラブル　PS5

とりあえずクリア

難易度は一番低いやつ

プレイ時間はわからんが多分15時間くらいか？

途中詰まりそうになったときもあったけどなんとかクリアできてよかった

ｐｓ２の１はラストステージで詰まってクリアできんかったからなー

ロックマンのワイリーみたいな立ち位置なんだなラチェクラのラスボスって

リベットがかわいかったなー

声もあってた

逆にラチェットは眉毛ぶっといしもさくてきもかった

画面のきれいさとロードのなさはすぐ慣れて、後半は逆につまんなかったなー

クランクメインのパズルステージもつまんなかった

最初の1時間くらいの楽しさだけで十分だったかなー

まちとかステージのオブジェクトもやたらリアルで数おおいけど、逆にそのせいでどれが壊せるものかとか、

大事な隠しアイテムかとかがすげーわかりにくくなっててイライラした

最後の最後でアクセシビリティってオプション設定あることしって、インタラクトできる箱とかゴールデンボルトとかギミックとかの色を変えたらすげープレイしやすくなったわ

最初からしとけばよかった

近距離のレンチなぐりはなぐってる感あるからいいけど、

わりとメインのはずの遠距離武器の爽快感がいまいちだったのは微妙だったなあ・・

イージーでも敵硬すぎたから余計にそういう感じした

近距離攻撃とどかねえから遠距離必須みたいな敵やボスが多いから余計に感じた

ベルトスクロールみたいにエリア内の敵倒さないと次に進めないのが結構あるけど、

終わってるかどうかがすげーわかりにくくて、終わってないのに進もうとして死ぬってのも何回かあってうざかったなー

まあ1回やればいいかなって感じ

スターオーシャン６とかもこういう感じで交互に見せてくれればよかったのになと

ラチェットとリベットで2週させられてたらクソうざかったと思うわ

こんな感じで1周で両方みせてくれたらいいんだよ

Permalink | 記事への反応(0) | 21:52

■絵師さんは何もおかしなことを言っていない

もう分断を煽るのはやめませんか

現在混乱を招いている要因は、おそらく以下の二つ

1.　著作権法第 30 条の 4 ただし書きの解釈

2.　それぞれがAIを異なる意味で使っている　

著作権法第30条 4 ただし書きの解釈

AI利用に向けて改正されたとされる著作権法30条の4は AIならなんでも許されるというわけではない。以下のように条件がついている。

著作物は，次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には，その必要と認められる限度において，いずれの方法によるかを問わず，利用することができる。ただし，当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は，この限りでない。

著作物に表現された思想又は感情の享受を目的としない利用かどうか
著作権者の利益を不当に害するかどうか

この辺りの解釈について紛糾している様子。

同30条の 4 は平成30年当時、事業者や研究者によるAI利用を想定していた。現在では一般市民にAIが広く普及し状況が変わってきたことから、同条の適応範囲について再整理を図るという趣旨で公開されたのが「AIと著作権に関する考え方について（素案）」

そして素案に対するパブリックコメントを募集した、というのが現在の流れ。

AIと著作権に関する考え方について（素案）

それぞれがAIを異なる意味で使っている

Pixiv 「AI 学習は禁止です」　　←　　画像生成器（拡散モデル: Mid journey、 stable diffusion etc...）

反AI 絵師さん「AI 学習禁止です」　　← 追加学習（LoRA）

反反AIさん　「ネット上にある全ての絵をクロールしているんだよ！お前の絵だけ除けるか！」　← テキストエンコーダ（CLIP）

それぞれは別におかしなことは言っていないと思う

反反AI「ネット上にある全ての絵をクロールしているんだよ！お前の絵だけ除けるか！」

たぶん、CLIPのこと。テキストと画像の翻訳を行う。犬の画像を見て「犬」と識別することができる。

ネット上のあらゆる画像とテキストを学習することで作られた。OpenAIによって公開。画像生成だけではなくいろんなところに使われている。

個人では作れない。計算コスト的にたぶん無理
配布している学習済みのものを使う（CLIP）
https://github.com/OpenAI/CLIP]
絵師さんへの反論としてCLIPを出すのはおかしい

Pixiv 「AI 学習は禁止です」

たぶん、画像生成器（拡散モデル）のこと。

画像生成AIはテキストエンコーダ（CLIP）と画像生成器の組み合わせでできている。stable diffusion等は拡散モデルを使っている。

拡散 モデルこんなかんじ

1.　イラストを用意する

2.　イラストにノイズを振って汚す

3. 汚れたイラストから元のイラストを予想させる

学習を繰り返しノイズを増やしていくと最後はただのノイズから画像を出力する 連想ゲーム絵師が誕生する。連想ゲーム絵師は連想しかできないので自分が描いたものが何かわからない。犬を描いてといっても車を描いてくる。なので CLIPが誘導したりダメ出ししたりする。

拡散 モデルの学習に使われるイラスト

どこかのイラストサイトかデータベースを使っているはず。「著作権的に安全な〜」みたいな触れ込みのやつはどこかのデータベースを購入して使っているんだと思う。

Pixivの主張は別におかしくない。このあたりは「AIと著作権に関する考え方について（素案）p7」（エ）において解説されている。"robot.txt"への記述によりAI 学習を行うクローラーのアクセスを制限しているにも関わらず、勝手に学習に使うことは「データベースの著作物の潜在的販路を阻害する行為」として著作権違反になる（Pixivが将来的に本当に販売するかどうかは置いておく）

絵師「AI 学習 禁止です」　

追加学習（LoRA）のこと。

既存のモデルに数枚のイラストを追加学習させることで絵柄を模倣（ファインチューニング）する。

特定の絵師さんのイラストを勝手に使う者がいるようでトラブルになっている。

絵柄に著作権はないのでは？

絵柄に著作権はない。学習の際に行われる複製が著作権侵害にあたるかどうかが争点になっている。

著作権法30条の4 より

著作物に表現された思想又は感情の享受を目的としない利用かどうか
著作権者の利益を不当に害するかどうか

この辺りは「AIと著作権に関する考え方について（素案）」及びパブコメの返答に現状の解釈が示されているので興味のある方はどうぞ。

(p6. 特定のクリエイターの著作物のみを用いてファインチューニングを行う場合〜を参照）

※ここははっきりとは断定していないので自分で読んだ方が良いと思う。

（私の読解:）

程度問題ぽい。よくある画風なら問題にならないけれどはっきりと特定絵師さんとわかる感じだとダメそうですね

（私の読解終わり）

絵師さんのプロフィールを叩いている人は意味 わからん

別にプロフィールなんて「トイレから出たら手を洗ってください」でも「フォローする際には五体投地してください」でも好きに書いてよいだろう。

それが法律に記されているかどうかは関係ない。ただのお願いだ。

「AI 学習禁止」と書くなと騒いでいる人は何を考えているのかよくわからん。

「AIと著作権に関する考え方について（素案）」にも再三出てくるがAI 学習を技術的に回避することは禁止していない。30条の4は権利の制限であって、イラストを差し出せという強制ではない。

分断煽りはうんざりだ

パブリックコメント：

https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/hoseido/r05_07/pdf/94011401_01.pdf

見ればわかりますが個人よりも一般企業による意見が多く、返答とあわせてとても読み応えのあるものです。

このファイルを読んで個人の頭の悪そうな意見だけ抜粋してくるのは非常に違和感があります。

技術や創作への興味を失い、ただ相手サイドの頭の悪そうなやつをみつけて叩く人たちとは距離を置きたいところです。

Permalink | 記事への反応(0) | 17:57

2024-02-12

■anond:20240211181217

軽微利用のくだり、その解釈だと検索エンジンも普通に違法にならね？

検索エンジン側で持ってるデータベースにクロールしたデータを全文ぶち込んでインデックス作ってないとこんな検索速度出せないでしょ

まさか検索するたびにクローリング走らせて全文中に検索ワードとの合致あるか調べて結果返すわけでもあるまいし

https://public-comment.e-gov.go.jp/servlet/PcmFileDownload?seqNo=0000267588

パブコメ用に素案も読み返してたんだけど、検索拡張生成（RAG）についての文化庁の見解は新聞協会のそれとはそもそも大幅な食い違いがありそう

https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_17.pdf

というか問29に沿って考えれば、「情報解析によって時事情報（※ただの事実であって著作権によって保護されない）を表示する」が主であって、その過程における「既存の著作物を複製翻案等する」は従であるとも評価しうるのでは

Permalink | 記事への反応(0) | 00:13

2024-02-08

■個別ページじゃなくてトップレベルドメイン から全部クロールして魚拓取れるサービスってないかな？

記事数が1000以上あって手作業ダルいんじゃが

Permalink | 記事への反応(2) | 12:59

2024-01-16

■ワイがなぜか図書館が好きになれない理由３つ

いや嫌いじゃないんすけどね。なぜか忌避してしまうのよ。

理由１：古い本がたくさんあって埃っぽい＆手あかっぽい。臭い。
理由２：ネットほど情報が新鮮ではない。
理由３：がちの専門的なものはなく、趣味雑学の域を出ない。
理由４：９９９％の確率で朝９時から場所を占有する爺さんばあさんがいる。
理由５：その爺さんばあさんと世間話を永遠としている司書さんがいる。
理由６：「どっかの他人の家」感がなじめない。ビジネス然としてほしい。