Xはイラストの学習なんてしていない

はてな匿名ダイアリー

2024-11-16

■Xはイラストの学習なんてしていない

Xが学習に使いたいのはテキストの方

そもそもの話、X社は画像生成AIなど作っていない。彼らがつくっているのは検索支援 AI Grek。学習に使いたいのはテキストの方であって画像ではない。

Grokとは

わかりやすさのために ChatGPTと比較してみる。2023年にリリースされた GPT-4 に試しに今期のアニメについて質問してみよう。

今期最も人気のアニメはなんですか？
ChatGPT:
2024年の今期で人気のアニメはいくつかありますが、「進撃の巨人」や「呪術廻戦」が特に注目を集めています。また、新作では「東京リベンジャーズ」や「スパイファミリー」も話題です。どの作品に興味がありますか？

アニメに詳しい人ならちょっと古い話をしているのがわかるだろう。 GPT-4 が学習を行なったのは2023年までの情報だ。なので最新の話題に対応できないのである。

一方、Grok は Xの投稿をリアルタイムに検索して反映する。もし Grok で同じ質問をすればダンダダンやリゼロ、ブリーチ辺りの話をするはずだ。つまり、Xが収集したいのは「ダンダダンの７話泣かされたわ・・・」みたいな投稿のことであってイラストではない。

Grokの画像生成機能は何か？

Grokには画像生成機能がついているが、これは自前の物ではなく Black Forest Labs社の FLUX.1 というモデルである。X社が Xに投稿されたイラストを収集して学習させているわけではないのだ。それでは FLUX.1 の訓練に使ったのはどこの画像なのだろうか？データセットは明らかにされていないが十中八九使っていそうなのが LAION-5B である

LAIONとは

現在大手の企業は「著作権的にクリーンな」画像生成AIをつくっているが実際には版権物が出てくることが知られている。なぜそんなことが起こるのだろうか？だいたい LAION のデータセットが原因である。LAIONはドイツにある非営利組織でネット上にある、ありとあらゆる画像を収集しタグをつけたデータセットを公開している。

LAIONのFAQ　からの引用：

Q. 私の著作物があるのでデータセットから除いてください
A. LAIONは非営利の研究組織です。ドイツの著作権法（§60d UrhG）に従いあらゆる著作物の利用が許されています。

とあるようにドイツの法律上合法らしい。実際に訴えられた後LAION側が勝訴している。とはいえこの組織にはAI 関連企業からの多額の寄付金があることが知られており、パチンコ３店方式のような意味合いでの合法とも言える。

尚、反AIさんと反々AIさんが著作権法第30条の4を巡って喧嘩をしていますが、世界では日本の法律は関係ないです。いちおう念の為。

反AIのGlazeの使い方は間違っている

反AIさんが迷惑な暴れ方をしている。

他の絵師さんに Glaze を使うように詰め寄ったり、使わないやつはAIに加担していると攻撃したり。挙げ句の果てには「自分の絵にGrazeをかけました」と宣言したり。

もう、全てが間違っている

そもそも、Glaze も Nightshade もAI 学習を阻害するものではない。学習したモデルをぶっ壊す毒なのである（poisoned って書いてあるでしょう？！）

相手に食わせなければ意味がないんだ。Glazeかけたとか自分で言うな。対策されるでしょう？（後述）

それと他の人に強要する意味はない。使いたい人が使えば十分なんだ。

事実すでに効果は上がっていてOpenAIは悲鳴をあげ対策を急いでいる。

Glaze/Nightshade とは

反AIさんの考えるよりも Glaze/Nightshade はずっと強力だ。それはデータセットを汚染する攻撃である。簡単に言えば Nightshadeは「学習中に他の絵に変換されてしまう」ノイズをかける。この操作を毒入り（poisoned)と呼ぶ。ピクセル毎の微小な変更なので Nightshade をかけた後もイラストはぱっと見はかわらない。

Nightshadeを使って例えば犬の画像を猫の画像になるノイズをかけたとする。するとAIは犬と猫が混ざったまま学習を進め「犬」と言う概念が無茶苦茶になってしまう。

図：毒入りモデルの変化　　(arXiv:2310.13828から引用)

上の図は毒入りの画像を２００枚食わせたときの変化の様子だ。犬が猫になってしまっている。それだけではなく”犬”に近い概念、”子犬”、”ハスキー”、”狼”もぐちゃぐちゃになっている。

図：毒入り枚数による変化　　（同引用）

こちらは50、100、300、と毒入り枚数を変化させたときの様子。50枚の時点ですでにめちゃくちゃになっている。

余談０

XでAI(Grok)の学習に使って欲しくない人は

設定とプライバシー→プライバシーと安全→Grok　

から学習許可のチェックを外すと良い

余談１

もし私が反AIだったなら、イラストに Nightshadeをかけて danbooru に投稿するだろう。二次元イラスト特化の画像生成AIはdanbooru2021/ danbooru2022 などのデータセットを使っているものと見られる。これらはイラスト投稿サイトdanbooru から収集したものである。

余談2

ところで Glaze も Nightshade もその内部で画像生成AIを使っているということを知ったら反AIさんはどんな顔をするだろう？

Glaze は VAE（Variational Autoencoder）を使う。目的から言っておそらくStable Diffusion のものだ。そしてNightshade の方は論文には拡散モデルとしか書いていないけれどもこちらもおそらく Stable Diffusion だろう。

余談3

Glaze が機能しない？あるいは解毒方法が見つかったかもしれない

we_need_to_talk_a_little_bit_about_glaze_and

上のスレッドのコメント欄では Glaze が論文のようには機能しないことについて議論され「画像のリサイズをしたのではないか」と予想している。Glazeをかけた後に画像を縮小、データが圧縮されてノイズ効果が消えたのではないかということだ。

A) 絵師さんが Glaze をかけたあと画像を縮小した可能性

B) 画像サイズやファイルタイプによってはプラットフォーム側が勝手に加工をする

C) 学習の際にリサイズを行う (Stable Difusion XL では1024px, 古いモデルは512px)

A,B については絵師さん側に知識があれば対処可能だけれども C の方はなんともし難い。小さい画像を投稿したところで [縮小→拡大] でノイズは落とせそうだ（解像度は悪くなるだろうが）

尚、上の議論に関しては誰も検証をしていないので注意。

余談４

LAIONは収集画像そのものを所有せず、データセットはウェブ上にある画像のurlとタグをまとめた物であるらしい。

ということは、LAIONの新しいデータセットが公開されたタイミングで画像のurlを変更すれば学習に使われることを回避できそうだ。特に、個人サイト／ブログの所有者ならば古い url に●んこ画像でも差し替えておけば嫌がらせになる。（タグ差し替えはこのグラフの Simple Attak に相当）

90年代においては画像に直リンクされたときの報復としてうん●画像に差し替えたものです。まさか令和になっても有効とはね

余談５

この記事をぼちぼち書いているいるうちに2日が経過した。今、私のXのタイムラインもおすすめもとても静かだ。攻撃的な人たちやデマに流されやすい人達は皆どこかに行ってしまったようだ。残ったのはこれまで静かにイラストを描き続けてきた人たちでとても穏やかな空気が流れている。ずっとこのままがいい。

Permalink | 記事への反応(1) | 21:21

記事への反応 -

anond:20241116212158
んんｗｗｗｗ増田氏、何やらX社のGrokやら画像生成AIの背景について詳しく語っておられるようですが、ちょっと待っていただきたいですぞｗｗｗｗ拙者の見解を述べさせていただきま...
- anond:20241116212452
  バカにChatGPTを送りつける煽りが定着してきたな
- anond:20241116212452
  ChatGPTに返信を書かせたようですが、ただの記事の要約になっていますよ