はてなキーワード: スクレイピングとは
AI学習妨害機能って手書きイラスト描いてる人しかかけないじゃない?AI生成イラストにかけてる人見たこと無い。
これって絵師がわざわざ絵の品質落として手書き証明付与してるようなものだよね。
学習妨害がかかってるか検知できれば一発で手書きイラストだけフィルタできるわけで。
スクレイピングしやすいBlueskyやMisskeyに移住しているのも含め、いまの絵師って生成AI作っている人に協力的な行動ばかりしてるよね。
結論から言うが、生成AIが広まることによってイラストレーターを含めた絵を描く人間(面倒なので以降まとめて絵師と略す)の需要も価値も損なわれることは決してないし、恐らく寧ろ向上する。ただし一部の層のみ。
最近話題の生成AI、いわゆるクリエイター界隈ではあっちらこっちらで話が広がって、しかも誤解や間違いもどんどん広まって、いったいどうしたことかと混迷を極めている。見る人が見れば本当に面白い状況だろう。加えてXの唐突な規約変更(と誤解されている)で投稿画像が無断学習されると騒ぎになり、SNSは今や群雄割拠の戦国時代みたいになっている。自分もXのフォロワーがやれブルースカイ、クロスフォリオに移行するやら、今後のイラストはすべてポイぴくを挟むやら、創意工夫をもってAI学習の手から逃れようとしているのを眺めていた。
これらの行為率直に言って、無駄だなと思う。無駄ではないがあんまり成果の出る行動ではないな、と思う。むしろAI学習から逃れられない上にインプレッションが下がるだけなのでどちらかというと損失の方が大きいだろう(人はURLをタップして新規ページにアクセスするという一手間をとんでもなく惜しむ、自分も画像直貼りなら見る絵も、URLクリックになった場合はサムネが余程好みでない限りほぼ100%見ない。これについては論文出てるから興味ある人は読んでみるのをお勧めする)
まずこの情報社会のインターネットという大きな箱において、データ収集されないで済むものの方が少ない。基本インターネットに上げた時点ですべて情報社会の餌になると考えた方が逆に健全だ。デジタルタトゥーとか言うだろ、使い方も意味も違うが、構造自体はほぼそれと同じだ。原則として「セキュリティ保護(パスワード認証)のないデータはすべて学習の対象となる」と考えた方が良い。これはインターネットという性質を考えれば自明の理だ。AIのスクレイピングを阻害するプラットフォームに上げたとて、基本人が自由にアクセス出来るのにAIが学習出来んわけなかろう。人間が自由に見れるものはAIも自由に見れる。これが基本原則であることを分かってない人が多すぎる。勿論サーバーにAI学習を阻害する設定を相当しっかりやっていればだいぶ軽減はされるが、まあ最終的にアクセス出来れば学習は出来る。これは変わらんと考えておいた方がいい。むしろXはAPI制限などをbot対策などを相当労力掛けてやったので(ユーザーからは不満たらたらだったが)そういう意味ではAI学習対策がなされている方だとも言う考え方もあるようだ。X自体の学習は防げなくても、X外からの学習は防げるからなあ。こればっかりは何を良しとするかだけど。
話がそれた。
まあそうやって他SNSに移行しようとどうしようと基本的に生成AIからの学習は逃れられないし、それはインターネットという情報社会の性質上仕方のないことだといえる。まあ仕方ないという理由で諦められないから絵師の一部はみんな怒ってるのかもしれないが。ただひとつ間違えないでほしいんだが、そもそも学習して誰しもクオリティの高い画像が出力出来るようになるのは悪いことじゃない。これは学習が法的権利として制限されていないからだとかそういう小難しい話をしたいのではなく、単純な社会全体としての話だ。
「”一部の人間しか出来なかったもの”が、簡単にちょっとの手間で”皆が出来るようになる”のはいいことだ」
レトルトや時短料理なんて最たるものだろう。ホテルのシェフが時間かけて、時には数日かけて作っていた料理が、かつて圧力鍋、今では自動調理鍋なんてもので似たようなクオリティが一瞬で誰でも出来る。材料入れてボタン押すだけ。シェフ監修がいわゆる偏向学習LoRAだとするなら、自動調理鍋や圧力鍋が生成AIに当たる部分だ。この例えに色々モノ申すところはあるだろうが、細かいところが問題なのではなく、論旨は「誰にでも出来るようになるのは社会にとって絶対的”正”だ」ということだ。
この視点において、この先も生成AIが大きく制限されることは恐らくない。だって社会にとって悪いことではないからだ。かつて裕福な家庭しか画家を雇い自画像を残せなかった時代が、技術の発展でカメラが生まれ、カメラも高価で専門職に頼む必要があったものが、インスタントカメラになって世間の多くに普及し、絵の具や鉛筆がなきゃ美術を成しえなかった人たちが、パソコンとペンタブという十万程度の投資で無料のYoutubeを見て誰もが絵を描ける環境を整えられるようになった。お金が無くても、技術が無くても、環境が無くても、苦労が無くても「出来る」ということは、社会にとってはその社会の技術が熟成した証拠でありその結実でもある。人間はそういう歴史を積み重ねて文化を発展させてきたのだ。そういう意味において、生成AIの在り方は正しいと言える。
ただし、ただしだ。
ただ、それでは絵師たちは自分たちの努力が無価値と感じ、自分たちの成果が使い潰されていると感じるだろう。仕事は取られ、搾取されるだけ搾取され捨てられてしまうんだ、と。もうここまでの文を読んで反AIの人間は多くが読むのをやめたと思うが続ける。本当にそうだろうか。本当に絵師たちはそんな無価値なものなのだろうか、と思う。
結論を言う。そんなことはない。
だってみんな圧力鍋で美味しいビーフストロガノフを作れるようになったらお店で出るビーフストロガノフは売れなくなるのか。みんな簡単に手軽にスマホで写真が撮れるようになったら、写真家の仕事は無くなるのか。無くならないだろう? 無くならないんです。写真という技術が生まれてなお、未だに筆を執ってキャンバスに写実風風景画を描き続けてる画家がいてその作品が売れているように、どれだけ高精度の生成AIによって高クオリティの絵が乱立しようと絵師と呼ばれる人たちの生み出すオリジナルイラストの価値が損なわれることはないんです。
ただ、弱肉強食とも言える淘汰は発生するだろう。「淘汰」とは即ち、プロとしてのクオリティレベルの向上を指す。単純に言えば、これまでのようにちょっと絵を描いてお小遣い稼ぎみたいのは出来なくなる。なぜならそのレベルなら生成AIでいくらでも個人が作成出来るようになるからだ。写真家が普通の風景写真を売ろうとしても売れないように、イラストもただ絵がちょっとうまいだけでは売れなくなる。プロに頼むからにはプロのクオリティを求められる。
ここまで読んで気付いた方もいるかもしれない、特に今プロとして第一線で働いているイラストレーターの方。
そうなのだ、プロであり技術があるほど、生成AIがあろうとこれまでと変わらないのだ。
生成AIは少し見れば分かる通り、とにかくコンセプトアートに弱い。「猫耳娘」とか「セーラー服の美少女」とか汎用的なお題ならいくらでも出力出来るが、「猫耳娘のイヤリングが彼女が猫の頃を彷彿とさせる飼い主の想い出の品がモチーフになってる」とか「セーラー服の美少女の足元には好きな人との思い出の公演が映っており、画面に添えられた花言葉はふたりのこれからの関係を暗示している」などといった、「一枚絵でドラマを読み解かせる」という構造がとにかく不得意だ。生成AIの構造と成り立ちを考えればそれは至極当然だ。AIにとってイラストはドット単位の色の集合体であり、そこに意味はない。そこに意味を感じるのは人間であり、読み取るのが観客であり、読み取りやすく指向的にドラマを仕込むのがイラストレーターと呼ばれる絵を描く人間の仕事だ。
だからこそむしろ、イラストレーターはより重宝され、求められることになる。人間はドラマやストーリーに魅力を感じる生き物だ。そういう意味で、どれだけクオリティが高かろうと、重要な場面でのイラストは現状絶対にAIに任せられない。色んなジャンルでよくある「周年絵」であれば、これまでのドラマや記念コンセプトをふんだんにあしらいたいだろう。こういうものこそイラストレーターに任せていくようになる。
もちろん、そういったコンセプトを生成AIが表現できないのは「現状」の話だ。時代は変わる。コンピューターの普及、スマートフォンの普及で情報社会レベルが格段に変わったように、やがて生成AIもコンセプトアートをきちんと表現していく時代も生まれるだろう。もう十年は先の話だろうが、ただ十年後はそうなるかもしれない。それにはもう少し時間が掛かる。それまでに絵師としてのポジションをどう確立させていくかは、今現在絵を描いている人間に求められている課題だ。そんな課題と向き合うことなくこれまで通りの世界でイラストを描き続けたいというのは、残念ながらただの停滞思考に過ぎない。時代は変わる。どう足掻いても。それに適応していかなければ廃れるだけだ。それに適応しなかったものから、絵を描いて仕事をする、というポジションから脱落することになってしまう。
ちなみにAI生成なんかじゃなくて絵を描く楽しみを知るべきだ! というのはお門違いである。
「自動調理鍋を使わずじっくり数時間かけて煮込んでこその料理だ!」「一瞬の風景を何時間も掛けて描くことに意味があり、写真なんて偽物だ!」「ピアノを習ったことないやつがデジタルで曲を作るな!」とは誰も言わないだろう。求めてるものがそもそも違うのだ。じっくり料理をすることに、じっくり観察して絵を描くことに、楽しみを見出す人がその手段を選べばいい。生成AIで絵を出力することが「絵を楽しんでいない」とイコールにはならない。もちろん主張したい気持ちも伝えたいことも一定の理解はある。だがこれを読む貴方だって「音楽とはホールの生演奏を聴いてこそすべてだ」と言われても困るだろう。そうじゃない、手軽なものはいくらだってあっていいのだ。そうやって多くの人間が手軽に楽しめるようになることが文化の発展であり、先人たちが作ってきた成果なのだ。
だから生成AIでイラストレーターの仕事が奪われるとか、そういうデマは少し落ち着いた方が良い。もしこれからも絵を描く仕事を続けていきたいなら、どうやって生成AIと共存していくか、それを考えてみてほしいと思うよ。学習を「無断学習」とか「窃盗」とかいうのも、考え直した方がいい。情報社会はデータの集積で成り立つ社会である以上、収集されるのは貴方たちのイラストに限らない。すべてだ。検索履歴・ワードすら貴方たちのデータはデータベースに集積されている。それが嫌なら電子世界から手を切れ。ネット回線を閉ざした山奥に籠れ。便利な通販があるのも、いつでも繋がれるSNSやアプリがあるのも、そういう情報解析の技術の末のもので、我々がいるのはそういう社会なんだよ。
とはいえ、生成AIによる成果物の取り扱いについては早く文化庁が結論を出してある程度法規制してほしいとも思うよ。悪用する人間はどんな技術に対してもどこにでもいるからね。あと、生成AIイラストと声優業界の生成AIボイスの問題は別物だと思ってるぞ。あれは声という一個人の尊厳の侵害に障る部分が多いからな。言った言わないは千年前から現在に至るまで人間の問題になる議論だから慎重に取り扱わなければいけないと思う。刑事犯罪立証に関わることもある部分だからね。ただ声帯を失くした人への補助AIとかはどんどん発展してほしいね。
・robots.txtなどでWebクローラーに避けてもらう
・パスワード付きページなので条件が揃わないと外部からアクセスできないようにする
・画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする
・画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)
・スクレイピング対象から避けやすくするため長辺を256px未満にする←New!
上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像を劣化させる方向にばかり頭を使っている印象。
仮にそれで機械学習の対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。
=====
そう言えば、コピープロテクトのせいで正規ユーザーが被害を被る、って話は昔からあったね。
CDのリッピングは容易で法的にもセーフだけど、そのせいでCCCDとかいう特級呪物が産まれたし。
ただ、正規ユーザーが被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン。
でも、無償公開分……収益は考慮しない趣味絵のようなものにまでウォーターマークを適用するのは (正規ユーザーも被害を受けるので) よろしくない。
逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像にウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。
たいていのお客さんは無料でfreeeを使うし、国税のサイトで簡単な申告ならただでできるんで株価は上がらないぞ
freeeが無料のお客さん限定で広告を出すなら話は別だが、タイミングと内容が難しいだろうなあ…
スクレイピングの待ち時間とか画面遷移待ちにユーザーがイライラしない広告を出すなら話は別だが、広告を出すために画面遷移を遅くしたとかやるとプロダクトの改悪と受け取られかねない
Railsを使ってるなら、テンプレートエンジンみたいなのがあるんで、広告のタグを埋め込むのはそう難しい話でもないんだが、UXデザインがマジで地獄
anond:20240904032316についてたブクマカの初めて買ったCDのリリース年を調べた。
for (let a of document.body.getElementsByClassName('entry-comment-text js-bookmark-comment')) console.log(a.textContent)
ってやってテキスト集める。
Microsoft Copilotに「以下の文章に出てくる、音楽CDのタイトルとリリース年を一覧で表にしてください。」って指示。
途中で切れたので分割する。 続き→ anond:20240905115337
自前でデータセットを作って販売したとして、学習されないよう保護されるのは
同じ絵をネットに発表していて、それがスクレイピングされて勝手にデータセットにされたとしたら、
もし、自分の絵を確実に保護したいなら、そのデータセットにしかその絵を含めず、かつ、クロールされたりしないようにパスワードなどで保護しないといけない。
もしネットなどで発表したら、勝手に学習されうるし、お前はそれに請求なんてできない。
つまりな、ネットに発表すれば全て学習されうるし、それをお前が止める手段は一切ないんだ。
言いたいことは分かる。
「じゃあ学習から保護するためにデータセット作れという文化庁の言ってることって、何の意味があるの?」
ない。何にもない。
あえて言えば、アホの目を逸らすため?
今後、法改正されない限り、学習を避ける方法はない。(LoRAのような集中学習を除く)
国は法改正するつもりがない。むしろ、どんどんAI利用を広げたがってる。
つまり、学習に関して、もう状況は詰んでるんだ。もう、この国では、全てのデータは生成AIの餌にしていいことになった。
ルールはもう変わった。もう一度それを変えようと努力するのも、変わったルールに適応するのも自由だが、
ただ感情的にゴネても、絶対勝ち目はなくなった。ルールが変わるってそういうことだ。
これから、どんどん、感情的に不満を言っている人たちの立場は悪くなる。
ルールが変わったからだ。しかも、新しいルールでのゲームに参加することを拒否しているから、
これから先、どんどん利用が広がっていくAIを拒否し続けるのはしんどい人生になるぞ。
というかそんなのは不可能になるので、倫理的に不正をしていると感じながら生きることになる。
早めに、意識を切り替えた方がいい。それか、法改正に向けてのみ動くかだ。
それ以外の抗議活動は、「ルールに反対しているうるさい奴ら」という属性をつけてしまうだけだ。
一つアドバイスだ。
さっさと、生成AIを使い倒せ。
どうせお前の絵が学習されたことによる効果なんて極小なんだ。そもそも学習されてない可能性すらある。
生成AIを使うことによる恩恵の方が、はるかにデカい。比較にもならない。
これまでのクリエイティブな経験と、生成AI技術を掛け合わせろ。
単に生成AIを使うだけの素人より、いいクリエイトが生まれる可能性が高い。チャンスがある。
これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。
フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプであるCommon Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である(例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる)。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。
データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック(16回の繰り返し)の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの(効果的な)計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ:ダリオ・アモデイ(Anthropic社CEO)は最近、ポッドキャストでこう語った:「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。
インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法(限られたデータからより多くのことを学べるようにするアルゴリズムの改良)を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい:
モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力(そして多くの失敗プロジェクト)が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。
さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ(例えば、難しい科学的問題に取り組む人々の推論チェーン)ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。
AlphaGo(囲碁で世界チャンピオンを破った最初のAIシステム)を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。
LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である(さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう)。
以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう)。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。
余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた)。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。)
続き I.GPT-4からAGIへ:OOMを数える(7) https://anond.hatelabo.jp/20240605210017