「クローラー」を含む日記 RSS

はてなキーワード: クローラーとは

2024-11-16

anond:20241116171005

タイッツーも外部のクローラーCloudflare対策してるらしいけど金払えばAPI使わせてもらえるしな

どこのSNSでも学習されるしXも自社以外から当然学習するだろうし

BlueskyはAIボットによるデータ収集許可している件

Blueskyにアップロードしたデータは、GoogleやOpenAIBaiduや様々な会社AI学習に利用されている可能性が高いよって話。

 

前提

検索エンジンAIクローラーボットによるデータ収集学習拒否する方法としてrobots.txtを使うのが一般的で、AI学習データ収集ロボットもそれに従っています

AI開発会社はそれぞれbot名前や、どのようにrobots.txtを設定したらデータ収集をしないかを公開しています

 

Blueskyのサーバーの設定(全部OK

User-Agent: *

Allow: /

https://bsky.app/robots.txt

https://bsky.social/robots.txt

 

全部、許可しますよ。お好きにどうぞって設定になってます

実際にはサーバー負荷対策のため、ある程度の速度制限がありますコンテンツの取得に制限はありません。

 

Xの設定(他社ボットによるデータ取集拒否

# Every bot that might possibly read and respect this file

# ========================================================

User-agent: *

Disallow: /

https://x.com/robots.txt

 

基本的な設定は全てのボットデータ収集拒否となっています

一部の検索エンジンには限定してデータ収集許可をしています。(詳細は長いので省略。自分確認してください)

 

Xは自社AIのみに利用される、Blueskyは他社AIに利用される。

Xは自社のAI学習には使われます

Xは他社のAI学習拒否しています

 

Blueskyは自社ではAI学習はしないと明言しています

Blueskyは他社AIボットによるデータ収集許可しています

BlueskyにアップロードしたデータはOpenAIGoogleBaiduなど様々な会社AIロボットデータ収集され、AI学習開発に利用される可能性が高いです。

 

Blueskyに画像をアップすると、様々なAI学習に使われそうです。

もしも自分AI学習に反対の立場なら、どのAIに使われるか不明なBlueskyの方が不安だと思うんだけど。

世の中はそうなってなさそうで不思議

 

1か月くらい前からXでこの事を指摘している方はいらっしゃいましたが、まだあまり広まっていません。

Blueskyに移住した反AIの方々がこれを理解したらどのような行動に出るのでしょう。

生成AIに正しく対応する反AI絵師の動きとは

AI使ってますか?Xで翻訳ボタン押すと海外ポストでも日本語で読めるの便利ですよね。

機械学習から連綿と続いた先にある生成AIの隆盛、大変エモいものがあります

自分はまだニューラルネットワークと呼ばれていたこからこの分野で細々と研究をしており、趣味は主に写真です。絵はたしなむ程度。

今の反AI運動は、誰に対して何を反対しているのか良くわからなくなってしまっているので、正しく反対するのが良いと思っています

結論から、なぜそうなるのか、どうしたら良いのかと整理しておきます

ウォーターマークサイン意味があるのか?

つの意味では意味があり、2つの意味では意味がありません。

(Xの利用規約がいつ変更され、どのように利用されるかについては、他の方の記事に詳しいため略します)

なぜ学習を防げないのに、意味があるのか

自分画像であるという主張を残せるからです。

先行例としてストックフォト(写真の利用販売)があります

たいていの場合人間が利用可否を判断できる程度には高解像度写真と、ストックフォト社のロゴ撮影者の名前管理IDが入っています

もちろん商業印刷に使える高解像度は購入後にしか手にすることはできません。ただサンプル画像ですが、機械学習用途では十分です。

ロゴなどを取り除くのは難しくありませんし、学習用途では十分なイメージサイズがあり、機械学習に十分使えます

しかし、実際にはそういった事例は見聞きしません。(個人学習されている方もほぼいないでしょう)

なぜならば、もしも利用が発覚した場合使用料請求されるからです。

同様に、無償用途であっても、例えば軍用機戦車など、IDサイン写真に入れる方は少なくありません。

これは、端的にはパクられた時に自分写真だと主張する為です。

学習されたくないという目的を達成するには

現行法下では、いわゆる"無断学習"を止めることはできません。

必要なのは法改正もしくは法解釈変更のためのロビー活動です。

機械的に大量の学習が行われるのが問題であるという論建ても見聞きしますが、あまり良い筋論とは思えません。

なぜならば、少ない学習量で良い結果を出すというのは、機械学習的にはかなり昔から熱心に研究されているテーマからです。

(例えばコンピュータ将棋新風を吹き込んだBonanzaは、たった6万局の棋譜学習させることで評価関数作成しています

実用的にも、事前に学習させたモデルを準備しておき、少ないサンプル画像(数枚~数百枚)で、不良品検査に使えるモデル作成する、などは熱心に行われています

現状でも、対象となる絵を人間が模写して、模写側を学習させるだけで、十分に元画像に近似した画像を出力できます

人間が目で見て判別できる程度のノイズウォーターマークは、前述の通り除去にさほど手間はかかりません。

無断利用されたくないという目的を達成するには

方法論としては3つあります

  1. Xへの画像ポストを止め、学習しないと明言しクローラー拒否しているサイトを利用する。
  2. 個人利用以外には、対価を取る旨を明記する。
  3. 嫌がらせに対しては、都度対応する。

Xを利用する以上、利用規約同意しなければ使えないので、これについて学習を防ぐことはできません。(非公開ポストについては学習されませんが、これもXの利用規約変更が無いことが前提です)

例えばpixiv機械的画像収集ガイドライン禁止されています。また、画風を模倣した作品投稿についても一定制限のもとで禁止されています

対価を取る旨の明記とは、例えばpixivFANBOXのメンバー限定コンテンツを、無断で転載されてしまった場合、損害を負ったと外部に対して明確に説明が出来ます

これらを行ったうえで、故意学習され、似た作風の生成AI画像を公開されるという嫌がらせを受けた場合は、上記の旨を前提として、嫌がらせであると都度対応する必要があります

これは知らなかった、うっかりしていたでは起こりえない状態にしたうえで、きちんと嫌がらせに向き合うということです。

上記では防げない部分の補足

生成AI画像そもそも見たくない、というものは、現行では防ぎようが無く、どちらかというとロビー活動に近いものになります

こいつは画像生成AIで絵を出力している!というのは、指摘として正しいか否かは別として、あまり意味をなしません。

ただ、自分趣味である写真でも、いわゆる加工をどこまで許容するかは人やコンテストによって異なる為、そういった住み分けの話になってくると思っています

例えば、ある画家自分の画風を学習させた生成AI画像を出力して販売したとしても、それを咎め理由は思い当たりません。

現状でもまだ過渡期であり、人間の目で判別不能画像を出力するようになるのは、時間問題です。(既に人間が書いた絵であっても生成AI絵だと誤認される事例は数多くあり、指摘できる人間の数は減っていきます

どちらかと言えば、作画過程タイムラプス動画価値を見出すような、違った付加価値の話になってくると思います

最後

生成AI画像技術禁止する、学習禁止するなどは、現行法下ではできません。

法改正もしくは法解釈の変更が必要なためロビー活動を行うしかありません。

しかし、自分の絵を商用利用を禁止し、それを許容するプラットフォームで発表することはできます

Xでは非公開ポストにしない限り、機械学習に利用されることを防ぐことはできません。利用規約で既に利用が可能になっているからです。

露悪的に言えば、Xを利用するのに学習されたくないのは虫が良い、と言えます。ただし、Xに対して一定金額を払うことで対象から除外してもらうように働きかけることはできるかもしれません。

ウォーターマークサインノイズ機械学習を防ぐ目的に使う効果はとても薄いです。ロゴウォーターマークの除去もテーマとしては昔からあるものであり、難易度はそれほど難しくありません。

ただし、意図して除去していることは明確になるので(Xには規約学習されてしまうが)X以外の例えば悪意ある第三者学習された場合に、悪意ある行動だ、と指摘することが出来ます

この場合、対価を取って公開している場合、損害が明確になるので、アクションを取りやすくなります

簡単にまとめると

X社に学習されるのは諦めて、小さくても良いのでトリミングで取り除かれない位置サインを入れてポストするのが最もベターです。ウォーターマークである必要はありません。

(取り除かれて転載された場合タイムスタンプを基に悪意ある転載だと指摘できるため。逆に言えば別に大きくいれてもさして違いは無いので自分の好みで入れれば良い)

また、自分の画風のAIモデルを開発中である、これの対価はAI陣営には買えないくらいとても高い、とプロフィールに書くだけでも十分抑止になります

生成AIに反対する為に、自分AIモデルを作り高額で販売するつもりである、と表明すれば良いからです。

嫌がらせ自分の画風を真似たモデルが作られて販売もしくはそれを使った出力画像が出た際に、自分は損害を負ったと主張できます

また、第三者ゲームスクリーンショット勝手に透かしやサインを入れるのは止めましょう。適切なガイドラインのもとで適切に利用するのが最も大切です。

既に法律でも、利用規約でも、生成AI機械学習側がリードしている状態です。

Xが学習するというのを妨げるのは、プラットフォームを利用する側としてはどちらかと言えば非難される側になってしまます。(規約にあり、利用しており、それでいて相手妨害する為)

Xにポストする絵には必ずどこかにサインを入れて自分のものだとわかるようにしてください。それが今できる最善の対応です。

絵師(笑)はなぜ反AIに走ってしまうのか

イラスト界隈で活動して6年目になる俺が、反AIがここまで隆盛した理由自分なりに整理してみた。

愚痴も含んでるから、語気がちょっと強くなってたらゴメン。



1.特権意識がある

これは生成AIが出る前から思っていたことだが、とにかく特権意識が強い。

主にフォロワーいいね数を基準として、人気がある方が偉いという価値観の下で生きているから、

人気のある絵師がそうでない絵師キャラクターや構図をパクるのはお咎めなしだが、

逆をやると即学級会からの良くて追放、悪くて活動停止まで追い込まれてた。

俺は面倒に巻き込まれたくなくてそれとなくフォロワーが多い方に追従してたけど、

今考えると完全に宗教カーストなんだよな……。

イラストを描ける自分は偉い・優れている」と思ってないとこんな傲慢な振る舞いはできないと思うんだけど、

今回の騒動はそれを露わにしただけなんだと思う。元々、絵師以外はバカにして当然みたいな空気もあったし。



2.村文化が強い

今、無断学習が「因習」って呼ばれてるのはかなり正確な表現で、

実際に絵師界隈は村文化というか、悪い田舎性質を凝縮したようになっている。

他人の一挙手一投足に注目して、村の掟に従わない人間がいたらすぐに吊るす。

村の外のルールなんてもの関係なくて、自分たちの決めたルール絶対

こんなんだから外部の人間理解されるわけはないし、なんなら界隈内の一部の人から忌避されていた。

から見たらおかしいのは一目瞭然だが、どうも絵師様は違うらしい。



3.自分で考えない

正直、これが一番問題だと思う。これがなければ前の二つは成立しないか、してもすぐ瓦解するんじゃないかな。

とにかく他人意見鵜呑みにするからバカみたいなカースト制度にも従うし、

村だけで通じる因習絶対正義として持ち上げてしまう。

これがおかしいと気づける人間は界隈からいなくなるから自然と「そういう」人間けが残る。

結果、生まれたのが反AI集団パニックだ。

誰かが「AIは悪だ!」と叫んだのに追従して"無断学習"などという存在しない概念を生み出し、

自分の絵が学習されたら死んでしまうくらいの勢いでAI弾圧している。

現状の生成AIに全く問題がないなんてことはないが、奴らは具体的な問題点を論じるわけでもなく、

ただ判を押したように「AIは悪だ!AI規制しろ!」としか言わない。

流行っているウォーターマークとかglazeとかも、見てる側からしたらただのノイズしかいから消してほしい。

村の教えではAIを滅することができることになっているかもしれないが、実際はそんなことないんだ。ただ絵をぐちゃぐちゃにしているだけなんだ。

SNSを移動したら学習されないなんてことはないんだ。どこに行ってもクローラーがいるし、何なら外部のクローラーを弾いてるXは親切なくらいだ。

陰謀論新興宗教と何が違うのだろうか。

思考放棄して被害妄想に憑りつかれるままに大暴れするさまは、滑稽を通り越して憐れでさえある。



結びに

結局のところ、反AIをやっているのは絵師(笑)しかおらず、

そうでない人は生成AIを快く思っていなくても妥当な落としどころを探るための建設的な議論を進めようとしているだろう。

実際、俺の周囲にも何人かそういうスタンスの人はいる。そういう人は(少なくとも俺の周囲は)自分で調べて自分で考えることができている。

絵師(笑)脳死で叫んでいる限り味方が増えることはないということにいつ気が付くのだろうか。

俺が好きだった絵描きが反AIに堕ちていくのを見るのが辛い。

2024-11-15

ChatGPTに画像の無断学習対応策を聞いてみた

AIAIへの対抗策を聞くってSFっぽくて楽しい

ChatGPTは嘘もつくので、あくまで参考程度に。

 

画像を生成するAIに対する対抗手段を教えてください。

画像を生成するAIによる無断学習や利用を防ぐために、以下のような対抗手段を講じることが可能です。

 

1.透かし(ウォーターマーク)の埋め込み:

画像に目に見えるまたは見えない透かしを入れることで、無断利用や生成AI学習に対して抑止効果を期待できます特に、目に見えない形で画像データ暗号的な透かしを埋め込む「デジタル透かし」技術有効です。

 

2.メタデータの埋め込みとロボット排除設定:

画像データ著作権情報や「AIによる無断学習禁止する」といったメタデータを埋め込み、ウェブサイトには robots.txt ファイル画像クローラーアクセスブロックする設定を追加します。これにより、クローリング収集抑制が期待できます

 

3.ステガノグラフィ技術の利用:

ステガノグラフィを用いて、画像に気づかれにくい形で識別情報を隠すこともできます。これにより、画像流出経路や利用先を追跡でき、無断利用の発見に役立てることができます

 

4.法的な警告表示や利用ポリシーの明示:

ウェブサイト画像の配布先に、AIによる無断利用や学習禁止する旨の法的警告や利用ポリシーを明示することも有効です。利用条件をはっきりと示すことで、AI企業研究者が慎重になる可能性が高まります

 

5.画像認証技術の導入:

AIが利用しにくいように、画像人間には気づきにくいパターンノイズを挿入する技術もあります。たとえば、AIにはノイズとして認識されるが、人間には問題なく見える小さな変形やカラーパターンを追加することで、AIによるデータ学習が困難になる場合があります

 

これらの対策は、画像生成AIに対する防御としては有効ですが、100%無断利用を防げるわけではありません

 

・生成AI学習を混乱させる手段はありませんか?

生成AI学習を混乱させるための手段には、以下のような方法が考えられます

 

1.ノイズや歪みの追加:

画像に目立たない程度のノイズや歪みを加えることで、アノテーションモデル境界や特徴を正確に認識しにくくする手法です。たとえば、ピクセルレベルランダムノイズを追加する、わずかに画像をぼかす、あるいは境界付近に小さな変化を加えるといった手法有効です。

 

2.不規則輪郭の挿入:

アノテーション処理は、対象物輪郭や特徴を正確に捉えることが重要です。そのため、背景や対象物輪郭わずかな不規則性を加えることで、アノテーションツール対象物境界を正確に判断しにくくすることができます。たとえば、背景に模様や偽の輪郭を挿入する方法です。

 

3.テキストやラベルを埋め込む:

画像人間には視認しづらい形でテキストやラベルを埋め込むと、AIアノテーションプロセスが混乱する場合があります。これにより、AI意図しない領域注視することがあり、誤認識を誘発します。

 

4.色や明るさのランダム変化:

画像の色や明るさを部分的に変化させ、一定パターンを持たないようにすることもアノテーション処理の混乱を招く一手です。これは、オブジェクトの検出や認識が色や明暗差異依存している場合有効です。

 

5.擬似的なオブジェクトの追加:

画像内に小さな擬似的なオブジェクトや模様を追加することで、AIがそれらを誤って主要なオブジェクト認識し、アノテーション精度が低下する可能性があります特に、背景に似たオブジェクトを散りばめることで、AIはどの部分が対象なのか判断しにくくなります

 

6.アドバーリアル技術活用:

AI認識を誤らせるために用いられる「アドバーリアル敵対的)な例」を使う方法もあります特定ピクセルパターンや色の配列を配置することで、AIアノテーション意図的に誤作動するよう誘導できます。この技術深層学習モデルに対して特に効果があります

 

7.カモフラージュテクニック:

画像全体にわずかなカモフラージュパターンを重ねることで、AI認識を混乱させる方法です。この手法では、人間が見た場合には問題なく認識できるものの、AI対象を捉える際に誤って検出するようなパターン画像に追加します。


思考実験として、danbooruなどアノテーションの元データとして使われているサイトタグが荒られたら画像生成AIモデル作成ダメージはありますか?

思考実験として、Danbooruといったアノテーションデータタグが荒らされた場合画像生成AIモデル作成に与える影響は以下の通りです。

 

1. データ品質が低下する

Danbooruは、イラスト画像に対して詳細なタグ付与されており、これらのタグ情報画像生成AI学習にとって非常に重要です。タグが荒らされることで、画像タグ対応関係が崩れ、モデルが正確な特徴を捉えにくくなるため、生成精度が低下します。

例えば、特定キャラクターテーマに関連するタグが荒らされ、誤った内容のタグ付与されると、モデルはその誤った情報学習し、キャラクターの特徴や設定が再現されにくくなる可能性があります

 

2. ノイズデータの影響

タグが荒らされると、モデルの訓練にノイズデータが増えるため、学習効率悪化します。たとえば、「黒髪」のタグが誤って「金髪」などに変更された場合モデルは同じ画像に対して異なる特徴を学習することになり、結果として生成画像一貫性が失われることが考えられます

また、同じ画像に異なるタグ付与されることで、モデル過学習や誤学習引き起こし、生成された画像本来意図からかけ離れたものになる可能性もあります

 

3. キャラクタースタイル再現性が低下する

Danbooruでは、特定キャラクターアートスタイル識別するタグが多く存在します。これらが荒らされると、特定キャラクタースタイルデータが混乱し、モデルが正確にキャラクターの特徴を把握できなくなるため、ユーザーが期待する生成結果が得られにくくなります

例えば、あるキャラクタータグが「髪型」「服装」「色彩」などで荒らされると、そのキャラクター再現曖昧になり、モデルが正しいビジュアルを生成できなくなることがあります

 

4. タグ信頼性低下によるモデル不安定

タグが荒らされると、データセット全体の信頼性が低下します。信頼性の低いデータをもとに学習したモデルは、特定の条件で異常な出力を生成することが多くなり、モデル全体の品質が低下します。これは、生成AI学習中に「どの情報を信頼すべきか」を判断できなくなるため、生成結果が不安定になったり、多様性が失われたりすることが考えられます

 

5. 検索フィルタリング精度の低下

AIモデルを利用するユーザーは、タグを通じて希望する画像を生成したり、条件に合った画像を探します。タグが荒らされると、AIモデル検索フィルタリング機能の精度も低下し、生成プロンプトが期待通りに機能しなくなる可能性があります。たとえば、「風景タグが荒らされ、異なるジャンル画像が混入するようになると、風景画像を生成したいユーザー要求が満たされにくくなります

 

結論

Danbooruなどのタグが大規模に荒らされた場合、生成AIモデルの精度低下や一貫性の欠如が発生しやすくなり、特にキャラクター特定スタイル依存する画像生成モデルに大きなダメージを与える可能性が高いです。


すでに学習済みのモデルを使って汚染されたデータクレンジングや異常値検出を行うなど対策される可能性がありますが、それらを阻害する手段はありますか?

無断での学習妨害し、学習コストを増加させるために、上記方法を阻害する手法には以下のようなアイデアがあります。これらの手法は、意図的にデータセットの品質一貫性を崩すことで、学習モデルの精度を低下させ、データクレンジングや異常値検出のプロセスを複雑化することが目的です。

 

1. 偽タグノイズタグを大量に追加する

意図的に誤ったタグ無関係タグ画像データ付与し、データセットの信頼性を低下させます。これにより、転移学習やラベルノイズ検出が困難になり、正確な特徴量を学習するコストが増加します。

例えば、キャラクター画像に全く無関係タグ(「動物」や「風景」など)を追加することで、モデルがどのタグが信頼できるか判別しにくくなり、誤ったラベルノイズとして学習されるリスクが増えます

 

2. 特徴量をぼかす/微妙な変更を加える

特徴量ベースクレンジング類似分析に影響を与えるため、画像の特徴がわずかに異なるように加工を施します。具体的には、色調を微妙に変える、ランダムピクセル位置ノイズを追加する、または特定の部位を意図的にぼかすことで、モデル抽出する特徴量の安定性を低下させます

この方法により、同じキャラクタースタイルであっても類似分析が困難になり、正確なクレンジングが行いにくくなるため、データ処理のコストが増加します。

 

3. アノマリーに近いデータ意図的に増やす

特徴が異なるバリエーションや擬似的な異常データを大量に追加することで、異常検出アルゴリズム信頼性を下げます。たとえば、キャラクターデザインや背景を少しずつ変えた画像意図的に作成することで、異常値検出が頻繁に誤検出されるようにします。

こうしたデータが混在することで、オートエンコーダーアンサンブルモデルを使った異常検出が混乱し、正確な異常サンプルの抽出が困難になります

 

4. 高頻度で微小なラベル変更を行う

学習済みモデル転移学習やラベルノイズ検出を阻害するために、同じ画像に対してラベルを定期的に変える手法です。微小な変更を行うことで、モデルは正しいラベル安定的学習することが難しくなり、モデル信頼性が低下します。

例えば、ラベル黒髪」を「暗めの髪」や「濃い色の髪」などに頻繁に切り替えることで、学習に不確実性を持ち込むことが可能です。

 

5. 意図的に類似画像多重登録する

データセット内で非常に類似した画像複数の異なるタグ登録することで、モデル学習を混乱させます特定キャラクター画像を少しずつ変化させて複数タグを付けると、モデルは「どのタグがどの特徴に対応しているのか」を判別しにくくなり、データセットのクレンジングが複雑化します。

特にタグ一貫性が失われるため、類似分析アンサンブルモデルによる異常検出の効果を低下させることが期待できます

 

6. アドバーリアルノイズ付与

AIモデル認識を混乱させるように、アドバーリアルノイズ敵対的な例)を追加します。人間にはほとんど気づかれないレベルノイズ画像に追加し、モデル特定の特徴を正確に認識できないようにすることができます

このノイズにより、モデルの特徴量ベース学習が混乱し、意図した通りに学習できないため、クレンジングの精度も低下し、データ処理の手間が増加します。

 

7. 乱数ベースの偽ラベル生成

特定ルールではなくランダムタグをつけたり、特定カテゴリ間でランダムにラベルを入れ替える方法です。これにより、ラベル画像の関連性が薄れ、アノテーション一貫性が失われます。この乱数による偽ラベル付与は、ラベルノイズ検出やアノマリー検出において、真のラベルを見極めるコストを大幅に増加させます

 

まとめ

これらの手法は、AI学習クレンジング意図的に妨害し、無断学習にかかるコストを増加させるために有効です。特に、「微小な変更」や「アドバーリアルノイズ付与」といった手法は、見た目の品質に影響を与えずにモデルノイズを持ち込むため、非常に効果的です。

anond:20241115000009

移住先のブルースカイAI学習に対して何の対策もしてないか第三者悪用され放題のノーガード状態なのに対して

TwitterはGrokにAI学習使用されなくなるよう設定できるし、API有料でスクレイピングクローラーもばっちり対策してるからむしAI学習に対してはどこのSNSよりも強固に守られてるんだよね

まさにワクチンよりもノーマスクを選ぶ陰謀論者と同じことしてるんだよこの馬鹿どもは

2024-11-14

なんでもかんでもhello worldと表示させるプログラムで入門させようとするのやめろ

こっちはウェブアプリクローラー等)をどうすれば自鯖以外で常時稼働させられるか知りたいのに、hello worldと表示できました、じゃその方法で一度実行したら継続して稼働するのか分からないじゃん。

google app engineやxserverでのjavaの実行の記事が軒並みそういう内容だから途方に暮れてる

2024-11-13

[] クローラ開発

構造情報の変化の監視について

robots.txtの遵守について

速度/接続制限マルチスレッディングについて

訪問済みURLのKVSについて

法的要件確認について

UAIPのローテーションについて

その他

追加的なヒント

2024-11-12

機械学習されないための加工」は画像価値を減らすものばかり問題

robots.txtなどでWebクローラーに避けてもらう

パスワード付きページなので条件が揃わないと外部からアクセスできないようにする

画像の中にサインを入れておいて機械学習側の誤爆を狙う

画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする

画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)

スクレイピング対象から避けやすくするため長辺を256px未満にする←New!

上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像劣化させる方向にばかり頭を使っている印象。

仮にそれで機械学習対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。

=====

2024/11/13追記

そう言えば、コピープロテクトのせいで正規ユーザー被害を被る、って話は昔からあったね。

CDリッピングは容易で法的にもセーフだけど、そのせいでCCCDかいう特級呪物が産まれたし。

ただ、正規ユーザー被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン

でも、無償公開分……収益考慮しない趣味絵のようなものにまでウォーターマーク適用するのは (正規ユーザー被害を受けるので) よろしくない。

逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像ウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。

2024-07-24

anond:20240723225623

いないと思う

定期的にタブ開きまくったままにしたい増田が出てくるけど動機わからん

片っ端からメモアプリに突っ込めない理由はなんだろ・・・

 

メモアプリになんのやついちいち書くの面倒だったら

Notion Webclipper(AI要約もできる)とか Raindrop.ion とか使うか、

自前でクローラー作ったらええと違うか?

2024-06-27

AI最近ヤバいエコチェン備忘録

AIが無学(高卒オタクマン)な上に人の忠告を聞かないせいで、実在しない問題、恐怖を内輪で膨らませてた例が最近無茶苦茶多いので備忘録的にリスト

 

「生成画像1枚にスマホ充電522回分の電力がかかる」と論文誤読

 実際は、1000枚に522回分(1枚には0.522回分)と書いてあったのを、英語も読めないのに機械翻訳AI…😂)で無理矢理引用して誤読

 そもそもスマホ電池容量は約20Whほど。522回分では10kWhになる。電気代で言えば卸値でも100円はする。1枚にそんなにかかっていたら商売が成り立たないとも気づかない頭の悪さ(一部は「だからこそ誰かが金を出してる陰謀なんだ」とか訳のわからないことまで言い出す始末)。

 英語力、計算力、金銭感覚のなさ、そして無意識AI翻訳を頼るという馬鹿馬鹿を重ねる失態。

 

OpenAICTOが言った「some creative jobs(いくつかのクリエイティブ業)は最初から要らなかった」を「すべてのクリエイターは要らない」と誤訳捏造

 普通英語力があれば解るが、名詞複数形にsomeがつく場合とそうでない場合では大分訳し方が違う。

 「もともとクリエイティブと呼べないほどの仕事もあった」という程度の言葉を「すべてのクリエイターに対する挑戦」のようにねじ曲げ拡散するのは政治的な行いなのか、単なる狂気なのか。

 

「copainter対策」でイラストに猫の写真を入れだす←NEW!

 そもそも学習対策」は無作為クローラー対策のためにネットにアップする画像に施すものであり、copainterなどの自分で下絵をアップロードするi2iサービスには何の効果もない(というより、もはや何を狙っているのかも不明)のに(詳細は→ https://anond.hatelabo.jp/20240626081537)、イラストに猫の画像を埋め込んで「上手く生成できない画像はこうだ」とか、現在進行形で盛り上がってる。

 あいつらの脳内ではこの自分勝手な被害妄想?(というより、ry)で意味不明発狂を起こしていることすら「AIのせいでクリエイターが先の見えない対策に追われている」と変換されているのがなお凄い。

 その「対策」に何の先も見えないのは、AIが凄いからじゃなくて、お前らが自分で何をやっているのかが解ってないからだw

 AIを怖がるにしても、せめて最低限の仕組みぐらいは理解してから、仕組み的にありえることを怖がれw

 

 この調子だと、これからもこいつらは加速度的に暴走を続けていくと思われるので、記録する場を設けておく。

2024-06-11

anond:20240611151801

別にいいけどそもそもクローラーとかそんな大した仕事ではないし

普通は一から作るというのは大規模なサービスを一から書き直すような時に使うわけよ

クローラースクリプトとか一からかくに決まってるじゃん?

いちいちスクラッチとかフルスクラッチかいう話ではないんだよね

人月?って話で

anond:20240611150902

横だけどまず「フルスクラッチ」ってのが怪しいのと

クローラースクリプトとかエンジニア的に誰でもできることであって

駆け出しの仕事じゃん

スクリプトの時点でスクラッチもクソもないじゃんっていう

スクリプトを一から作るならそりゃそうだろうけど

anond:20240611140449

いやフレームワークも使わないで素のPythonファイルサーバーファイルをあげるクローラーマイクロサービスって言う人君しかいないよ

真昼間に書いてんのも君だし

アメリカから

anond:20240611132306

じゃあPythonクローラー書いてるってコト?

どのサービスがなんのフレームワークでやってんの?

anond:20240611123149

またフワッフワだなあ

なんのアルゴリズム

あとOOPを誰でもできるみたいに言ってるけどできてないんだよ

クローラースクリプト書いてるようなやつは100%できてない

まあスクリプトだろうがなんだろうがまず動かすのが第一歩でそこで9割脱落するけどな

anond:20240611121902

まあクローラーデータ取ってきてまとめてる感じ?

素人では出来ないけど使う方の仕事だし確かにアルゴリズムとかデータストラクチャとかOOPとかはいらなそうな感じだね

まず動かすのが素人には出来ないからね

2024-06-09

SearchConsole で自動生成されたようなクエリパラメーター付きのURLが大量にリストにある

有効なページはそこまで多くないのに、それらのせいでページ数が数万とかになってる

もちろん robots.txt や noindex や canonical はついてるからインデックスはされてないんだけど、SearchConsoleの管理画面に一覧に URL として並んでる

こういうのがあるから有効なページがクロールされるのが遅かったりするのかと思う

実際のページが 500 でも数万件あるとみなされてればクローラーは数万件を処理するわけだし

インデックス登録されないとサイト検索が使えず不便

2024-03-06

AI絵師たちってさ

なんでインターネットに絵なんか上げちゃったの?

前々からインターネットにモノ上げたら勝手収集されて学習データにされるのは分かりきってたじゃん。

Pixivに上げたら勝手Googleクローラー収集されて検索エンジンに載ってたじゃん。こういうのがAI学習に使われることくらい皆分かってたでしょ。

画像生成AIだって2010年代からずっと話があったんだから、本当に学習データにされたくなかったらその時に辞めることだってできたよね?

それを「いいね」が貰えるという承認欲求で見ないふりをしてきたからでは?

2024-03-02

絵師さんは何もおかしなことを言っていない

もう分断を煽るのはやめませんか

現在混乱を招いている要因は、おそらく以下の二つ

   

1. 著作権法第 30 条の 4 ただし書き解釈

2. それぞれがAIを異なる意味で使っている 

 

 

著作権法第30条 4 ただし書きの解釈

AI利用に向けて改正されたとされる著作権法30条の4は AIならなんでも許されるというわけではない。以下のように条件がついている。

  

著作物は,次に掲げる場合その他の当該著作物表現された思想又は感情を自ら享受し又は他人享受させることを目的としない場合には,その必要と認められる限度において,いずれの方法によるかを問わず,利用することができる。ただし,当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者利益を不当に害することとなる場合は,この限りでない。

 

 

この辺りの解釈について紛糾している様子。

同30条の 4 は平成30年当時、事業者研究者によるAI利用を想定していた。現在では一般市民AIが広く普及し状況が変わってきたこから、同条の適応範囲について再整理を図るという趣旨で公開されたのがAI著作権に関する考え方について(素案)」

そして素案に対するパブリックコメント募集した、というのが現在の流れ。

 

 

  

それぞれがAIを異なる意味で使っている

 

 

 

それぞれは別におかしなことは言っていないと思う

 

 

反反AIネット上にある全ての絵をクロールしているんだよ!お前の絵だけ除けるか!」

 

たぶん、CLIPのこと。テキスト画像翻訳を行う。犬の画像を見て「犬」識別することができる。

ネット上のあらゆる画像テキスト学習することで作られた。OpenAIによって公開。画像生成だけではなくいろんなところに使われている。

  

  

  

PixivAI学習禁止です」

たぶん、画像生成器(拡散モデル)のこと。

画像生成AIテキストエンコーダ(CLIP)と画像生成器の組み合わせでできている。stable diffusion等は拡散モデルを使っている。

   

拡散モデルこんなかんじ

1. イラストを用意する

2. イラストノイズを振って汚す

3. 汚れたイラストから元のイラストを予想させる

 

学習を繰り返しノイズを増やしていくと最後ただのノイズから画像を出力する 連想ゲーム絵師誕生する。連想ゲーム絵師連想しかできないので自分が描いたものが何かわからない。犬を描いてといっても車を描いてくる。なので CLIPが誘導したりダメ出ししたりする。

 

拡散モデル学習に使われるイラスト

どこかのイラストサイトデータベースを使っているはず。「著作権的に安全な〜」みたいな触れ込みのやつはどこかのデータベースを購入して使っているんだと思う。

Pixivの主張は別におかしくない。このあたりはAI著作権に関する考え方について(素案)p7」(エ)において解説されている。"robot.txt"への記述によりAI学習を行うクローラーアクセス制限しているにも関わらず、勝手学習に使うことは「データベース著作物潜在的販路を阻害する行為」として著作権違反になる(Pixivが将来的に本当に販売するかどうかは置いておく)

 

 

絵師AI学習禁止です」 

追加学習(LoRA)のこと。

既存モデル数枚のイラストを追加学習させることで絵柄を模倣ファインチューニング)する。

特定絵師さんのイラスト勝手に使う者がいるようでトラブルになっている。

 

絵柄に著作権はないのでは?

絵柄に著作権はない。学習の際に行われる複製が著作権侵害にあたるかどうかが争点になっている。

 

著作権法30条の4 より

  

この辺りは「AI著作権に関する考え方について(素案)」及びパブコメの返答に現状の解釈が示されているので興味のある方はどうぞ。

(p6. 特定クリエイター著作物のみを用いてファインチューニングを行う場合〜を参照)

※ここははっきりとは断定していないので自分で読んだ方が良いと思う。

  

(私の読解:)

程度問題ぽい。よくある画風なら問題にならないけれどはっきりと特定絵師さんとわかる感じだとダメそうですね

(私の読解終わり)

絵師さんのプロフィールを叩いている人は意味わからん

別にプロフィールなんて「トイレから出たら手を洗ってください」でも「フォローする際には五体投地してください」でも好きに書いてよいだろう。

それが法律に記されているかどうかは関係ない。ただのお願いだ。

AI学習禁止」と書くなと騒いでいる人は何を考えているのかよくわからん

  

AI著作権に関する考え方について(素案)」にも再三出てくるがAI学習技術的に回避することは禁止していない。30条の4は権利制限であって、イラスト差し出せという強制ではない。

分断煽りうんざり

パブリックコメント

 

見ればわかります個人よりも一般企業による意見が多く、返答とあわせてとても読み応えのあるものです。

このファイルを読んで個人の頭の悪そうな意見だけ抜粋してくるのは非常に違和感があります

 

技術創作への興味を失い、ただ相手サイドの頭の悪そうなやつをみつけて叩く人たちとは距離を置きたいところです。

2024-02-23

分散SNS懸念

消せない

分散SNSに搭載されている削除ボタン基本的には「自分のいるサーバーからは消せるけど、他のサーバーにはあくまでもお願いしかできない」仕様なので繋がっているサーバー管理者や設定次第では永遠に消したい投稿が残り続ける。

ネットってそんなもんじゃん、分散型そんなにダメなの?

第三者が悪意のあるなしに関わらず無断で個人情報拡散した場合や、自分が間違えて個人情報投稿してしまった時など、比較簡単情報海外サーバーにも渡ってしま日本国内法律では対応しきれなくなる。

大抵の場合は消してもらえるとは思うが、最悪の場合日本国内サーバーからは消せても外国サーバーには残っており、その国には関連法がないため法に訴えて消してもらうこともできず、日本国内から簡単に閲覧が可能...という状況も想定される。

長々と語っているが、要はサーバー管理者は悪意がなくても犯罪に加担してしま可能性があるということと、情報へのアクセスのしやすさが違う。

また、誹謗中傷デマ無断転載なども勿論同上。

既に誹謗中傷界隈(?)の人間が「言論の自由だ!Xアカウントが凍結された!検閲だ!」と分散SNSに移動してるのをちょくちょく見るのが不穏。

収益性

基本的サーバー運営にはお金がいるのでサーバー管理者マネタイズに追われるが、Xは広告のみでもあの有様だし、現に資金繰りがうまくいかず閉鎖したサーバーも見てきたし、そのうち(サーバー関係なく、モラルのない人が)金儲けにと違法薬物の広告などを出し始めるのも想像に難くない。

法律を逆手に取った攻撃

ご存知の通り、日本ポルノに関する規制が異常にゆるい。児童ポルノに関してもそう。

故に、感覚麻痺しきった日本では普通だと思われる児童ポルノ系の絵柄が多く投稿されるサーバーアカウントはは諸外国サーバーからは切断や凍結されることが多く、代表で言えばPawooがそれ。

場合によってはキャッシュが残っているだけで捕まる国もあるので当たり前なのだが、これを逆手に取り、いつぞやのPixivのように児童ポルノ児童売春に関する投稿を大量にされたら、どんなに本人が平和にやっていてもサーバー管理者がお縄になったり諸外国にあるサーバーから連合を切られたり、その上日本人そのものへの風評被害になりかねない。

まあ、日本のキショさチキンレースをやってる表現の自由戦士達は自分も含むみんなの首をじわじわ絞めるのでこんな攻撃をするまでもなく日本サーバーは切られるんだろうけど.....

日本IPから外国サーバーへの大量投稿、なんてのがあったらなおヤバいかも。

生成AIへの利用

自分がいるサーバー管理者が生成AI反対派でブロックする技術を導入してくれたとしても、クローラーがいるサーバー制限がなければ恐らくなんの意味もない。(今後どうにかできる技術が出てくるかもしれないが、恐らくイタチごっこだと思われる)

絵描きさん、VTuberさん、コスプレイヤーさんなんかはAIに使われると大変だと思うのでご留意されたし。

まあ後述の通り、AIに利用されたくなければ全てのSNSで警戒は必要なのだが、やはり自分悪用する側だとして想像してみると分散SNS収集簡単さにはやはり惹かれるものがある。

よくある誤解

MisskeyはAIへの利用を拒否できる

完全にはできない。削除と同じであくまでもAIに「使わないでください」とお願いができるだけであって完全な拒否不可能(これはSNSに限らずインターネット全般

ネトストやす

これは一長一短なのだが、どの分散SNSRSS配信を使えがちなのでアカウントを持っていなくても投稿内容を監視できて相手にバレずにネトストがしやすい。

企業は自前でサイトを用意しなくてもいいので助かると思う。

思いついたらまた追記していきます

ログイン ユーザー登録
ようこそ ゲスト さん