画像を生成するAIによる無断学習や利用を防ぐために、以下のような対抗手段を講じることが可能です。
　
1.透かし（ウォーターマーク）の埋め込み:
画像に目に見えるまたは見えない透かしを入れることで、無断利用や生成AIの学習に対して抑止効果を期待できます。特に、目に見えない形で画像データに暗号的な透かしを埋め込む「デジタル透かし」技術が有効です。
　
2.メタデータの埋め込みとロボット排除設定:
画像データに著作権情報や「AIによる無断学習を禁止する」といったメタデータを埋め込み、ウェブサイトには robots.txt ファイルで画像クローラーのアクセスをブロックする設定を追加します。これにより、クローリングや収集の抑制が期待できます。
　
3.ステガノグラフィ技術の利用:
ステガノグラフィを用いて、画像に気づかれにくい形で識別情報を隠すこともできます。これにより、画像の流出経路や利用先を追跡でき、無断利用の発見に役立てることができます。
　
4.法的な警告表示や利用ポリシーの明示:
ウェブサイトや画像の配布先に、AIによる無断利用や学習を禁止する旨の法的警告や利用ポリシーを明示することも有効です。利用条件をはっきりと示すことで、AI 企業や研究者が慎重になる可能性が高まります。
　
5.画像認証技術の導入:
AIが利用しにくいように、画像に人間には気づきにくいパターンやノイズを挿入する技術もあります。たとえば、AIにはノイズとして認識されるが、人間には問題なく見える小さな変形やカラーパターンを追加することで、AIによるデータ学習が困難になる場合があります。
　
これらの対策は、画像生成AIに対する防御としては有効ですが、100%無断利用を防げるわけではありません

・生成AIの学習を混乱させる手段はありませんか？

生成AIの学習を混乱させるための手段には、以下のような方法が考えられます。
　
1.ノイズや歪みの追加:
画像に目立たない程度のノイズや歪みを加えることで、アノテーションモデルが境界や特徴を正確に認識しにくくする手法です。たとえば、ピクセルレベルでランダムなノイズを追加する、わずかに画像をぼかす、あるいは境界線付近に小さな変化を加えるといった手法が有効です。
　
2.不規則な輪郭の挿入:
アノテーション処理は、対象物の輪郭や特徴を正確に捉えることが重要です。そのため、背景や対象物の輪郭にわずかな不規則性を加えることで、アノテーションツールが対象物の境界を正確に判断しにくくすることができます。たとえば、背景に模様や偽の輪郭を挿入する方法です。
　
3.テキストやラベルを埋め込む:
画像に人間には視認しづらい形でテキストやラベルを埋め込むと、AIのアノテーションプロセスが混乱する場合があります。これにより、AIが意図しない領域を注視することがあり、誤認識を誘発します。
　
4.色や明るさのランダム変化:
画像の色や明るさを部分的に変化させ、一定のパターンを持たないようにすることもアノテーション処理の混乱を招く一手です。これは、オブジェクトの検出や認識が色や明暗の差異に依存している場合に有効です。
　
5.擬似的なオブジェクトの追加:
画像内に小さな擬似的なオブジェクトや模様を追加することで、AIがそれらを誤って主要なオブジェクトと認識し、アノテーション精度が低下する可能性があります。特に、背景に似たオブジェクトを散りばめることで、AIはどの部分が対象なのか判断しにくくなります。
　
6.アドバーサリアル技術の活用:
AIの認識を誤らせるために用いられる「アドバーサリアル（敵対的）な例」を使う方法もあります。特定のピクセルパターンや色の配列を配置することで、AIのアノテーションが意図的に誤作動するよう誘導できます。この技術は深層学習モデルに対して特に効果があります。
　
7.カモフラージュテクニック:
画像全体にわずかなカモフラージュパターンを重ねることで、AIの認識を混乱させる方法です。この手法では、人間が見た場合には問題なく認識できるものの、AIが対象を捉える際に誤って検出するようなパターンを画像に追加します。

・思考実験として、danbooruなどアノテーションの元データとして使われているサイトのタグが荒られたら画像生成AIのモデル作成にダメージはありますか？

思考実験として、Danbooruといったアノテーション元データのタグが荒らされた場合、画像生成AIのモデル作成に与える影響は以下の通りです。
　
1. データの品質が低下する
Danbooruは、イラストや画像に対して詳細なタグが付与されており、これらのタグ情報は画像生成AIの学習にとって非常に重要です。タグが荒らされることで、画像とタグの対応関係が崩れ、モデルが正確な特徴を捉えにくくなるため、生成精度が低下します。
例えば、特定のキャラクターやテーマに関連するタグが荒らされ、誤った内容のタグが付与されると、モデルはその誤った情報を学習し、キャラクターの特徴や設定が再現されにくくなる可能性があります。
　
2. ノイズデータの影響
タグが荒らされると、モデルの訓練にノイズデータが増えるため、学習効率が悪化します。たとえば、「黒髪」のタグが誤って「金髪」などに変更された場合、モデルは同じ画像に対して異なる特徴を学習することになり、結果として生成画像の一貫性が失われることが考えられます。
また、同じ画像に異なるタグが付与されることで、モデルが過学習や誤学習を引き起こし、生成された画像が本来の意図からかけ離れたものになる可能性もあります。
　
3. キャラクターやスタイルの再現性が低下する
Danbooruでは、特定のキャラクターやアートスタイルを識別するタグが多く存在します。これらが荒らされると、特定のキャラクターやスタイルのデータが混乱し、モデルが正確にキャラクターの特徴を把握できなくなるため、ユーザーが期待する生成結果が得られにくくなります。
例えば、あるキャラクターのタグが「髪型」「服装」「色彩」などで荒らされると、そのキャラクターの再現が曖昧になり、モデルが正しいビジュアルを生成できなくなることがあります。
　
4. タグの信頼性低下によるモデルの不安定化
タグが荒らされると、データセット全体の信頼性が低下します。信頼性の低いデータをもとに学習したモデルは、特定の条件で異常な出力を生成することが多くなり、モデル全体の品質が低下します。これは、生成AIが学習中に「どの情報を信頼すべきか」を判断できなくなるため、生成結果が不安定になったり、多様性が失われたりすることが考えられます。
　
5. 検索やフィルタリング精度の低下
AI モデルを利用するユーザーは、タグを通じて希望する画像を生成したり、条件に合った画像を探します。タグが荒らされると、AI モデルの検索・フィルタリング機能の精度も低下し、生成プロンプトが期待通りに機能しなくなる可能性があります。たとえば、「風景」タグが荒らされ、異なるジャンルの画像が混入するようになると、風景画像を生成したいユーザーの要求が満たされにくくなります。
　
結論
Danbooruなどのタグが大規模に荒らされた場合、生成AI モデルの精度低下や一貫性の欠如が発生しやすくなり、特にキャラクターや特定のスタイルに依存する画像生成モデルに大きなダメージを与える可能性が高いです。

すでに学習済みのモデルを使って汚染されたデータのクレンジングや異常値検出を行うなど対策される可能性がありますが、それらを阻害する手段はありますか？

無断での学習を妨害し、学習コストを増加させるために、上記の方法を阻害する手法には以下のようなアイデアがあります。これらの手法は、意図的にデータセットの品質や一貫性を崩すことで、学習モデルの精度を低下させ、データクレンジングや異常値検出のプロセスを複雑化することが目的です。
　
1. 偽タグやノイズタグを大量に追加する
意図的に誤ったタグや無関係なタグを画像データに付与し、データセットの信頼性を低下させます。これにより、転移学習やラベルノイズ検出が困難になり、正確な特徴量を学習するコストが増加します。
例えば、キャラクター画像に全く無関係なタグ（「動物」や「風景」など）を追加することで、モデルがどのタグが信頼できるか判別しにくくなり、誤ったラベルがノイズとして学習されるリスクが増えます。
　
2. 特徴量をぼかす／微妙な変更を加える
特徴量ベースのクレンジングや類似度分析に影響を与えるため、画像の特徴がわずかに異なるように加工を施します。具体的には、色調を微妙に変える、ランダムなピクセルの位置でノイズを追加する、または特定の部位を意図的にぼかすことで、モデルが抽出する特徴量の安定性を低下させます。
この方法により、同じキャラクターやスタイルであっても類似度分析が困難になり、正確なクレンジングが行いにくくなるため、データ処理のコストが増加します。
　
3. アノマリーに近いデータを意図的に増やす
特徴が異なるバリエーションや擬似的な異常データを大量に追加することで、異常検出アルゴリズムの信頼性を下げます。たとえば、キャラクターのデザインや背景を少しずつ変えた画像を意図的に作成することで、異常値検出が頻繁に誤検出されるようにします。
こうしたデータが混在することで、オートエンコーダーやアンサンブルモデルを使った異常検出が混乱し、正確な異常サンプルの抽出が困難になります。
　
4. 高頻度で微小なラベル変更を行う
学習済みモデルの転移学習やラベルノイズ検出を阻害するために、同じ画像に対してラベルを定期的に変える手法です。微小な変更を行うことで、モデルは正しいラベルを安定的に学習することが難しくなり、モデルの信頼性が低下します。
例えば、ラベル「黒髪」を「暗めの髪」や「濃い色の髪」などに頻繁に切り替えることで、学習に不確実性を持ち込むことが可能です。
　
5. 意図的に類似画像を多重登録する
データセット内で非常に類似した画像を複数の異なるタグで登録することで、モデルの学習を混乱させます。特定のキャラクター画像を少しずつ変化させて複数のタグを付けると、モデルは「どのタグがどの特徴に対応しているのか」を判別しにくくなり、データセットのクレンジングが複雑化します。
特に、タグの一貫性が失われるため、類似度分析やアンサンブルモデルによる異常検出の効果を低下させることが期待できます。
　
6. アドバーサリアルノイズの付与
AI モデルが認識を混乱させるように、アドバーサリアルノイズ（敵対的な例）を追加します。人間にはほとんど気づかれないレベルのノイズを画像に追加し、モデルが特定の特徴を正確に認識できないようにすることができます。
このノイズにより、モデルの特徴量ベースの学習が混乱し、意図した通りに学習できないため、クレンジングの精度も低下し、データ処理の手間が増加します。
　
7. 乱数ベースの偽ラベル生成
特定のルールではなくランダムにタグをつけたり、特定のカテゴリ間でランダムにラベルを入れ替える方法です。これにより、ラベルと画像の関連性が薄れ、アノテーションの一貫性が失われます。この乱数による偽ラベルの付与は、ラベルノイズ検出やアノマリー検出において、真のラベルを見極めるコストを大幅に増加させます。
　
まとめ
これらの手法は、AIの学習やクレンジングを意図的に妨害し、無断学習にかかるコストを増加させるために有効です。特に、「微小な変更」や「アドバーサリアルノイズの付与」といった手法は、見た目の品質に影響を与えずにモデルにノイズを持ち込むため、非常に効果的です。

Permalink | 記事への反応(1) | 17:00

■anond:20241115000009

移住先のブルースカイはAI 学習に対して何の対策もしてないから第三者に悪用され放題のノーガード状態なのに対して

TwitterはGrokにAI 学習に使用されなくなるよう設定できるし、API有料でスクレイピングもクローラーもばっちり対策してるからむしろAI 学習に対してはどこのSNSよりも強固に守られてるんだよね

まさにワクチンよりもノーマスクを選ぶ陰謀論者と同じことしてるんだよこの馬鹿どもは

Permalink | 記事への反応(1) | 01:42

2024-11-14

■

なんでもかんでもhello worldと表示させるプログラムで入門させようとするのやめろ

こっちはウェブアプリ（クローラー等）をどうすれば自鯖以外で常時稼働させられるか知りたいのに、hello worldと表示できました、じゃその方法で一度実行したら継続して稼働するのか分からないじゃん。

google app engineやxserverでのjavaの実行の記事が軒並みそういう内容だから途方に暮れてる

Permalink | 記事への反応(0) | 02:48

2024-11-13

■[開発メモ] クローラ開発

構造と情報の変化の監視について

JavaScript レンダリング: モダンなWebサイトはJavaScriptを多用しており、動的に生成されるコンテンツも多く見られます。このような場合、headlessブラウザ（Puppeteer、Playwrightなど）を用いてJavaScriptを実行し、レンダリング後のHTMLを取得する必要があります。
APIの活用: 一部のWebサイトは、APIを提供しています。APIを利用することで、より効率的に構造化されたデータを取得できます。

robots.txtの遵守について

Sitemap.xml: robots.txtに加えて、sitemap.xmlも参照することで、より正確なクローリング範囲を把握できます。
メタタグ: noindexやnofollowなどのメタタグも、クローリングの範囲を制御する上で重要です。

速度/接続 制限とマルチ スレッディングについて

負荷分散: 大規模なクローリングの場合、複数のマシンに負荷を分散させることで、処理時間を短縮できます。
キューイング: タスクをキューイングすることで、処理順序を制御し、リソースの効率的な利用を実現できます。
非同期処理: 非同期処理を用いることで、I/O待ち時間を最小限に抑え、並列処理を効率的に行えます。

訪問済みURLのKVSについて

データベース選択: KVSとしては、Redis、MongoDB、あるいは関係データベースなどが考えられます。使用するデータ量やアクセスパターンに応じて最適なものを選択しましょう。
キャッシュ: 頻繁にアクセスされるURLの情報をキャッシュすることで、データベースへのアクセス回数を減らし、パフォーマンスを向上させることができます。

法的要件の確認について

プライバシーポリシー: 個人情報を含むデータを取得する場合、プライバシーポリシーを厳守する必要があります。
ライセンス: 取得したデータを商用利用する場合、ライセンスに関する規定を確認する必要があります。
倫理: クローリングが他のユーザーに迷惑をかけるような行為にならないように、倫理的な観点から慎重に行う必要があります。

UAとIPのローテーションについて

プロキシ: プロキシサーバーを利用することで、IPアドレスを隠蔽し、検知を回避できます。
ユーザーエージェントの多様化: 様々なデバイスやブラウザのユーザーエージェントを模倣することで、より自然なアクセスを実現できます。
遅延: 各リクエスト間の遅延時間をランダムにすることで、人間によるアクセスと区別しにくくします。

その他

エラー処理: ネットワークエラー、HTTP エラーなど、様々なエラーが発生する可能性があります。適切なエラー処理を行い、クローラーの安定性を確保しましょう。
ログ: ログを記録することで、クローラーの動作を監視し、問題発生時の原因究明に役立てることができます。
セキュリティ: セキュリティ対策を怠ると、情報漏洩や不正アクセスなどのリスクが高まります。入力値の検証、脆弱性対策などを徹底しましょう。

追加的なヒント

クラウドサービス: AWS、GCP、Azureなどのクラウドサービスを利用することで、インフラ構築や管理の手間を削減できます。
フレームワーク: Scrapy、Beautiful Soupなどのフレームワークを利用することで、開発効率を向上させることができます。
データクリーニング: 取得したデータをクリーニングし、ノイズを除去することで、より高品質なデータを得ることができます。

Permalink | 記事への反応(1) | 11:25

2024-11-12

■「機械学習されないための加工」は画像の価値を減らすものばかり問題

・robots.txtなどでWeb クローラーに避けてもらう

・パスワード付きページなので条件が揃わないと外部からアクセスできないようにする

・画像の中にサインを入れておいて機械学習側の誤爆を狙う

・画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする

・画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)

・スクレイピング対象から避けやすくするため長辺を256px未満にする←New！

上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像を劣化させる方向にばかり頭を使っている印象。

仮にそれで機械学習の対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。

＝＝＝＝＝

2024/11/13追記：

そう言えば、コピープロテクトのせいで正規ユーザーが被害を被る、って話は昔からあったね。

CDのリッピングは容易で法的にもセーフだけど、そのせいでCCCDとかいう特級呪物が産まれたし。

ただ、正規ユーザーが被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン。

でも、無償公開分……収益は考慮しない趣味絵のようなものにまでウォーターマークを適用するのは (正規ユーザーも被害を受けるので) よろしくない。

逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像にウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。

Permalink | 記事への反応(3) | 20:22

2024-10-18

■anond:20241018223830

医者はキャタピラーではなくクローラーと呼ぶのだろうか？

Permalink | 記事への反応(0) | 22:40

2024-07-24

■anond:20240723225623

いないと思う

定期的にタブ開きまくったままにしたい増田が出てくるけど動機がわからん

片っ端からメモアプリに突っ込めない理由はなんだろ・・・

メモアプリになんのやついちいち書くの面倒だったら

Notion Webclipper(AI要約もできる)とか Raindrop.ion とか使うか、

自前でクローラー作ったらええと違うか？

Permalink | 記事への反応(0) | 00:59

2024-06-27

■反AIの最近のヤバい エコ チェン 備忘録

反AIが無学（高卒オタクマン）な上に人の忠告を聞かないせいで、実在しない問題、恐怖を内輪で膨らませてた例が最近無茶苦茶多いので備忘録的にリスト。

「生成画像1枚にスマホ充電522回分の電力がかかる」と論文を誤読

　実際は、1000枚に522回分（1枚には0.522回分）と書いてあったのを、英語も読めないのに機械翻訳（AI…😂）で無理矢理引用して誤読。

　そもそもスマホの電池容量は約20Whほど。522回分では10kWhになる。電気代で言えば卸値でも100円はする。1枚にそんなにかかっていたら商売が成り立たないとも気づかない頭の悪さ（一部は「だからこそ誰かが金を出してる陰謀なんだ」とか訳のわからないことまで言い出す始末）。

　英語力、計算力、金銭感覚のなさ、そして無意識にAI 翻訳を頼るという馬鹿に馬鹿を重ねる失態。

OpenAIのCTOが言った「some creative jobs（いくつかのクリエイティブ業）は最初 から要らなかった」を「すべてのクリエイターは要らない」と誤訳（捏造）

　普通の英語力があれば解るが、名詞の複数形にsomeがつく場合とそうでない場合では大分訳し方が違う。

　「もともとクリエイティブと呼べないほどの仕事もあった」という程度の言葉を「すべてのクリエイターに対する挑戦」のようにねじ曲げ拡散するのは政治的な行いなのか、単なる狂気なのか。

「copainter対策」でイラストに猫の写真を入れだす←NEW!

　そもそも「学習対策」は無作為のクローラー対策のためにネットにアップする画像に施すものであり、copainterなどの自分で下絵をアップロードするi2iサービスには何の効果もない（というより、もはや何を狙っているのかも不明）のに（詳細は→　https://anond.hatelabo.jp/20240626081537）、イラストに猫の画像を埋め込んで「上手く生成できない画像はこうだ」とか、現在進行形で盛り上がってる。

　あいつらの脳内ではこの自分勝手な被害妄想？（というより、ry）で意味不明な発狂を起こしていることすら「AIのせいでクリエイターが先の見えない対策に追われている」と変換されているのがなお凄い。

　その「対策」に何の先も見えないのは、AIが凄いからじゃなくて、お前らが自分で何をやっているのかが解ってないからだｗ

　AIを怖がるにしても、せめて最低限の仕組みぐらいは理解してから、仕組み的にありえることを怖がれｗ

　この調子だと、これからもこいつらは加速度的に暴走を続けていくと思われるので、記録する場を設けておく。

Permalink | 記事への反応(4) | 03:07

2024-06-11

■anond:20240611151801

別にいいけどそもそもクローラーとかそんな大した仕事ではないし

普通は一から作るというのは大規模なサービスを一から書き直すような時に使うわけよ

クローラーのスクリプトとか一からかくに決まってるじゃん？

いちいちスクラッチとかフルスクラッチとかいう話ではないんだよね

何人月？って話で

Permalink | 記事への反応(1) | 15:22

■anond:20240611150902

横だけどまず「フルスクラッチ」ってのが怪しいのと

クローラーのスクリプトとかエンジニア的に誰でもできることであって

駆け出しの仕事じゃん

スクリプトの時点でスクラッチもクソもないじゃんっていう

スクリプトを一から作るならそりゃそうだろうけど

Permalink | 記事への反応(2) | 15:11

■anond:20240611140449

いやフレームワークも使わないで素のPythonでファイルサーバーにファイルをあげるクローラーをマイクロサービスって言う人君しかいないよ

真昼間に書いてんのも君だし

俺アメリカだからね

Permalink | 記事への反応(1) | 14:06

■anond:20240611132306

じゃあPythonでクローラー書いてるってコト？

どのサービスがなんのフレームワークでやってんの？

Permalink | 記事への反応(1) | 13:25

■anond:20240611123149

またフワッフワだなあ

なんのアルゴリズム？

あとOOPを誰でもできるみたいに言ってるけどできてないんだよ

クローラーのスクリプト書いてるようなやつは100％できてない

まあスクリプトだろうがなんだろうがまず動かすのが第一歩でそこで9割脱落するけどな

Permalink | 記事への反応(1) | 12:34

■anond:20240611121902

まあクローラーでデータ取ってきてまとめてる感じ？

ど素人では出来ないけど使う方の仕事だし確かにアルゴリズムとかデータストラクチャとかOOPとかはいらなそうな感じだね

まず動かすのが素人には出来ないからね

Permalink | 記事への反応(1) | 12:23

2024-06-09

■

SearchConsole で自動生成されたようなクエリパラメーター付きのURLが大量にリストにある

有効なページはそこまで多くないのに、それらのせいでページ数が数万とかになってる

もちろん robots.txt や noindex や canonical はついてるからインデックスはされてないんだけど、SearchConsoleの管理画面に一覧に URL として並んでる

こういうのがあるから有効なページがクロールされるのが遅かったりするのかと思う

実際のページが 500 でも数万件あるとみなされてればクローラーは数万件を処理するわけだし

インデックスに登録されないとサイト内検索が使えず不便

Permalink | 記事への反応(0) | 22:06

2024-03-06

■反AIの絵師たちってさ

なんでインターネットに絵なんか上げちゃったの？

前々からインターネットにモノ上げたら勝手に収集されて学習データにされるのは分かりきってたじゃん。

Pixivに上げたら勝手にGoogleのクローラーに収集されて検索エンジンに載ってたじゃん。こういうのがAIの学習に使われることくらい皆分かってたでしょ。

画像生成AI だって 2010年代からずっと話があったんだから、本当に学習データにされたくなかったらその時に辞めることだってできたよね？

それを「いいね」が貰えるという承認欲求で見ないふりをしてきたからでは？

Permalink | 記事への反応(0) | 19:55

2024-03-05

■ラジコン仲間にクローラー ラジコンをオススメされた

買ってみたが死ぬ程退屈だコレ

Permalink | 記事への反応(0) | 11:53

2024-03-02

■絵師さんは何もおかしなことを言っていない

もう分断を煽るのはやめませんか

現在混乱を招いている要因は、おそらく以下の二つ

1.　著作権法第 30 条の 4 ただし書きの解釈

2.　それぞれがAIを異なる意味で使っている　

著作権法第30条 4 ただし書きの解釈

AI利用に向けて改正されたとされる著作権法30条の4は AIならなんでも許されるというわけではない。以下のように条件がついている。

著作物は，次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には，その必要と認められる限度において，いずれの方法によるかを問わず，利用することができる。ただし，当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は，この限りでない。

著作物に表現された思想又は感情の享受を目的としない利用かどうか
著作権者の利益を不当に害するかどうか

この辺りの解釈について紛糾している様子。

同30条の 4 は平成30年当時、事業者や研究者によるAI利用を想定していた。現在では一般市民にAIが広く普及し状況が変わってきたことから、同条の適応範囲について再整理を図るという趣旨で公開されたのが「AIと著作権に関する考え方について（素案）」

そして素案に対するパブリックコメントを募集した、というのが現在の流れ。

AIと著作権に関する考え方について（素案）

それぞれがAIを異なる意味で使っている

Pixiv 「AI 学習は禁止です」　　←　　画像生成器（拡散モデル: Mid journey、 stable diffusion etc...）

反AI 絵師さん「AI 学習禁止です」　　← 追加学習（LoRA）

反反AIさん　「ネット上にある全ての絵をクロールしているんだよ！お前の絵だけ除けるか！」　← テキストエンコーダ（CLIP）

それぞれは別におかしなことは言っていないと思う

反反AI「ネット上にある全ての絵をクロールしているんだよ！お前の絵だけ除けるか！」

たぶん、CLIPのこと。テキストと画像の翻訳を行う。犬の画像を見て「犬」と識別することができる。

ネット上のあらゆる画像とテキストを学習することで作られた。OpenAIによって公開。画像生成だけではなくいろんなところに使われている。

個人では作れない。計算コスト的にたぶん無理
配布している学習済みのものを使う（CLIP）
https://github.com/OpenAI/CLIP]
絵師さんへの反論としてCLIPを出すのはおかしい

Pixiv 「AI 学習は禁止です」

たぶん、画像生成器（拡散モデル）のこと。

画像生成AIはテキストエンコーダ（CLIP）と画像生成器の組み合わせでできている。stable diffusion等は拡散モデルを使っている。

拡散 モデルこんなかんじ

1.　イラストを用意する

2.　イラストにノイズを振って汚す

3. 汚れたイラストから元のイラストを予想させる

学習を繰り返しノイズを増やしていくと最後はただのノイズから画像を出力する 連想ゲーム絵師が誕生する。連想ゲーム絵師は連想しかできないので自分が描いたものが何かわからない。犬を描いてといっても車を描いてくる。なので CLIPが誘導したりダメ出ししたりする。

拡散 モデルの学習に使われるイラスト

どこかのイラストサイトかデータベースを使っているはず。「著作権的に安全な〜」みたいな触れ込みのやつはどこかのデータベースを購入して使っているんだと思う。

Pixivの主張は別におかしくない。このあたりは「AIと著作権に関する考え方について（素案）p7」（エ）において解説されている。"robot.txt"への記述によりAI 学習を行うクローラーのアクセスを制限しているにも関わらず、勝手に学習に使うことは「データベースの著作物の潜在的販路を阻害する行為」として著作権違反になる（Pixivが将来的に本当に販売するかどうかは置いておく）

絵師「AI 学習 禁止です」　

追加学習（LoRA）のこと。

既存のモデルに数枚のイラストを追加学習させることで絵柄を模倣（ファインチューニング）する。

特定の絵師さんのイラストを勝手に使う者がいるようでトラブルになっている。

絵柄に著作権はないのでは？

絵柄に著作権はない。学習の際に行われる複製が著作権侵害にあたるかどうかが争点になっている。

著作権法30条の4 より

著作物に表現された思想又は感情の享受を目的としない利用かどうか
著作権者の利益を不当に害するかどうか

この辺りは「AIと著作権に関する考え方について（素案）」及びパブコメの返答に現状の解釈が示されているので興味のある方はどうぞ。

(p6. 特定のクリエイターの著作物のみを用いてファインチューニングを行う場合〜を参照）

※ここははっきりとは断定していないので自分で読んだ方が良いと思う。

（私の読解:）

程度問題ぽい。よくある画風なら問題にならないけれどはっきりと特定絵師さんとわかる感じだとダメそうですね

（私の読解終わり）

絵師さんのプロフィールを叩いている人は意味 わからん

別にプロフィールなんて「トイレから出たら手を洗ってください」でも「フォローする際には五体投地してください」でも好きに書いてよいだろう。

それが法律に記されているかどうかは関係ない。ただのお願いだ。

「AI 学習禁止」と書くなと騒いでいる人は何を考えているのかよくわからん。

「AIと著作権に関する考え方について（素案）」にも再三出てくるがAI 学習を技術的に回避することは禁止していない。30条の4は権利の制限であって、イラストを差し出せという強制ではない。

分断煽りはうんざりだ

パブリックコメント：

https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/hoseido/r05_07/pdf/94011401_01.pdf

見ればわかりますが個人よりも一般企業による意見が多く、返答とあわせてとても読み応えのあるものです。

このファイルを読んで個人の頭の悪そうな意見だけ抜粋してくるのは非常に違和感があります。

技術や創作への興味を失い、ただ相手サイドの頭の悪そうなやつをみつけて叩く人たちとは距離を置きたいところです。

Permalink | 記事への反応(0) | 17:57

2024-02-23

■分散型SNSの懸念点

消せない

分散型SNSに搭載されている削除ボタンは基本的には「自分のいるサーバーからは消せるけど、他のサーバーにはあくまでもお願いしかできない」仕様なので繋がっているサーバーの管理者や設定次第では永遠に消したい投稿が残り続ける。

ネットってそんなもんじゃん、分散型そんなにダメなの？

第三者が悪意のあるなしに関わらず無断で個人情報を拡散した場合や、自分が間違えて個人情報を投稿してしまった時など、比較的簡単に情報が海外のサーバーにも渡ってしまい日本国内の法律では対応しきれなくなる。

大抵の場合は消してもらえるとは思うが、最悪の場合、日本国内のサーバーからは消せても外国のサーバーには残っており、その国には関連法がないため法に訴えて消してもらうこともできず、日本国内からは簡単に閲覧が可能...という状況も想定される。

長々と語っているが、要はサーバー管理者は悪意がなくても犯罪に加担してしまう可能性があるということと、情報へのアクセスのしやすさが違う。

既に誹謗中傷界隈（？）の人間が「言論の自由だ！Xアカウントが凍結された！検閲だ！」と分散型SNSに移動してるのをちょくちょく見るのが不穏。

収益性

基本的にサーバーの運営にはお金がいるのでサーバー管理者はマネタイズに追われるが、Xは広告のみでもあの有様だし、現に資金繰りがうまくいかず閉鎖したサーバーも見てきたし、そのうち（サーバー代関係なく、モラルのない人が）金儲けにと違法薬物の広告などを出し始めるのも想像に難くない。

法律を逆手に取った攻撃

ご存知の通り、日本はポルノに関する規制が異常にゆるい。児童ポルノに関してもそう。

故に、感覚の麻痺しきった日本では普通だと思われる児童ポルノ系の絵柄が多く投稿されるサーバーやアカウントはは諸外国のサーバーからは切断や凍結されることが多く、代表で言えばPawooがそれ。

場合によってはキャッシュが残っているだけで捕まる国もあるので当たり前なのだが、これを逆手に取り、いつぞやのPixivのように児童ポルノや児童売春に関する投稿を大量にされたら、どんなに本人が平和にやっていてもサーバー管理者がお縄になったり諸外国にあるサーバーから連合を切られたり、その上日本人そのものへの風評被害になりかねない。

まあ、日本のキショさチキンレースをやってる表現の自由戦士達は自分も含むみんなの首をじわじわ絞めるのでこんな攻撃をするまでもなく日本のサーバーは切られるんだろうけど.....

日本のIP から諸外国のサーバーへの大量投稿、なんてのがあったらなおヤバいかも。

生成AIへの利用

自分がいるサーバー管理者が生成AI反対派でブロックする技術を導入してくれたとしても、クローラーがいるサーバーに制限がなければ恐らくなんの意味もない。（今後どうにかできる技術が出てくるかもしれないが、恐らくイタチごっこだと思われる）

絵描きさん、VTuberさん、コスプレイヤーさんなんかはAIに使われると大変だと思うのでご留意されたし。

まあ後述の通り、AIに利用されたくなければ全てのSNSで警戒は必要なのだが、やはり自分が悪用する側だとして想像してみると分散型SNSの収集の簡単さにはやはり惹かれるものがある。

よくある誤解

MisskeyはAIへの利用を拒否できる

完全にはできない。削除と同じであくまでもAIに「使わないでください」とお願いができるだけであって完全な拒否は不可能（これはSNSに限らずインターネット全般）

ネトストしやすい

これは一長一短なのだが、どの分散型SNSもRSS 配信を使えがちなのでアカウントを持っていなくても投稿内容を監視できて相手にバレずにネトストがしやすい。

企業は自前でサイトを用意しなくてもいいので助かると思う。

思いついたらまた追記していきます

Permalink | 記事への反応(1) | 03:03

2024-02-19

■ブロックしてえ

新Webクローリングサービス「シスクローラー」を開始 | 株式会社シスプロのプレスリリース

こういうサービスってブロックしてえなあ UAがわかりやすかったら良いんだけど偽造してくんだろうしなあ

Permalink | 記事への反応(0) | 10:58

「クローラー」を含む日記

■BlueskyはAIボットによるデータ収集を許可している件

前提

Blueskyのサーバーの設定（全部OK）

Xの設定（他社ボットによるデータ取集拒否）

Xは自社AIのみに利用される、Blueskyは他社AIに利用される。

Blueskyに画像をアップすると、様々なAIの学習に使われそうです。

■生成AIに正しく対応する反AI絵師の動きとは

ウォーターマークやサインは意味があるのか？

なぜ学習を防げないのに、意味があるのか

学習されたくないという目的を達成するには

無断利用されたくないという目的を達成するには

上記では防げない部分の補足

最後に

簡単にまとめると

■絵師様（笑）はなぜ反AIに走ってしまうのか

１．特権意識がある

2．村文化が強い

３．自分で考えない

結びに

■ChatGPTに画像の無断学習の対応策を聞いてみた