画像を生成するAIによる無断学習や利用を防ぐために、以下のような対抗手段を講じることが可能です。
　
1.透かし（ウォーターマーク）の埋め込み:
画像に目に見えるまたは見えない透かしを入れることで、無断利用や生成AIの学習に対して抑止効果を期待できます。特に、目に見えない形で画像データに暗号的な透かしを埋め込む「デジタル透かし」技術が有効です。
　
2.メタデータの埋め込みとロボット排除設定:
画像データに著作権情報や「AIによる無断学習を禁止する」といったメタデータを埋め込み、ウェブサイトには robots.txt ファイルで画像クローラーのアクセスをブロックする設定を追加します。これにより、クローリングや収集の抑制が期待できます。
　
3.ステガノグラフィ技術の利用:
ステガノグラフィを用いて、画像に気づかれにくい形で識別情報を隠すこともできます。これにより、画像の流出経路や利用先を追跡でき、無断利用の発見に役立てることができます。
　
4.法的な警告表示や利用ポリシーの明示:
ウェブサイトや画像の配布先に、AIによる無断利用や学習を禁止する旨の法的警告や利用ポリシーを明示することも有効です。利用条件をはっきりと示すことで、AI 企業や研究者が慎重になる可能性が高まります。
　
5.画像認証技術の導入:
AIが利用しにくいように、画像に人間には気づきにくいパターンやノイズを挿入する技術もあります。たとえば、AIにはノイズとして認識されるが、人間には問題なく見える小さな変形やカラーパターンを追加することで、AIによるデータ学習が困難になる場合があります。
　
これらの対策は、画像生成AIに対する防御としては有効ですが、100%無断利用を防げるわけではありません

・生成AIの学習を混乱させる手段はありませんか？

生成AIの学習を混乱させるための手段には、以下のような方法が考えられます。
　
1.ノイズや歪みの追加:
画像に目立たない程度のノイズや歪みを加えることで、アノテーションモデルが境界や特徴を正確に認識しにくくする手法です。たとえば、ピクセルレベルでランダムなノイズを追加する、わずかに画像をぼかす、あるいは境界線付近に小さな変化を加えるといった手法が有効です。
　
2.不規則な輪郭の挿入:
アノテーション処理は、対象物の輪郭や特徴を正確に捉えることが重要です。そのため、背景や対象物の輪郭にわずかな不規則性を加えることで、アノテーションツールが対象物の境界を正確に判断しにくくすることができます。たとえば、背景に模様や偽の輪郭を挿入する方法です。
　
3.テキストやラベルを埋め込む:
画像に人間には視認しづらい形でテキストやラベルを埋め込むと、AIのアノテーションプロセスが混乱する場合があります。これにより、AIが意図しない領域を注視することがあり、誤認識を誘発します。
　
4.色や明るさのランダム変化:
画像の色や明るさを部分的に変化させ、一定のパターンを持たないようにすることもアノテーション処理の混乱を招く一手です。これは、オブジェクトの検出や認識が色や明暗の差異に依存している場合に有効です。
　
5.擬似的なオブジェクトの追加:
画像内に小さな擬似的なオブジェクトや模様を追加することで、AIがそれらを誤って主要なオブジェクトと認識し、アノテーション精度が低下する可能性があります。特に、背景に似たオブジェクトを散りばめることで、AIはどの部分が対象なのか判断しにくくなります。
　
6.アドバーサリアル技術の活用:
AIの認識を誤らせるために用いられる「アドバーサリアル（敵対的）な例」を使う方法もあります。特定のピクセルパターンや色の配列を配置することで、AIのアノテーションが意図的に誤作動するよう誘導できます。この技術は深層学習モデルに対して特に効果があります。
　
7.カモフラージュテクニック:
画像全体にわずかなカモフラージュパターンを重ねることで、AIの認識を混乱させる方法です。この手法では、人間が見た場合には問題なく認識できるものの、AIが対象を捉える際に誤って検出するようなパターンを画像に追加します。

・思考実験として、danbooruなどアノテーションの元データとして使われているサイトのタグが荒られたら画像生成AIのモデル作成にダメージはありますか？

思考実験として、Danbooruといったアノテーション元データのタグが荒らされた場合、画像生成AIのモデル作成に与える影響は以下の通りです。
　
1. データの品質が低下する
Danbooruは、イラストや画像に対して詳細なタグが付与されており、これらのタグ情報は画像生成AIの学習にとって非常に重要です。タグが荒らされることで、画像とタグの対応関係が崩れ、モデルが正確な特徴を捉えにくくなるため、生成精度が低下します。
例えば、特定のキャラクターやテーマに関連するタグが荒らされ、誤った内容のタグが付与されると、モデルはその誤った情報を学習し、キャラクターの特徴や設定が再現されにくくなる可能性があります。
　
2. ノイズデータの影響
タグが荒らされると、モデルの訓練にノイズデータが増えるため、学習効率が悪化します。たとえば、「黒髪」のタグが誤って「金髪」などに変更された場合、モデルは同じ画像に対して異なる特徴を学習することになり、結果として生成画像の一貫性が失われることが考えられます。
また、同じ画像に異なるタグが付与されることで、モデルが過学習や誤学習を引き起こし、生成された画像が本来の意図からかけ離れたものになる可能性もあります。
　
3. キャラクターやスタイルの再現性が低下する
Danbooruでは、特定のキャラクターやアートスタイルを識別するタグが多く存在します。これらが荒らされると、特定のキャラクターやスタイルのデータが混乱し、モデルが正確にキャラクターの特徴を把握できなくなるため、ユーザーが期待する生成結果が得られにくくなります。
例えば、あるキャラクターのタグが「髪型」「服装」「色彩」などで荒らされると、そのキャラクターの再現が曖昧になり、モデルが正しいビジュアルを生成できなくなることがあります。
　
4. タグの信頼性低下によるモデルの不安定化
タグが荒らされると、データセット全体の信頼性が低下します。信頼性の低いデータをもとに学習したモデルは、特定の条件で異常な出力を生成することが多くなり、モデル全体の品質が低下します。これは、生成AIが学習中に「どの情報を信頼すべきか」を判断できなくなるため、生成結果が不安定になったり、多様性が失われたりすることが考えられます。
　
5. 検索やフィルタリング精度の低下
AI モデルを利用するユーザーは、タグを通じて希望する画像を生成したり、条件に合った画像を探します。タグが荒らされると、AI モデルの検索・フィルタリング機能の精度も低下し、生成プロンプトが期待通りに機能しなくなる可能性があります。たとえば、「風景」タグが荒らされ、異なるジャンルの画像が混入するようになると、風景画像を生成したいユーザーの要求が満たされにくくなります。
　
結論
Danbooruなどのタグが大規模に荒らされた場合、生成AI モデルの精度低下や一貫性の欠如が発生しやすくなり、特にキャラクターや特定のスタイルに依存する画像生成モデルに大きなダメージを与える可能性が高いです。

すでに学習済みのモデルを使って汚染されたデータのクレンジングや異常値検出を行うなど対策される可能性がありますが、それらを阻害する手段はありますか？

無断での学習を妨害し、学習コストを増加させるために、上記の方法を阻害する手法には以下のようなアイデアがあります。これらの手法は、意図的にデータセットの品質や一貫性を崩すことで、学習モデルの精度を低下させ、データクレンジングや異常値検出のプロセスを複雑化することが目的です。
　
1. 偽タグやノイズタグを大量に追加する
意図的に誤ったタグや無関係なタグを画像データに付与し、データセットの信頼性を低下させます。これにより、転移学習やラベルノイズ検出が困難になり、正確な特徴量を学習するコストが増加します。
例えば、キャラクター画像に全く無関係なタグ（「動物」や「風景」など）を追加することで、モデルがどのタグが信頼できるか判別しにくくなり、誤ったラベルがノイズとして学習されるリスクが増えます。
　
2. 特徴量をぼかす／微妙な変更を加える
特徴量ベースのクレンジングや類似度分析に影響を与えるため、画像の特徴がわずかに異なるように加工を施します。具体的には、色調を微妙に変える、ランダムなピクセルの位置でノイズを追加する、または特定の部位を意図的にぼかすことで、モデルが抽出する特徴量の安定性を低下させます。
この方法により、同じキャラクターやスタイルであっても類似度分析が困難になり、正確なクレンジングが行いにくくなるため、データ処理のコストが増加します。
　
3. アノマリーに近いデータを意図的に増やす
特徴が異なるバリエーションや擬似的な異常データを大量に追加することで、異常検出アルゴリズムの信頼性を下げます。たとえば、キャラクターのデザインや背景を少しずつ変えた画像を意図的に作成することで、異常値検出が頻繁に誤検出されるようにします。
こうしたデータが混在することで、オートエンコーダーやアンサンブルモデルを使った異常検出が混乱し、正確な異常サンプルの抽出が困難になります。
　
4. 高頻度で微小なラベル変更を行う
学習済みモデルの転移学習やラベルノイズ検出を阻害するために、同じ画像に対してラベルを定期的に変える手法です。微小な変更を行うことで、モデルは正しいラベルを安定的に学習することが難しくなり、モデルの信頼性が低下します。
例えば、ラベル「黒髪」を「暗めの髪」や「濃い色の髪」などに頻繁に切り替えることで、学習に不確実性を持ち込むことが可能です。
　
5. 意図的に類似画像を多重登録する
データセット内で非常に類似した画像を複数の異なるタグで登録することで、モデルの学習を混乱させます。特定のキャラクター画像を少しずつ変化させて複数のタグを付けると、モデルは「どのタグがどの特徴に対応しているのか」を判別しにくくなり、データセットのクレンジングが複雑化します。
特に、タグの一貫性が失われるため、類似度分析やアンサンブルモデルによる異常検出の効果を低下させることが期待できます。
　
6. アドバーサリアルノイズの付与
AI モデルが認識を混乱させるように、アドバーサリアルノイズ（敵対的な例）を追加します。人間にはほとんど気づかれないレベルのノイズを画像に追加し、モデルが特定の特徴を正確に認識できないようにすることができます。
このノイズにより、モデルの特徴量ベースの学習が混乱し、意図した通りに学習できないため、クレンジングの精度も低下し、データ処理の手間が増加します。
　
7. 乱数ベースの偽ラベル生成
特定のルールではなくランダムにタグをつけたり、特定のカテゴリ間でランダムにラベルを入れ替える方法です。これにより、ラベルと画像の関連性が薄れ、アノテーションの一貫性が失われます。この乱数による偽ラベルの付与は、ラベルノイズ検出やアノマリー検出において、真のラベルを見極めるコストを大幅に増加させます。
　
まとめ
これらの手法は、AIの学習やクレンジングを意図的に妨害し、無断学習にかかるコストを増加させるために有効です。特に、「微小な変更」や「アドバーサリアルノイズの付与」といった手法は、見た目の品質に影響を与えずにモデルにノイズを持ち込むため、非常に効果的です。

Permalink | 記事への反応(1) | 17:00

■反反AIってテクノロジー推進派風に話すけど、パチモンばかりだよね。

著作権がーとか叫んでるけど、テクノロジーって、そんな著作権がこうだからなんて強権じゃないんすよね。

古くはrobots.txt から

オプトインやオプトアウト

なんでかって？

情報処理に、複製容易性による社会影響って基本があるんすよ。

法律的に正しい利用だとしても、複製容易性によって、その運用が上手くいかない可能性がある。

つう基本があるんすよ。

だからテクノロジーは、こういう理由は法律的には正しいけど、それで被害を被る人がいるかもしれない。

それを想定して、オプトインやオプトアウトが発明されたんですよ。

個人情報保護なんて、法律が死ぬほど後追いなのご存じ？

そこの反反AI robots.txtって何のためにあるかご存じ？

君ら戦うの勝手だけど、テクノロジーの代弁者みたいなのやめて欲しい

テクノロジーが頭悪いと思われるから

Permalink | 記事への反応(0) | 14:17

2024-11-13

■[開発メモ] クローラ開発

構造と情報の変化の監視について

JavaScript レンダリング: モダンなWebサイトはJavaScriptを多用しており、動的に生成されるコンテンツも多く見られます。このような場合、headlessブラウザ（Puppeteer、Playwrightなど）を用いてJavaScriptを実行し、レンダリング後のHTMLを取得する必要があります。
APIの活用: 一部のWebサイトは、APIを提供しています。APIを利用することで、より効率的に構造化されたデータを取得できます。

robots.txtの遵守について

Sitemap.xml: robots.txtに加えて、sitemap.xmlも参照することで、より正確なクローリング範囲を把握できます。
メタタグ: noindexやnofollowなどのメタタグも、クローリングの範囲を制御する上で重要です。

速度/接続 制限とマルチ スレッディングについて

負荷分散: 大規模なクローリングの場合、複数のマシンに負荷を分散させることで、処理時間を短縮できます。
キューイング: タスクをキューイングすることで、処理順序を制御し、リソースの効率的な利用を実現できます。
非同期処理: 非同期処理を用いることで、I/O待ち時間を最小限に抑え、並列処理を効率的に行えます。

訪問済みURLのKVSについて

データベース選択: KVSとしては、Redis、MongoDB、あるいは関係データベースなどが考えられます。使用するデータ量やアクセスパターンに応じて最適なものを選択しましょう。
キャッシュ: 頻繁にアクセスされるURLの情報をキャッシュすることで、データベースへのアクセス回数を減らし、パフォーマンスを向上させることができます。

法的要件の確認について

プライバシーポリシー: 個人情報を含むデータを取得する場合、プライバシーポリシーを厳守する必要があります。
ライセンス: 取得したデータを商用利用する場合、ライセンスに関する規定を確認する必要があります。
倫理: クローリングが他のユーザーに迷惑をかけるような行為にならないように、倫理的な観点から慎重に行う必要があります。

UAとIPのローテーションについて

プロキシ: プロキシサーバーを利用することで、IPアドレスを隠蔽し、検知を回避できます。
ユーザーエージェントの多様化: 様々なデバイスやブラウザのユーザーエージェントを模倣することで、より自然なアクセスを実現できます。
遅延: 各リクエスト間の遅延時間をランダムにすることで、人間によるアクセスと区別しにくくします。

その他

エラー処理: ネットワークエラー、HTTP エラーなど、様々なエラーが発生する可能性があります。適切なエラー処理を行い、クローラーの安定性を確保しましょう。
ログ: ログを記録することで、クローラーの動作を監視し、問題発生時の原因究明に役立てることができます。
セキュリティ: セキュリティ対策を怠ると、情報漏洩や不正アクセスなどのリスクが高まります。入力値の検証、脆弱性対策などを徹底しましょう。

追加的なヒント

クラウドサービス: AWS、GCP、Azureなどのクラウドサービスを利用することで、インフラ構築や管理の手間を削減できます。
フレームワーク: Scrapy、Beautiful Soupなどのフレームワークを利用することで、開発効率を向上させることができます。
データクリーニング: 取得したデータをクリーニングし、ノイズを除去することで、より高品質なデータを得ることができます。

Permalink | 記事への反応(1) | 11:25

2024-11-12

■「機械学習されないための加工」は画像の価値を減らすものばかり問題

・robots.txtなどでWeb クローラーに避けてもらう

・パスワード付きページなので条件が揃わないと外部からアクセスできないようにする

・画像の中にサインを入れておいて機械学習側の誤爆を狙う

・画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする

・画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)

・スクレイピング対象から避けやすくするため長辺を256px未満にする←New！

上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像を劣化させる方向にばかり頭を使っている印象。

仮にそれで機械学習の対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。

＝＝＝＝＝

2024/11/13追記：

そう言えば、コピープロテクトのせいで正規ユーザーが被害を被る、って話は昔からあったね。

CDのリッピングは容易で法的にもセーフだけど、そのせいでCCCDとかいう特級呪物が産まれたし。

ただ、正規ユーザーが被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン。

でも、無償公開分……収益は考慮しない趣味絵のようなものにまでウォーターマークを適用するのは (正規ユーザーも被害を受けるので) よろしくない。

逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像にウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。

Permalink | 記事への反応(3) | 20:22

2024-07-13

■ いやキミはむしろ勉強したほうがいいです。何が検索避けの作法だよ、一事が万事過ぎ

AI ちゃん『過激なファンアートと「検索避け」の無意味性：現代の検索エンジンを欺くことはできない』

過激なファンアートを「検索避け(伏せ字などを含む)」と呼ばれる手法で公開するケースがある。しかし、この方法は本当に効果的なのだろうか？

本記事では、検索エンジンの仕組みと「検索避け」の限界について解説し、情報公開における倫理的な問題について考察する。

1. 検索エンジンの仕組み：賢い司書のように情報を整理する

想像してみてください。あなたが重要な機密文書を持っており、ファイル名と文書内の固有名詞を少し変えてインターネットにアップロードしたとします。

ファイル名と固有名詞が少し変わっても、内容が変わらなければ、文書は依然として機密文書のままです。

インターネットは、世界中の情報が集まる巨大な図書館と見なすことができ、検索エンジンはその図書館の賢い司書のような役割を果たします。

この「司書」は、本のタイトルだけでなく、内容や文脈を理解し、関連する情報を結びつけて、私たちが探しているものを見つけ出します。

2. 「検索避け」の限界：洗練された技術の前では無力

したがって、名前を変更するだけでは検索エンジンを欺くことはできません。

検索エンジンはキーワード検索を超え、画像認識や文脈理解などの技術を活用して、関連する情報をつなぎ合わせて、目的の情報を見つけ出します。

情報を守りたい場合は、名前を変更するだけでなく、アクセス制限などの強固な保護策を講じる必要があります。

また、Twitterのような公開プラットフォームに隠したい情報をアップロードすることは、矛盾した行為です。

一般的に、公開プラットフォームにおいては、特定のコンテンツを検索エンジンから隠すための直接的な手段は限られています。

例えば、Twitterのようなプラットフォームでは、個々のユーザーがrobots.txtの設定やnoindexタグを利用してコンテンツのクローリングを制御することはできません。

公開プラットフォーム上のコンテンツは、基本的に検索エンジンによってインデックスされ、公開情報として扱われます。

3. 画像 検索とAI 検索の進化：隠れた情報も浮かび上がる

近年、画像認識とAI 検索技術は飛躍的に進化しており、「検索避け」の効果はさらに限定的になっています。

特に、CNNを用いた画像検索技術は、深層学習を活用して、画像内の細かな特徴まで識別することが可能です。

これにより、画像内のオブジェクトやシーンの認識、さらにはテキストの読み取りまで行えるため、

作品名やキャラクター名、一部デザインを変更したとしても、関連する過激なファンアートが検索結果に表示されることがあります。

一方で、AI 検索では、Transformerアーキテクチャが主流となっており、文章全体を一度に処理することで、文脈を高度に理解することができます。

GoogleのBERTやMicrosoftのTuringモデルなどの進化したAI 検索モデルは、単なるキーワード検索を超え、単語の組み合わせが表す複雑な概念や文章全体の意味を把握し、

関連する情報を効率的に抽出します。

その結果、過激なファンアートを投稿する際に、意図的に作品名やキャラクター名を避けたとしても、これらのAI 検索技術により作品が特定されやすくなっています。

4. 情報公開の倫理的な責任：慎重な判断と適切な対策

上記のように、現代の検索エンジンは高度な技術を駆使して情報を収集・分析しており、「検索避け」のような単純な対策では効果が期待できません。

情報公開を行う際には、以下の点に注意する必要があります。

著作権侵害や名誉毀損などの法的リスク: 過激なファンアートの公開は、著作権侵害や名誉毀損などの法的リスクを伴う可能性があります。
公開前に、著作権法や倫理的な問題について十分に理解しておくことが重要です。
表現の自由と倫理的な境界線: インターネット上での表現の自由は尊重されるべきですが、同時に倫理的な境界線についても考慮する必要があります。
過激な表現が社会に与える影響について、十分に検討する必要があります。
適切な情報管理とセキュリティ対策: 情報公開を行う際は、適切な情報管理とセキュリティ対策を講じることが重要です。
パスワードの管理やアクセス制限などの対策を徹底し、情報漏洩のリスクを低減する必要があります。

5. 結論：情報公開の倫理と責任ある行動

現代の検索エンジンは、過激なファンアートを検出する一方で、高度なコンテンツフィルターを備えており、

社会倫理に反する画像を検出し、検索結果から除外する能力も持っています。

多くの公開プラットフォームでは、シャドウバンという手法を用いて特定のコンテンツの露出を抑制し、

過激なファンアートが一般ユーザーに表示されないよう努めています。

しかし、これらの技術が存在するからといって、過激なファンアートを無対策で公開することが許容されるわけではありません。

コンテンツフィルターやシャドウバンは完璧ではなく、不適切なコンテンツを完全にブロックすることはできません。

公開されるコンテンツが法的な規制や社会的な倫理に適合しているかどうかが重要であり、著作権侵害、名誉毀損、不快感を与える可能性のあるコンテンツは、

社会的な責任と法的な責任を伴います。

情報公開を行う際には、その影響を常に意識し、責任ある行動を取ることが求められます。

「検索避け」のような限定的な対策やコンテンツフィルターに依存するのではなく、倫理的な問題と情報管理の重要性を理解した上で、適切な判断を行うことが不可欠です。

例えば、過激なファンアートを公開する際には、その作品が特定のコミュニティ内でのみ共有されるようにクローズプラットフォームを利用する、

またはアクセスを制限するなどの措置を講じることが考えられます。

適切な情報管理とセキュリティ対策を施し、インターネット上での安全なコンテンツ共有に努めることが重要です。

情報公開の際には、法的な規制や社会的な倫理を尊重し、責任ある行動を取ることが求められます。

倫理的な問題と情報管理の重要性を理解し、適切な判断を行うことが、情報公開の倫理と責任ある行動の核心です。

Permalink | 記事への反応(1) | 10:09

2024-06-22

■AI ちゃん『過激なファンアートと「検索避け」の無意味性：現代の検索エンジンを欺くことはできない』

過激なファンアートを「検索避け(伏せ字などを含む)」と呼ばれる手法で公開するケースがある。しかし、この方法は本当に効果的なのだろうか？

本記事では、検索エンジンの仕組みと「検索避け」の限界について解説し、情報公開における倫理的な問題について考察する。

1. 検索エンジンの仕組み：賢い司書のように情報を整理する

ファイル名と固有名詞が少し変わっても、内容が変わらなければ、文書は依然として機密文書のままです。

インターネットは、世界中の情報が集まる巨大な図書館と見なすことができ、検索エンジンはその図書館の賢い司書のような役割を果たします。

この「司書」は、本のタイトルだけでなく、内容や文脈を理解し、関連する情報を結びつけて、私たちが探しているものを見つけ出します。

2. 「検索避け」の限界：洗練された技術の前では無力

したがって、名前を変更するだけでは検索エンジンを欺くことはできません。

情報を守りたい場合は、名前を変更するだけでなく、アクセス制限などの強固な保護策を講じる必要があります。

また、Twitterのような公開プラットフォームに隠したい情報をアップロードすることは、矛盾した行為です。

一般的に、公開プラットフォームにおいては、特定のコンテンツを検索エンジンから隠すための直接的な手段は限られています。

公開プラットフォーム上のコンテンツは、基本的に検索エンジンによってインデックスされ、公開情報として扱われます。

3. 画像 検索とAI 検索の進化：隠れた情報も浮かび上がる

近年、画像認識とAI 検索技術は飛躍的に進化しており、「検索避け」の効果はさらに限定的になっています。

特に、CNNを用いた画像検索技術は、深層学習を活用して、画像内の細かな特徴まで識別することが可能です。

これにより、画像内のオブジェクトやシーンの認識、さらにはテキストの読み取りまで行えるため、

作品名やキャラクター名、一部デザインを変更したとしても、関連する過激なファンアートが検索結果に表示されることがあります。

一方で、AI 検索では、Transformerアーキテクチャが主流となっており、文章全体を一度に処理することで、文脈を高度に理解することができます。

関連する情報を効率的に抽出します。

4. 情報公開の倫理的な責任：慎重な判断と適切な対策

情報公開を行う際には、以下の点に注意する必要があります。

著作権侵害や名誉毀損などの法的リスク: 過激なファンアートの公開は、著作権侵害や名誉毀損などの法的リスクを伴う可能性があります。
公開前に、著作権法や倫理的な問題について十分に理解しておくことが重要です。
表現の自由と倫理的な境界線: インターネット上での表現の自由は尊重されるべきですが、同時に倫理的な境界線についても考慮する必要があります。
過激な表現が社会に与える影響について、十分に検討する必要があります。
適切な情報管理とセキュリティ対策: 情報公開を行う際は、適切な情報管理とセキュリティ対策を講じることが重要です。
パスワードの管理やアクセス制限などの対策を徹底し、情報漏洩のリスクを低減する必要があります。

5. 結論：情報公開の倫理と責任ある行動

現代の検索エンジンは、過激なファンアートを検出する一方で、高度なコンテンツフィルターを備えており、

社会倫理に反する画像を検出し、検索結果から除外する能力も持っています。

多くの公開プラットフォームでは、シャドウバンという手法を用いて特定のコンテンツの露出を抑制し、

過激なファンアートが一般ユーザーに表示されないよう努めています。

しかし、これらの技術が存在するからといって、過激なファンアートを無対策で公開することが許容されるわけではありません。

コンテンツフィルターやシャドウバンは完璧ではなく、不適切なコンテンツを完全にブロックすることはできません。

社会的な責任と法的な責任を伴います。

情報公開を行う際には、その影響を常に意識し、責任ある行動を取ることが求められます。

例えば、過激なファンアートを公開する際には、その作品が特定のコミュニティ内でのみ共有されるようにクローズプラットフォームを利用する、

またはアクセスを制限するなどの措置を講じることが考えられます。

適切な情報管理とセキュリティ対策を施し、インターネット上での安全なコンテンツ共有に努めることが重要です。

情報公開の際には、法的な規制や社会的な倫理を尊重し、責任ある行動を取ることが求められます。

倫理的な問題と情報管理の重要性を理解し、適切な判断を行うことが、情報公開の倫理と責任ある行動の核心です。

参考にしてください

anond:20240607001500 anond:20240603171311 anond:20240702074550 anond:20240702093233 anond:20240702094052 anond:20240702094322

Permalink | 記事への反応(1) | 12:11

2024-06-09

■

SearchConsole で自動生成されたようなクエリパラメーター付きのURLが大量にリストにある

有効なページはそこまで多くないのに、それらのせいでページ数が数万とかになってる

もちろん robots.txt や noindex や canonical はついてるからインデックスはされてないんだけど、SearchConsoleの管理画面に一覧に URL として並んでる

こういうのがあるから有効なページがクロールされるのが遅かったりするのかと思う

実際のページが 500 でも数万件あるとみなされてればクローラーは数万件を処理するわけだし

インデックスに登録されないとサイト内検索が使えず不便

Permalink | 記事への反応(0) | 22:06

2024-06-02

■anond:20240601235834

そもそも権利制限規定に基づいた公正な利用は妨げられないのは前提として

対機械にはrobots.txt

対人間には規約で同意しなければアクセスできないようにすれば学習禁止宣言は有効になる

ただしログイン≒規約に同意しなくてもコンテンツにアクセスできるならいくら無断学習禁止と言っても無理、だったかな

規約に同意してない＝契約関係にない＝学習禁止に従う道理がない

あとは30条の4で狙い撃ちLoRAが云々も「元の著作物から感得できる表現を享受する目的があるなら」条件を満たさない可能性があるだから

いくらでも抜け道あるのが現実だね

まぁ言うだけタダだから

Permalink | 記事への反応(1) | 00:15

2024-01-26

■anond:20240126020048

AI推進派視点から見て、日本において著作権で戦おうとしたのが良くなかったのはたしかにそう。でもそれ以外に戦いようが無かったので少しかわいそうにも思う。

それで反AI派が完全敗北したかというとそうでもなく、「特定絵柄模倣のための学習はアウト」「学習に使うなという意思表明(robots.txt等)がある場所での学習はアウト」というお墨付きを得られたので、AI 規制穏健派は勝利したと思っているのでは？

推進派はそんなの最初から自明と認識していた人がほとんどだろうが。

Permalink | 記事への反応(1) | 17:15

2023-08-21

■anond:20230821151231

一応、Xの利用規約を貼っておくが、利用規約には違反している。法律については専門家ではないので分からないが日本だと「不正アクセス防止法」に該当しそうな気がする。

ユーザーは、当社より本サービスへのアクセスとその利用について許諾を得ることの対価として、当社ならびにその第三者プロバイダーおよびパートナーが、本サービス上に広告を掲載すること、またはコンテンツもしくは本サービスから得られる情報（その提供者がユーザーであるか他者であるかを問わず）の表示に関連した広告を掲載することに同意するものとします。ユーザーはまた、たとえば当社のサービスの妨害や当社が提供するインターフェースおよび手順以外の方法を使った当社のサービスへのアクセスにより、当社のサービスの不正利用をしないことにも同意するものとします。ユーザーは、適用される法令が明示的に許容する範囲のみを除き、本サービスの一部としてユーザーに提供されるソフトウェアの技術的制限を回避したり、ソフトウェアのリバースエンジニアリング、逆コンパイル、逆アセンブルをしたりしてはなりません。ユーザーは、本サービスへのアクセスまたはその使用中に、次のいずれも行ってはなりません。（i）本サービス、当社のコンピュータシステム、または当社のプロバイダーのテクニカルデリバリーシステムの非公開部分へのアクセス、不正な改ざんもしくは使用、（ii）システムもしくはネットワークの脆弱性の探索、スキャンもしくはテスト、またはセキュリティもしくは認証方法の侵害もしくは回避、（iii）当社から提供される（かつ該当する利用条件に従う場合にのみ提供される）、当社の現在利用可能な公開インターフェース以外の方法（自動プログラムか否かを問わない）での、本サービスへのアクセスもしくはその探索またはアクセスもしくは探索の試み（ただし、当社との個別契約で特に許可されている場合は除く）（注: 本サービスへのクローリングは、robots.txt ファイルの定めによる場合は認められていますが、当社による事前の同意がないまま本サービスのスクレイピングをすることは明示的に禁止されています）、（iv）電子メールもしくは投稿でのTCP/IP パケットヘッダーまたはヘッダー情報の一部の偽造、または方法の如何を問わず、改ざんされた情報、詐欺的情報もしくは情報源を偽装した情報を送る目的での本サービスの利用、または（v）いずれかのユーザー、ホストもしくはネットワークのアクセスの妨害、または遮断（もしくはその試み）（本サービスへのウィルスの送信、オーバーロード、フラッディング、スパミング、メールの大量送信、あるいは本サービスを妨害したり過度な負荷を与えたりする方法でコンテンツの作成をスクリプトすることを含みますが、これらに限定されません）。当社はさらに、（i）適用されるすべての法令、規則、法的手続や政府の要請へ対応し、（ii）本規約を実施し（規約違反の疑いがある場合の調査を含みます）、（iii）不正利用、セキュリティもしくは技術的な問題を検知、防止もしくはその対処をし、（iv）ユーザーからのサポート要請に対応し、または（v）Twitterやそのユーザーおよび社会全体の権利、財産もしくは安全を保護するために、当社が必要であると合理的に判断する一切の情報について、アクセス、閲覧、保存、および公開する権利を留保します。当社は、当社のプライバシーポリシーの定めによる場合を除き、個人識別情報を第三者に開示することはありません。

Permalink | 記事への反応(0) | 15:25

2023-01-13

■anond:20230113161346

どっち派とか関係なく技術者の立場から言うとrobots.txt内にサイトに対するスクレイピングのルールを定義できるんだからこんなこといってたら笑われるぞ

Permalink | 記事への反応(1) | 16:40

2022-07-14

■anond:20220714102737

悩ましいですね。

ヤフコメは魚拓のクローリングをrobots.txtで禁止してるから、あっちはあっちで無秩序なんですよねえ・・・数か月したら記事ごと消えるし。

テキストだけなんで軽いってのもメリットですねこっちは。

Permalink | 記事への反応(0) | 10:33

2022-05-24

■googleが情報 価値低いページインデックスに入れて困る

noindex付与して更にrobots.txtできょひまでしてんのにバグってんのかおら！

このページを Google 検索からブロックしたい場合、robots.txt を使用する方法はインデックス登録を回避する正しい方法ではありません。インデックスに登録されないようにするには、robots.txt によるブロックを削除して、さらに「noindex」を使用してください。

https://support.google.com/webmasters/answer/7440203#indexed_though_blocked_by_robots_txt

より抜粋

リンクがあるから辿って保存しましたってアホかこいつ。まあグーグルのサービスって基本アホなの多いんだよな

雑に作って雑に運用して、それで使ってて切れそうになることばっかりだよ。死ね

しかも回避するために

robots.txt によるブロックを削除して

と来たものだ。わかるかうんなもの。シューティングゲームの攻略で、死んで内部ランク下げてください。とか言うのと同じくらい理不尽だろうが。

理屈は何となく分かる、robots.txtに従ってページを読み込めないので、ページにnoindexが書いてあるかどうかわからんっていうんだろう？あほか

だったら最初から robots.txtを優先してインデックススンナやボケが。アホか。人間の動物的な直感を配慮しろ。

まあそこも理屈としてはrobotx.txtはあくまでも「クロール」の制御であって「インデックス」の制御するためのものじゃないって言いたいんだろうけど、いびつすぎるんだよなぁ。

はーあほくさ

Permalink | 記事への反応(0) | 22:17

2021-06-20

■検索避けとかいうおまじまない

意味ある？

いや個別の事情は知らんけど

暗黙の了解で「検索避け」を強制する意味ある？

robots.txt や .htaccess でアクセス制限をかけたり

個人サイトのＨＴＭＬに meta（name="robots" content="nofollow, noindex"）タグを仕込んだり

単/語/を/ス/ラ/ッ/シ/ュ/と/か/で/区/切/っ/た/り

原作の題名を「夢」とか「腐」とかでもじったり

親作品をコンテンツツリーに登録しなかったり

そんなことをやっても、今はあなたたちの言う「一般人」が一般的にＳＮＳでＵＲＬを共有するネット社会だよ

登録型検索サイトなんかで閲覧者を制御できていた時代とは違うんだよ

いつもＳＮＳで簡単に文脈が切り取られてクソリプが飛び交うだろ

「一般人」は暗黙の了解を知らないぞ

「公式」はとっくに同人二次創作界隈でも人気の大手イラスト投稿ＳＮＳを把握してる

どうせ強制するなら絶対に閲覧者の目につくところで命令しろ

あと親作品はコンテンツツリーに登録するように

Permalink | 記事への反応(1) | 09:43

2021-02-02

■anond:20210202093959

個人サイトだけど、

久々にrobots.txtを手動更新した。

ミラーをすべてマスターに向けさせて、マスターにもミラーにもCDNを挟んだ。

いま、オリジン隠しをどうやるかを検討している

オリジンにCDNを迂回してフルクロールというのが発生して

robots.txtだけはCDNを経由すると別なものが配布

オリジンはすべてDisallowに変更した

Permalink | 記事への反応(0) | 09:48

2021-01-27

■[増田統計]2021年 1月26日 火曜日の増田

時間	記事数	文字数	文字数平均	文字数中央値
00	102	13478	132.1	42
01	96	11913	124.1	41.5
02	44	7058	160.4	46
03	28	1934	69.1	43
04	27	6147	227.7	36
05	13	2458	189.1	111
06	18	1478	82.1	60.5
07	68	5615	82.6	42
08	148	16117	108.9	36.5
09	185	14870	80.4	41
10	130	15101	116.2	44
11	149	11269	75.6	44
12	156	19118	122.6	35.5
13	89	12571	141.2	53
14	183	13104	71.6	31
15	169	12502	74.0	27
16	145	13378	92.3	40
17	134	17541	130.9	50
18	161	18429	114.5	47
19	251	18969	75.6	42
20	177	12097	68.3	33
21	212	22478	106.0	31
22	152	10828	71.2	30
23	173	24428	141.2	41
1日	3010	302881	100.6	38

本日の急増単語 ()内の数字は単語が含まれる記事数

東軍(4), 湯シャン(3), robots.txt(3), だべり(3), 映画秘宝(7), VDSL(3), 石綿(3), 豊臣(4), 西軍(5), 関ケ原(3), 大名(10), 列強(3), 世界線(13), シャンプー(10), 変異(11), 五輪(13), GOTO(14), ✋(8), トラベル(6), クンニ(10), 謝れ(6), irasutoya(11), GoTo(12), ワクチン(29), 国際(9), エビデンス(13), 論文(21), KKO(54), post(13), 困窮(8), 開催(20), 野菜(21), 株(15), オリンピック(16), 入院(12), 中止(17), 貯金(18)

■関ケ原の戦いで西軍が勝った世界線に住んでる /20210 126012 231(27), ■姉夫婦がアホすぎる件 /20210 126174445(12), ■『理解ある彼くん現象』とは、実は非常に残酷な加害の実態ではないか？ /20210 126180100(12), ■妻が謝ることが出来ない人だと気づいた /20210 125143558(12), ■「～の批判は当たらない」って表現がクソザコすぎる /20210 126182128(12), ■みんなが大好き、和歌山県第3区の県民です /20210 125131814(10), ■どうして「とりわけ」なのか？ /20210 126143136(10), ■SHOW BY ROCK!!を見ていて不安になること /20210 125192433(8), ■anond：20 20 1103231803 /20 20 1104180726(8), ■統計学の素人がGoTo トラベル論文を斜め読みする /20210 125115059(8), ■貯金がウン百万あるんだがおすすめの投資法を教えてクレメンス /20210 126230418(7), ■彼氏だいすき /20210 126013040(7), ■自粛やめちゃだめですか？ /20210 126211637(7), ■なんで宝くじを買うの？ /20210 126144237(6), ■冷笑的な反応が許容されなくなった /20210 126154800(6), ■anond：20210 126005443 /20210 126162407(6), ■日本で通貨として利用されているモノ／サービス三選 /20210 126010559(6), ■海外オタク女子のパリピ具合についてけなかったなという思い出 /20210 126005644(6), ■進化って突然変異から発生するんじゃん /20210 126005443(6), ■野菜を食える人間は裕福層だ /20210 126192426(6), ■ /20210 126193351(6), ■二次創作における、原作否定のお気持ち表明 /20210 125174359(6), ■光回線の代替案求む /20210 126091402(6)

Permalink | 記事への反応(0) | 00:05

2021-01-26

■

とりあえず、サイトそのもの＞動的生成

robots.txtのみ静的生成

を

cloudfrontで配信　 robots.txtはcloudfronから生成

というサイトと配信内容ごとにCDN側でrobots.txtを捻じ曲げてみた

オリジンはフルでDisallow CDN からはallow

つかれた

Permalink | 記事への反応(0) | 19:30

■anond:20210126095630

絵かきのサイトの場合、絵や動画を低速回線にホストして、同時利用を制限しているが、ロボットも含めて禁止ではない。。がロボットサン同時に食べ過ぎ問題はあるんだろうな。ちょっとひさしぶりにrobots.txtに低速ならOKとか増えているかみてみる

Permalink | 記事への反応(1) | 10:17

■デススターが落ちてくるから☆よけてー

ガキが書いたBotを受け流しきれず、安全破壊でサイトが落ちて知らせる（２度）というのはいいが、どうしてガキが破壊したか？というときに

万が一オリジンを見つけたときに

CDN側はオリジンからはわからないから、CDN からクロールできなかったといわれると、そりゃそうかもな。

もっともレア記事なんてPASSTHRUにしてあって、

大量に持っていくと安全破壊で、サイトが落ちる。抜かれたくはないからな。

とはいえ、絵描きのサイトでもないのに、画像や動画がS3になっていないのは、こちらの落ち度。

とはいえ　いくつかのケースでは破壊が早すぎるというのと、オリジンと気がついてもオリジンから CDNに飛ぶのが難しいといわれると、そりゃそうだろうな。気をつける

回避 手段を提供していないのに避けろはナンセンス

そうかもな、合意する。

絵かきのサイトの場合は、絵は見るのが目的でクロールは対象外だから、クローラーは避けろはrobots.txtに書いてくれ　そりゃそうかもな

あの、ダース・ベイダー父へ、避け方提供して☆息子

　　　　　　　　　　　　　　　　　　　　　　　↑　やることは手紙だすだけだけど、映画の中でわりと重要なポジション

Permalink | 記事への反応(1) | 09:56

2021-01-04

■無許可のスクレイピングはやめておきなさい。

ここ最近プログラミングスクールが乱立してる流れと関係あるのかわからないけど、やけにPython使ったスクレイピングの記事が目につく。

Qiitaでスクレイピングの記事を探すと本当にたくさん出てくるけどグレーなことやってる人多くて驚く。

robots.txtがAllowならOKとか数秒あけたらOKとかサイト運営側からしたら迷惑極まりないと思うよ。

Librahack 事件とか知らない世代なんだろうけどスクレイピングやりたいならまず許可取りましょうね。

それか大人しく公開されてるAPI叩きましょう。

Permalink | 記事への反応(4) | 21:02

「robots.txt」を含む日記

■BlueskyはAIボットによるデータ収集を許可している件

前提

Blueskyのサーバーの設定（全部OK）

Xの設定（他社ボットによるデータ取集拒否）

Xは自社AIのみに利用される、Blueskyは他社AIに利用される。

Blueskyに画像をアップすると、様々なAIの学習に使われそうです。

■ChatGPTに画像の無断学習の対応策を聞いてみた

■反反AIってテクノロジー推進派風に話すけど、パチモンばかりだよね。

■[開発メモ] クローラ開発

構造と情報の変化の監視について

robots.txtの遵守について

速度/接続制限とマルチスレッディングについて

訪問済みURLのKVSについて

法的要件の確認について

UAとIPのローテーションについて

その他

追加的なヒント

■「機械学習されないための加工」は画像の価値を減らすものばかり問題

AIちゃん『過激なファンアートと「検索避け」の無意味性：現代の検索エンジンを欺くことはできない』

1. 検索エンジンの仕組み：賢い司書のように情報を整理する

2. 「検索避け」の限界：洗練された技術の前では無力

3. 画像検索とAI検索の進化：隠れた情報も浮かび上がる

4. 情報公開の倫理的な責任：慎重な判断と適切な対策

5. 結論：情報公開の倫理と責任ある行動

■AIちゃん『過激なファンアートと「検索避け」の無意味性：現代の検索エンジンを欺くことはできない』

1. 検索エンジンの仕組み：賢い司書のように情報を整理する

2. 「検索避け」の限界：洗練された技術の前では無力

3. 画像検索とAI検索の進化：隠れた情報も浮かび上がる

4. 情報公開の倫理的な責任：慎重な判断と適切な対策

5. 結論：情報公開の倫理と責任ある行動

参考にしてください

■googleが情報価値低いページインデックスに入れて困る

■検索避けとかいうおまじまない

■[増田統計]2021年1月26日火曜日の増田

本日の急増単語 ()内の数字は単語が含まれる記事数

頻出トラックバック先 ()内の数字は被トラックバック件数

■デススターが落ちてくるから☆よけてー

回避手段を提供していないのに避けろはナンセンス

■無許可のスクレイピングはやめておきなさい。

■BlueskyはAI ボットによるデータ収集を許可している件

AI ちゃん『過激なファンアートと「検索避け」の無意味性：現代の検索エンジンを欺くことはできない』

3. 画像検索とAI 検索の進化：隠れた情報も浮かび上がる

■AI ちゃん『過激なファンアートと「検索避け」の無意味性：現代の検索エンジンを欺くことはできない』

3. 画像検索とAI 検索の進化：隠れた情報も浮かび上がる

■[増田統計]2021年 1月26日火曜日の増田