「robots.txt」を含む日記 RSS

はてなキーワード: robots.txtとは

2024-11-17

anond:20241117000306

取得できる出来ないで言えば、いくらでも抜け道はあるのは自明の事。

 

大事なのはそれぞれのプラットフォーム(Xやbluesky)がどのような方針であるかを理解する事。

また、robots.txtの内容については、大手会社ははきっちり守ってAI開発してるよ。

また商用でリリースした際に、禁止しているデータを利用した場合無駄訴訟リスクを負うだけだし。

anond:20241117002213

robots.txtとき強制力ないし、破ったところで罰則もないって話やで

anond:20241116234249

どこに行ってもAI屋のクローラーrobots.txtなんか余裕で無視してユーザーエージェント偽装してブロックリストすり抜けて画像収集してるので同意とか全く意味ないんだが

2024-11-16

Blueskyはrobots.txtで何も弾いてない、クロールし放題って言ってるアホってかたっぱしかクロールして学習するようなやつがrobots.txtに従うと思ってんのか

しかもこれ自称エンジニアが書いてることもあってまじ底辺IT土方って存在するんだなって感じなんだが

BlueskyはAIボットによるデータ収集許可している件

Blueskyにアップロードしたデータは、GoogleやOpenAIBaiduや様々な会社AI学習に利用されている可能性が高いよって話。

 

前提

検索エンジンAIクローラーボットによるデータ収集学習拒否する方法としてrobots.txtを使うのが一般的で、AI学習データ収集ロボットもそれに従っています

AI開発会社はそれぞれbot名前や、どのようにrobots.txtを設定したらデータ収集をしないかを公開しています

 

Blueskyのサーバーの設定(全部OK

User-Agent: *

Allow: /

https://bsky.app/robots.txt

https://bsky.social/robots.txt

 

全部、許可しますよ。お好きにどうぞって設定になってます

実際にはサーバー負荷対策のため、ある程度の速度制限がありますコンテンツの取得に制限はありません。

 

Xの設定(他社ボットによるデータ取集拒否

# Every bot that might possibly read and respect this file

# ========================================================

User-agent: *

Disallow: /

https://x.com/robots.txt

 

基本的な設定は全てのボットデータ収集拒否となっています

一部の検索エンジンには限定してデータ収集許可をしています。(詳細は長いので省略。自分確認してください)

 

Xは自社AIのみに利用される、Blueskyは他社AIに利用される。

Xは自社のAI学習には使われます

Xは他社のAI学習拒否しています

 

Blueskyは自社ではAI学習はしないと明言しています

Blueskyは他社AIボットによるデータ収集許可しています

BlueskyにアップロードしたデータはOpenAIGoogleBaiduなど様々な会社AIロボットデータ収集され、AI学習開発に利用される可能性が高いです。

 

Blueskyに画像をアップすると、様々なAI学習に使われそうです。

もしも自分AI学習に反対の立場なら、どのAIに使われるか不明なBlueskyの方が不安だと思うんだけど。

世の中はそうなってなさそうで不思議

 

1か月くらい前からXでこの事を指摘している方はいらっしゃいましたが、まだあまり広まっていません。

Blueskyに移住した反AIの方々がこれを理解したらどのような行動に出るのでしょう。

2024-11-15

ChatGPTに画像の無断学習対応策を聞いてみた

AIAIへの対抗策を聞くってSFっぽくて楽しい

ChatGPTは嘘もつくので、あくまで参考程度に。

 

画像を生成するAIに対する対抗手段を教えてください。

画像を生成するAIによる無断学習や利用を防ぐために、以下のような対抗手段を講じることが可能です。

 

1.透かし(ウォーターマーク)の埋め込み:

画像に目に見えるまたは見えない透かしを入れることで、無断利用や生成AI学習に対して抑止効果を期待できます特に、目に見えない形で画像データ暗号的な透かしを埋め込む「デジタル透かし」技術有効です。

 

2.メタデータの埋め込みとロボット排除設定:

画像データ著作権情報や「AIによる無断学習禁止する」といったメタデータを埋め込み、ウェブサイトには robots.txt ファイル画像クローラーアクセスブロックする設定を追加します。これにより、クローリング収集抑制が期待できます

 

3.ステガノグラフィ技術の利用:

ステガノグラフィを用いて、画像に気づかれにくい形で識別情報を隠すこともできます。これにより、画像流出経路や利用先を追跡でき、無断利用の発見に役立てることができます

 

4.法的な警告表示や利用ポリシーの明示:

ウェブサイト画像の配布先に、AIによる無断利用や学習禁止する旨の法的警告や利用ポリシーを明示することも有効です。利用条件をはっきりと示すことで、AI企業研究者が慎重になる可能性が高まります

 

5.画像認証技術の導入:

AIが利用しにくいように、画像人間には気づきにくいパターンノイズを挿入する技術もあります。たとえば、AIにはノイズとして認識されるが、人間には問題なく見える小さな変形やカラーパターンを追加することで、AIによるデータ学習が困難になる場合があります

 

これらの対策は、画像生成AIに対する防御としては有効ですが、100%無断利用を防げるわけではありません

 

・生成AI学習を混乱させる手段はありませんか?

生成AI学習を混乱させるための手段には、以下のような方法が考えられます

 

1.ノイズや歪みの追加:

画像に目立たない程度のノイズや歪みを加えることで、アノテーションモデル境界や特徴を正確に認識しにくくする手法です。たとえば、ピクセルレベルランダムノイズを追加する、わずかに画像をぼかす、あるいは境界付近に小さな変化を加えるといった手法有効です。

 

2.不規則輪郭の挿入:

アノテーション処理は、対象物輪郭や特徴を正確に捉えることが重要です。そのため、背景や対象物輪郭わずかな不規則性を加えることで、アノテーションツール対象物境界を正確に判断しにくくすることができます。たとえば、背景に模様や偽の輪郭を挿入する方法です。

 

3.テキストやラベルを埋め込む:

画像人間には視認しづらい形でテキストやラベルを埋め込むと、AIアノテーションプロセスが混乱する場合があります。これにより、AI意図しない領域注視することがあり、誤認識を誘発します。

 

4.色や明るさのランダム変化:

画像の色や明るさを部分的に変化させ、一定パターンを持たないようにすることもアノテーション処理の混乱を招く一手です。これは、オブジェクトの検出や認識が色や明暗差異依存している場合有効です。

 

5.擬似的なオブジェクトの追加:

画像内に小さな擬似的なオブジェクトや模様を追加することで、AIがそれらを誤って主要なオブジェクト認識し、アノテーション精度が低下する可能性があります特に、背景に似たオブジェクトを散りばめることで、AIはどの部分が対象なのか判断しにくくなります

 

6.アドバーリアル技術活用:

AI認識を誤らせるために用いられる「アドバーリアル敵対的)な例」を使う方法もあります特定ピクセルパターンや色の配列を配置することで、AIアノテーション意図的に誤作動するよう誘導できます。この技術深層学習モデルに対して特に効果があります

 

7.カモフラージュテクニック:

画像全体にわずかなカモフラージュパターンを重ねることで、AI認識を混乱させる方法です。この手法では、人間が見た場合には問題なく認識できるものの、AI対象を捉える際に誤って検出するようなパターン画像に追加します。


思考実験として、danbooruなどアノテーションの元データとして使われているサイトタグが荒られたら画像生成AIモデル作成ダメージはありますか?

思考実験として、Danbooruといったアノテーションデータタグが荒らされた場合画像生成AIモデル作成に与える影響は以下の通りです。

 

1. データ品質が低下する

Danbooruは、イラスト画像に対して詳細なタグ付与されており、これらのタグ情報画像生成AI学習にとって非常に重要です。タグが荒らされることで、画像タグ対応関係が崩れ、モデルが正確な特徴を捉えにくくなるため、生成精度が低下します。

例えば、特定キャラクターテーマに関連するタグが荒らされ、誤った内容のタグ付与されると、モデルはその誤った情報学習し、キャラクターの特徴や設定が再現されにくくなる可能性があります

 

2. ノイズデータの影響

タグが荒らされると、モデルの訓練にノイズデータが増えるため、学習効率悪化します。たとえば、「黒髪」のタグが誤って「金髪」などに変更された場合モデルは同じ画像に対して異なる特徴を学習することになり、結果として生成画像一貫性が失われることが考えられます

また、同じ画像に異なるタグ付与されることで、モデル過学習や誤学習引き起こし、生成された画像本来意図からかけ離れたものになる可能性もあります

 

3. キャラクタースタイル再現性が低下する

Danbooruでは、特定キャラクターアートスタイル識別するタグが多く存在します。これらが荒らされると、特定キャラクタースタイルデータが混乱し、モデルが正確にキャラクターの特徴を把握できなくなるため、ユーザーが期待する生成結果が得られにくくなります

例えば、あるキャラクタータグが「髪型」「服装」「色彩」などで荒らされると、そのキャラクター再現曖昧になり、モデルが正しいビジュアルを生成できなくなることがあります

 

4. タグ信頼性低下によるモデル不安定

タグが荒らされると、データセット全体の信頼性が低下します。信頼性の低いデータをもとに学習したモデルは、特定の条件で異常な出力を生成することが多くなり、モデル全体の品質が低下します。これは、生成AI学習中に「どの情報を信頼すべきか」を判断できなくなるため、生成結果が不安定になったり、多様性が失われたりすることが考えられます

 

5. 検索フィルタリング精度の低下

AIモデルを利用するユーザーは、タグを通じて希望する画像を生成したり、条件に合った画像を探します。タグが荒らされると、AIモデル検索フィルタリング機能の精度も低下し、生成プロンプトが期待通りに機能しなくなる可能性があります。たとえば、「風景タグが荒らされ、異なるジャンル画像が混入するようになると、風景画像を生成したいユーザー要求が満たされにくくなります

 

結論

Danbooruなどのタグが大規模に荒らされた場合、生成AIモデルの精度低下や一貫性の欠如が発生しやすくなり、特にキャラクター特定スタイル依存する画像生成モデルに大きなダメージを与える可能性が高いです。


すでに学習済みのモデルを使って汚染されたデータクレンジングや異常値検出を行うなど対策される可能性がありますが、それらを阻害する手段はありますか?

無断での学習妨害し、学習コストを増加させるために、上記方法を阻害する手法には以下のようなアイデアがあります。これらの手法は、意図的にデータセットの品質一貫性を崩すことで、学習モデルの精度を低下させ、データクレンジングや異常値検出のプロセスを複雑化することが目的です。

 

1. 偽タグノイズタグを大量に追加する

意図的に誤ったタグ無関係タグ画像データ付与し、データセットの信頼性を低下させます。これにより、転移学習やラベルノイズ検出が困難になり、正確な特徴量を学習するコストが増加します。

例えば、キャラクター画像に全く無関係タグ(「動物」や「風景」など)を追加することで、モデルがどのタグが信頼できるか判別しにくくなり、誤ったラベルノイズとして学習されるリスクが増えます

 

2. 特徴量をぼかす/微妙な変更を加える

特徴量ベースクレンジング類似分析に影響を与えるため、画像の特徴がわずかに異なるように加工を施します。具体的には、色調を微妙に変える、ランダムピクセル位置ノイズを追加する、または特定の部位を意図的にぼかすことで、モデル抽出する特徴量の安定性を低下させます

この方法により、同じキャラクタースタイルであっても類似分析が困難になり、正確なクレンジングが行いにくくなるため、データ処理のコストが増加します。

 

3. アノマリーに近いデータ意図的に増やす

特徴が異なるバリエーションや擬似的な異常データを大量に追加することで、異常検出アルゴリズム信頼性を下げます。たとえば、キャラクターデザインや背景を少しずつ変えた画像意図的に作成することで、異常値検出が頻繁に誤検出されるようにします。

こうしたデータが混在することで、オートエンコーダーアンサンブルモデルを使った異常検出が混乱し、正確な異常サンプルの抽出が困難になります

 

4. 高頻度で微小なラベル変更を行う

学習済みモデル転移学習やラベルノイズ検出を阻害するために、同じ画像に対してラベルを定期的に変える手法です。微小な変更を行うことで、モデルは正しいラベル安定的学習することが難しくなり、モデル信頼性が低下します。

例えば、ラベル黒髪」を「暗めの髪」や「濃い色の髪」などに頻繁に切り替えることで、学習に不確実性を持ち込むことが可能です。

 

5. 意図的に類似画像多重登録する

データセット内で非常に類似した画像複数の異なるタグ登録することで、モデル学習を混乱させます特定キャラクター画像を少しずつ変化させて複数タグを付けると、モデルは「どのタグがどの特徴に対応しているのか」を判別しにくくなり、データセットのクレンジングが複雑化します。

特にタグ一貫性が失われるため、類似分析アンサンブルモデルによる異常検出の効果を低下させることが期待できます

 

6. アドバーリアルノイズ付与

AIモデル認識を混乱させるように、アドバーリアルノイズ敵対的な例)を追加します。人間にはほとんど気づかれないレベルノイズ画像に追加し、モデル特定の特徴を正確に認識できないようにすることができます

このノイズにより、モデルの特徴量ベース学習が混乱し、意図した通りに学習できないため、クレンジングの精度も低下し、データ処理の手間が増加します。

 

7. 乱数ベースの偽ラベル生成

特定ルールではなくランダムタグをつけたり、特定カテゴリ間でランダムにラベルを入れ替える方法です。これにより、ラベル画像の関連性が薄れ、アノテーション一貫性が失われます。この乱数による偽ラベル付与は、ラベルノイズ検出やアノマリー検出において、真のラベルを見極めるコストを大幅に増加させます

 

まとめ

これらの手法は、AI学習クレンジング意図的に妨害し、無断学習にかかるコストを増加させるために有効です。特に、「微小な変更」や「アドバーリアルノイズ付与」といった手法は、見た目の品質に影響を与えずにモデルノイズを持ち込むため、非常に効果的です。

反反AIってテクノロジー推進派風に話すけど、パチモンばかりだよね。

著作権がーとか叫んでるけど、テクノロジーって、そんな著作権がこうだからなんて強権じゃないんすよね。

 

古くはrobots.txtから

コピーレフト

OSS

フェアユース

DRM

ダウンロード違法化

エミュレーター

オプトインやオプトアウト

 

なんでかって?

情報処理に、複製容易性による社会影響って基本があるんすよ。

法律的に正しい利用だとしても、複製容易性によって、その運用が上手くいかない可能性がある。

つう基本があるんすよ。

 

からテクノロジーは、こういう理由法律的には正しいけど、それで被害を被る人がいるかもしれない。

それを想定して、オプトインやオプトアウトが発明されたんですよ。

個人情報保護なんて、法律死ぬほど後追いなのご存じ?

 

そこの反反AI robots.txtって何のためにあるかご存じ?

 

君ら戦うの勝手だけど、テクノロジー代弁者みたいなのやめて欲しい

テクノロジーが頭悪いと思われるから

2024-11-13

[] クローラ開発

構造情報の変化の監視について

robots.txtの遵守について

速度/接続制限マルチスレッディングについて

訪問済みURLのKVSについて

法的要件確認について

UAIPのローテーションについて

その他

追加的なヒント

2024-11-12

機械学習されないための加工」は画像価値を減らすものばかり問題

robots.txtなどでWebクローラーに避けてもらう

パスワード付きページなので条件が揃わないと外部からアクセスできないようにする

画像の中にサインを入れておいて機械学習側の誤爆を狙う

画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする

画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)

スクレイピング対象から避けやすくするため長辺を256px未満にする←New!

上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像劣化させる方向にばかり頭を使っている印象。

仮にそれで機械学習対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。

=====

2024/11/13追記

そう言えば、コピープロテクトのせいで正規ユーザー被害を被る、って話は昔からあったね。

CDリッピングは容易で法的にもセーフだけど、そのせいでCCCDかいう特級呪物が産まれたし。

ただ、正規ユーザー被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン

でも、無償公開分……収益考慮しない趣味絵のようなものにまでウォーターマーク適用するのは (正規ユーザー被害を受けるので) よろしくない。

逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像ウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。

2024-07-13

いやキミはむしろ勉強したほうがいいです。何が検索避けの作法だよ、一事が万事過ぎ

AIちゃん過激ファンアートと「検索避け」の無意味性:現代検索エンジンを欺くことはできない』

過激ファンアートを「検索避け(伏せ字などを含む)」と呼ばれる手法で公開するケースがある。しかし、この方法は本当に効果なのだろうか?

記事では、検索エンジンの仕組みと「検索避け」の限界について解説し、情報公開における倫理的問題について考察する。

 

1. 検索エンジンの仕組み:賢い司書のように情報を整理する

想像してみてください。あなた重要機密文書を持っており、ファイル名と文書内の固有名詞を少し変えてインターネットアップロードしたとします。

ファイル名と固有名詞が少し変わっても、内容が変わらなければ、文書は依然として機密文書のままです。

インターネットは、世界中情報が集まる巨大な図書館と見なすことができ、検索エンジンはその図書館の賢い司書のような役割を果たします。

この「司書」は、本のタイトルだけでなく、内容や文脈理解し、関連する情報を結びつけて、私たちが探しているものを見つけ出します。

 

 

2. 「検索避け」の限界:洗練された技術の前では無力

したがって、名前を変更するだけでは検索エンジンを欺くことはできません。

検索エンジンキーワード検索を超え、画像認識文脈理解などの技術活用して、関連する情報をつなぎ合わせて、目的情報を見つけ出します。

情報を守りたい場合は、名前を変更するだけでなく、アクセス制限などの強固な保護策を講じる必要があります

また、Twitterのような公開プラットフォームに隠したい情報アップロードすることは、矛盾した行為です。

一般的に、公開プラットフォームにおいては、特定コンテンツ検索エンジンから隠すための直接的な手段は限られています

例えば、Twitterのようなプラットフォームでは、個々のユーザーrobots.txtの設定やnoindexタグを利用してコンテンツクローリング制御することはできません。

公開プラットフォーム上のコンテンツは、基本的検索エンジンによってインデックスされ、公開情報として扱われます

 

 

3. 画像検索AI検索進化:隠れた情報も浮かび上がる

近年、画像認識AI検索技術は飛躍的に進化しており、「検索避け」の効果さら限定的になっています

特にCNNを用いた画像検索技術は、深層学習活用して、画像内の細かな特徴まで識別することが可能です。

これにより、画像内のオブジェクトやシーンの認識さらにはテキストの読み取りまで行えるため、

作品名キャラクター名、一部デザインを変更したとしても、関連する過激ファンアート検索結果に表示されることがあります

一方で、AI検索では、Transformerアーキテクチャが主流となっており、文章全体を一度に処理することで、文脈を高度に理解することができます

GoogleのBERTやMicrosoftのTuringモデルなどの進化したAI検索モデルは、単なるキーワード検索を超え、単語の組み合わせが表す複雑な概念文章全体の意味を把握し、

関連する情報効率的抽出します。

その結果、過激ファンアート投稿する際に、意図的作品名キャラクター名を避けたとしても、これらのAI検索技術により作品特定されやすくなっています

 

 

4. 情報公開倫理的責任:慎重な判断と適切な対策

上記のように、現代検索エンジンは高度な技術を駆使して情報収集分析しており、「検索避け」のような単純な対策では効果が期待できません。

情報公開を行う際には、以下の点に注意する必要があります

 

 

5. 結論情報公開倫理責任ある行動

現代検索エンジンは、過激ファンアートを検出する一方で、高度なコンテンツフィルターを備えており、

社会倫理に反する画像を検出し、検索結果から除外する能力も持っています

多くの公開プラットフォームでは、シャドウバンという手法を用いて特定コンテンツ露出抑制し、

過激ファンアート一般ユーザーに表示されないよう努めています

 

しかし、これらの技術存在するからといって、過激ファンアートを無対策で公開することが許容されるわけではありません。

コンテンツフィルターシャドウバン完璧ではなく、不適切コンテンツを完全にブロックすることはできません。

公開されるコンテンツが法的な規制社会的な倫理に適合しているかどうかが重要であり、著作権侵害名誉毀損不快感を与える可能性のあるコンテンツは、

社会的な責任と法的な責任を伴います

 

情報公開を行う際には、その影響を常に意識し、責任ある行動を取ることが求められます

検索避け」のような限定的対策コンテンツフィルター依存するのではなく、倫理的問題情報管理重要性を理解した上で、適切な判断を行うことが不可欠です。

例えば、過激ファンアートを公開する際には、その作品特定コミュニティ内でのみ共有されるようにクロープラットフォームを利用する、

またはアクセス制限するなどの措置を講じることが考えられます

 

適切な情報管理セキュリティ対策を施し、インターネット上での安全コンテンツ共有に努めることが重要です。

情報公開の際には、法的な規制社会的な倫理尊重し、責任ある行動を取ることが求められます

倫理的問題情報管理重要性を理解し、適切な判断を行うことが、情報公開倫理責任ある行動の核心です。

2024-06-22

AIちゃん過激ファンアートと「検索避け」の無意味性:現代検索エンジンを欺くことはできない』

過激ファンアートを「検索避け(伏せ字などを含む)」と呼ばれる手法で公開するケースがある。しかし、この方法は本当に効果なのだろうか?

記事では、検索エンジンの仕組みと「検索避け」の限界について解説し、情報公開における倫理的問題について考察する。

 

1. 検索エンジンの仕組み:賢い司書のように情報を整理する

想像してみてください。あなた重要機密文書を持っており、ファイル名と文書内の固有名詞を少し変えてインターネットアップロードしたとします。

ファイル名と固有名詞が少し変わっても、内容が変わらなければ、文書は依然として機密文書のままです。

インターネットは、世界中情報が集まる巨大な図書館と見なすことができ、検索エンジンはその図書館の賢い司書のような役割を果たします。

この「司書」は、本のタイトルだけでなく、内容や文脈理解し、関連する情報を結びつけて、私たちが探しているものを見つけ出します。

 

 

2. 「検索避け」の限界:洗練された技術の前では無力

したがって、名前を変更するだけでは検索エンジンを欺くことはできません。

検索エンジンキーワード検索を超え、画像認識文脈理解などの技術活用して、関連する情報をつなぎ合わせて、目的情報を見つけ出します。

情報を守りたい場合は、名前を変更するだけでなく、アクセス制限などの強固な保護策を講じる必要があります

また、Twitterのような公開プラットフォームに隠したい情報アップロードすることは、矛盾した行為です。

一般的に、公開プラットフォームにおいては、特定コンテンツ検索エンジンから隠すための直接的な手段は限られています

例えば、Twitterのようなプラットフォームでは、個々のユーザーrobots.txtの設定やnoindexタグを利用してコンテンツクローリング制御することはできません。

公開プラットフォーム上のコンテンツは、基本的検索エンジンによってインデックスされ、公開情報として扱われます

 

 

3. 画像検索AI検索進化:隠れた情報も浮かび上がる

近年、画像認識AI検索技術は飛躍的に進化しており、「検索避け」の効果さら限定的になっています

特にCNNを用いた画像検索技術は、深層学習活用して、画像内の細かな特徴まで識別することが可能です。

これにより、画像内のオブジェクトやシーンの認識さらにはテキストの読み取りまで行えるため、

作品名キャラクター名、一部デザインを変更したとしても、関連する過激ファンアート検索結果に表示されることがあります

一方で、AI検索では、Transformerアーキテクチャが主流となっており、文章全体を一度に処理することで、文脈を高度に理解することができます

GoogleのBERTやMicrosoftのTuringモデルなどの進化したAI検索モデルは、単なるキーワード検索を超え、単語の組み合わせが表す複雑な概念文章全体の意味を把握し、

関連する情報効率的抽出します。

その結果、過激ファンアート投稿する際に、意図的作品名キャラクター名を避けたとしても、これらのAI検索技術により作品特定されやすくなっています

 

 

4. 情報公開倫理的責任:慎重な判断と適切な対策

上記のように、現代検索エンジンは高度な技術を駆使して情報収集分析しており、「検索避け」のような単純な対策では効果が期待できません。

情報公開を行う際には、以下の点に注意する必要があります

 

 

5. 結論情報公開倫理責任ある行動

現代検索エンジンは、過激ファンアートを検出する一方で、高度なコンテンツフィルターを備えており、

社会倫理に反する画像を検出し、検索結果から除外する能力も持っています

多くの公開プラットフォームでは、シャドウバンという手法を用いて特定コンテンツ露出抑制し、

過激ファンアート一般ユーザーに表示されないよう努めています

 

しかし、これらの技術存在するからといって、過激ファンアートを無対策で公開することが許容されるわけではありません。

コンテンツフィルターシャドウバン完璧ではなく、不適切コンテンツを完全にブロックすることはできません。

公開されるコンテンツが法的な規制社会的な倫理に適合しているかどうかが重要であり、著作権侵害名誉毀損不快感を与える可能性のあるコンテンツは、

社会的な責任と法的な責任を伴います

 

情報公開を行う際には、その影響を常に意識し、責任ある行動を取ることが求められます

検索避け」のような限定的対策コンテンツフィルター依存するのではなく、倫理的問題情報管理重要性を理解した上で、適切な判断を行うことが不可欠です。

例えば、過激ファンアートを公開する際には、その作品特定コミュニティ内でのみ共有されるようにクロープラットフォームを利用する、

またはアクセス制限するなどの措置を講じることが考えられます

 

適切な情報管理セキュリティ対策を施し、インターネット上での安全コンテンツ共有に努めることが重要です。

情報公開の際には、法的な規制社会的な倫理尊重し、責任ある行動を取ることが求められます

倫理的問題情報管理重要性を理解し、適切な判断を行うことが、情報公開倫理責任ある行動の核心です。

 

 

参考にしてください

anond:20240607001500 anond:20240603171311 anond:20240702074550 anond:20240702093233 anond:20240702094052 anond:20240702094322

2024-06-09

SearchConsole で自動生成されたようなクエリパラメーター付きのURLが大量にリストにある

有効なページはそこまで多くないのに、それらのせいでページ数が数万とかになってる

もちろん robots.txt や noindex や canonical はついてるからインデックスはされてないんだけど、SearchConsoleの管理画面に一覧に URL として並んでる

こういうのがあるから有効なページがクロールされるのが遅かったりするのかと思う

実際のページが 500 でも数万件あるとみなされてればクローラーは数万件を処理するわけだし

インデックス登録されないとサイト検索が使えず不便

2024-06-02

anond:20240601235834

そもそも権利制限規定に基づいた公正な利用は妨げられないのは前提として

機械にはrobots.txt

人間には規約同意しなければアクセスできないようにすれば学習禁止宣言有効になる

ただしログイン規約同意しなくてもコンテンツアクセスできるならいくら無断学習禁止と言っても無理、だったか

規約同意してない=契約関係にない=学習禁止に従う道理がない

あとは30条の4で狙い撃ちLoRAが云々も「元の著作物から感得できる表現享受する目的があるなら」条件を満たさな可能性がある だから

いくらでも抜け道あるのが現実だね

まぁ言うだけタダから

2024-01-26

anond:20240126020048

AI推進派視点から見て、日本において著作権で戦おうとしたのが良くなかったのはたしかにそう。でもそれ以外に戦いようが無かったので少しかわいそうにも思う。

それで反AI派が完全敗北したかというとそうでもなく、「特定絵柄模倣のための学習はアウト」「学習に使うなという意思表明(robots.txt等)がある場所での学習はアウト」というお墨付きを得られたので、AI規制穏健派勝利したと思っているのでは?

推進派はそんなの最初から自明認識していた人がほとんどだろうが。

2023-08-21

anond:20230821151231

一応、Xの利用規約を貼っておくが、利用規約には違反している。法律については専門家ではないので分からないが日本だと「不正アクセス防止法」に該当しそうな気がする。

ユーザーは、当社より本サービスへのアクセスとその利用について許諾を得ることの対価として、当社ならびにその第三者プロバイダーおよびパートナーが、本サービス上に広告掲載すること、またはコンテンツもしくは本サービスから得られる情報(その提供者がユーザーである他者であるかを問わず)の表示に関連した広告掲載することに同意するものします。ユーザーはまた、たとえば当社のサービス妨害や当社が提供するインターフェースおよび手順以外の方法を使った当社のサービスへのアクセスにより、当社のサービス不正利用をしないことにも同意するものします。ユーザーは、適用される法令が明示的に許容する範囲のみを除き、本サービスの一部としてユーザー提供されるソフトウェア技術制限回避したり、ソフトウェアリバースエンジニアリング、逆コンパイル、逆アセンブルをしたりしてはなりません。ユーザーは、本サービスへのアクセスまたはその使用中に、次のいずれも行ってはなりません。(i)本サービス、当社のコンピュータシステム、または当社のプロバイダーのテクニカルデリバリーシステムの非公開部分へのアクセス不正改ざんもしくは使用、(ii)システムもしくはネットワーク脆弱性の探索、スキャンもしくはテスト、またはセキュリティもしくは認証方法侵害もしくは回避、(iii)当社から提供される(かつ該当する利用条件に従う場合にの提供される)、当社の現在利用可能な公開インターフェース以外の方法自動プログラムか否かを問わない)での、本サービスへのアクセスもしくはその探索またはアクセスもしくは探索の試み(ただし、当社との個別契約特に許可されている場合は除く)(注: 本サービスへのクローリングは、robots.txtファイルの定めによる場合は認められていますが、当社による事前の同意がないまま本サービススクレイピングをすることは明示的に禁止されています)、(iv電子メールもしくは投稿でのTCP/IPパケットヘッダーまたはヘッダー情報の一部の偽造、または方法の如何を問わず改ざんされた情報詐欺情報もしくは情報源を偽装した情報を送る目的での本サービスの利用、または(v)いずれかのユーザーホストもしくはネットワークアクセス妨害、または遮断(もしくはその試み)(本サービスへのウィルス送信オーバーロード、フラッディング、スパミング、メールの大量送信、あるいは本サービス妨害したり過度な負荷を与えたりする方法コンテンツ作成スクリプトすることを含みますが、これらに限定されません)。当社はさらに、(i)適用されるすべての法令規則、法的手続政府要請対応し、(ii)本規約実施し(規約違反の疑いがある場合調査を含みます)、(iii)不正利用、セキュリティもしくは技術的な問題を検知、防止もしくはその対処をし、(ivユーザーからサポート要請対応し、または(v)Twitterやそのユーザーおよび社会全体の権利財産もしくは安全保護するために、当社が必要である合理的判断する一切の情報について、アクセス、閲覧、保存、および公開する権利留保します。当社は、当社のプライバシーポリシーの定めによる場合を除き、個人識別情報第三者に開示することはありません。

2023-01-13

anond:20230113161346

どっち派とか関係なく技術者立場から言うとrobots.txt内にサイトに対するスクレイピングルール定義できるんだからこんなこといってたら笑われるぞ

2022-07-14

anond:20220714102737

悩ましいですね。

ヤフコメ魚拓クローリングrobots.txt禁止してるから、あっちはあっちで無秩序なんですよねえ・・・数か月したら記事ごと消えるし。

テキストだけなんで軽いってのもメリットですねこっちは。

2022-05-24

google情報価値低いページインデックスに入れて困る

noindex付与して更にrobots.txtできょひまでしてんのにバグってんのかおら!

このページを Google 検索からブロックしたい場合robots.txt使用する方法インデックス登録回避する正しい方法ではありません。インデックス登録されないようにするには、robots.txt によるブロックを削除して、さらに「noindex」を使用してください。

https://support.google.com/webmasters/answer/7440203#indexed_though_blocked_by_robots_txt

より抜粋

リンクがあるから辿って保存しましたってアホかこいつ。まあグーグルサービスって基本アホなの多いんだよな

雑に作って雑に運用して、それで使ってて切れそうになることばっかりだよ。死ね

しか回避するために

robots.txt によるブロックを削除して

と来たものだ。わかるかうんなものシューティングゲーム攻略で、死んで内部ランク下げてください。とか言うのと同じくらい理不尽だろうが。

理屈何となく分かる、robots.txtに従ってページを読み込めないので、ページにnoindexが書いてあるかどうかわからんっていうんだろう?あほ

だったら最初からrobots.txtを優先してインデックススンナボケが。アホか。人間動物的な直感配慮しろ

まあそこも理屈としてはrobotx.txtあくまでも「クロール」の制御であって「インデックス」の制御するためのものじゃないって言いたいんだろうけど、いびつすぎるんだよなぁ。

はーあほくさ

2021-06-20

検索避けかいうおまじまない

意味ある?

いや個別事情は知らんけど

暗黙の了解で「検索避け」を強制する意味ある?

robots.txt.htaccessアクセス制限をかけたり

個人サイトのHTMLに meta(name="robots" content="nofollow, noindex")タグを仕込んだり

単/語/を/ス/ラ/ッ/シ/ュ/と/か/で/区/切/っ/た/り

原作題名「夢」とか「腐」とかでもじったり

作品コンテンツリー登録しなかったり

そんなことをやっても、今はあなたたちの言う「一般人」が一般的SNSでURLを共有するネット社会だよ

登録検索サイトなんかで閲覧者を制御できていた時代とは違うんだよ

いつもSNS簡単文脈が切り取られてクソリプが飛び交うだろ

一般人」は暗黙の了解を知らないぞ

公式」はとっくに同人二次創作界隈でも人気の大手イラスト投稿SNSを把握してる

どうせ強制するなら絶対に閲覧者の目につくところで命令しろ

あと親作品コンテンツリー登録するように

2021-02-02

anond:20210202093959

個人サイトだけど、

久々にrobots.txtを手動更新した。

ミラーをすべてマスターに向けさせて、マスターにもミラーにもCDNを挟んだ。

いま、オリジン隠しをどうやるかを検討している

オリジンCDNを迂回してフルクロールというのが発生して

robots.txtだけはCDNを経由すると別なものが配布

オリジンはすべてDisallowに変更した

2021-01-27

[]2021年1月26日火曜日増田

時間記事文字数文字数平均文字数中央値
0010213478132.142
019611913124.141.5
02447058160.446
0328193469.143
04276147227.736
05132458189.1111
0618147882.160.5
0768561582.642
0814816117108.936.5
091851487080.441
1013015101116.244
111491126975.644
1215619118122.635.5
138912571141.253
141831310471.631
151691250274.027
161451337892.340
1713417541130.950
1816118429114.547
192511896975.642
201771209768.333
2121222478106.031
221521082871.230
2317324428141.241
1日3010302881100.638

本日の急増単語 ()内の数字単語が含まれ記事

東軍(4), 湯シャン(3), robots.txt(3), だべり(3), 映画秘宝(7), VDSL(3), 石綿(3), 豊臣(4), 西軍(5), 関ケ原(3), 大名(10), 列強(3), 世界線(13), シャンプー(10), 変異(11), 五輪(13), GOTO(14), ✋(8), トラベル(6), クンニ(10), 謝れ(6), irasutoya(11), GoTo(12), ワクチン(29), 国際(9), エビデンス(13), 論文(21), KKO(54), post(13), 困窮(8), 開催(20), 野菜(21), 株(15), オリンピック(16), 入院(12), 中止(17), 貯金(18)

頻出トラックバック先 ()内の数字は被トラックバック件数

関ケ原の戦いで西軍が勝った世界線に住んでる /20210126012231(27), ■姉夫婦がアホすぎる件 /20210126174445(12), ■『理解ある彼くん現象』とは、実は非常に残酷な加害の実態ではないか? /20210126180100(12), ■妻が謝ることが出来ない人だと気づいた /20210125143558(12), ■「~の批判は当たらない」って表現がクソザコすぎる /20210126182128(12), ■みんなが大好き、和歌山県第3区県民です /20210125131814(10), ■どうして「とりわけ」なのか? /20210126143136(10), ■SHOW BY ROCK!!を見ていて不安になること /20210125192433(8), ■anond20201103231803 /20201104180726(8), ■統計学素人GoToトラベル論文斜め読みする /20210125115059(8), ■貯金がウン百万あるんだがおすすめ投資法を教えてクレメンス /20210126230418(7), ■彼氏だいすき /20210126013040(7), ■自粛やめちゃだめですか? /20210126211637(7), ■なんで宝くじを買うの? /20210126144237(6), ■冷笑的な反応が許容されなくなった /20210126154800(6), ■anond20210126005443 /20210126162407(6), ■日本通貨として利用されているモノ/サービス三選 /20210126010559(6), ■海外オタク女子パリピ具合についてけなかったなという思い出 /20210126005644(6), ■進化って突然変異から発生するんじゃん /20210126005443(6), ■野菜を食える人間は裕福層だ /20210126192426(6), ■ /20210126193351(6), ■二次創作における、原作否定お気持ち表明 /20210125174359(6), ■光回線代替案求む /20210126091402(6)

2021-01-26

とりあえず、サイトのもの>動的生成

robots.txtのみ静的生成

cloudfront配信 robots.txtはcloudfronから生成

というサイト配信内容ごとにCDN側でrobots.txtを捻じ曲げてみた

オリジンはフルでDisallow CDNからはallow

つかれた

anond:20210126095630

絵かきのサイト場合、絵や動画を低速回線ホストして、同時利用を制限しているが、ロボットも含めて禁止ではない。。がロボットサン同時に食べ過ぎ問題はあるんだろうな。ちょっとひさしぶりにrobots.txtに低速ならOKとか増えているかみてみる

デススターが落ちてくるから☆よけてー

ガキが書いたBotを受け流しきれず、安全破壊サイトが落ちて知らせる(2度)というのはいいが、どうしてガキが破壊たか?というとき

万が一オリジンを見つけたとき

CDN側はオリジンからはわからいから、CDNからクロールできなかったといわれると、そりゃそうかもな。

もっとレア記事なんてPASSTHRUにしてあって、

大量に持っていくと安全破壊で、サイトが落ちる。抜かれたくはないからな。

とはいえ絵描きサイトでもないのに、画像動画がS3になっていないのは、こちらの落ち度。

とはいえ いくつかのケースでは破壊が早すぎるというのと、オリジンと気がついてもオリジンからCDNに飛ぶのが難しいといわれると、そりゃそうだろうな。気をつける

回避手段提供していないのに避けろはナンセンス

そうかもな、合意する。

絵かきのサイト場合は、絵は見るのが目的クロール対象外からクローラーは避けろはrobots.txtに書いてくれ そりゃそうかもな

あの、ダース・ベイダー父へ、避け方提供して☆息子

                       ↑ やることは手紙だすだけだけど、映画の中でわりと重要ポジション

2021-01-04

無許可スクレイピングはやめておきなさい。

ここ最近プログラミングスクールが乱立してる流れと関係あるのかわからないけど、やけにPython使ったスクレイピング記事が目につく。

Qiitaスクレイピング記事を探すと本当にたくさん出てくるけどグレーなことやってる人多くて驚く。

robots.txtがAllowならOKとか数秒あけたらOKとかサイト運営側からしたら迷惑まりないと思うよ。

Librahack事件とか知らない世代なんだろうけどスクレイピングやりたいならまず許可取りましょうね。

それか大人しく公開されてるAPI叩きましょう。

ログイン ユーザー登録
ようこそ ゲスト さん