はてなキーワード: Robots.txtとは
取得できる出来ないで言えば、いくらでも抜け道はあるのは自明の事。
大事なのはそれぞれのプラットフォーム(Xやbluesky)がどのような方針であるかを理解する事。
また、robots.txtの内容については、大手の会社ははきっちり守ってAI開発してるよ。
robots.txtごときに強制力ないし、破ったところで罰則もないって話やで
どこに行ってもAI屋のクローラーがrobots.txtなんか余裕で無視してユーザーエージェント偽装してブロックリストすり抜けて画像収集してるので同意とか全く意味ないんだが
Blueskyはrobots.txtで何も弾いてない、クロールし放題って言ってるアホってかたっぱしからクロールして学習するようなやつがrobots.txtに従うと思ってんのか
Blueskyにアップロードしたデータは、GoogleやOpenAIやBaiduや様々な会社のAI学習に利用されている可能性が高いよって話。
検索エンジンやAIのクローラー、ボットによるデータの収集や学習を拒否する方法としてrobots.txtを使うのが一般的で、AI学習データ収集ロボットもそれに従っています。
AI開発会社はそれぞれbotの名前や、どのようにrobots.txtを設定したらデータ収集をしないかを公開しています。
User-Agent: *
Allow: /
https://bsky.social/robots.txt
実際にはサーバー負荷対策のため、ある程度の速度制限がありますがコンテンツの取得に制限はありません。
# Every bot that might possibly read and respect this file
# ========================================================
User-agent: *
Disallow: /
一部の検索エンジンには限定してデータ収集を許可をしています。(詳細は長いので省略。自分で確認してください)
Blueskyは他社AIボットによるデータ収集を許可しています。
BlueskyにアップロードしたデータはOpenAIやGoogleやBaiduなど様々な会社のAIロボットにデータを収集され、AI学習開発に利用される可能性が高いです。
もしも自分がAI学習に反対の立場なら、どのAIに使われるか不明なBlueskyの方が不安だと思うんだけど。
世の中はそうなってなさそうで不思議。
画像を生成するAIによる無断学習や利用を防ぐために、以下のような対抗手段を講じることが可能です。
1.透かし(ウォーターマーク)の埋め込み:
画像に目に見えるまたは見えない透かしを入れることで、無断利用や生成AIの学習に対して抑止効果を期待できます。特に、目に見えない形で画像データに暗号的な透かしを埋め込む「デジタル透かし」技術が有効です。
画像データに著作権情報や「AIによる無断学習を禁止する」といったメタデータを埋め込み、ウェブサイトには robots.txt ファイルで画像クローラーのアクセスをブロックする設定を追加します。これにより、クローリングや収集の抑制が期待できます。
ステガノグラフィを用いて、画像に気づかれにくい形で識別情報を隠すこともできます。これにより、画像の流出経路や利用先を追跡でき、無断利用の発見に役立てることができます。
4.法的な警告表示や利用ポリシーの明示:
ウェブサイトや画像の配布先に、AIによる無断利用や学習を禁止する旨の法的警告や利用ポリシーを明示することも有効です。利用条件をはっきりと示すことで、AI企業や研究者が慎重になる可能性が高まります。
AIが利用しにくいように、画像に人間には気づきにくいパターンやノイズを挿入する技術もあります。たとえば、AIにはノイズとして認識されるが、人間には問題なく見える小さな変形やカラーパターンを追加することで、AIによるデータ学習が困難になる場合があります。
生成AIの学習を混乱させるための手段には、以下のような方法が考えられます。
1.ノイズや歪みの追加:
画像に目立たない程度のノイズや歪みを加えることで、アノテーションモデルが境界や特徴を正確に認識しにくくする手法です。たとえば、ピクセルレベルでランダムなノイズを追加する、わずかに画像をぼかす、あるいは境界線付近に小さな変化を加えるといった手法が有効です。
アノテーション処理は、対象物の輪郭や特徴を正確に捉えることが重要です。そのため、背景や対象物の輪郭にわずかな不規則性を加えることで、アノテーションツールが対象物の境界を正確に判断しにくくすることができます。たとえば、背景に模様や偽の輪郭を挿入する方法です。
画像に人間には視認しづらい形でテキストやラベルを埋め込むと、AIのアノテーションプロセスが混乱する場合があります。これにより、AIが意図しない領域を注視することがあり、誤認識を誘発します。
4.色や明るさのランダム変化:
画像の色や明るさを部分的に変化させ、一定のパターンを持たないようにすることもアノテーション処理の混乱を招く一手です。これは、オブジェクトの検出や認識が色や明暗の差異に依存している場合に有効です。
5.擬似的なオブジェクトの追加:
画像内に小さな擬似的なオブジェクトや模様を追加することで、AIがそれらを誤って主要なオブジェクトと認識し、アノテーション精度が低下する可能性があります。特に、背景に似たオブジェクトを散りばめることで、AIはどの部分が対象なのか判断しにくくなります。
AIの認識を誤らせるために用いられる「アドバーサリアル(敵対的)な例」を使う方法もあります。特定のピクセルパターンや色の配列を配置することで、AIのアノテーションが意図的に誤作動するよう誘導できます。この技術は深層学習モデルに対して特に効果があります。
画像全体にわずかなカモフラージュパターンを重ねることで、AIの認識を混乱させる方法です。この手法では、人間が見た場合には問題なく認識できるものの、AIが対象を捉える際に誤って検出するようなパターンを画像に追加します。
・思考実験として、danbooruなどアノテーションの元データとして使われているサイトのタグが荒られたら画像生成AIのモデル作成にダメージはありますか?
思考実験として、Danbooruといったアノテーション元データのタグが荒らされた場合、画像生成AIのモデル作成に与える影響は以下の通りです。
Danbooruは、イラストや画像に対して詳細なタグが付与されており、これらのタグ情報は画像生成AIの学習にとって非常に重要です。タグが荒らされることで、画像とタグの対応関係が崩れ、モデルが正確な特徴を捉えにくくなるため、生成精度が低下します。
例えば、特定のキャラクターやテーマに関連するタグが荒らされ、誤った内容のタグが付与されると、モデルはその誤った情報を学習し、キャラクターの特徴や設定が再現されにくくなる可能性があります。
タグが荒らされると、モデルの訓練にノイズデータが増えるため、学習効率が悪化します。たとえば、「黒髪」のタグが誤って「金髪」などに変更された場合、モデルは同じ画像に対して異なる特徴を学習することになり、結果として生成画像の一貫性が失われることが考えられます。
また、同じ画像に異なるタグが付与されることで、モデルが過学習や誤学習を引き起こし、生成された画像が本来の意図からかけ離れたものになる可能性もあります。
Danbooruでは、特定のキャラクターやアートスタイルを識別するタグが多く存在します。これらが荒らされると、特定のキャラクターやスタイルのデータが混乱し、モデルが正確にキャラクターの特徴を把握できなくなるため、ユーザーが期待する生成結果が得られにくくなります。
例えば、あるキャラクターのタグが「髪型」「服装」「色彩」などで荒らされると、そのキャラクターの再現が曖昧になり、モデルが正しいビジュアルを生成できなくなることがあります。
タグが荒らされると、データセット全体の信頼性が低下します。信頼性の低いデータをもとに学習したモデルは、特定の条件で異常な出力を生成することが多くなり、モデル全体の品質が低下します。これは、生成AIが学習中に「どの情報を信頼すべきか」を判断できなくなるため、生成結果が不安定になったり、多様性が失われたりすることが考えられます。
AIモデルを利用するユーザーは、タグを通じて希望する画像を生成したり、条件に合った画像を探します。タグが荒らされると、AIモデルの検索・フィルタリング機能の精度も低下し、生成プロンプトが期待通りに機能しなくなる可能性があります。たとえば、「風景」タグが荒らされ、異なるジャンルの画像が混入するようになると、風景画像を生成したいユーザーの要求が満たされにくくなります。
Danbooruなどのタグが大規模に荒らされた場合、生成AIモデルの精度低下や一貫性の欠如が発生しやすくなり、特にキャラクターや特定のスタイルに依存する画像生成モデルに大きなダメージを与える可能性が高いです。
すでに学習済みのモデルを使って汚染されたデータのクレンジングや異常値検出を行うなど対策される可能性がありますが、それらを阻害する手段はありますか?
無断での学習を妨害し、学習コストを増加させるために、上記の方法を阻害する手法には以下のようなアイデアがあります。これらの手法は、意図的にデータセットの品質や一貫性を崩すことで、学習モデルの精度を低下させ、データクレンジングや異常値検出のプロセスを複雑化することが目的です。
意図的に誤ったタグや無関係なタグを画像データに付与し、データセットの信頼性を低下させます。これにより、転移学習やラベルノイズ検出が困難になり、正確な特徴量を学習するコストが増加します。
例えば、キャラクター画像に全く無関係なタグ(「動物」や「風景」など)を追加することで、モデルがどのタグが信頼できるか判別しにくくなり、誤ったラベルがノイズとして学習されるリスクが増えます。
2. 特徴量をぼかす/微妙な変更を加える
特徴量ベースのクレンジングや類似度分析に影響を与えるため、画像の特徴がわずかに異なるように加工を施します。具体的には、色調を微妙に変える、ランダムなピクセルの位置でノイズを追加する、または特定の部位を意図的にぼかすことで、モデルが抽出する特徴量の安定性を低下させます。
この方法により、同じキャラクターやスタイルであっても類似度分析が困難になり、正確なクレンジングが行いにくくなるため、データ処理のコストが増加します。
特徴が異なるバリエーションや擬似的な異常データを大量に追加することで、異常検出アルゴリズムの信頼性を下げます。たとえば、キャラクターのデザインや背景を少しずつ変えた画像を意図的に作成することで、異常値検出が頻繁に誤検出されるようにします。
こうしたデータが混在することで、オートエンコーダーやアンサンブルモデルを使った異常検出が混乱し、正確な異常サンプルの抽出が困難になります。
4. 高頻度で微小なラベル変更を行う
学習済みモデルの転移学習やラベルノイズ検出を阻害するために、同じ画像に対してラベルを定期的に変える手法です。微小な変更を行うことで、モデルは正しいラベルを安定的に学習することが難しくなり、モデルの信頼性が低下します。
例えば、ラベル「黒髪」を「暗めの髪」や「濃い色の髪」などに頻繁に切り替えることで、学習に不確実性を持ち込むことが可能です。
データセット内で非常に類似した画像を複数の異なるタグで登録することで、モデルの学習を混乱させます。特定のキャラクター画像を少しずつ変化させて複数のタグを付けると、モデルは「どのタグがどの特徴に対応しているのか」を判別しにくくなり、データセットのクレンジングが複雑化します。
特に、タグの一貫性が失われるため、類似度分析やアンサンブルモデルによる異常検出の効果を低下させることが期待できます。
AIモデルが認識を混乱させるように、アドバーサリアルノイズ(敵対的な例)を追加します。人間にはほとんど気づかれないレベルのノイズを画像に追加し、モデルが特定の特徴を正確に認識できないようにすることができます。
このノイズにより、モデルの特徴量ベースの学習が混乱し、意図した通りに学習できないため、クレンジングの精度も低下し、データ処理の手間が増加します。
特定のルールではなくランダムにタグをつけたり、特定のカテゴリ間でランダムにラベルを入れ替える方法です。これにより、ラベルと画像の関連性が薄れ、アノテーションの一貫性が失われます。この乱数による偽ラベルの付与は、ラベルノイズ検出やアノマリー検出において、真のラベルを見極めるコストを大幅に増加させます。
まとめ
これらの手法は、AIの学習やクレンジングを意図的に妨害し、無断学習にかかるコストを増加させるために有効です。特に、「微小な変更」や「アドバーサリアルノイズの付与」といった手法は、見た目の品質に影響を与えずにモデルにノイズを持ち込むため、非常に効果的です。
著作権がーとか叫んでるけど、テクノロジーって、そんな著作権がこうだからなんて強権じゃないんすよね。
古くはrobots.txtから
なんでかって?
法律的に正しい利用だとしても、複製容易性によって、その運用が上手くいかない可能性がある。
つう基本があるんすよ。
だからテクノロジーは、こういう理由は法律的には正しいけど、それで被害を被る人がいるかもしれない。
それを想定して、オプトインやオプトアウトが発明されたんですよ。
そこの反反AI robots.txtって何のためにあるかご存じ?
・robots.txtなどでWebクローラーに避けてもらう
・パスワード付きページなので条件が揃わないと外部からアクセスできないようにする
・画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする
・画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)
・スクレイピング対象から避けやすくするため長辺を256px未満にする←New!
上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像を劣化させる方向にばかり頭を使っている印象。
仮にそれで機械学習の対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。
=====
そう言えば、コピープロテクトのせいで正規ユーザーが被害を被る、って話は昔からあったね。
CDのリッピングは容易で法的にもセーフだけど、そのせいでCCCDとかいう特級呪物が産まれたし。
ただ、正規ユーザーが被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン。
でも、無償公開分……収益は考慮しない趣味絵のようなものにまでウォーターマークを適用するのは (正規ユーザーも被害を受けるので) よろしくない。
逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像にウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。
過激なファンアートを「検索避け(伏せ字などを含む)」と呼ばれる手法で公開するケースがある。しかし、この方法は本当に効果的なのだろうか?
本記事では、検索エンジンの仕組みと「検索避け」の限界について解説し、情報公開における倫理的な問題について考察する。
想像してみてください。あなたが重要な機密文書を持っており、ファイル名と文書内の固有名詞を少し変えてインターネットにアップロードしたとします。
ファイル名と固有名詞が少し変わっても、内容が変わらなければ、文書は依然として機密文書のままです。
インターネットは、世界中の情報が集まる巨大な図書館と見なすことができ、検索エンジンはその図書館の賢い司書のような役割を果たします。
この「司書」は、本のタイトルだけでなく、内容や文脈を理解し、関連する情報を結びつけて、私たちが探しているものを見つけ出します。
したがって、名前を変更するだけでは検索エンジンを欺くことはできません。
検索エンジンはキーワード検索を超え、画像認識や文脈理解などの技術を活用して、関連する情報をつなぎ合わせて、目的の情報を見つけ出します。
情報を守りたい場合は、名前を変更するだけでなく、アクセス制限などの強固な保護策を講じる必要があります。
また、Twitterのような公開プラットフォームに隠したい情報をアップロードすることは、矛盾した行為です。
一般的に、公開プラットフォームにおいては、特定のコンテンツを検索エンジンから隠すための直接的な手段は限られています。
例えば、Twitterのようなプラットフォームでは、個々のユーザーがrobots.txtの設定やnoindexタグを利用してコンテンツのクローリングを制御することはできません。
公開プラットフォーム上のコンテンツは、基本的に検索エンジンによってインデックスされ、公開情報として扱われます。
近年、画像認識とAI検索技術は飛躍的に進化しており、「検索避け」の効果はさらに限定的になっています。
特に、CNNを用いた画像検索技術は、深層学習を活用して、画像内の細かな特徴まで識別することが可能です。
これにより、画像内のオブジェクトやシーンの認識、さらにはテキストの読み取りまで行えるため、
作品名やキャラクター名、一部デザインを変更したとしても、関連する過激なファンアートが検索結果に表示されることがあります。
一方で、AI検索では、Transformerアーキテクチャが主流となっており、文章全体を一度に処理することで、文脈を高度に理解することができます。
GoogleのBERTやMicrosoftのTuringモデルなどの進化したAI検索モデルは、単なるキーワード検索を超え、単語の組み合わせが表す複雑な概念や文章全体の意味を把握し、
その結果、過激なファンアートを投稿する際に、意図的に作品名やキャラクター名を避けたとしても、これらのAI検索技術により作品が特定されやすくなっています。
上記のように、現代の検索エンジンは高度な技術を駆使して情報を収集・分析しており、「検索避け」のような単純な対策では効果が期待できません。
現代の検索エンジンは、過激なファンアートを検出する一方で、高度なコンテンツフィルターを備えており、
社会倫理に反する画像を検出し、検索結果から除外する能力も持っています。
多くの公開プラットフォームでは、シャドウバンという手法を用いて特定のコンテンツの露出を抑制し、
過激なファンアートが一般ユーザーに表示されないよう努めています。
しかし、これらの技術が存在するからといって、過激なファンアートを無対策で公開することが許容されるわけではありません。
コンテンツフィルターやシャドウバンは完璧ではなく、不適切なコンテンツを完全にブロックすることはできません。
公開されるコンテンツが法的な規制や社会的な倫理に適合しているかどうかが重要であり、著作権侵害、名誉毀損、不快感を与える可能性のあるコンテンツは、
情報公開を行う際には、その影響を常に意識し、責任ある行動を取ることが求められます。
「検索避け」のような限定的な対策やコンテンツフィルターに依存するのではなく、倫理的な問題と情報管理の重要性を理解した上で、適切な判断を行うことが不可欠です。
例えば、過激なファンアートを公開する際には、その作品が特定のコミュニティ内でのみ共有されるようにクローズプラットフォームを利用する、
またはアクセスを制限するなどの措置を講じることが考えられます。
適切な情報管理とセキュリティ対策を施し、インターネット上での安全なコンテンツ共有に努めることが重要です。
過激なファンアートを「検索避け(伏せ字などを含む)」と呼ばれる手法で公開するケースがある。しかし、この方法は本当に効果的なのだろうか?
本記事では、検索エンジンの仕組みと「検索避け」の限界について解説し、情報公開における倫理的な問題について考察する。
想像してみてください。あなたが重要な機密文書を持っており、ファイル名と文書内の固有名詞を少し変えてインターネットにアップロードしたとします。
ファイル名と固有名詞が少し変わっても、内容が変わらなければ、文書は依然として機密文書のままです。
インターネットは、世界中の情報が集まる巨大な図書館と見なすことができ、検索エンジンはその図書館の賢い司書のような役割を果たします。
この「司書」は、本のタイトルだけでなく、内容や文脈を理解し、関連する情報を結びつけて、私たちが探しているものを見つけ出します。
したがって、名前を変更するだけでは検索エンジンを欺くことはできません。
検索エンジンはキーワード検索を超え、画像認識や文脈理解などの技術を活用して、関連する情報をつなぎ合わせて、目的の情報を見つけ出します。
情報を守りたい場合は、名前を変更するだけでなく、アクセス制限などの強固な保護策を講じる必要があります。
また、Twitterのような公開プラットフォームに隠したい情報をアップロードすることは、矛盾した行為です。
一般的に、公開プラットフォームにおいては、特定のコンテンツを検索エンジンから隠すための直接的な手段は限られています。
例えば、Twitterのようなプラットフォームでは、個々のユーザーがrobots.txtの設定やnoindexタグを利用してコンテンツのクローリングを制御することはできません。
公開プラットフォーム上のコンテンツは、基本的に検索エンジンによってインデックスされ、公開情報として扱われます。
近年、画像認識とAI検索技術は飛躍的に進化しており、「検索避け」の効果はさらに限定的になっています。
特に、CNNを用いた画像検索技術は、深層学習を活用して、画像内の細かな特徴まで識別することが可能です。
これにより、画像内のオブジェクトやシーンの認識、さらにはテキストの読み取りまで行えるため、
作品名やキャラクター名、一部デザインを変更したとしても、関連する過激なファンアートが検索結果に表示されることがあります。
一方で、AI検索では、Transformerアーキテクチャが主流となっており、文章全体を一度に処理することで、文脈を高度に理解することができます。
GoogleのBERTやMicrosoftのTuringモデルなどの進化したAI検索モデルは、単なるキーワード検索を超え、単語の組み合わせが表す複雑な概念や文章全体の意味を把握し、
その結果、過激なファンアートを投稿する際に、意図的に作品名やキャラクター名を避けたとしても、これらのAI検索技術により作品が特定されやすくなっています。
上記のように、現代の検索エンジンは高度な技術を駆使して情報を収集・分析しており、「検索避け」のような単純な対策では効果が期待できません。
現代の検索エンジンは、過激なファンアートを検出する一方で、高度なコンテンツフィルターを備えており、
社会倫理に反する画像を検出し、検索結果から除外する能力も持っています。
多くの公開プラットフォームでは、シャドウバンという手法を用いて特定のコンテンツの露出を抑制し、
過激なファンアートが一般ユーザーに表示されないよう努めています。
しかし、これらの技術が存在するからといって、過激なファンアートを無対策で公開することが許容されるわけではありません。
コンテンツフィルターやシャドウバンは完璧ではなく、不適切なコンテンツを完全にブロックすることはできません。
公開されるコンテンツが法的な規制や社会的な倫理に適合しているかどうかが重要であり、著作権侵害、名誉毀損、不快感を与える可能性のあるコンテンツは、
情報公開を行う際には、その影響を常に意識し、責任ある行動を取ることが求められます。
「検索避け」のような限定的な対策やコンテンツフィルターに依存するのではなく、倫理的な問題と情報管理の重要性を理解した上で、適切な判断を行うことが不可欠です。
例えば、過激なファンアートを公開する際には、その作品が特定のコミュニティ内でのみ共有されるようにクローズプラットフォームを利用する、
またはアクセスを制限するなどの措置を講じることが考えられます。
適切な情報管理とセキュリティ対策を施し、インターネット上での安全なコンテンツ共有に努めることが重要です。
情報公開の際には、法的な規制や社会的な倫理を尊重し、責任ある行動を取ることが求められます。
倫理的な問題と情報管理の重要性を理解し、適切な判断を行うことが、情報公開の倫理と責任ある行動の核心です。
anond:20240607001500 anond:20240603171311 anond:20240702074550 anond:20240702093233 anond:20240702094052 anond:20240702094322
一応、Xの利用規約を貼っておくが、利用規約には違反している。法律については専門家ではないので分からないが日本だと「不正アクセス防止法」に該当しそうな気がする。
ユーザーは、当社より本サービスへのアクセスとその利用について許諾を得ることの対価として、当社ならびにその第三者プロバイダーおよびパートナーが、本サービス上に広告を掲載すること、またはコンテンツもしくは本サービスから得られる情報(その提供者がユーザーであるか他者であるかを問わず)の表示に関連した広告を掲載することに同意するものとします。ユーザーはまた、たとえば当社のサービスの妨害や当社が提供するインターフェースおよび手順以外の方法を使った当社のサービスへのアクセスにより、当社のサービスの不正利用をしないことにも同意するものとします。ユーザーは、適用される法令が明示的に許容する範囲のみを除き、本サービスの一部としてユーザーに提供されるソフトウェアの技術的制限を回避したり、ソフトウェアのリバースエンジニアリング、逆コンパイル、逆アセンブルをしたりしてはなりません。ユーザーは、本サービスへのアクセスまたはその使用中に、次のいずれも行ってはなりません。(i)本サービス、当社のコンピュータシステム、または当社のプロバイダーのテクニカルデリバリーシステムの非公開部分へのアクセス、不正な改ざんもしくは使用、(ii)システムもしくはネットワークの脆弱性の探索、スキャンもしくはテスト、またはセキュリティもしくは認証方法の侵害もしくは回避、(iii)当社から提供される(かつ該当する利用条件に従う場合にのみ提供される)、当社の現在利用可能な公開インターフェース以外の方法(自動プログラムか否かを問わない)での、本サービスへのアクセスもしくはその探索またはアクセスもしくは探索の試み(ただし、当社との個別契約で特に許可されている場合は除く)(注: 本サービスへのクローリングは、robots.txtファイルの定めによる場合は認められていますが、当社による事前の同意がないまま本サービスのスクレイピングをすることは明示的に禁止されています)、(iv)電子メールもしくは投稿でのTCP/IPパケットヘッダーまたはヘッダー情報の一部の偽造、または方法の如何を問わず、改ざんされた情報、詐欺的情報もしくは情報源を偽装した情報を送る目的での本サービスの利用、または(v)いずれかのユーザー、ホストもしくはネットワークのアクセスの妨害、または遮断(もしくはその試み)(本サービスへのウィルスの送信、オーバーロード、フラッディング、スパミング、メールの大量送信、あるいは本サービスを妨害したり過度な負荷を与えたりする方法でコンテンツの作成をスクリプトすることを含みますが、これらに限定されません)。当社はさらに、(i)適用されるすべての法令、規則、法的手続や政府の要請へ対応し、(ii)本規約を実施し(規約違反の疑いがある場合の調査を含みます)、(iii)不正利用、セキュリティもしくは技術的な問題を検知、防止もしくはその対処をし、(iv)ユーザーからのサポート要請に対応し、または(v)Twitterやそのユーザーおよび社会全体の権利、財産もしくは安全を保護するために、当社が必要であると合理的に判断する一切の情報について、アクセス、閲覧、保存、および公開する権利を留保します。当社は、当社のプライバシーポリシーの定めによる場合を除き、個人識別情報を第三者に開示することはありません。
noindex付与して更にrobots.txtできょひまでしてんのにバグってんのかおら!
このページを Google 検索からブロックしたい場合、robots.txt を使用する方法はインデックス登録を回避する正しい方法ではありません。インデックスに登録されないようにするには、robots.txt によるブロックを削除して、さらに「noindex」を使用してください。
https://support.google.com/webmasters/answer/7440203#indexed_though_blocked_by_robots_txt
より抜粋
リンクがあるから辿って保存しましたってアホかこいつ。まあグーグルのサービスって基本アホなの多いんだよな
雑に作って雑に運用して、それで使ってて切れそうになることばっかりだよ。死ね
robots.txt によるブロックを削除して
と来たものだ。わかるかうんなもの。シューティングゲームの攻略で、死んで内部ランク下げてください。とか言うのと同じくらい理不尽だろうが。
理屈は何となく分かる、robots.txtに従ってページを読み込めないので、ページにnoindexが書いてあるかどうかわからんっていうんだろう?あほか
だったら最初からrobots.txtを優先してインデックススンナやボケが。アホか。人間の動物的な直感を配慮しろ。
まあそこも理屈としてはrobotx.txtはあくまでも「クロール」の制御であって「インデックス」の制御するためのものじゃないって言いたいんだろうけど、いびつすぎるんだよなぁ。
はーあほくさ
意味ある?
robots.txt や .htaccess でアクセス制限をかけたり
個人サイトのHTMLに meta(name="robots" content="nofollow, noindex")タグを仕込んだり
単/語/を/ス/ラ/ッ/シ/ュ/と/か/で/区/切/っ/た/り
そんなことをやっても、今はあなたたちの言う「一般人」が一般的にSNSでURLを共有するネット社会だよ
登録型検索サイトなんかで閲覧者を制御できていた時代とは違うんだよ
いつもSNSで簡単に文脈が切り取られてクソリプが飛び交うだろ
時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
---|---|---|---|---|
00 | 102 | 13478 | 132.1 | 42 |
01 | 96 | 11913 | 124.1 | 41.5 |
02 | 44 | 7058 | 160.4 | 46 |
03 | 28 | 1934 | 69.1 | 43 |
04 | 27 | 6147 | 227.7 | 36 |
05 | 13 | 2458 | 189.1 | 111 |
06 | 18 | 1478 | 82.1 | 60.5 |
07 | 68 | 5615 | 82.6 | 42 |
08 | 148 | 16117 | 108.9 | 36.5 |
09 | 185 | 14870 | 80.4 | 41 |
10 | 130 | 15101 | 116.2 | 44 |
11 | 149 | 11269 | 75.6 | 44 |
12 | 156 | 19118 | 122.6 | 35.5 |
13 | 89 | 12571 | 141.2 | 53 |
14 | 183 | 13104 | 71.6 | 31 |
15 | 169 | 12502 | 74.0 | 27 |
16 | 145 | 13378 | 92.3 | 40 |
17 | 134 | 17541 | 130.9 | 50 |
18 | 161 | 18429 | 114.5 | 47 |
19 | 251 | 18969 | 75.6 | 42 |
20 | 177 | 12097 | 68.3 | 33 |
21 | 212 | 22478 | 106.0 | 31 |
22 | 152 | 10828 | 71.2 | 30 |
23 | 173 | 24428 | 141.2 | 41 |
1日 | 3010 | 302881 | 100.6 | 38 |
東軍(4), 湯シャン(3), robots.txt(3), だべり(3), 映画秘宝(7), VDSL(3), 石綿(3), 豊臣(4), 西軍(5), 関ケ原(3), 大名(10), 列強(3), 世界線(13), シャンプー(10), 変異(11), 五輪(13), GOTO(14), ✋(8), トラベル(6), クンニ(10), 謝れ(6), irasutoya(11), GoTo(12), ワクチン(29), 国際(9), エビデンス(13), 論文(21), KKO(54), post(13), 困窮(8), 開催(20), 野菜(21), 株(15), オリンピック(16), 入院(12), 中止(17), 貯金(18)
■関ケ原の戦いで西軍が勝った世界線に住んでる /20210126012231(27), ■姉夫婦がアホすぎる件 /20210126174445(12), ■『理解ある彼くん現象』とは、実は非常に残酷な加害の実態ではないか? /20210126180100(12), ■妻が謝ることが出来ない人だと気づいた /20210125143558(12), ■「~の批判は当たらない」って表現がクソザコすぎる /20210126182128(12), ■みんなが大好き、和歌山県第3区の県民です /20210125131814(10), ■どうして「とりわけ」なのか? /20210126143136(10), ■SHOW BY ROCK!!を見ていて不安になること /20210125192433(8), ■anond:20201103231803 /20201104180726(8), ■統計学の素人がGoToトラベル論文を斜め読みする /20210125115059(8), ■貯金がウン百万あるんだがおすすめの投資法を教えてクレメンス /20210126230418(7), ■彼氏だいすき /20210126013040(7), ■自粛やめちゃだめですか? /20210126211637(7), ■なんで宝くじを買うの? /20210126144237(6), ■冷笑的な反応が許容されなくなった /20210126154800(6), ■anond:20210126005443 /20210126162407(6), ■日本で通貨として利用されているモノ/サービス三選 /20210126010559(6), ■海外オタク女子のパリピ具合についてけなかったなという思い出 /20210126005644(6), ■進化って突然変異から発生するんじゃん /20210126005443(6), ■野菜を食える人間は裕福層だ /20210126192426(6), ■ /20210126193351(6), ■二次創作における、原作否定のお気持ち表明 /20210125174359(6), ■光回線の代替案求む /20210126091402(6)
絵かきのサイトの場合、絵や動画を低速回線にホストして、同時利用を制限しているが、ロボットも含めて禁止ではない。。がロボットサン同時に食べ過ぎ問題はあるんだろうな。ちょっとひさしぶりにrobots.txtに低速ならOKとか増えているかみてみる
ガキが書いたBotを受け流しきれず、安全破壊でサイトが落ちて知らせる(2度)というのはいいが、どうしてガキが破壊したか?というときに
CDN側はオリジンからはわからないから、CDNからクロールできなかったといわれると、そりゃそうかもな。
大量に持っていくと安全破壊で、サイトが落ちる。抜かれたくはないからな。
とはいえ、絵描きのサイトでもないのに、画像や動画がS3になっていないのは、こちらの落ち度。
とはいえ いくつかのケースでは破壊が早すぎるというのと、オリジンと気がついてもオリジンからCDNに飛ぶのが難しいといわれると、そりゃそうだろうな。気をつける
そうかもな、合意する。
絵かきのサイトの場合は、絵は見るのが目的でクロールは対象外だから、クローラーは避けろはrobots.txtに書いてくれ そりゃそうかもな