Blueskyにアップロードしたデータは、GoogleやOpenAIやBaiduや様々な会社のAI学習に利用されている可能性が高いよって話。
検索エンジンやAIのクローラー、ボットによるデータの収集や学習を拒否する方法としてrobots.txtを使うのが一般的で、AI学習データ収集ロボットもそれに従っています。
AI開発会社はそれぞれbotの名前や、どのようにrobots.txtを設定したらデータ収集をしないかを公開しています。
User-Agent: *
Allow: /
https://bsky.social/robots.txt
全部いいよ。何も拒否しませんよ。お好きにどうぞって設定になってます。
# Every bot that might possibly read and respect this file
# ========================================================
User-agent: *
Disallow: /
一部の検索エンジンには限定してデータ収集を許可をしています。(詳細は長いので省略。自分で確認してください)
Blueskyは他社AIボットによるデータ収集を許可しています。
BlueskyにアップロードしたデータはOpenAIやGoogleやBaiduなど様々な会社のAIロボットにデータを収集され、AI学習開発に利用される可能性が高いです。
もしも自分がAI学習に反対の立場なら、どのAIに使われるか不明なBlueskyの方が不安だと思うんだけど。
世の中はそうなってなさそうで不思議。
AI各社はそれを守って情報収集するんだろうか