はてなキーワード: クローラーとは
なんでもかんでもhello worldと表示させるプログラムで入門させようとするのやめろ
こっちはウェブアプリ(クローラー等)をどうすれば自鯖以外で常時稼働させられるか知りたいのに、hello worldと表示できました、じゃその方法で一度実行したら継続して稼働するのか分からないじゃん。
google app engineやxserverでのjavaの実行の記事が軒並みそういう内容だから途方に暮れてる
・robots.txtなどでWebクローラーに避けてもらう
・パスワード付きページなので条件が揃わないと外部からアクセスできないようにする
・画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする
・画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)
・スクレイピング対象から避けやすくするため長辺を256px未満にする←New!
上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像を劣化させる方向にばかり頭を使っている印象。
仮にそれで機械学習の対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。
=====
そう言えば、コピープロテクトのせいで正規ユーザーが被害を被る、って話は昔からあったね。
CDのリッピングは容易で法的にもセーフだけど、そのせいでCCCDとかいう特級呪物が産まれたし。
ただ、正規ユーザーが被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン。
でも、無償公開分……収益は考慮しない趣味絵のようなものにまでウォーターマークを適用するのは (正規ユーザーも被害を受けるので) よろしくない。
逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像にウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。
反AIが無学(高卒オタクマン)な上に人の忠告を聞かないせいで、実在しない問題、恐怖を内輪で膨らませてた例が最近無茶苦茶多いので備忘録的にリスト。
実際は、1000枚に522回分(1枚には0.522回分)と書いてあったのを、英語も読めないのに機械翻訳(AI…😂)で無理矢理引用して誤読。
そもそもスマホの電池容量は約20Whほど。522回分では10kWhになる。電気代で言えば卸値でも100円はする。1枚にそんなにかかっていたら商売が成り立たないとも気づかない頭の悪さ(一部は「だからこそ誰かが金を出してる陰謀なんだ」とか訳のわからないことまで言い出す始末)。
英語力、計算力、金銭感覚のなさ、そして無意識にAI翻訳を頼るという馬鹿に馬鹿を重ねる失態。
普通の英語力があれば解るが、名詞の複数形にsomeがつく場合とそうでない場合では大分訳し方が違う。
「もともとクリエイティブと呼べないほどの仕事もあった」という程度の言葉を「すべてのクリエイターに対する挑戦」のようにねじ曲げ拡散するのは政治的な行いなのか、単なる狂気なのか。
そもそも「学習対策」は無作為のクローラー対策のためにネットにアップする画像に施すものであり、copainterなどの自分で下絵をアップロードするi2iサービスには何の効果もない(というより、もはや何を狙っているのかも不明)のに(詳細は→ https://anond.hatelabo.jp/20240626081537)、イラストに猫の画像を埋め込んで「上手く生成できない画像はこうだ」とか、現在進行形で盛り上がってる。
あいつらの脳内ではこの自分勝手な被害妄想?(というより、ry)で意味不明な発狂を起こしていることすら「AIのせいでクリエイターが先の見えない対策に追われている」と変換されているのがなお凄い。
その「対策」に何の先も見えないのは、AIが凄いからじゃなくて、お前らが自分で何をやっているのかが解ってないからだw
AIを怖がるにしても、せめて最低限の仕組みぐらいは理解してから、仕組み的にありえることを怖がれw
別にいいけどそもそもクローラーとかそんな大した仕事ではないし
普通は一から作るというのは大規模なサービスを一から書き直すような時に使うわけよ
いちいちスクラッチとかフルスクラッチとかいう話ではないんだよね
何人月?って話で
いやフレームワークも使わないで素のPythonでファイルサーバーにファイルをあげるクローラーをマイクロサービスって言う人君しかいないよ
真昼間に書いてんのも君だし
もう分断を煽るのはやめませんか
現在混乱を招いている要因は、おそらく以下の二つ
AI利用に向けて改正されたとされる著作権法30条の4は AIならなんでも許されるというわけではない。以下のように条件がついている。
著作物は,次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には,その必要と認められる限度において,いずれの方法によるかを問わず,利用することができる。ただし,当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は,この限りでない。
この辺りの解釈について紛糾している様子。
同30条の 4 は平成30年当時、事業者や研究者によるAI利用を想定していた。現在では一般市民にAIが広く普及し状況が変わってきたことから、同条の適応範囲について再整理を図るという趣旨で公開されたのが「AIと著作権に関する考え方について(素案)」
そして素案に対するパブリックコメントを募集した、というのが現在の流れ。
たぶん、CLIPのこと。テキストと画像の翻訳を行う。犬の画像を見て「犬」と識別することができる。
ネット上のあらゆる画像とテキストを学習することで作られた。OpenAIによって公開。画像生成だけではなくいろんなところに使われている。
画像生成AIはテキストエンコーダ(CLIP)と画像生成器の組み合わせでできている。stable diffusion等は拡散モデルを使っている。
1. イラストを用意する
学習を繰り返しノイズを増やしていくと最後はただのノイズから画像を出力する 連想ゲーム絵師が誕生する。連想ゲーム絵師は連想しかできないので自分が描いたものが何かわからない。犬を描いてといっても車を描いてくる。なので CLIPが誘導したりダメ出ししたりする。
どこかのイラストサイトかデータベースを使っているはず。「著作権的に安全な〜」みたいな触れ込みのやつはどこかのデータベースを購入して使っているんだと思う。
Pixivの主張は別におかしくない。このあたりは「AIと著作権に関する考え方について(素案)p7」(エ)において解説されている。"robot.txt"への記述によりAI学習を行うクローラーのアクセスを制限しているにも関わらず、勝手に学習に使うことは「データベースの著作物の潜在的販路を阻害する行為」として著作権違反になる(Pixivが将来的に本当に販売するかどうかは置いておく)
追加学習(LoRA)のこと。
既存のモデルに数枚のイラストを追加学習させることで絵柄を模倣(ファインチューニング)する。
特定の絵師さんのイラストを勝手に使う者がいるようでトラブルになっている。
絵柄に著作権はない。学習の際に行われる複製が著作権侵害にあたるかどうかが争点になっている。
著作権法30条の4 より
この辺りは「AIと著作権に関する考え方について(素案)」及びパブコメの返答に現状の解釈が示されているので興味のある方はどうぞ。
(p6. 特定のクリエイターの著作物のみを用いてファインチューニングを行う場合〜を参照)
※ここははっきりとは断定していないので自分で読んだ方が良いと思う。
(私の読解:)
程度問題ぽい。よくある画風なら問題にならないけれどはっきりと特定絵師さんとわかる感じだとダメそうですね
(私の読解終わり)
別にプロフィールなんて「トイレから出たら手を洗ってください」でも「フォローする際には五体投地してください」でも好きに書いてよいだろう。
それが法律に記されているかどうかは関係ない。ただのお願いだ。
「AI学習禁止」と書くなと騒いでいる人は何を考えているのかよくわからん。
「AIと著作権に関する考え方について(素案)」にも再三出てくるがAI学習を技術的に回避することは禁止していない。30条の4は権利の制限であって、イラストを差し出せという強制ではない。
見ればわかりますが個人よりも一般企業による意見が多く、返答とあわせてとても読み応えのあるものです。
このファイルを読んで個人の頭の悪そうな意見だけ抜粋してくるのは非常に違和感があります。
分散型SNSに搭載されている削除ボタンは基本的には「自分のいるサーバーからは消せるけど、他のサーバーにはあくまでもお願いしかできない」仕様なので繋がっているサーバーの管理者や設定次第では永遠に消したい投稿が残り続ける。
第三者が悪意のあるなしに関わらず無断で個人情報を拡散した場合や、自分が間違えて個人情報を投稿してしまった時など、比較的簡単に情報が海外のサーバーにも渡ってしまい日本国内の法律では対応しきれなくなる。
大抵の場合は消してもらえるとは思うが、最悪の場合、日本国内のサーバーからは消せても外国のサーバーには残っており、その国には関連法がないため法に訴えて消してもらうこともできず、日本国内からは簡単に閲覧が可能...という状況も想定される。
長々と語っているが、要はサーバー管理者は悪意がなくても犯罪に加担してしまう可能性があるということと、情報へのアクセスのしやすさが違う。
既に誹謗中傷界隈(?)の人間が「言論の自由だ!Xアカウントが凍結された!検閲だ!」と分散型SNSに移動してるのをちょくちょく見るのが不穏。
基本的にサーバーの運営にはお金がいるのでサーバー管理者はマネタイズに追われるが、Xは広告のみでもあの有様だし、現に資金繰りがうまくいかず閉鎖したサーバーも見てきたし、そのうち(サーバー代関係なく、モラルのない人が)金儲けにと違法薬物の広告などを出し始めるのも想像に難くない。
ご存知の通り、日本はポルノに関する規制が異常にゆるい。児童ポルノに関してもそう。
故に、感覚の麻痺しきった日本では普通だと思われる児童ポルノ系の絵柄が多く投稿されるサーバーやアカウントはは諸外国のサーバーからは切断や凍結されることが多く、代表で言えばPawooがそれ。
場合によってはキャッシュが残っているだけで捕まる国もあるので当たり前なのだが、これを逆手に取り、いつぞやのPixivのように児童ポルノや児童売春に関する投稿を大量にされたら、どんなに本人が平和にやっていてもサーバー管理者がお縄になったり諸外国にあるサーバーから連合を切られたり、その上日本人そのものへの風評被害になりかねない。
まあ、日本のキショさチキンレースをやってる表現の自由戦士達は自分も含むみんなの首をじわじわ絞めるのでこんな攻撃をするまでもなく日本のサーバーは切られるんだろうけど.....
日本のIPから諸外国のサーバーへの大量投稿、なんてのがあったらなおヤバいかも。
自分がいるサーバー管理者が生成AI反対派でブロックする技術を導入してくれたとしても、クローラーがいるサーバーに制限がなければ恐らくなんの意味もない。(今後どうにかできる技術が出てくるかもしれないが、恐らくイタチごっこだと思われる)
絵描きさん、VTuberさん、コスプレイヤーさんなんかはAIに使われると大変だと思うのでご留意されたし。
まあ後述の通り、AIに利用されたくなければ全てのSNSで警戒は必要なのだが、やはり自分が悪用する側だとして想像してみると分散型SNSの収集の簡単さにはやはり惹かれるものがある。
完全にはできない。削除と同じであくまでもAIに「使わないでください」とお願いができるだけであって完全な拒否は不可能(これはSNSに限らずインターネット全般)
これは一長一短なのだが、どの分散型SNSもRSS配信を使えがちなのでアカウントを持っていなくても投稿内容を監視できて相手にバレずにネトストがしやすい。
俺はしがないプログラマー。
githubで50スターぐらいのしょぼいコードを置いているが、そんなプロジェクトには何の力も入れていない。プロジェクトと呼ぶのもおこがましいぐらいだ。
仕事ではとあるコンテンツの検索エンジンを作っているが、情報検索、推薦システム、クローラー、そういうのを開発するのもだいぶ慣れたのでなにか新しいことをやりたいなと思っているところだ。
リーナストーバルズが言っていたが、「一つのプロジェクトを30年継続するような、そういう人がこの世界には必要だ」らしい。Linuxという価値あるプロジェクトを持つ人はやはりいうことが違う。
しかし、Linuxレベルの価値のある何かを30年...それ俺にもできるんだろうか?
しかし社会からの需要があり、その需要が30年も続くようなものを、果たして俺程度が作れるのか。
そもそも需要というのはどこから生まれてくるのだろう、と思うことがある。
それは人に対する社会的信用であったり、あるいは偶然的に宣伝がうまく行ったということもある。
俺は日頃から「社会」が俺を評価していないと思うことが多い。そんな状態で、社会のためになる何かを作ることなど可能なのか。
「社会」が、俺のような人間を「弱者男性」といって差別・虐待している状態で、俺は本当に社会のために貢献したいと思えるのだろうか。
一体、弱者男性が作ったどんなプロジェクトであれば人々がサポートしようと思えるのか。
全てが虚しい。
うるさい目覚ましで朝起きる。眠すぎる。二度寝したい。
しかし仕事があるので、こたつの上に置いているPCを起動させ、リモートで出社する。
メール一覧を確認した後、今日のタスクを確認し、今日やろうとしていることを上司に伝える。
ここがポイントなのだが、タスクが完了する日数は多めに見積もっておくとよい。2日で終わるタスクは5日かかると言う。
急ぎのタスクなど俺の会社にはない。急いでたくさんこなしても、給料は上がらない。
そう言いつつ、タスクはできる限り早く終わらせる。
例えば見積もりが5日で、終わらせたのが2日であるなら、3日はサボれるということだ。
あと、できるだけ自動化しておく。クローラーもファイルや統計の生成も、バッチ的に実行するスクリプトも、そういうものはひたすら自動化する。
ではサボっている時に何をしているか。オナニーするのも良いし、コンビニでおやつを買ってくるのも良い。
あるいはオンラインゲームをするとか、増田をやるとか、とにかくやりたいことをダラダラとやっていればよい。
仕事をしていないことを監視する人は誰もいない。結局、やるべき仕事はやっているのだから、俺が間違っているということはない。
そうして仕事の時間が終わったら、テキトーに挨拶して抜ける。100%定時で退社するべきだというのが俺の論だ。急ぎの仕事もないのに、残業代を貰うわけにはいかない。
さて、一日の仕事が終わった。そして俺はオンラインゲームの続きをする。
こういう人生を歩む弱者男性の俺からすると、なぜ世間の人たちがあんなに頑張れるのか、不思議に思ってしまうのだ。