はてなキーワード: クローラーとは
もう分断を煽るのはやめませんか
現在混乱を招いている要因は、おそらく以下の二つ
AI利用に向けて改正されたとされる著作権法30条の4は AIならなんでも許されるというわけではない。以下のように条件がついている。
著作物は,次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には,その必要と認められる限度において,いずれの方法によるかを問わず,利用することができる。ただし,当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は,この限りでない。
この辺りの解釈について紛糾している様子。
同30条の 4 は平成30年当時、事業者や研究者によるAI利用を想定していた。現在では一般市民にAIが広く普及し状況が変わってきたことから、同条の適応範囲について再整理を図るという趣旨で公開されたのが「AIと著作権に関する考え方について(素案)」
そして素案に対するパブリックコメントを募集した、というのが現在の流れ。
たぶん、CLIPのこと。テキストと画像の翻訳を行う。犬の画像を見て「犬」と識別することができる。
ネット上のあらゆる画像とテキストを学習することで作られた。OpenAIによって公開。画像生成だけではなくいろんなところに使われている。
画像生成AIはテキストエンコーダ(CLIP)と画像生成器の組み合わせでできている。stable diffusion等は拡散モデルを使っている。
1. イラストを用意する
学習を繰り返しノイズを増やしていくと最後はただのノイズから画像を出力する 連想ゲーム絵師が誕生する。連想ゲーム絵師は連想しかできないので自分が描いたものが何かわからない。犬を描いてといっても車を描いてくる。なので CLIPが誘導したりダメ出ししたりする。
どこかのイラストサイトかデータベースを使っているはず。「著作権的に安全な〜」みたいな触れ込みのやつはどこかのデータベースを購入して使っているんだと思う。
Pixivの主張は別におかしくない。このあたりは「AIと著作権に関する考え方について(素案)p7」(エ)において解説されている。"robot.txt"への記述によりAI学習を行うクローラーのアクセスを制限しているにも関わらず、勝手に学習に使うことは「データベースの著作物の潜在的販路を阻害する行為」として著作権違反になる(Pixivが将来的に本当に販売するかどうかは置いておく)
追加学習(LoRA)のこと。
既存のモデルに数枚のイラストを追加学習させることで絵柄を模倣(ファインチューニング)する。
特定の絵師さんのイラストを勝手に使う者がいるようでトラブルになっている。
絵柄に著作権はない。学習の際に行われる複製が著作権侵害にあたるかどうかが争点になっている。
著作権法30条の4 より
この辺りは「AIと著作権に関する考え方について(素案)」及びパブコメの返答に現状の解釈が示されているので興味のある方はどうぞ。
(p6. 特定のクリエイターの著作物のみを用いてファインチューニングを行う場合〜を参照)
※ここははっきりとは断定していないので自分で読んだ方が良いと思う。
(私の読解:)
程度問題ぽい。よくある画風なら問題にならないけれどはっきりと特定絵師さんとわかる感じだとダメそうですね
(私の読解終わり)
別にプロフィールなんて「トイレから出たら手を洗ってください」でも「フォローする際には五体投地してください」でも好きに書いてよいだろう。
それが法律に記されているかどうかは関係ない。ただのお願いだ。
「AI学習禁止」と書くなと騒いでいる人は何を考えているのかよくわからん。
「AIと著作権に関する考え方について(素案)」にも再三出てくるがAI学習を技術的に回避することは禁止していない。30条の4は権利の制限であって、イラストを差し出せという強制ではない。
見ればわかりますが個人よりも一般企業による意見が多く、返答とあわせてとても読み応えのあるものです。
このファイルを読んで個人の頭の悪そうな意見だけ抜粋してくるのは非常に違和感があります。
分散型SNSに搭載されている削除ボタンは基本的には「自分のいるサーバーからは消せるけど、他のサーバーにはあくまでもお願いしかできない」仕様なので繋がっているサーバーの管理者や設定次第では永遠に消したい投稿が残り続ける。
第三者が悪意のあるなしに関わらず無断で個人情報を拡散した場合や、自分が間違えて個人情報を投稿してしまった時など、比較的簡単に情報が海外のサーバーにも渡ってしまい日本国内の法律では対応しきれなくなる。
大抵の場合は消してもらえるとは思うが、最悪の場合、日本国内のサーバーからは消せても外国のサーバーには残っており、その国には関連法がないため法に訴えて消してもらうこともできず、日本国内からは簡単に閲覧が可能...という状況も想定される。
長々と語っているが、要はサーバー管理者は悪意がなくても犯罪に加担してしまう可能性があるということと、情報へのアクセスのしやすさが違う。
既に誹謗中傷界隈(?)の人間が「言論の自由だ!Xアカウントが凍結された!検閲だ!」と分散型SNSに移動してるのをちょくちょく見るのが不穏。
基本的にサーバーの運営にはお金がいるのでサーバー管理者はマネタイズに追われるが、Xは広告のみでもあの有様だし、現に資金繰りがうまくいかず閉鎖したサーバーも見てきたし、そのうち(サーバー代関係なく、モラルのない人が)金儲けにと違法薬物の広告などを出し始めるのも想像に難くない。
ご存知の通り、日本はポルノに関する規制が異常にゆるい。児童ポルノに関してもそう。
故に、感覚の麻痺しきった日本では普通だと思われる児童ポルノ系の絵柄が多く投稿されるサーバーやアカウントはは諸外国のサーバーからは切断や凍結されることが多く、代表で言えばPawooがそれ。
場合によってはキャッシュが残っているだけで捕まる国もあるので当たり前なのだが、これを逆手に取り、いつぞやのPixivのように児童ポルノや児童売春に関する投稿を大量にされたら、どんなに本人が平和にやっていてもサーバー管理者がお縄になったり諸外国にあるサーバーから連合を切られたり、その上日本人そのものへの風評被害になりかねない。
まあ、日本のキショさチキンレースをやってる表現の自由戦士達は自分も含むみんなの首をじわじわ絞めるのでこんな攻撃をするまでもなく日本のサーバーは切られるんだろうけど.....
日本のIPから諸外国のサーバーへの大量投稿、なんてのがあったらなおヤバいかも。
自分がいるサーバー管理者が生成AI反対派でブロックする技術を導入してくれたとしても、クローラーがいるサーバーに制限がなければ恐らくなんの意味もない。(今後どうにかできる技術が出てくるかもしれないが、恐らくイタチごっこだと思われる)
絵描きさん、VTuberさん、コスプレイヤーさんなんかはAIに使われると大変だと思うのでご留意されたし。
まあ後述の通り、AIに利用されたくなければ全てのSNSで警戒は必要なのだが、やはり自分が悪用する側だとして想像してみると分散型SNSの収集の簡単さにはやはり惹かれるものがある。
完全にはできない。削除と同じであくまでもAIに「使わないでください」とお願いができるだけであって完全な拒否は不可能(これはSNSに限らずインターネット全般)
これは一長一短なのだが、どの分散型SNSもRSS配信を使えがちなのでアカウントを持っていなくても投稿内容を監視できて相手にバレずにネトストがしやすい。
俺はしがないプログラマー。
githubで50スターぐらいのしょぼいコードを置いているが、そんなプロジェクトには何の力も入れていない。プロジェクトと呼ぶのもおこがましいぐらいだ。
仕事ではとあるコンテンツの検索エンジンを作っているが、情報検索、推薦システム、クローラー、そういうのを開発するのもだいぶ慣れたのでなにか新しいことをやりたいなと思っているところだ。
リーナストーバルズが言っていたが、「一つのプロジェクトを30年継続するような、そういう人がこの世界には必要だ」らしい。Linuxという価値あるプロジェクトを持つ人はやはりいうことが違う。
しかし、Linuxレベルの価値のある何かを30年...それ俺にもできるんだろうか?
しかし社会からの需要があり、その需要が30年も続くようなものを、果たして俺程度が作れるのか。
そもそも需要というのはどこから生まれてくるのだろう、と思うことがある。
それは人に対する社会的信用であったり、あるいは偶然的に宣伝がうまく行ったということもある。
俺は日頃から「社会」が俺を評価していないと思うことが多い。そんな状態で、社会のためになる何かを作ることなど可能なのか。
「社会」が、俺のような人間を「弱者男性」といって差別・虐待している状態で、俺は本当に社会のために貢献したいと思えるのだろうか。
一体、弱者男性が作ったどんなプロジェクトであれば人々がサポートしようと思えるのか。
全てが虚しい。
うるさい目覚ましで朝起きる。眠すぎる。二度寝したい。
しかし仕事があるので、こたつの上に置いているPCを起動させ、リモートで出社する。
メール一覧を確認した後、今日のタスクを確認し、今日やろうとしていることを上司に伝える。
ここがポイントなのだが、タスクが完了する日数は多めに見積もっておくとよい。2日で終わるタスクは5日かかると言う。
急ぎのタスクなど俺の会社にはない。急いでたくさんこなしても、給料は上がらない。
そう言いつつ、タスクはできる限り早く終わらせる。
例えば見積もりが5日で、終わらせたのが2日であるなら、3日はサボれるということだ。
あと、できるだけ自動化しておく。クローラーもファイルや統計の生成も、バッチ的に実行するスクリプトも、そういうものはひたすら自動化する。
ではサボっている時に何をしているか。オナニーするのも良いし、コンビニでおやつを買ってくるのも良い。
あるいはオンラインゲームをするとか、増田をやるとか、とにかくやりたいことをダラダラとやっていればよい。
仕事をしていないことを監視する人は誰もいない。結局、やるべき仕事はやっているのだから、俺が間違っているということはない。
そうして仕事の時間が終わったら、テキトーに挨拶して抜ける。100%定時で退社するべきだというのが俺の論だ。急ぎの仕事もないのに、残業代を貰うわけにはいかない。
さて、一日の仕事が終わった。そして俺はオンラインゲームの続きをする。
こういう人生を歩む弱者男性の俺からすると、なぜ世間の人たちがあんなに頑張れるのか、不思議に思ってしまうのだ。
いつものようにPCゲームの攻略スレ&国内サッカー板で情報をあさろうと思ったら、全くスレが見れないwww
5ch問題まとめ
1 janestyleがAPIサーバーを用意してほかのブラウザを締め出す
2 ほかのブラウザはjanestyle開発者にAPIキーをもらうしかなくなる
ここ数ヶ月の5ch
って、事らしい。
他の人の説明の通りで、俺のキャリアでは専ブラを使わないと規制によって書き込みが出来ないって状態だったので
今回専ブラを使えなくなったことで、必然的に5chを見る意味がなくなった。5chの無駄で広範囲に巻き込む長期の規制はなくならんだろう。
なんか板によってはNGワードもあるようで、いつの間にか焼かれてしまうこともある。専ブラ経由でかろうじて使えていただけだった。
Janeの謀反がどういう理由によるものか分からんけど、Talkに住民が移動するか分からんし
ひとまず自分の中で5ch/Talkが終わったな。同じチームをサポートするサポーター同士、同じゲームを攻略中のゲーマー同士の会話が出来なくなるのは残念だが。
で疑問なんだけど、これ、企業・団体や個人の人脈、固定ファンを持ってない人の記事ってどういう導線があるの?
ホームもトレンドも半分以上がオーガナイゼーション所属か見覚えあるアイコン。
企業系はもう身内でいいねだかLGTMだかを押し合って押し上げる印象しかないし。
有象無象の投稿者に一見さんが訪れるのはせいぜいアドカレ?年末だけか。
Qiitaって今、盛り上がってるのか…?
https://qiita.com/Qiita/items/75a34af032d898a86679
ひとつもストックされない記事がどれぐらい埋没してることやら。
覗いたついでに一個記事を上げてみたけど、初日の閲覧数100前半で止まった。
読み物でもなく需要・トレンドがあるわけでもない記事だけど100人ぐらいにしかクリックすらしてもらえないんだな。
数年前の3いいねぐらいの記事でも5~7000viewぐらいあってクローラーだとかの細かい積み重ねにしてもひどい頭打ちね。
今、ゼロからQiitaに投稿していこうってエンジニアは何をモチベに投稿し何かしらモチベになるものを受け取れているのか…?
まあ、Qiitaはもう昔から内輪で回す閉じたコンテンツだっていうバイアスをかけてるからそう見えている可能性が高い。
QiitaとかZenとか日本語版スタックオーバーフローとかteratailとか、ここらへんのコミュニティの環境を定期的に解説してくれる人いないかなぁ。空気感とかこんな出来事があってこんな風になったよとか。
下世話すぎるか。
当然そのキチガイたちは違法行為をやってるわけなので、裁こうと思えば裁けるが
じゃあ、そいつらに公開された個人情報を独自に集め(Webクローラーで機械的に収集したり、自力で晒しの場に張り付いて集める)て、それを保存しておくのは違法なのだろうか
あくまで公開はせずに保存するだけに留めるとして
あれは「合法的に公開された情報をわかり易くプロファイリングして地図と示し合わせてるので無問題、国内で違法だとしても俺のサーバは海外にあるので合法、消してほしけりゃ6万払え」って作者が言い張ってるけども
なら悪意をもって不正に晒された情報を収集してプロファイリングし、公開せずとも個人的に保有するのってどうなのかなって気になってね
関係ないと思う。軍にとっ捕まえられて洗脳されたとか、カルトコミューンで生まれ育ったとかじゃねーので、
申し訳ないがどうあってもフツーはそうならないと言う他ない
一定数そういう生き物も生まれてしまうよなって理解は示すことができる ↓
データサイエンティストを名乗るなど、職業を見るにグレー、ボーダーっぽくない人、
あるいは最終学歴が院卒など大卒以上かつ、アレな人向け情報商材や陰謀論展開を職業にしていない人
えっ?なにこれ?どうしたらいいの?マジで?Webクローラーの作り方を教えてあげれば良いの????
教えても文責のあるメディアはすべてフェイクで終わりかな???
どうして “その2” が生まれてしまうのかは絶対に無視してはいけない問題な気がするんだけど
誰も触りたがらないよね、まぁ触っちゃヤベー奴なので仕方無しではあるが (ワイも触りたく無いので増田に書いてる)
ちなみに “その2” は党性や政治主張に関わらずいるよ
自称、リベラル・保守・中道・無政府主義・ノンポリすべてにいる
大筋で政党・政治主張が同じならたくさん仲間がいると見せかけられるからOKとはならんでしょって思うんだが?
しかも仕方ないね・・・って言われるような属性の人間じゃ無いし、受けた教育レベルを見るに宗教的熱狂で看過出来る域を超えているんだが?
米FOXのコメント欄ですら不正投票・不正選挙がどうこうと騒いじゃいないのに日本の140文字民は
親友という存在も恋人という存在とも縁がなく、学生時代は部活をやっていたから辛うじて他者との繋がりがあったが、引退した途端、自発的に人と付き合うことをしていないことを思い知った
いつの頃からかWeb小説やマンガに興味を抱き、細々とマンガを描いて自サイトに投稿したりpixivに投げたりしていた
とある共同制作のコミュニティに入れた時は、創作について話せる人がいるって楽しいなと思った
が、時が来れば人の心も移り変わるもので、そのコミュニティの人間関係が嫌になってしまった自分は、pixivの関連作品を非公開にして、親しい人にだけアカウント削除を伝える旨のDMを送った
一方的に共同制作を持ちかけておきながら作品削除をした自分を非難する人がいたが、相手方に非はないのでその通りだと落ち込んだ
コミュニティに関連するアカウントを削除し、新しいアカウントを作ったら、びっくりするほどフォロワーが少なくなってしまった
いかにコミュニティにべったりだったのかが分かって、自分はそのコミュニティに学生時代の部活のような依存をしてしまったのだと気づいた
そして、コミュニティから出た自分は、以前のように個人サイトでマンガを描くことを試みようとしたのだが、うまくはいかなかった
なぜなら前のコミュニティで非難DMを送った人がフォロワーのフォロワーにいることに気づいてしまったからだ
あの人が自分を恨んでいることを知ってるし、自分も迷惑をかけた自覚はあるからせめてその人の目の入らないところで活動を続けたいという気持ちでアカウントを作り直したつもりだったのだが、考えが甘かった
そりゃあ前のコミュニティと繋がりがある人をフォロワーに持てば大なり小なり自分の行動は筒抜けになるだろう
自分で撒いた種ではあるのだが、自分は行動力も計画力もないのだと悩んだ
いくら鍵をかけても、アカウントが存在する限り「あいつまだマンガ描いてるの」と思われるのだろう
いや、あの人はそんな性格じゃないと言い聞かせるも、心の中で例の批難DMがしこりになって残っているようだった
相手方が「許して欲しいという気持ちが透けて見える」と語った文章だけが今でも目に焼き付いている
自分の気持ちが相手に理解して貰えないのは辛いことなんだなと、今文章を書きながら思った
時は経ち、吹っ切れては無いものの、噛み切れるようになった想いを抱えながら、自分は新たに(というか以前まで存在していた化石サイトを改装した)サイトを作ってぼちぼちマンガ制作を再開している
就職をしたものの、人間関係は依然として希薄なのでプライベートで人と会うことなどとんとなくなった
他人に失礼をしておきながら、そして名のある作家ではない大前提がありながらも、自分には創作しかないのだと理解してしまった
それ以外にやることがないと言えばそれまでなのだが、辛うじて趣味らしきものがあるのは有難くは思う
ところで、以前Twitterでとある呟きを見かけて、意味がわからないけど意味をわかりたいからメモっておいたものがある
新人の頃、先輩編集者が新人作家さんに言っていた忘れ難い言葉があります。「子供の頃からずっと友達がたくさんいて、社交的で、遊び場もゲームもたくさん与えられた人間は、絵描きにも物書きにもなれない。才能にも技量にも理由がある。貴方のコンプレックスはその証拠なんだ」。なんだか泣けました。— たられば (@tarareba722) August 8, 2014
やべえこのツイート2014年のなのかよ!と一瞬思ったが、8年も経てばなんとなくニュアンスが分かるようになった、と思う
読解力がないというか、頭の中で線と線が繋がらないために心から言葉を理解出来ていないが、つまるところ自分は満たされていなかったのだろうという結論が出た
ホッテントリの、恋人が出来たから創作活動が出来なくなった、というのはご最もだと思う
満たされない感情の置き場が創作から恋人に移ったのだろうし、生物としての仕組みはそれが正しいものだと思うから是非その人を大切にして欲しい
残念ながら自分は生物として欠陥があるようなので、今後も創作という一人相撲を続けるだろう
SNSの#繋がりたい 系のタグは生理的に受け付けないし、創作の人間関係で人様に迷惑をかけたのだし、そもそもクローラーにサイトの画像舐められて自分の手元から作品が独り歩きすることが嫌な人間だから検索避けをする以上、SNSで迂闊にサイトのURLは貼れない
故に、表立って作品を宣伝することはせず、その辺の隅っこで自分専用の墓場を作る予定である
自分で書いてて思ったが、凄く陰気で頑固で根暗な人間だなと思った
だから創作なんて毒にも薬にもならないものを趣味にしているのだろう
インターネットに墓場と言っても、デジタル遺産となってネットの藻屑になってしまうのだろうけども、ひとまずはその認識で行きたいと考えている
創作と言いつつ、結局は自己満足だから、自分の見やすい形で管理したいというのが本望なのだ
自分が楽しいものをたまたま覗いた他の人が楽しんでくれたら嬉しいけれど、道端に歩いてる人にこれ面白いよ!と宣伝することはしたくはない
労力だからだ
インターネットの中でも自分のことをアピール出来る人は凄いと思う
例のDMがきっかけになっただけで、元々自分がネガティブ寄りの思考を持つ人間だったのは自覚している
最近(自分が見かける範囲で、だが)「音楽制作は続けるけど作品を表に出すことは辞めたいと思っている」「このゲームが完成したらもう絵なんて描きたくない」という呟きをちらほら見かけるようになった
もちろん締め切り前のイヤイヤ発言ではなく、ばっさりと今後一切の活動を辞めるニュアンスの発言である
彼らのフォロワーでもなんでもない自分は、悲しいなと思いつつ、創作が心の障害になるのなら辞めることも選択肢のひとつだとも思った
今現在創作くらいしか趣味がない自分も、いずれそんなことを思う日が来るのだろう
コミュニティを抜けた日から、永遠は夢想だと思うようになったので、その日が来るまでになんとか絶望しないように生きていきたい
Google検索死んでる→からの、まとも検索というオルタナギャグがブクマ集めている。
「Google検索は死んでいる」がバズったので「まとも検索」を作った。:村上福之の「ネットとケータイと俺様」:オルタナティブ・ブログ
で、思ったんだけど、YahooJも裏側はGoogleだから無視するとして、他にGoogleの代わりにできそうなエンジンってBingとかDuckDuckGoあたりだよね。
この二つって、本当に独自クローラーで集めてるのかな? 実は裏側はGoogleの検索結果を使ってるような気がしないでもない。
というのも、最近、俺が作った某サイト(独自ドメイン)があるんだけども、これはまだどこからもリンクされてない。つまり自分以外は誰も知らない状態。
で、Googleのサーチコンソールにだけは登録した。数日後にGoogleのクローラが来た。そんでインデックスされた。
ここまでは想定通り。
この段階では検索エンジンが異なるBingやDuckDuckGo等で検索しても当然結果には出てこない…と思ったのだが、試しにサイト名で検索してみたらなぜか結果に出る。
アクセスログを見てみても、自分のアクセスとGoogleクローラのアクセスしか記録されてない。BingボットやDuckDuckGoのクローラは来ていない。
自分が使っているブラウザ(Chrome)にはDuckDuckGoなどの拡張機能も入れていない。
つまり、BingやDuckDuckGoには「俺が作ったばかりの某サイト(独自ドメイン)」の情報はまだ一切ないはずなのに、検索したら表示されるという状態。
これって、Googleの検索結果を利用しないと不可能な芸当だと思うのだが…?
なんでこんな現象が起こってるんだろう?
詳しい人いたら教えて。