はてなキーワード: クロールとは
はてなーは「電子書籍が出れば紙書籍が売れなくなるのは当然の流れ」というノリで生成AIとイラストレーターのことを語ってるけど、実際のところは「漫画村で読めるから単行本は買わない」というノリに近いのが今の生成AIの現状なんですよ。
ここら辺は漫画家の中でも理解できていない人がいて、森川ジョージさんが正にそれで同業者からフルボッコにされている真っ最中なんだけどね。
還暦近い方なので仕方ないところではあるんだけど、漫画家協会の理事やってるから面倒なんだよなぁ、マジで。
それはともかく、画像生成AIは数億のイラストを元にして絵を生み出してるんだけど、その元となったイラストはほぼ全部無断転載で、中には児童ポルノ画像まで入ってるのまで有って問題になっているんですよ。
なので欧米では法で規制しようかという話も当然のように出ているわけです。
将棋AIはAI同士で対局を繰り返してその棋譜を元に強くなるんだけど、画像生成AIは現状はどうしても人間が描いたイラストを元にせざるを得ないので問題を孕みまくっているんですよね。
クリーンなデータセットを元に学習すれば良いんだけど、そのようなイラストは現状だと著作権切れの古いイラストしかないんじゃないかな?
そんな面倒なことをせず、Pixivというジャップが大量に良いイラストを纏めてくれてるからクロールしてぶっこ抜いて使おうぜ、というのが今の画像生成AIの現状だと思う。
それでも身内だけで使ったり、自分の画力向上のための添削ツールとして使ったりするくらいならまだ理解できるんだけど…
現状だと「才能ないし努力もしたくないけど、SNSで漫画やイラストでチヤホヤされてるインフルエンサーが羨ましくて仕方が無い! でも自分では努力したくないでござる!」というクズが画像生成AIで勝ち誇ったり、勝手に嫉んだ漫画家やイラストレーターに似た画風の画像を出力して誹謗中傷に使ってるから問題になっているんだよ。
先月までアニメやってた「即死チートが最強すぎて、異世界のやつらがまるで相手にならないんですが。」の主人公のクラスメイトが他人から貰ったチートでイキってたけど、正にあんな感じのクズが量産されてるんだよね。(「即死チート」の作者は人間の愚かさというものがよくわかってらっしゃる。)
そして最近だと更に先鋭化してAIを使ってるに違いない、とAI警察化して勝手に認定して冤罪発生させまくりなんだよなぁ。
イラストレーターが潔白証明しても耳を貸さないし、懲りないし、本当にクズなんだわ…
とにかく、功罪のうち、罪の方が大きすぎるのでイラストレーターや漫画家はピリピリしてるんですよ。
はてなーの中には「Winny本体が悪いんじゃなくて、悪用するユーザーが悪いんだ!」という人が居るかもしれないけど、今の画像生成AIは「違法画像を大量に同梱したWinnyを配布している」状態なんですよ。
さっさと法規制して欲しいものだけど、日本でそれ関係の国会議員である赤松健氏はこの件に関しては動くことは期待できないと思うんだ…
AIが擬人化して開発者である主人公とラブコメする作品を描いた人なんだよ?
最新作の「UQ HOLDER!」では人類の進歩を全肯定し、そのために血を流しながら前に進むような漫画を描いた人だよ?
とりあえずクリア
難易度は一番低いやつ
途中詰まりそうになったときもあったけどなんとかクリアできてよかった
ps2の1はラストステージで詰まってクリアできんかったからなー
ロックマンのワイリーみたいな立ち位置なんだなラチェクラのラスボスって
声もあってた
画面のきれいさとロードのなさはすぐ慣れて、後半は逆につまんなかったなー
まちとかステージのオブジェクトもやたらリアルで数おおいけど、逆にそのせいでどれが壊せるものかとか、
大事な隠しアイテムかとかがすげーわかりにくくなっててイライラした
最後の最後でアクセシビリティってオプション設定あることしって、インタラクトできる箱とかゴールデンボルトとかギミックとかの色を変えたらすげープレイしやすくなったわ
わりとメインのはずの遠距離武器の爽快感がいまいちだったのは微妙だったなあ・・
近距離攻撃とどかねえから遠距離必須みたいな敵やボスが多いから余計に感じた
ベルトスクロールみたいにエリア内の敵倒さないと次に進めないのが結構あるけど、
終わってるかどうかがすげーわかりにくくて、終わってないのに進もうとして死ぬってのも何回かあってうざかったなー
まあ1回やればいいかなって感じ
スターオーシャン6とかもこういう感じで交互に見せてくれればよかったのになと
ラチェットとリベットで2週させられてたらクソうざかったと思うわ
こんな感じで1周で両方みせてくれたらいいんだよ
もう分断を煽るのはやめませんか
現在混乱を招いている要因は、おそらく以下の二つ
AI利用に向けて改正されたとされる著作権法30条の4は AIならなんでも許されるというわけではない。以下のように条件がついている。
著作物は,次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には,その必要と認められる限度において,いずれの方法によるかを問わず,利用することができる。ただし,当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は,この限りでない。
この辺りの解釈について紛糾している様子。
同30条の 4 は平成30年当時、事業者や研究者によるAI利用を想定していた。現在では一般市民にAIが広く普及し状況が変わってきたことから、同条の適応範囲について再整理を図るという趣旨で公開されたのが「AIと著作権に関する考え方について(素案)」
そして素案に対するパブリックコメントを募集した、というのが現在の流れ。
たぶん、CLIPのこと。テキストと画像の翻訳を行う。犬の画像を見て「犬」と識別することができる。
ネット上のあらゆる画像とテキストを学習することで作られた。OpenAIによって公開。画像生成だけではなくいろんなところに使われている。
画像生成AIはテキストエンコーダ(CLIP)と画像生成器の組み合わせでできている。stable diffusion等は拡散モデルを使っている。
1. イラストを用意する
学習を繰り返しノイズを増やしていくと最後はただのノイズから画像を出力する 連想ゲーム絵師が誕生する。連想ゲーム絵師は連想しかできないので自分が描いたものが何かわからない。犬を描いてといっても車を描いてくる。なので CLIPが誘導したりダメ出ししたりする。
どこかのイラストサイトかデータベースを使っているはず。「著作権的に安全な〜」みたいな触れ込みのやつはどこかのデータベースを購入して使っているんだと思う。
Pixivの主張は別におかしくない。このあたりは「AIと著作権に関する考え方について(素案)p7」(エ)において解説されている。"robot.txt"への記述によりAI学習を行うクローラーのアクセスを制限しているにも関わらず、勝手に学習に使うことは「データベースの著作物の潜在的販路を阻害する行為」として著作権違反になる(Pixivが将来的に本当に販売するかどうかは置いておく)
追加学習(LoRA)のこと。
既存のモデルに数枚のイラストを追加学習させることで絵柄を模倣(ファインチューニング)する。
特定の絵師さんのイラストを勝手に使う者がいるようでトラブルになっている。
絵柄に著作権はない。学習の際に行われる複製が著作権侵害にあたるかどうかが争点になっている。
著作権法30条の4 より
この辺りは「AIと著作権に関する考え方について(素案)」及びパブコメの返答に現状の解釈が示されているので興味のある方はどうぞ。
(p6. 特定のクリエイターの著作物のみを用いてファインチューニングを行う場合〜を参照)
※ここははっきりとは断定していないので自分で読んだ方が良いと思う。
(私の読解:)
程度問題ぽい。よくある画風なら問題にならないけれどはっきりと特定絵師さんとわかる感じだとダメそうですね
(私の読解終わり)
別にプロフィールなんて「トイレから出たら手を洗ってください」でも「フォローする際には五体投地してください」でも好きに書いてよいだろう。
それが法律に記されているかどうかは関係ない。ただのお願いだ。
「AI学習禁止」と書くなと騒いでいる人は何を考えているのかよくわからん。
「AIと著作権に関する考え方について(素案)」にも再三出てくるがAI学習を技術的に回避することは禁止していない。30条の4は権利の制限であって、イラストを差し出せという強制ではない。
見ればわかりますが個人よりも一般企業による意見が多く、返答とあわせてとても読み応えのあるものです。
このファイルを読んで個人の頭の悪そうな意見だけ抜粋してくるのは非常に違和感があります。
軽微利用のくだり、その解釈だと検索エンジンも普通に違法にならね?
検索エンジン側で持ってるデータベースにクロールしたデータを全文ぶち込んでインデックス作ってないとこんな検索速度出せないでしょ
まさか検索するたびにクローリング走らせて全文中に検索ワードとの合致あるか調べて結果返すわけでもあるまいし
https://public-comment.e-gov.go.jp/servlet/PcmFileDownload?seqNo=0000267588
パブコメ用に素案も読み返してたんだけど、検索拡張生成(RAG)についての文化庁の見解は新聞協会のそれとはそもそも大幅な食い違いがありそう
https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_17.pdf
というか問29に沿って考えれば、「情報解析によって時事情報(※ただの事実であって著作権によって保護されない)を表示する」が主であって、その過程における「既存の著作物を複製翻案等する」は従であるとも評価しうるのでは
週末にはエキナカのお惣菜を買って帰るのがお決まりの千葉大学医学部医学科落ち早稲田大学先進理工学部生命医科学科卒おじさんです
また駅のスターバックスでホットの抹茶ティーラテを購入しました
大学時代にスターバックスにてパートナーをしておりましたが、最初の一ヶ月は慣れずにしょっちゅうバックヤードで「笑顔の練習」をさせられていたことを緊張した新人さんを見て思い出しました
さて、勉強を開始して3日目ですが
という流れが出来ています
職場でも隙間時間に英語を勉強している同僚や上司が多いためその波に乗らせていただいています
明日、明後日は自宅にて英語と数学の学習を進めつつ過去問や参考書を使って受験に必要な全科目を概観する予定です
結果を出すために同じリズム、同じスピード、同じフォームでクロールを泳ぎ続けるように勉強することを目標としています
その意味でも図書館やカフェ、自習室などではなく自宅の自室で行うことが重要だと思っています
それでは良い週末をノシ
僕は弱者男性プログラマーだ。コードを書いて金をもらっている。
そんな僕が、社会学や政治に興味を持つ人が多いこのような場で物申すというのはちょっと変だと思うかもしれない。
実際、社会学なんて僕の専門じゃない。
僕はコンテンツを収集するクローラを書いたり、それを検索できるようにインデクシングしたり、あるいはコンテンツのクリック履歴に基づいておすすめを表示させたりするプログラムを書いている。
このようなプログラムにも、社会的側面というのは存在する。利用者が何らかの目的によってその検索ツールを利用し、調べたいものにたどり着く。コンテンツプロバイダー、ユーザー、システムという3つのアクターの社会が形成されている。
社会学者がコンピュータについて語ることがあるぐらいだから、プログラマーが社会について語ってもいいだろう。
僕が常々思うのは、人々の目的だ。
つまり「この検索ツールを使う人は、一体なにがしたいんだ」「コンテンツを提供する側は何が目的なのか」ってこと。
もっと状況を限定するために、「ブログ検索」というツールについて考えてみよう。君がクエリを投げてブログを調べようと思うのは一体どういうときなのか。あるいはブログを書こうと思う人たちの動機は?
動機は基本的にneedとwantによって分類されると考えて良い。needの場合、例えば確定申告書の書き方について調べていて、適切な情報を知りたいと言ったケースがそうだ。
wantというのは社会的な本能に結びついている場合もあるし、退屈しのぎということもある。承認欲求は基本的に社会的欲求だし、ハッカーが自分の知見を公開するのはちょっとした挑戦だろう。
リーナスの法則というのを聞いたことがあるだろうか。マズローの欲求解創設と似たようなもので、「生存」「社会」「娯楽」という3つが人の行動原理だとリーナス・トーバルズは言っている。
ブログを書くのが「生存」目的という人はどういう人だろうか。きっとそれ以外に職がなく、必死にアフィリエイトで稼ぎを得ている人だろう。
ブログを書くのが「社会的目的」という人は、すごいことをして認められようとか、専門家とつながりたいと考えているかもしれない。
しかし「娯楽目的」というのはもっと崇高なものに思えてくる。ブログの文章を書くのが単純に「楽しい」といった人たちのことだ。
生存、社会、娯楽という3つの階段によって、コンテンツの質というものが判断できるのではないかと、僕はそういう仮設を持っている。
アフィリエイトで生存的目的の発信をしている人たちのコンテンツは、お世辞にも良いとは言えない。クリックベイトであったり、感情を煽ったり、SEOをクラックしたり、初心者的だったりする。
社会的目的の人たちはもう少しマシで、認められようとして努力をする姿勢がある。でも、「たくさんの人と繋がりたい」という目的の場合はちょっと注意が要る。結局、そういう人は手当たりしだいにアクセスを増やそうとするから、コンテンツの質は下がってしまう。
「文章を書くのが楽しいけど、人に評価されることはどうでもいい」という人たちのコンテンツを探すことは難しいが、こういう人たちのコンテンツは奥深いことが多く、表面をなぞったようなアフィカスブログとは一線を画している。
しかしこれはコンテンツを提供する人の観点である。これらのコンテンツをクロールし、検索できるように整備している「システム」の観点から見ると、どうしても「広告利益」のようなものが重要視されやすい。
Googleであれば、Googleの広告利益に貢献するようなコンテンツを検索結果で優先表示するかもしれない。そしてそれはまさに生存欲求のためのアフィカスを優先しているのと同じことなのだ。
インターネットがつまらなくなったと言う人たちがいる。僕は次の喩えでこれを説明しようと思う。
昔のインターネットというのは、水の上に白いピンポン玉が浮いていた。この白いピンポン玉は良いもので、楽しいものだ。
ところが徐々に黒いピンポン玉を投下する人たちが増えてくる。黒いピンポン玉は悪いものだ。手を使って沈めようとしないと、白いピンポン玉が見つからない。
そして今のインターネットは黒いピンポン玉が一番上に浮かんでいて、白いピンポン玉はその下で見えなくなっている。
白いピンポン玉は純粋な娯楽精神を持ったコンテンツのことで、黒いピンポン玉は「アクセス数を増やしたい」がために鬱陶しいことをしているコンテンツのこと。
つまり、インターネットでは年々白いピンポン玉を見つけるためにエネルギーを使う必要が出てきてしまっていて、疲れているときは必然的に黒いピンポン玉を見るしかなくなっているということだ。
リーナスは「文明は、生存、社会、娯楽という段階に進んでいく」と言っていたが、インターネットは「娯楽、社会、生存」という逆の階段を降りている形になっているように思える。
現段階では、アテンションの総和が一定であるために、ネット人口が飽和し、広告企業の利益は落ち込んでいる。純粋な娯楽ではなく、企業の生き残りをかけた戦争に突入してしまっているのだ。
僕は今のインターネット社会では、意識的に面白いコンテンツを見つけるためにエネルギーをかけることがかなり重要だと思っている。ダラダラとやっていたらアフィカスとバズ目的しか目につかない。
例えば人間が一日に読める文章量なんて限られているから、本当に面白い人を見つけたらRSS購読しておいたほうがいいと思う。
うるさいハエがクソに群がっている。「クソを美味しくないと思うなら、お前がつまらない奴だからだ」と左翼思想家が指摘するかもしれない。
ご多聞に漏れず就職氷河期の中でどこにも就職できず就職活動も半ば惰性になってしまい、親も厳しく当たってきたわけじゃないが心配しつつやっぱり何か言いたそうだったし、それを察して申し訳なくてそそくさと部屋に戻ってはずっとネットをしてるような状態だった。
社会経験のまるでない、そのくせ疲れ切った根性なしの無職だった。
出会い系のエロメールに引っかかったオッサンの話なんかを「バカだバカだ」と思いながら読んでいた。
『自宅で月50万円も夢じゃない!』みたいな情報商材の文字が飛び込んできた。そんなに稼げるわけないだろと思いつつ、それでもふっと「何かの足しにはなるかもしれない」とよぎってしまった。バカだ。今の自分がそこにいたら、その目の前の四角い板でなぜきちんと調べないんだと肩を掴んで罵倒したと思う。
でも当時は、仕事はまだまだ見つかりそうにない。無聊をかこつ穀潰しでいるのはいたたまれない。何も言わずにいてくれる親にも申し訳ない。
そういう気持ちでぎりぎりだった。
申し込んで届いたのはWeb上のメールアドレス収集ツールだった。クッション封筒に入ったCD-ROM。
当時はティーカップなどの個人BBSがWebにはあふれていて、それらをクロールしてアドレスを集めてくるのである。
そして集めたアドレスに提携先の健康食品だの英会話教材だの紹介するスパムメールを送り付ける。一日に1000も2000も。
紹介する商品も割ときわどいのがあって、これさえ飲めばガンが治るとか、そういうのはさすがに良心が咎めたから手を出さなかった。
文面は俺が考える。それで購入者がいたらインセンティブが入る。
こうして読むとバカバカしいだろ? 儲けなんて出るわけがない。
文章を考えるのは結構好きだったが、好きとかそういう次元でできる作業じゃない。
それでも何とか作業をこなして報告メールを上げると「増田さんすごい!がんばってますね!」と白々しいメールが来る。
金だけ巻き上げられたんだと気づくというか直視せざるを得なくなるまで時間はかからなかった。
CD-ROM一枚に50万円だ。
そんな金、社会経験もなく就職もできないペーペーが一括で払えるわけがない。当然向こうのセッティングでローンを組まされた。
よくわからない中部地方の会社の名前が入ったカードが送られてきて、月々2万円の2年間だ。
月々2万は大した額じゃないが、あのころは自分のバカさを呪うしかなくてただただ重くて憂鬱だった。
そのキットを立ち上げることも全くなくなった。
途方に暮れて就職活動の傍らバイトを始め、家に申し訳程度の金を入れつつローンも返してたが最後の方で精神的にダウンして返済が滞ってしまい、ついに親にバレた。
めちゃくちゃ怒られた。当たり前だ。50万円をドブに捨てて挙句に自業自得で病んだ不肖にもほどがある息子である。
今は超低空飛行の零細に勤めてなんとか食っていってるけれど、恐らくあの時のローン延滞のせいでいまだにクレカ審査に通らない。
今時の人は学校で情報なんて科目もあるしあのころの俺より何千倍もリテラシー高いと思うけど、弱ってる時に変なもん掴んじゃうと一生響くから気を付けてな。バカからの伝言だ。
ザーッと読んでいて、まだ出ていないようだけれど、水泳だとクロールがそれ系だろうな。
クロールはもともと貴族が競泳させていた時に他者より速く泳ぐ方法として編み出された技じゃなかったっけ?
クロールが発明されるまでは平泳ぎみたいな泳ぎ方が普通だったようだけど、今や泳ぎ方を教えるとなると最初はこれだよね。
ちなみに、日本で初めて競泳でオリンピックに出た人はそんなことも知らず平泳ぎでクロールと戦ったんだから、まあ、結果は推して知るべし。
今でも自由形はみんなクロールだから、人類はこれを超える泳法をまだ生みだせてないということなのかな。
一般攻撃魔法ほどじゃないけど、最初出てきたときに最強だったけど今はスクールでふつうに教えてくれる泳ぎ方はあとバタフライもあるねか。
左右対称に手足を動かすというクロールを殺すことを目的としたかつての平泳ぎのルールの穴をついた泳法がバタフライだったような。
技術的な内容を増田に書くという実験のために、試しに検索エンジンの仕組みについて書く。
検索エンジンは、大雑把に言ってクロールするパート、インデクシングするパート、検索インターフェイスを出力するパートに分かれる。
インデクシング時に使っている基本手法は「転置インデックス」と呼ばれ、文書内のngramを文書IDと対応付ける辞書を保存する。
インデクシングの別の種類としては、文書をエンコーダからベクトルへ変換し、それを近似最近傍検索できるようにするものもある。
インデクシングされたものがキーワードマッチ的に絞り込まれると、さらに精密な手法が使われる。
クエリとドキュメントから特徴量設計し、関連性の高いものを引っ張るような訓練をする方法はLearning to rankという。
Learning to rankの中に使われる特徴量の一つにPage Rankがあるが、これは初期の検索エンジンで画期的とされた量で、「リンクされるページの価値は高い」「高価値ページにリンクされると価値が高い」という基準からマルコフ連鎖で計算する。
Page Rankは人間が論文を評価するときと似たような評価手順であるとされる。
Learning to rankの中にエンコーダからのベクトルを特徴量として組み込むことも可能であり、そのようなエンコーダの初期の例がBERTである。
こうやって絞り込まれた文書に対して、さらに有用な情報を表示するモデルがいくつか使われる。
情報抽出モデルでは、クエリを質問と見做してその回答を文書から抽出することがある。
あるいはクエリが人物名や組織名、場所名などであれば、そのエンティティの詳細情報をデータベースから取得することもでき、これはナレッジグラフとも呼ぶ。