はてなキーワード: クローラとは
だからさ、それならなんで「フレームワーク何使ってる?」なんて質問をしてきたのかって話ね
なぜWARCファイルで保存しているかと言うと、その方法なら複数サイトで統一的に書けるから
クローラからデータを抽出する部分は別途作ってあって、その部分だけ使い捨てになってる
言ってること分かる?
例えば君も当然知ってると思うがGoFなんかもscrapyに限らず特定のツールやライブラリなんかは「知らない」と思うよ
クローラ開発の文脈で今までのに手を入れるのではなくて一から全部作るのを「フルスクラッチ」と表現するのは英語的にはともかく間違ってはいないと僕は思うよ
scrapyとか知ってる?普通「フレームワーク使ってる?」とクローラ開発の文脈で聞かれればそれをイメージするよね
俺の認識だと「フルスクラッチ」ってのは和製英語で、英語の"from scratch"から来てる
https://www.octoparse.jp/blog/how-to-build-a-web-crawler-from-scratch-a-guide-for-beginners
その結果が以下。
https://i.imgur.com/UBzZTBy.jpeg
このラフがしっかり仕上げされる形になってて本当にびっくりした。
軽く自己紹介すると、ワイはお絵描きが趣味でIT系の仕事をしとる人間や。
最近のTwitter上のオタク界隈はAI絵の炎上が絶えない。
Stable Diffusion は出たての頃にちょっと触ってみたんやけど、何百枚も生成して使える絵は片手で数えるほどだったという印象があってそのあとはあまり真面目に技術を追いかけとらんかった。しかし最近の炎上を見てて、技術的にどこまで可能でどこからが不可能になるのか確認したくなり、もう一度環境構築からやり直すことにしたんや。
Stable Diffusion の WebUI の Docker 版を入れて、イラストに特化したモデルを入れて、VAEで画像のボヤけを解決し、噂の ControlNet を入れてみて、手元にある未完成の絵のラフを Canny につっこんでみて、プロンプトとパラメータを調節したらこの出来やで。
ちなみに貼った生成画像は無修正や。プロンプトにキャラ名は入れてないで。
何やろうね、このなんとも言えない気持ちは。
もしもワイにとって絵が道具やったら、簡単に十分なクオリティの絵ができてラッキーだと思っとるところやと思う。
でも、ワイにとって絵は目的やったから、描くこと自体が楽しいものやったから、理不尽な物言いだとは分かってるけど、それを奪われたような気持ちになったというのが一番近い表現やと思う。
というわけで当初の目的だった技術的に可能な点不可能な点を探るってのは今んところ不発に終わってるわけやけど、ワイが1年以上前の Stable Diffusion に触ってて思っていたところよりもよっぽど先まで話が進んどるんやな、とは思った。
正直、ワイみたいに描くこと自体が目的のヤツは少ないやろうな、と思う。大多数の人にとって絵は自分のブログ記事やプレゼンの資料を飾るための道具や。だから、この技術が今は法的に決着がついていないところを抱えているけど、それにはそう遠くない未来に決着がついて、一般に普及すると思う。
この技術がなかった頃にはもう戻れない。
せやから、ワイはこの技術と向き合っていきたい。それは、積極的に絵に活用するって話やない。この技術がある世界でもまだ絵を描き続けるという選択や。
別にプロでもなんでもないワイがそんなことしてても世の中何も変わることないとは思うけれども、でも、ワイはやっぱり絵を描くのが好きなんや。
ワイより上手い人たちはいっぱいいるけど、それでも絵を描き続けてきたんや。機械がワイより上手い絵を生成するようになったからって、そんなの今更やめる理由にはならんで。
【追記】
一つだけリプするわ。
お前の絵を見たい奴はAIに頼むようになるし、お前の絵はAIのためのクローラしか見に来なくなると思うよ。誰にも伝わらないなら、いったい何のために表現するんだ
絵は鑑賞されてこそ作品という考えやな。
ワイはネットが普及する前から絵を描いてるから、絵を見てもらえてないことが数字化される pixiv や Twitter も相当気持ち的には辛かったで。
今だって誰にも見てもらえないとまでは言わんけど、万バズとかいう言葉からは遠く離れた人間や。
でも、見てもらえないという現実と絵が完成したときの見て見て!っていう気持ちの落差があっても絵をやめることはできなかったんや。
だから、たとえ核戦争が起きて自分だけ地下シェルターで生き残って誰にも会えずに死ぬのを待つだけになったとしても描ける。そんな気がするんや。
カッコつけすぎやけど、正直な気持ちやで。
僕は弱者男性プログラマーだ。コードを書いて金をもらっている。
そんな僕が、社会学や政治に興味を持つ人が多いこのような場で物申すというのはちょっと変だと思うかもしれない。
実際、社会学なんて僕の専門じゃない。
僕はコンテンツを収集するクローラを書いたり、それを検索できるようにインデクシングしたり、あるいはコンテンツのクリック履歴に基づいておすすめを表示させたりするプログラムを書いている。
このようなプログラムにも、社会的側面というのは存在する。利用者が何らかの目的によってその検索ツールを利用し、調べたいものにたどり着く。コンテンツプロバイダー、ユーザー、システムという3つのアクターの社会が形成されている。
社会学者がコンピュータについて語ることがあるぐらいだから、プログラマーが社会について語ってもいいだろう。
僕が常々思うのは、人々の目的だ。
つまり「この検索ツールを使う人は、一体なにがしたいんだ」「コンテンツを提供する側は何が目的なのか」ってこと。
もっと状況を限定するために、「ブログ検索」というツールについて考えてみよう。君がクエリを投げてブログを調べようと思うのは一体どういうときなのか。あるいはブログを書こうと思う人たちの動機は?
動機は基本的にneedとwantによって分類されると考えて良い。needの場合、例えば確定申告書の書き方について調べていて、適切な情報を知りたいと言ったケースがそうだ。
wantというのは社会的な本能に結びついている場合もあるし、退屈しのぎということもある。承認欲求は基本的に社会的欲求だし、ハッカーが自分の知見を公開するのはちょっとした挑戦だろう。
リーナスの法則というのを聞いたことがあるだろうか。マズローの欲求解創設と似たようなもので、「生存」「社会」「娯楽」という3つが人の行動原理だとリーナス・トーバルズは言っている。
ブログを書くのが「生存」目的という人はどういう人だろうか。きっとそれ以外に職がなく、必死にアフィリエイトで稼ぎを得ている人だろう。
ブログを書くのが「社会的目的」という人は、すごいことをして認められようとか、専門家とつながりたいと考えているかもしれない。
しかし「娯楽目的」というのはもっと崇高なものに思えてくる。ブログの文章を書くのが単純に「楽しい」といった人たちのことだ。
生存、社会、娯楽という3つの階段によって、コンテンツの質というものが判断できるのではないかと、僕はそういう仮設を持っている。
アフィリエイトで生存的目的の発信をしている人たちのコンテンツは、お世辞にも良いとは言えない。クリックベイトであったり、感情を煽ったり、SEOをクラックしたり、初心者的だったりする。
社会的目的の人たちはもう少しマシで、認められようとして努力をする姿勢がある。でも、「たくさんの人と繋がりたい」という目的の場合はちょっと注意が要る。結局、そういう人は手当たりしだいにアクセスを増やそうとするから、コンテンツの質は下がってしまう。
「文章を書くのが楽しいけど、人に評価されることはどうでもいい」という人たちのコンテンツを探すことは難しいが、こういう人たちのコンテンツは奥深いことが多く、表面をなぞったようなアフィカスブログとは一線を画している。
しかしこれはコンテンツを提供する人の観点である。これらのコンテンツをクロールし、検索できるように整備している「システム」の観点から見ると、どうしても「広告利益」のようなものが重要視されやすい。
Googleであれば、Googleの広告利益に貢献するようなコンテンツを検索結果で優先表示するかもしれない。そしてそれはまさに生存欲求のためのアフィカスを優先しているのと同じことなのだ。
インターネットがつまらなくなったと言う人たちがいる。僕は次の喩えでこれを説明しようと思う。
昔のインターネットというのは、水の上に白いピンポン玉が浮いていた。この白いピンポン玉は良いもので、楽しいものだ。
ところが徐々に黒いピンポン玉を投下する人たちが増えてくる。黒いピンポン玉は悪いものだ。手を使って沈めようとしないと、白いピンポン玉が見つからない。
そして今のインターネットは黒いピンポン玉が一番上に浮かんでいて、白いピンポン玉はその下で見えなくなっている。
白いピンポン玉は純粋な娯楽精神を持ったコンテンツのことで、黒いピンポン玉は「アクセス数を増やしたい」がために鬱陶しいことをしているコンテンツのこと。
つまり、インターネットでは年々白いピンポン玉を見つけるためにエネルギーを使う必要が出てきてしまっていて、疲れているときは必然的に黒いピンポン玉を見るしかなくなっているということだ。
リーナスは「文明は、生存、社会、娯楽という段階に進んでいく」と言っていたが、インターネットは「娯楽、社会、生存」という逆の階段を降りている形になっているように思える。
現段階では、アテンションの総和が一定であるために、ネット人口が飽和し、広告企業の利益は落ち込んでいる。純粋な娯楽ではなく、企業の生き残りをかけた戦争に突入してしまっているのだ。
僕は今のインターネット社会では、意識的に面白いコンテンツを見つけるためにエネルギーをかけることがかなり重要だと思っている。ダラダラとやっていたらアフィカスとバズ目的しか目につかない。
例えば人間が一日に読める文章量なんて限られているから、本当に面白い人を見つけたらRSS購読しておいたほうがいいと思う。
うるさいハエがクソに群がっている。「クソを美味しくないと思うなら、お前がつまらない奴だからだ」と左翼思想家が指摘するかもしれない。
つらつらと今のネット社会について思ったことがあるので、前者を話の出汁にして及第点を許さない・許すことが出来ないネット社会構造について書き散らしたいと思う。なお、筆者は別にTATSUROのファンではないしCD等も持っていない。また本件の松尾氏に対する言及については主題と外れるので取り上げない。
まだ内容を知らないなら、radikoのタイムフリー(一週間以内)で聞いてくるかニュースサイトの書き起こしを見て欲しい:
さて、その上で次の質問を投げかけたい。果たしてTATSUROは「ジャニー喜多川の性加害」を擁護しているのか。それともしていないのか。しばし、お考え願いたい。
:
:
:
答えが「している」の方はハズレ。そして「していない」の方もハズレ。正解は「本当なら問題だと考えるが、自分が把握していないのでコメントできない」。つまりノーコメントだ。
自分が考えるに、これおそらく次のような建付けで説明できると思う。
1. TATSURO本人はその噂は聞いたことがあったが、真実であるかを判断するほど情報を持っていない
2. ジャニーズ事務所も今に至るまで創業者による性加害を「あった」と認定していない( https://www.johnny-associates.co.jp/news/info-700/ )
3. よって会社を代表するアーティストとしては「あった」ことを前提としたコメント出来ない。
これに対して、過去の裁判で加害の事実が認められているではないか! 卑怯である! という反論が予想されるし、個人的にはTATSUROの発表には最高裁での判決を知った上でのコメントが足りていなかったと考える。ただ、今がトレンドとジャニー喜多川の性加害問題について多くのメディアでも盛んに取り上げられているが、ならば現在、彼や事務所と取引があった組織がどれだけ氏の所業について声明を出しているだろうか?
念の為だが、だからTATSUROの対応も許されるということではない。吉田豪氏が ヤフコメ で指摘していた通り、薄っすらと業界全体が共犯関係にあり、うかつに声を上げられないところが問題なのだろう。さらには現ジャニーズだけではなく、独立した元SMAP(新しい地図)や元TOKIOなどにも延焼しかねないし、事務所を辞めたジュニアの人にすら風評被害が出てしまうかもしれない。松尾氏が口火を切って声を挙げたことは偉大ではあるが、個人ではなく会社組織となるとそう簡単には動けないのだ。当然、松尾氏もそれは想定した上で、声を上げようと呼びかけているのではあるが……
(自分としては、だからジャニーズ事務所本体が早急に創業者による加害を認め、外部委員会や透明性のある組織改革、看板の付替えなどで心機一転し、責任を持って業界全体を巻き込んで芸能界の清浄化に取り組むのが筋であるとは考えている。)
次は、ならばTATSUROはその加害について言及する必要があったのか検討したい。
私見ではあるが、ジャニー喜多川の性加害について説明責任が発生するのは現段階ではジャニーズ事務所および加害に関与した者のみであり、それに関与せず単に所属タレントの活動に関係していた作曲家や振付師などには発生しないと考える。
そこで、もう一度番組での発言に立ち戻りたい。もし時間が許すならば彼の発言をもう二回「イチ音楽家」および「長年に渡り音楽業界を引っ張ってきた重鎮」の言葉として読み直して欲しい。
:
:
:
いかがだっただろうか。思うに、前半と後半の論調の違いに違和感を覚えたのではないだろうか。そう、このコメントは、前半はスマイルカンパニー代表として会社の代理、そして後半は一介の音楽家としてジャニー喜多川およびジャニーズへの想いの吐露という構成になっている。そう、TATSUROという唯の音楽家としての、だ。松尾氏の契約解除にジャニーズへの忖度が疑われているなか、なんでそんなことするんじゃいと頭を抱える行為だが、音楽家としての彼はジャニー喜多川の功の部分について語らざるを得ないのだろう。
ここで重要なのは、あくまでのTATSUROはあくまでも音楽家として「私」を語っているつもりであるということだ。そして不幸なのは、週刊誌などの好奇心の徒が興味を持っていたのがジャニー喜多川と音楽を通じて縁があったことに対する反省・釈明であったことだ。なぜあんなにも大量の性被害を生み出したジャニー喜多川の肩を、今やシティポップで海外にも名が轟くTATSUROが持つのかと。
そう、求められていたのは、TATSUROという音楽界を生き抜いてきた重鎮が、責任感を持って性加害問題へ言及することであり、それによって歩みが鈍いジャニーズ問題に進展が見られることだった。筆者も正直その方向性の声明を期待していたところがあるので肩透かしであったし、前述したように最高裁による裁判結果という事実は参照するべきであったと考える。
さらにここからはラジオ聴き個人としての意見だが、自分にとって先日のサンソンはTATSUROの生き方をそのまま出力したようなものに感じた。週刊誌等の俗事な話題を厭い、一身上の理由のみ告げる。なので、全く持って現状の炎上状態に対応するには未熟で不適切であると同時に、(氏の中で)一貫して筋は通っているな、と感じた。特にファンではない自分がそう感じる程なのだから、曲を聞き続け、ライブにも通っていた氏のファンのアンビバレンスは想像に難くない。
ここまでにグダグダと書いてきたように、長々6分も使ってラジオで述べたTATSUROの対応は、ジャニーズ事務所のゴタゴタに端を発する松尾氏のスマイルカンパニー契約解除事件へのものとしては上手いものではなかった。そして連日のように彼のどこがマズイか諸々記事が生み出され、はてぶでを騒がせている。首肯するしかない理性的な論説もあれば、偏見に基づいた単なるアンチが皮を被っただけのゴミもある。しかし、一貫しているのは彼は失敗したという前提だ。つまり、何が大衆の心を逆なでし、何が更なる炎上を招くのか。これはネット社会では数多くの物事が炎上してきた結果、その都度に識者がなぜ炎上したのか解説記事を書き広めてきたことの成果だ。
これによりネット民の炎上リテラシが向上し、やれ謝罪文がテキストではなく画像だ、検索クローラを拒否している、被害者に対する謝罪が条件付き謝罪だ、などなど「正しくない」炎上の型が言語化がされてきた。これ自体は社会全体の知識の向上であり当然ではあるのだが、最近は「正しくない型」にハマっているとそれ自体が罪とされているような感覚がある。本来はそれらは当事者の間で決着を付けることで十分なのに、ネット民が「型」を定規のように振り回し、それがいかに正しくないかおもちゃにして遊ぶような。
そしてこれは謝罪文だけに限らず、どんな事柄に対してもSNSで尤もらしい解説や批判が一斉に広まって、そしてフォロワーがそれを縮小再生産して再びばら撒く。これが正しい知識である場合は問題ないし、歓迎することでもあるとは思うのだが、ただそれなりに長くネットをやっていて感じるのは、結局はそれは知識として深く根付くことはなく、単なる善悪の物差しとしての判断基準になっているのではないか。専門家が専門家足るのは状況に応じて適切な対応が取れるからなんだが、単なるSNSのユーザである我々にそれ程のものがあるのか。
そう考えると、松尾氏とTATSUROのこの問題は、突き詰めるまでもなく当事者間の契約問題の話であり、外野がそれを酒の肴にして相応しい相応しくないと論じるのはなんだかなあと感じている。
(個人的には週刊誌のゴシップ記事は情報源が曖昧なものが多くあまり好まないのだが、最近はてぶでは多く見かける気がしている。文春による調査報道で週刊誌の記事がエントリーすることが多くなったからだろうか?)