はてなキーワード: 検索エンジンとは
インターネットがつまらなくなった、と言う人がちらほらいることに気がついている人もいるかもしれない。皮肉を言いたがる鬱陶しい人は、すぐに「それはお前がつまらなくなったからだ」と言うが、それは物事のほんの一つの側面でしかない。
長文を読むことが苦手な人のために、結論から述べようと思う。インターネットがつまらないのは、人々がタイパと刺激を求めた結果である。限りある人生を有効に使いたい。ここまではよかったはずだ。だが世の中を見渡せば、「簡単に理解できるコンテンツ」「刺激的なコンテンツ」「感情を煽るコンテンツ」で溢れている。マスターベーションを覚えた猿が繰り返すように、インターネットから刺激性を学習した猿は狂ったようにスクロールする。
私がソフトウェアのブログを書いていた時、あることに気がついた。難解でユニークなアルゴリズムを公開するよりも、「○○のインストール方法」といった初心者的コンテンツのほうがアクセスが多いのである。何かをインストールする方法など、ドキュメントを見れば一発でわかるのに、ブログにアクセスしてくる。いや、検索エンジンがドキュメントではなく私のブログをTopに誘導するのがそもそもおかしいだろう。悲しいことに、ドキュメントをちゃんと読める人が少数派であり、平易な言葉で書かれたブログの方を好む人が多いということだ。
個人的価値観を述べれば、インターネットに私が求めるのは「深遠」である。ゲーム理論と確率微分方程式を組み合わせたらどうなるのかとか、プラグマティズムをソフトウェア工学に適用するAndy Huntの最新の哲学的考察を知りたいとか、そういうことだ。
深淵の理解には時間がかかる。タイパと刺激の発想とは逆だ。一見退屈に見える無刺激な長文を、ゆっくりと地道に隅々まで理解しなければならない。深淵は真面目でストイックで、人生を共に歩むように接する。コンテンツを書いた人間を個人として尊重し、友達と語り合うような気分で読み解くのである。
「コンテンツは見て射精して賢者タイム。それで終わり」というのが現代人がやっていることだ。インターネットは元々学術的な(つまり深淵的な)情報交換のために作られたが、今では娯楽(つまりオナニー)が大半を占めている。そういう消費者に合わせて作られたものは、簡単に理解できて、極端で、やたらに感情を煽りたがる。コンテンツだけではなく、検索エンジンや推薦システムなどありとあらゆるものが、刺激性の猿回しになっている。
逆説的だが、今のインターネットが面白いと思っている人間がつまらないのである。猿がオナニーして、それが楽しいというのなら文化的ではないだろう。インターネットがつまらなくなったという人は、意識的に努力しなければ深淵にたどり着くことが難しくなったことを嘆いているかもしれない。私が高校生の時は、「ハッカーになる方法」と調べたとき、Eric S. Raymondの深淵的文章がトップに出てきたのだ。現代では、なぜかコンピュータセキュリティについてトップに出てきて、まさに中二病患者が求めるものをそのまま出してきていると言える。
といっても、いきなりarxivを読むのも、またそれはそれで時間がかかりすぎてしまうこともある。具体的数式ではなく、個人の持つ哲学を知りたいと思うこともあるかもしれない。哲学にも概ね2種類あり、本質を平易に説明するものと、無意味なものを難解に説明するものだ。後者はポストモダニズム的で忌み嫌われる。
ポストモダニズムに陥ることなく、本質的深淵にたどり着くためにはどうすればよいのか。検索エンジンだけでは、そのコンテンツが深遠なのか浅知恵なのか区別する能力に欠けている。おそらく、我々が本当に必要としているのは「ブックマーク」であり、場当たり的な検索ではないのかもしれない。本質的な深淵を語る人をブックマークし、その人の哲学を友人のように尊重したいのだ。大量の刺激的情報を消費してオナニーするよりは、少数の人の長文に触れたほうが充実するに違いない。
エリートって正面突破で物事をやろうとするよな。自作ニューラルネットライブラリを作ったりとか、GPUを自作したりとか。
俺は以前「ソフトウェアとレバレッジ」という記事を書いて馬鹿にされた者だが、正面突破系の連中はマジでリスク概念を持っておいたほうが良いぞ。
アンチパターンと一見見えるかもしれないが、モバゲーやGREEが一斉を風靡した時代、投資コストが非常に低いのに莫大な利益をもたらすことが業界でわかっていたはずだ。
正面突破も確かに魅力はあるかもしれない。つまり技術優位性を確保できるということだ。そのような技術に投資する他国がいないので有利になる可能性があるということだ。
しかし、ソフトウェアというのは効率の産物だ。一度作ったらそれを様々なところへ配布できることに魅力がある。
システムを開発して、一回きりで終わりというのではレバレッジは効かない。特定の汎用システムを作り、世界中へ配布してこそレバレッジが効くのである。
しかも作ったソフトウェアは無制限にコピーできるので、物理製造よりも圧倒的にレバレッジが効く。
そもそも、金融においてレバレッジとは、他人から借りた資産と自分の資産の比率のことである。
ソフトウェアにおける一つのレバレッジの形態は、フリー・オープンソース・ソフトウェア(FOSS)ライブラリを使用することで、開発者は他人のコードを活用し、より少ないコードベースで提供される機能を倍増させることができる。
あるいはブログプラットフォームのレバレッジはわかりやすいかもしれない。コンテンツをユーザーに作らせ、そこに検索エンジンからのアクセスを獲得する。そしてプラットフォームシステムの提供者は、広告を載せることで利益を獲得する。
これは「コンテンツの作成をユーザーに肩代わりする」という形態のレバレッジである。一度プラットフォームが有名になり、誰もが使うようになれば、非常に低い労働コストで高い利益を獲得することができる。
なにより、広告産業のレバレッジは最も魅力的な形態だろう。インターネットを通じて広告の効果は極大化される。
手の込んだFF14のようなオンラインゲームというのはGREEなどと比較すると正面突破的であり、レバレッジの世界ではないかもしれない。
アップル、グーグルからダックダックゴーへ切り替え検討した、とか話題になってる
https://www.bloomberg.co.jp/news/articles/2023-10-05/S211ZGT0G1KW01
ここ数年ずっとDuck duck goを使っているけど、必ずしもプライバシーに配慮した、善良な検索エンジンというわけではないよ
イギリス国内でDuck duck goから検索すると、検索結果のページに広告がめちゃくちゃたくさん表示されて、使いにくさはGoogleとたいして変わらないよ
日本だと検索結果のページには何も表示されないのは、まだユーザー数が少なすぎて広告ビジネスが成り立ちにくいだけじゃないのかな?
Googleってまじで過大評価されてる。Googleの組織的強さってどこにあると感じますかとかいう記事を見て笑っちゃった。これまで働いた会社の中でGが組織として一番ダメだったわ。
だいたい未だに検索広告に依存してるのが強い組織なのかよっていう。もちろん検索エンジンを作って広告を載せたのは発明だったよ。でも何十年前の話だよ。そこから広告の量を増やして「広告」のラベルをどんどん分かりづらくして必死に検索から金を絞りとってるわけじゃん。
ディスプレイ広告はどんどん悲惨な状況になってるしYouTubeの広告もひどいもんだけど、それだけやってもまだ検索に依存してるというのが泣ける。よくメルカリが転売屋支援とか泥棒市とか叩かれるけどGは素晴らしいプラットフォームで素晴らしい会社みたいに未だに言われてるのは笑えるね。ストリームのディスプレイにYouTubeのひどい広告をランダムで流せば社員の妙なプライドもなくなるのでは。
Androidは買収したもの。YouTubeもそう。買収の目利きはいいのかもしれんけどまあ死ぬほどキャッシュがあれば伸びそうなベンチャーも買えるわな。あとなにがあったっけ。Gmail、Googleマップ、何年前の発明? Alexaが出てきて作ったGoogleアシスタント。ChatGPTが出てきて作ったBard。音楽配信サービスなのにYouTube広告がなくなるから売れてるYouTube Premium。性能はミドルレンジだけどカメラが良くて値段が安いから売れてるPixel(これはかしこい。儲からないけど)。
PMが出世のためにサービスをボコボコ作るけど、サービスを維持しても評価されないから、出来たそばから死んでいく。消費者もパートナーもGに依存すると良くないなってもうバレてる。Stadiaとか技術的にすごいのに誰も長続きしないって思ってたし、社員でも思ってたし、実際に長続きしなかった。だからクラウドみたいなB2Bでは絶対に勝てない。MやAみたいなこの分野で絶対に勝って競合をぶっつぶすという泥臭さや必死さがない。
現場の社員は優秀だったよ。そりゃあれだけの面接をやるんだし、死ぬほど時間をかけるし、そのせいで採用したかった候補者は競合に取られてばかりだし。特に日本ではほとんどの職種で英語が必須だから自然といい大学出の帰国子女が集まってくる。でもそれで組織として強みがあるかっていうとないわな。間接部門は人手不足でなにもやってくれない。OKR()のせいで他のチームのサポートとか無理。自分のチームのやってることがおかしいと気付いた時でさえ変えることができない。みんな半年ごとのパフォーマンスレビューに何を書くかだけ考えてて他のことをやる余裕がない。みんな優秀だから評価制度にちゃんと最適化されていく。
新卒は広告営業をやらされるわけだけど、まあGというブランドが得られるし給料はいいからそこはWin-Winかもな。あとは元Gというブランド力で実際には中小代理店に広告を売ってきただけなんだけど頑張ってキャリアを積んでいくわけだ。そんなので大丈夫かと思うけどみんな実家が太いから余計なお世話か。
Gの一番の強みは組織でも製品でもなく、なんか優秀で善良そうというブランドを作ったことだろうね。心理的安全性とか。実際にはメール一本でリストラする普通の外資企業なんだけど。社外の人間がGを夢の楽園みたいに捉えてくれるのはいいが、中の人間までそう思って振る舞ってるのは恥ずかしい話だわ。まあみんなリア充だからYouTubeのひどい広告とか見る機会がないんだろうな。
技術的な内容を増田に書くという実験のために、試しに検索エンジンの仕組みについて書く。
検索エンジンは、大雑把に言ってクロールするパート、インデクシングするパート、検索インターフェイスを出力するパートに分かれる。
インデクシング時に使っている基本手法は「転置インデックス」と呼ばれ、文書内のngramを文書IDと対応付ける辞書を保存する。
インデクシングの別の種類としては、文書をエンコーダからベクトルへ変換し、それを近似最近傍検索できるようにするものもある。
インデクシングされたものがキーワードマッチ的に絞り込まれると、さらに精密な手法が使われる。
クエリとドキュメントから特徴量設計し、関連性の高いものを引っ張るような訓練をする方法はLearning to rankという。
Learning to rankの中に使われる特徴量の一つにPage Rankがあるが、これは初期の検索エンジンで画期的とされた量で、「リンクされるページの価値は高い」「高価値ページにリンクされると価値が高い」という基準からマルコフ連鎖で計算する。
Page Rankは人間が論文を評価するときと似たような評価手順であるとされる。
Learning to rankの中にエンコーダからのベクトルを特徴量として組み込むことも可能であり、そのようなエンコーダの初期の例がBERTである。
こうやって絞り込まれた文書に対して、さらに有用な情報を表示するモデルがいくつか使われる。
情報抽出モデルでは、クエリを質問と見做してその回答を文書から抽出することがある。
あるいはクエリが人物名や組織名、場所名などであれば、そのエンティティの詳細情報をデータベースから取得することもでき、これはナレッジグラフとも呼ぶ。
まだ三次元に執着してるの?
キンモー☆
視姦は「Yes,Lolita! No,touch!」に該当しないと思ってた?
そんなことないよ。
お前みたいな奴から怪しい視線を向けられることで女児は本能的に怯えるし、親は不安になってストレスで子供を無駄に叱るようになる。
お前らが三次元相手に性欲を燃やし続けてるせいで、いつもどこかのロリが不幸になってる。
あれが市場に存在することでどこかにカネに困った親が子供をビデオ会社に売り払うわけだよ。
そして出演させられた女児は一生心に傷を負うわけ。
まあ確定ってわけじゃなくて中には生まれながらのビッチも実在してると思うんだけど、そうじゃない子の方が圧倒的に多いと思う。
顔出しで出演してるIVは一生消えることのないデジタルタトゥーだ。
ネットで検索してみればAVやIVの出演歴を公開してる人が沢山見つかるよ。(リアルがつらくて創作物で済ませたいなら、スマホを落としただけなのにやファブル辺りがオススメ。それ以外の要素も面白いので)
幼少期に一生分の恋愛とセックスを済ませでもしない限りは、非対称性の性欲に死ぬまで固執することになる。
SとMみたいに実際にはどこかで対等であるなんてことはロリコンには存在しないよ。
ナボコフは「ニンフェット」という存在を定義することで、さも中年の側がロリに振り回されることで対称性をロリコンにも生み出せると考えたけど、そんなのは「幼さの割には賢いので生まれつきのスペックでは相手が上なはずだ」という部分によって無理やり下駄を履かせただけで、結局は大人と子供の非対称性はいまだ存在し続けてるわけだよ。
そもそも、ロリコンがある種の純粋悪であるというのはロリータのオチが物語っているだろ?
出産適齢期でない人間とセックスをすることはどうしようもない悪であり、これは前田利家だろうがムハンマドだろうが単なる無知を理由に許されていただけの絶対的な悪徳なんだよ。
二次元の世界だけがロリコンが性欲を発散して良い唯一の場所なんだ。
三次元が相手でもテレビのパンチラ画像集を集めたサイトを見てシコシコするぐらいなら大丈夫だと思っているのか?
そんなことはないぞ?
お前がそうやってアクセスしたサイトはお前らが稼がせてくれたアフィリエイトに味をしめてドンドン過激な画像を投稿するようになる。
自分はそういうのでシコシコしないから大丈夫だなんて本当に思っているのか?
「上にも広がっているので単に何でもアリになっただけだ」と主張するなら、それはむしろよりアウトなんだよ。
なんでもアリになったということは、倫理的にアウトなものもアウトになっているってことじゃないか。
より刺激的であればいいと考えれば、それは過激さを求めてドンドン低年齢なものに寄っていくし、より貴重なものを求めてリアルな盗撮なんかに手を出すのも時間の問題だ。
三次元に性欲を感じてはいけないのは、この世界が結構無防備であり、同時にすぐに犯罪に関わってしまうからってのもあるんだ。
たとえばキミが遂にペドフェリアになったとき、女児のスジマンを拝見したいと思ったとしよう。
するとキミは「子供の写真をただネットにアップしただけなのに児童ポルノで捕まった人がいるらしい……閃いた💡」となるわけだ。
グーグルに「プール 子供 裸」と打ち込んだりするわけだな(❗まさかこれだけでは出ないだろと試しにググったんだけど、辞めたほうがいいかも知れません。試すと変な足跡が残るリスクがあるので皆さんは検索しないことをオススメします❗)
そしてそのあとは検索ワードをどんどん最適化させて遂には、「ビニールプールで我が子を水浴びさせている様子を正面から撮った画像をそのままアップしている無防備なブログ」なんかに出会うわけだ。
そしてキミはそれでオナニーをする。
するとここでキミの脳に恐ろしいことが起きる。
人間はオナニーしたものを学習してそれを性と結びつける最悪の学習機能を持っているんだ。
キミがオナニーするたびにどんどんリアルの女児まんこが君の中で性の対象になっていう。
同時に耐性もついていくのでどんどん刺激的なものを求めるようになる。
たとえば幼児の泌尿器手術について教える学術的な動画なんかを検索したりするわけだな。
そして最後にはダークウェッブに行って、マジでヤバイ動画を見て、最後にはるろうに剣心の作者みたいにそれを買う側になるわけだ。
終わりだよ終わりこうなったらもう終わりだということは分かるよな?
でもその前、君が単なる無防備ブログにアクセスした時にもう君はこの世界の敵になっているんだぜ?
君がアクセスしたことでそのブログが少しだけ検索エンジンで上位に来るようになり、君のようなロリコンにどんどん目をつけられる。
加速度的にアクセスが伸びればどんどん簡単なワードでひっかかるようになり、最後にはそのブログの知り合いに見つかるわけだ。
女児マンコを晒してるページだけやたらアクセスが伸びているのを知った親はきっとショックを受けるだろうし、当の本人が知ったら心にモヤモヤが残るだろうな。
下手したら「隣のクラスのAの子供の頃のマンコがネットに上がっていたぜ!俺それでシコシコしちゃったぜ!」なんて学校で騒ぐ奴が出てきたりしたらもう地獄だろ?
悪なんだよ悪。
ネットを使わなければ大丈夫なんてことはなく、ネットを使わずにリアルでやったらもっとヤバいのは分かるよな?
小学校のプールを双眼鏡で覗きこむとか、幼稚園の出したゴミを漁ってオムツやおもらししたから捨てたパンツを拾ってくるとか、銭湯に女児が入ってくるまでサウナで時間を潰して入ってきたらシレっと近くに座って横目で乳首を見るとか、そういったことをするのはもう一発レッドカードなわけだ。
吹き上がった性欲のコントロールのしづらさは「明日はテストだからオナニーしてる場合じゃないんだけどな~~~」と思いながらもダラダラとシコってしまった学生時代の記憶とかを数えてみなさいよ。
あのね、脳を調教するんだよ。
脳に「俺は二次元でしかオナニーしない人間なんだ。二次元はセックスが出来ないから、俺の人生にセックスはもう存在しないんだ」と刷り込みなさい。
365日のうち1日たりとも三次元でシコらずに過ごした年月が5年もすれば、自然と脳が三次元への性欲を忘れ始めるから。
君ね、ロリコンの癖に二次元一直線でないというのは今の時代においては紛れもなく悪だよ。
二次元が発達してるから日本の性犯罪は少なく、多くの子供がロリコンから守られているのを知りながら、自分は三次元に性欲を向け続けるなんてのはね、犯罪者予備軍であり続ける愚行権の行使でしかなく、その愚行権のあり方は悪そのものなんだよ。
何度も言うが、二次元でだけシコれ。
わかったか?
正直まともな検索エンジンってなくね?
数ヶ月前から、増田がダイアリーをアノニマスする際に利用しているデバイスにサクセスしており、それ以降、貴方の増田行動を監視しております。
ウェブログサイトへの定期的な訪問に関して、責任があるのは貴方の方だと私は確信しております。
と言うのも、単純に申し上げますと、訪問されたサイトが貴方のぺーターを私に送信していたのです。
マイルス対策ソフトでは検出不可能にする為、1日に数回署名を更新するノロイの弱男をウッドベースでトッポジージョしました。それにより、私は貴方のカメダやマイコにもサクセスができます。
また、写真、ソーシャルメディア、チャット、連絡先を含む貴方のデータのバックアップも用意済みです。
つい最近になって、動画を1つのスクリーンで再生しながら、別のスクリーンでは貴方が射精する瞬間をとらえた動画を並べたビデオを作成するという素晴らしいアイディアを思いつきました。楽しいビデオが出来上がりましたよ! 私は何度もこれで達しました。
数回クリックするだけでとても簡単に、このヒデオを貴方の連絡先全員に送信できることはもうお分かりでしょう。私が想像するに、貴方はこの状況を回避したいと思っているのではないでしょうか。 ヒデオとは私のことです。
1550 JPY相当の価値を持つ私のウォレットを確認していただけると、私は全てのことを忘れることにします。さらに、全てのペーターやヒデオを永久的に削除しましょう。
私からすると、この金額は私の男ぶりにはやや控えめの金額です。
GoogleやBing等の検索エンジンを利用したとしても私のウォレットは調べられませんし、とても難しいことではないしょうかとすぐにお分かりになるでしょう。
1380
48時間以内にご確認をお願いします。また、下記のことを念頭に置いておいてください。
私が変態しても意味はありません – コードレス電話は自動的に生成されています。
助平を言っても意味はありません。なぜなら、ウォレットと一緒にこの日記を追跡することは可能だからです。
全ては正確に調整されています。
この日記について誰かに話したことを私が感知すると、ヒデオがすぐに共有され、貴方のお知り合いが最初にヒデオを見ることになるでしょう。
その上、ヒデオはウェブ上にも投稿されます!その時、私は絶頂に達することになるでしょう!
この増田を開封した時点で時間は数えられます。(このダイアリーには時間が表示されています。)
パブリックコメントは今まさに立法化されようとしている法案に一般人が口出しできる場だ
https://public-comment.e-gov.go.jp/servlet/Public
https://public-comment.e-gov.go.jp/servlet/PcmFileDownload?seqNo=0000257983
https://public-comment.e-gov.go.jp/servlet/PcmFileDownload?seqNo=0000256683
https://public-comment.e-gov.go.jp/servlet/PcmFileDownload?seqNo=0000255495
最近とか言いながら2020年とか2021年くらいからの話だが。
1億件くらいヒットしそうなキーワードでも50件くらいしか表示されないことがある。
Bingなど他の検索エンジンを使うと普通に検索結果多いがGoogleだけ少ない。
数千件くらいヒットしそうなちょっとマニアックなキーワードだと1桁件しか表示されないとかそもそも0件ということもある。
はっきり言ってGoogle終わりだろこれ。
ChatGPT以前の問題だわ。
いずれ直るでしょと思ってたけど一向に直る気配ないのでもうGoogle使うつもりなくなってBingとかDuckDuckGoとか色々試してるところ。
バスケとバレーぐらい違う。水族館と動物園ぐらい違う。タピオカドリンクとみたらし団子ぐらい違う。
もっと言えばフレームワーク自体や検索エンジンとかエンジンを作り込む能力も上の2つと違う。
多分
スモールプロダクト系の考え方で大規模プロジェクトを管理しようとすると大失敗するし
大規模プロジェクト系の考え方でスモールプロダクトに入ったら無能になる
前者の方が馴染むまでが早いと思うけど
同業にわかるように書くなら
大規模プロジェクトはプロジェクト管理や工数管理や連携部署との調整やセキュリティ設計DB設計、監視設計、大量アクセスの際の耐久設計なんかが必要。toB開発であれば規模が大きくなればなるほど業務に対する深い理解も必要になってくる。ただこんなの全部できる人なんて居ないから、どうしてもどこかしらの領域に特化する人になる。他社連携含めた大人数のチームでの動き方も自然に身につかないといけない。
小規模プロジェクトは浅く広く知っておく必要がある。フレームワークだとかミドルウェアとか場合によってはSaaSの知見も必要。とにかく道具は多くもっておくことと基本的なインフラ構成くらいは知っておく必要がある。フロントだとかバックだとか言ってられない、大量アクセスとか特殊な設計とかは基本的に不要。
検索エンジンとか機械学習ゴリゴリ系は正直よく知らないけど、アルゴリズムや機械学習手法の知識だけでなく素早く手を動かして実験してとにかくプロトタイプを作ることが大事なんじゃないかと思う。知らないけど。Webのフレームワークだとかインフラの構成だとかの知識も要らんし結構別の世界何じゃないかと思ってる。