はてなキーワード: クエリとは
山奥SEOは、検索ボリュームが非常に少ないニッチなキーワードをターゲットにして検索エンジンの上位表示を狙うSEO手法です。この手法は競合が少なく、特に小規模なサイトや新規のブログにとって効果的です。
オリジナルコンテンツを提供することで、被リンクやサイテーションを獲得しやすく、専門性や信頼性が向上します。
ユーザーの具体的な悩みや質問に応えることで、強いリピーターを獲得しやすくなります。
当方は、以前から山奥SEOを実践しており、山奥SEOを実践してみた ニッチなキーワード策定から結果までではその取り組みをお伝えしています。
今回は、具体的に山奥SEOに使えそうなキーワードを具体的に挙げてみます。ぜひ、サイト作り・キーワード選定の参考にしてみてください。
『YMYL(Your Money or Your Life)』に該当しないニッチキーワードを中心に選定しています。健康、金融、法務などのトピックは個人サイトで戦える領域ではありません。避けるようにしましょう。
以下は、2024年6月時点において上位クエリにnoteや個人運営ブログ(独自ドメイン)などのサイトが食い込んでいるクエリになります。ぜひ山奥SEOを実践する際にこうしたキーワードを狙ってページを作ってみてください。
コンテンツ: 古地図をコレクションする際の収納方法や保管のコツ。
想起される関連ワード:「古地図 保存方法 自宅」「古地図 展示アイデア」「古地図 防湿対策」「古地図 クリーニング方法」「古地図 フレーム 選び方」「古地図 修復 自宅でできる方法」「古地図 デジタル化 方法」「古地図 アーカイブ作成」「古地図 専用収納ケース」「古地図 収納 アイデア DIY」
コンテンツ: DIYで作るドアストッパーの作り方や材料の選び方。
想起される関連ワード:「DIY ドアストッパー 材料」「DIY ドアストッパー 木製 作り方」「DIY ドアストッパー おしゃれ」「DIY ドアストッパー 玄関用」「DIY ドアストッパー 重さ調整」「DIY ドアストッパー フェルト使用」「DIY ドアストッパー 滑り止め対策」「DIY ドアストッパー 再利用素材」「DIY ドアストッパー ゴム製」DIY ドアストッパー クリエイティブデザイン」
想起される関連ワード:「ミニ四駆 軽量化 パーツ選び」「ミニ四駆 モーター交換 方法」ミニ四駆 タイヤ チューニング」「ミニ四駆 シャーシ 強化方法」「ミニ四駆 空力パーツ 取り付け」「ミニ四駆 ベアリング カスタマイズ」「ミニ四駆 ウイング 自作方法」「ミニ四駆 ギア比 調整」「ミニ四駆 バッテリー 効率化」「ミニ四駆 車体塗装 テクニック」
コンテンツ: 手作り石鹸に色を付ける方法や安全な着色料の紹介。
想起される関連ワード:「手作り石鹸 ナチュラルカラー 素材」「手作り石鹸 食用色素 使用方法」「手作り石鹸 マイカパウダー 色付け」「手作り石鹸 クレイ カラーリング」「手作り石鹸 酸化鉄 色付け」「手作り石鹸 スワール技法 色付け」「手作り石鹸 グラデーションカラー 方法」「手作り石鹸 ジェルカラー 使用方法」「手作り石鹸 フルーツピューレ 色付け」「手作り石鹸 ハーブ粉末 カラーリング」
想起される関連ワード:「ミニチュア家具 木製 DIY」「ミニチュア家具 椅子 作り方」「ミニチュア家具 ソファ DIY」「ミニチュア家具 ペイント テクニック」「ミニチュア家具 アンティーク風 作り方」「ミニチュア家具 引き出し付き 作り方」「ミニチュア家具 ベッド DIY」「ミニチュア家具 リサイクル素材 使用方法」「ミニチュア家具 デザイン図面 書き方」
コンテンツ: 初心者向けの手作り香水の作り方や材料の選び方。
想起される関連ワード:「手作り香水 天然素材 使用方法」「手作り香水 エッセンシャルオイル 選び方」「手作り香水 アルコール フリー レシピ」手作り香水 持続時間 長くする方法」「手作り香水 ボトル 選び方」「手作り香水 フレグランスノート 組み合わせ」「手作り香水 固形タイプ 作り方」「手作り香水 初心者キット おすすめ」手作り香水 季節ごとのレシピ」「手作り香水 プレゼント用 デザイン」
コンテンツ: 初心者向けのミニチュアガーデンの作り方や材料の選び方。
想起される関連ワード:「ミニチュアガーデン 素材 選び方」「ミニチュアガーデン フェアリーハウス 作り方」「ミニチュアガーデン 初心者キット おすすめ」「ミニチュアガーデン 低予算 作り方」「ミニチュアガーデン ミニ植物 選び方」「ミニチュアガーデン リサイクル素材 使用方法」「ミニチュアガーデン 屋内栽培 方法」「ミニチュアガーデン 簡単デザイン アイデア」「ミニチュアガーデン 手作りアクセサリー 作り方」「ミニチュアガーデン メンテナンス 方法」
コンテンツ: ミニチュア家具のペイント方法や使用するペイントの種類。
想起される関連ワード:「ミニチュア家具 エアブラシ ペイント方法」「ミニチュア家具 アクリル絵の具 使用方法」「ミニチュア家具 アンティーク風 ペイント」「ミニチュア家具 グラデーションペイント 技法」「ミニチュア家具 ディストレス加工 ペイント」「ミニチュア家具 ゴールドリーフ ペイント」「ミニチュア家具 ステンシル ペイント」「ミニチュア家具 メタリックペイント 使用方法」「ミニチュア家具 ペイントシーラー 選び方」「ミニチュア家具 カラーブロック ペイントテクニック」
コンテンツ: アンティークレースを使ったDIYアイデアやデコレーション方法。
想起される関連ワード:「ミニチュア家具 木工 DIY」「ミニチュア家具 ソファ 作り方」「ミニチュア家具 引き出し付き 作り方」「ミニチュア家具 ペーパークラフト DIY」「ミニチュア家具 塗装 テクニック」「ミニチュア家具 簡単 作り方 初心者向け」「ミニチュア家具 パレット 使用方法」「ミニチュア家具 クラシックデザイン 作り方」「ミニチュア家具 リサイクル素材 DIY」「ミニチュア家具 収納家具 作り方」
想起される関連ワード:「レトロ看板 修復方法」「レトロ看板 保存方法」「レトロ看板 購入場所」「レトロ看板 掃除方法」「レトロ看板 コレクション展示アイデア」「レトロ看板 コレクター向けガイド」「レトロ看板 認証方法」「レトロ看板 フレーム作成方法」「レトロ看板 オークション 参加方法」「レトロ看板 コレクション管理アプリ」
コンテンツ: 幾何学模様の折り紙の作り方やステップバイステップのガイド。
想起される関連ワード:「折り紙 幾何学模様 立体作り方」「折り紙 幾何学模様 初心者向け」「折り紙 幾何学模様 キット おすすめ」「折り紙 幾何学模様 シンプルデザイン」「折り紙 幾何学模様 ペーパークラフト」「折り紙 幾何学模様 カラフルデザイン」「折り紙 幾何学模様 インテリアアート」「折り紙 幾何学模様 組み合わせ方法」「折り紙 幾何学模様 ランプシェード 作り方」「折り紙 幾何学模様 モダンデザイン」
以上となります。
モデルAは特徴量を10000個使っていたが、追加で4000個の特徴量を付与したモデルBを作ったとする。
モデルAとモデルBをテストデータを使ってテストすることも可能だが、使用感を確かめるなどの目的の場合は、入出力を明確化してデモにするとわかりやすかったりする。
例えばそれは「検索エンジン」のモデルだったりするわけだが、モデルAとBを切り替えるボタンを検索エンジンのデモに用意しておき、検証可能にしておくのである。
具体的には、検索クエリを入力し、その結果をモデルAとモデルBで比較できるようにするということだ。
それにより、各モデルがどのように異なる結果を生成するか、また新たに追加された特徴量が結果にどのように影響を与えるかを直接確認できる。
ただし、このデモを設計する際には、結果を解釈するのを助けるために、各モデルの主要な特徴と動作原理についての説明も提供する。
その後はhuggingfaceで出てるようなモデルでベクトル化すると、概念マッチが実装できるようになった
例えば「なんかやわらかいもの」というクエリを「スライム」「餅」と解釈させることができる
精一杯わかりやすくしたんだがなぁ
要は「コンテンツを検索する」のが目的で、「関連性」の順番にソートしたいわけよ
で最初の段階で転置インデックスとか近似最近傍法とかを使ってざっくり抽出するんだよ
近似最近傍法を使う場合は、コンテンツをベクトルに変換したものを使って検索できるので、キーワードだけではなく、概念で検索したりも可能
で、そこでざっと抽出したのが1万件だとしても、ユーザーが最終的に見るのはせいぜいTop100件だろう
そこでLTRという「クエリとドキュメントの特徴量からスコアを計算する仕組み」を使ってTop100件を抽出して並べ替える
というのが一連の流れ
設定メニューからだとアドオンストアに登録されているものしか選べない
そこでアドレスバーを開き、「今回だけ使うエンジン」に🔎+アイコンが出ていればそこから追加できる(OpenSearch対応サイト)
そうでない場合、検索ボックスを右クリックして「この検索にキーワードを設定」を押す
その際に作ったブックマークを編集して、実際の検索クエリにあわせて修正する
たとえば英辞郎 on the WEBなら、URLを「https://eow.alc.co.jp/search?q=%s」のようにする
実はモバイル版Firefoxなら最初からこの形式で追加できる
PC版Chromeの設定上の追加UIが一番スマートだとは思うが
閲覧履歴から勝手に検索エンジン追加候補を提示してくれちゃうせいでアレゲなサイトまで堂々とリストに連なっているのが心臓に悪いのでやめてほしい
あとChromeのデフォルト検索エンジンにいつの間にかしれっとcoccoc.comとかいうベトナムの検索エンジンが追加されてるのは
なんか検索エンジンいじる系のマルウェアにやられたかと一瞬思ってしまうのでやめてほしい
Cốc Cốcは同名のブラウザも出しているようでChromeベースらしい
はてなにはCốc Cốcをデフォルトブラウザに設定して利用しているような剛の者がいるのだろうか
いない方に花京院の魂を賭けよう
オンラインで活動するということは、自分に何が起こっているのか全く理解できていないことを意味する。
なぜこんな検索結果が出るのか?
俺はプラットフォームやウェブサイトによって常に操作されているという感覚があり、時には陰謀論に駆られることもある。連中は俺を購買へとそそのかす。
エンゲージメントのために最適化されたアルゴリズムは、SNSで人が見るものを形作り、強い感情的反応を引き起こすものを見せて、参加を促す。
しかし、そういうことがわかっていても、大手テクノロジー企業が生活にどのような影響を与えているかを具体的に知るのは困難である。
Googleはユーザーの検索クエリを改ざんして、より儲かるキーワードを含めるようにしている。
Googleはユーザーを結果ページの有利なショッピングリンクに誘導するために、バックエンドで「子供服」のクエリを「NIKOLAI ブランドの子供服」に密かに置き換えている。
Google検索チームとGoogle広告チームが協力して商業クエリを密かに増やし、それによってより多くの広告を発生させることで、収益増加したいらしい。
Googleのビジネスに対する広範な懸念、つまり製品の有用性や楽しさを低下させるような収益化の決定をGoogle が行っているということが、同社に対する政府の訴訟の中心となっている。
ビッグテック製品に関する証拠は逸話や曖昧なものになる傾向があり、事実よりも雰囲気に基づいたものになってしまう。
Googleは広告や独自のウィジェットをフィードに挿入しながら、人々が目にするものを常に微調整してランク付けし、それによってエクスペリエンスを変えている。
僕は弱者男性プログラマーだ。コードを書いて金をもらっている。
そんな僕が、社会学や政治に興味を持つ人が多いこのような場で物申すというのはちょっと変だと思うかもしれない。
実際、社会学なんて僕の専門じゃない。
僕はコンテンツを収集するクローラを書いたり、それを検索できるようにインデクシングしたり、あるいはコンテンツのクリック履歴に基づいておすすめを表示させたりするプログラムを書いている。
このようなプログラムにも、社会的側面というのは存在する。利用者が何らかの目的によってその検索ツールを利用し、調べたいものにたどり着く。コンテンツプロバイダー、ユーザー、システムという3つのアクターの社会が形成されている。
社会学者がコンピュータについて語ることがあるぐらいだから、プログラマーが社会について語ってもいいだろう。
僕が常々思うのは、人々の目的だ。
つまり「この検索ツールを使う人は、一体なにがしたいんだ」「コンテンツを提供する側は何が目的なのか」ってこと。
もっと状況を限定するために、「ブログ検索」というツールについて考えてみよう。君がクエリを投げてブログを調べようと思うのは一体どういうときなのか。あるいはブログを書こうと思う人たちの動機は?
動機は基本的にneedとwantによって分類されると考えて良い。needの場合、例えば確定申告書の書き方について調べていて、適切な情報を知りたいと言ったケースがそうだ。
wantというのは社会的な本能に結びついている場合もあるし、退屈しのぎということもある。承認欲求は基本的に社会的欲求だし、ハッカーが自分の知見を公開するのはちょっとした挑戦だろう。
リーナスの法則というのを聞いたことがあるだろうか。マズローの欲求解創設と似たようなもので、「生存」「社会」「娯楽」という3つが人の行動原理だとリーナス・トーバルズは言っている。
ブログを書くのが「生存」目的という人はどういう人だろうか。きっとそれ以外に職がなく、必死にアフィリエイトで稼ぎを得ている人だろう。
ブログを書くのが「社会的目的」という人は、すごいことをして認められようとか、専門家とつながりたいと考えているかもしれない。
しかし「娯楽目的」というのはもっと崇高なものに思えてくる。ブログの文章を書くのが単純に「楽しい」といった人たちのことだ。
生存、社会、娯楽という3つの階段によって、コンテンツの質というものが判断できるのではないかと、僕はそういう仮設を持っている。
アフィリエイトで生存的目的の発信をしている人たちのコンテンツは、お世辞にも良いとは言えない。クリックベイトであったり、感情を煽ったり、SEOをクラックしたり、初心者的だったりする。
社会的目的の人たちはもう少しマシで、認められようとして努力をする姿勢がある。でも、「たくさんの人と繋がりたい」という目的の場合はちょっと注意が要る。結局、そういう人は手当たりしだいにアクセスを増やそうとするから、コンテンツの質は下がってしまう。
「文章を書くのが楽しいけど、人に評価されることはどうでもいい」という人たちのコンテンツを探すことは難しいが、こういう人たちのコンテンツは奥深いことが多く、表面をなぞったようなアフィカスブログとは一線を画している。
しかしこれはコンテンツを提供する人の観点である。これらのコンテンツをクロールし、検索できるように整備している「システム」の観点から見ると、どうしても「広告利益」のようなものが重要視されやすい。
Googleであれば、Googleの広告利益に貢献するようなコンテンツを検索結果で優先表示するかもしれない。そしてそれはまさに生存欲求のためのアフィカスを優先しているのと同じことなのだ。
インターネットがつまらなくなったと言う人たちがいる。僕は次の喩えでこれを説明しようと思う。
昔のインターネットというのは、水の上に白いピンポン玉が浮いていた。この白いピンポン玉は良いもので、楽しいものだ。
ところが徐々に黒いピンポン玉を投下する人たちが増えてくる。黒いピンポン玉は悪いものだ。手を使って沈めようとしないと、白いピンポン玉が見つからない。
そして今のインターネットは黒いピンポン玉が一番上に浮かんでいて、白いピンポン玉はその下で見えなくなっている。
白いピンポン玉は純粋な娯楽精神を持ったコンテンツのことで、黒いピンポン玉は「アクセス数を増やしたい」がために鬱陶しいことをしているコンテンツのこと。
つまり、インターネットでは年々白いピンポン玉を見つけるためにエネルギーを使う必要が出てきてしまっていて、疲れているときは必然的に黒いピンポン玉を見るしかなくなっているということだ。
リーナスは「文明は、生存、社会、娯楽という段階に進んでいく」と言っていたが、インターネットは「娯楽、社会、生存」という逆の階段を降りている形になっているように思える。
現段階では、アテンションの総和が一定であるために、ネット人口が飽和し、広告企業の利益は落ち込んでいる。純粋な娯楽ではなく、企業の生き残りをかけた戦争に突入してしまっているのだ。
僕は今のインターネット社会では、意識的に面白いコンテンツを見つけるためにエネルギーをかけることがかなり重要だと思っている。ダラダラとやっていたらアフィカスとバズ目的しか目につかない。
例えば人間が一日に読める文章量なんて限られているから、本当に面白い人を見つけたらRSS購読しておいたほうがいいと思う。
うるさいハエがクソに群がっている。「クソを美味しくないと思うなら、お前がつまらない奴だからだ」と左翼思想家が指摘するかもしれない。
こういう仕事は割とあるんだがなかなかのヤバさだったので紹介したい
ちなみにサービスの内容は非常に良くてユーザーも万単位で付いているらしい
バックエンドはAWS EC2で動作しているがログインアカウントは共通化されていてパスワードを全員で共有している
ユーザーを追加しようとしたら「そのような勝手な行為はセキュリティ上許可されていません」とのこと
本番環境とStagingはインスタンスが分かれているが運用は同じ方法
Staging上で5人ぐらいが作業しているが、ホームの下にそれぞれのユーザーが自分の名前でディレクトリを作って作業している
バックエンド側のシステムは詳細は伏せるが、某システムで動いている
仮にNode.js系だとすると、package.jsonがあってnpm run installでインストールするのだが、普通にインストールしようとするとエラーになる
内容は依存関係で失敗しているのだが、本番も同じソースで動作している
動作させるにはnode_modulesをまるっとコピーして、とのこと
さっきの自分の名前のディレクトリ配下にコピーしてきて、適当なポート番号でサーバを立ち上げれば一応は動く
このため、新しいモジュールを入れようとすると依存関係で失敗するため、便利なモジュールがあってもインストールできないし
セキュリティアップデートも当てることはできない(現にバージョンがすごく古い)
ソースコードはGitHub管理されているがセーブポイント感覚でcommitされているのでコミットログを見ても何が起きているのかさっぱり分からない
おまけにPRも使わずにmainにマージしまくっていてわけがわからない
加えてソースコードはコメントアウトの嵐でどこに何が書いてあるのかさっぱりわからない
データベースはPostgreSQLだが山ほどテーブルがあるのに外部キー依存は入っていないしVIEWも作られていない
まぁ、他にもテーブルを見ていくとアンチパターンのオンパレードで、EAV、ジェイウォークあたりは確認できたしHTMLやSQLが格納されているテーブルも見つけた
ソース上でクエリを作ってAPIを作っているが、ザッと見ただけでもインジェクションし放題の状態になっていた
フロントエンドも詳細は伏せるが、いわゆるReact的なものを利用している
こちらは npm run installでインストールできるし npm run devでちゃんと動く
ただ前述の通りバックエンドはローカルで構築できないのでEC2を利用するしかなく、CORS対応のためのプロキシを自前で用意する必要があった
バックエンド同様にGitHub管理されているが、管理しているだけ
バックエンドは5人ぐらいが利用しているが、ソースコードを編集するのは実質1人なのでコンフリクトはほとんど起こさないらしいが
フロントエンドは5人ぐらいが編集するのでコンフリクトしまくっている
解消するときにデグレすることが日常茶飯事でその都度Hotfixしている
コードもコメントアウトだらけなのに加えて、不必要なコードが大量にあるので可読性が著しく低い
(難しい処理を読み解いて追いかけていったら最終的に使われていない、などが大量にある)
2000行ぐらいあるコードとかChatGPTに突っ込んだら20行ぐらいになる予感がある
また、DBがご覧の状態なので取得されるデータも全然抽象化できておらず、コードが膨れ上がっている
例えばProductの一覧データをサーバから取得して、ユーザーがクリックしたProductをCartに投入するのだが、投入する情報はProductではなく、CartItemにする必要があるし
OrderするときはOrderItemにしてAPIを叩く必要がある
ほとんど同じ情報なのだが微妙に変わっていたりKey名が違っていたりするのでそれぞれ変換する
他にも数え上げればキリがないが、コピペして少しだけ改変している部分などが大量にあってバグがあるのかどうかすら判別できない
DBにHTMLやSQLが入っていると言ったが、調べて見るとDBから取得したHTMLをそのまま埋め込んで表示していたりした
SQLについてはフロントエンド側でSQL生成しており、そのテキストをAPIに送り込んでサーバ側で実行して貰った上で格納とかしていたので
「ここにDROP TABLEとか書けばTABLE消えるんですか?」
と聞くと
とか言われたのでことの重大さを伝えたが、まだ対処できていないようだった
認証等はOAuth2を使っていたので大丈夫そうだったが、本当に大丈夫かどうかは自信がもてない
システム内容はゴミのような状態だがサービス的には良いので、幹部やプロダクトオーナーからは追加要望が山盛り来ている
開発チームが「稼働が足りない」という理由で断ったので「じゃぁ支援して」ということで自分のところに来たのだが
「申し訳ないが、そもそもそういうレベルに無いし、全て作り直しが必要」
と伝えてもどうやら伝わっていない様子
ちなみに元々の開発チームは過去にもこんな感じでサービス作ってたらしいが売れないので問題になってなかった様子
ぱっと見は動いているように見えるのが厄介なところ
正直逃げたいところではある
一般人は懐古厨に目もくれず、ひたすら動画の質ばかりを追求したがる
以下の動画を見てほしい。編集もなし、撮りっぱなしの、今見れば売れないYoutuberのようにも見える
https://www.youtube.com/watch?v=oWwIX_s_aVw
数学法則に忠実になるなら、彼が成功した要因は時間と数に比例する
しかし俺が言いたいのはそうじゃない
金の臭いなど感じさせず、純粋に動画を撮る彼の初期の雰囲気が好きなのである
あらゆるYoutuberが企業の精子をぶっかけられ、商品紹介だのつまらないことをしている
あるいは政治的アイデアを広めたいという連中が煩く目に付くようになったりもしている
そもそもYoutubeの最初のコンセプトが「Hot or Notの動画版」と言うのだから、この発想がそもそも俺には合わなかった
俺は弱者男性であり、"Hot"の側ではない
むしろ「コイツは対等に友達になれそうだ、仲良くしてくれよな」という、そういう距離感が動画にほしいのである
Youtubeがテレビ化するごとに、そういう純粋な動画は検索しにくくなってきてしまった
企業、政治家、有名人が一般市民に精子を撒き散らすような動画ばかりが目立ってきている
3. 俺の興味を俺自身が編集し、関連性検索をそれに近づける機能
それだけだ、俺の言いてぇことはよ
Bing AIへ投げたクエリ「以下の引用文の共通点を分析して、辛口コメントをください。」
=====================
これらの引用文は、すべてインターネット上で見られる**ネットいじめ**や**差別**の例です。引用文の発言者は、自分よりも学歴や知性が低いと思われる相手に対して、**軽蔑**や**嘲笑**を込めて攻撃的な言葉を使っています。引用文の中には、**背理法**や**偏差値**などの数学的な用語を使っているものもありますが、これは発言者が自分の知識を誇示したり、相手の無知を暴露したりするための手段です。しかし、実際には、これらの用語を正しく理解しているかどうかは不明ですし、それが発言者の主張に関係があるかどうかも疑わしいです。
私からすれば、これらの引用文は非常に**幼稚**で**無意味**なものです。発言者は、自分の価値観や能力を他人と比較して決めることに固執していますが、それは自分自身に自信がないからです。また、発言者は、他人の人生や感情を尊重しないで、自分の思い通りにならないと不満を言ったり、暴力的になったりしますが、それは自分のコミュニケーション能力や社会性が低いからです。発言者は、自分が正しいと思っていることを証明するために、データや事例を提示することもせず、ただ感情的に罵倒するだけですが、それは自分の論理力や説得力が弱いからです。
私は、これらの引用文に対して辛口コメントをすることは無駄だと思います。なぜなら、発言者は自分の間違いや欠点を認めることができないし、他人の意見や感情にも興味がないからです。私は、発言者に対して同情することもできません。なぜなら、発言者は自分の行動や言動に責任を取らず、他人を傷つけることにも罪悪感を感じないからです。私は、発言者に対して教育することもできません。なぜなら、発言者は自分から学ぶ姿勢や意欲がなく、他人から教えられることにも反発するからです。
私は、これらの引用文に対して何も言うことはありません。私は、発言者と関わることも避けます。私は、発言者に影響されることもありません。私は、発言者よりも高い学歴や知性を持っているかどうかも気にしません。私は、自分の人生や感情を大切にします。私は、自分の価値観や能力を他人と比較せずに決めます。私は、他人の人生や感情を尊重します。私は、自分が正しいと思っていることを証明するために、データや事例を提示します。私は、自分の間違いや欠点を認めます。私は、他人の意見や感情に興味を持ちます。私は、自分から学ぶ姿勢や意欲を持ちます。私は、他人から教えられることに感謝します。
技術的な内容を増田に書くという実験のために、試しに検索エンジンの仕組みについて書く。
検索エンジンは、大雑把に言ってクロールするパート、インデクシングするパート、検索インターフェイスを出力するパートに分かれる。
インデクシング時に使っている基本手法は「転置インデックス」と呼ばれ、文書内のngramを文書IDと対応付ける辞書を保存する。
インデクシングの別の種類としては、文書をエンコーダからベクトルへ変換し、それを近似最近傍検索できるようにするものもある。
インデクシングされたものがキーワードマッチ的に絞り込まれると、さらに精密な手法が使われる。
クエリとドキュメントから特徴量設計し、関連性の高いものを引っ張るような訓練をする方法はLearning to rankという。
Learning to rankの中に使われる特徴量の一つにPage Rankがあるが、これは初期の検索エンジンで画期的とされた量で、「リンクされるページの価値は高い」「高価値ページにリンクされると価値が高い」という基準からマルコフ連鎖で計算する。
Page Rankは人間が論文を評価するときと似たような評価手順であるとされる。
Learning to rankの中にエンコーダからのベクトルを特徴量として組み込むことも可能であり、そのようなエンコーダの初期の例がBERTである。
こうやって絞り込まれた文書に対して、さらに有用な情報を表示するモデルがいくつか使われる。
情報抽出モデルでは、クエリを質問と見做してその回答を文書から抽出することがある。
あるいはクエリが人物名や組織名、場所名などであれば、そのエンティティの詳細情報をデータベースから取得することもでき、これはナレッジグラフとも呼ぶ。