「ナレッジグラフ」を含む日記 RSS

はてなキーワード: ナレッジグラフとは

2024-03-06

意外と知らないGoogle検索結果ページの各名称

スニペット

サイト名とサイトURLの下に表示されるサイト内容の抜粋文章

 

強調スニペット

検索結果のトップにでかでかと「これが答えだ!」って感じで表示されるスニペット

 

ナレッジグラフ

検索結果の右側に主にWikipedia抜粋が表示される枠欄

 

サジェスト

検索窓に入力すると関連する言葉がズラーッと並ぶシステム

2023-09-26

検索エンジンの仕組み

技術的な内容を増田に書くという実験のために、試しに検索エンジンの仕組みについて書く。

検索エンジンは、大雑把に言ってクロールするパート、インデクシングするパート検索インターフェイスを出力するパートに分かれる。

インデクシング時に使っている基本手法は「転置インデックス」と呼ばれ、文書内のngramを文書ID対応付ける辞書を保存する。

インデクシングの別の種類としては、文書エンコーダからベクトルへ変換し、それを近似最近検索できるようにするものもある。

インデクシングされたものキーワードマッチ的に絞り込まれると、さらに精密な手法が使われる。

クエリドキュメントから特徴量設計し、関連性の高いものを引っ張るような訓練をする方法はLearning to rankという。

Learning to rankの中に使われる特徴量の一つにPage Rankがあるが、これは初期の検索エンジン画期的とされた量で、「リンクされるページの価値は高い」「高価値ページにリンクされると価値が高い」という基準からマルコフ連鎖計算する。

Page Rankは人間論文評価するときと似たような評価手順であるとされる。

Learning to rankの中にエンコーダからベクトルを特徴量として組み込むことも可能であり、そのようなエンコーダの初期の例がBERTである

こうやって絞り込まれ文書に対して、さら有用情報を表示するモデルがいくつか使われる。

情報抽出モデルでは、クエリ質問と見做してその回答を文書から抽出することがある。

あるいはクエリ人物名や組織名場所名などであれば、そのエンティティの詳細情報データベースから取得することもでき、これはナレッジグラフとも呼ぶ。

 
ログイン ユーザー登録
ようこそ ゲスト さん