精一杯わかりやすくしたんだがなぁ
要は「コンテンツを検索する」のが目的で、「関連性」の順番にソートしたいわけよ
で最初の段階で転置インデックスとか近似最近傍法とかを使ってざっくり抽出するんだよ
近似最近傍法を使う場合は、コンテンツをベクトルに変換したものを使って検索できるので、キーワードだけではなく、概念で検索したりも可能
で、そこでざっと抽出したのが1万件だとしても、ユーザーが最終的に見るのはせいぜいTop100件だろう
そこでLTRという「クエリとドキュメントの特徴量からスコアを計算する仕組み」を使ってTop100件を抽出して並べ替える
というのが一連の流れ
Permalink | 記事への反応(0) | 16:16
ツイートシェア