「転置インデックス」を含む日記

はてなキーワード: 転置インデックスとは

2024-04-01

■anond:20240401161211

精一杯わかりやすくしたんだがなぁ

要は「コンテンツを検索する」のが目的で、「関連性」の順番にソートしたいわけよ

で最初の段階で転置インデックスとか近似最近傍法とかを使ってざっくり抽出するんだよ

近似最近傍法を使う場合は、コンテンツをベクトルに変換したものを使って検索できるので、キーワードだけではなく、概念で検索したりも可能

で、そこでざっと抽出したのが1万件だとしても、ユーザーが最終的に見るのはせいぜいTop100件だろう

そこでLTRという「クエリとドキュメントの特徴量からスコアを計算する仕組み」を使ってTop100件を抽出して並べ替える

というのが一連の流れ

Permalink | 記事への反応(1) | 16:16

■anond:20240401153545

ルー大柴か？

まず情報検索は転置インデックス、LTR、近似最近傍法などの社内ライブラリを書いてる。

推薦システムはCTR 最適化のためにクリックデータから訓練データを作成して、特徴量からクリック確率を予測し、最大化するコンテンツを出力してる。

文書分類は「セーフサーチ」と同じ手法を使っているが、特定の条件に合致する文書にスコアリングするモデルを作ってる。

Permalink | 記事への反応(2) | 15:38

2023-09-26

■検索エンジンの仕組み

技術的な内容を増田に書くという実験のために、試しに検索エンジンの仕組みについて書く。

検索エンジンは、大雑把に言ってクロールするパート、インデクシングするパート、検索インターフェイスを出力するパートに分かれる。

インデクシング時に使っている基本手法は「転置インデックス」と呼ばれ、文書内のngramを文書 IDと対応付ける辞書を保存する。

インデクシングの別の種類としては、文書をエンコーダからベクトルへ変換し、それを近似最近傍検索できるようにするものもある。

インデクシングされたものがキーワードマッチ的に絞り込まれると、さらに精密な手法が使われる。

クエリとドキュメントから特徴量設計し、関連性の高いものを引っ張るような訓練をする方法はLearning to rankという。

Learning to rankの中に使われる特徴量の一つにPage Rankがあるが、これは初期の検索エンジンで画期的とされた量で、「リンクされるページの価値は高い」「高価値ページにリンクされると価値が高い」という基準からマルコフ連鎖で計算する。

Page Rankは人間が論文を評価するときと似たような評価手順であるとされる。

Learning to rankの中にエンコーダからのベクトルを特徴量として組み込むことも可能であり、そのようなエンコーダの初期の例がBERTである。

こうやって絞り込まれた文書に対して、さらに有用な情報を表示するモデルがいくつか使われる。

情報抽出モデルでは、クエリを質問と見做してその回答を文書から抽出することがある。

あるいはクエリが人物名や組織名、場所名などであれば、そのエンティティの詳細情報をデータベースから取得することもでき、これはナレッジグラフとも呼ぶ。

Permalink | 記事への反応(0) | 11:39

2021-11-23

■anond:20211123220149

空間コストってのは使うデータサイズのことね。

語と記事を対応させて検索できるようにするのが転置インデックス。

検索可能な語が増えれば空間コストは増えるってのが常識。

例えば個々の記事に存在する単語をすべて記事に対応させるって方法があるけど、これがelasticsearchとかで一般的にやってる方法。

ngramは文字や単語のn個の列を対応させる方法なのでさらに容量を使う。

そういう容量を使う価値はないと運営が判断してるのでは？ってこと。

Permalink | 記事への反応(0) | 22:42

■anond:20211123215219

むしろ実験的サービスでしかないから転置インデックスでngramを格納するような空間コストを割きたくないのでは。

Permalink | 記事への反応(2) | 21:55

2020-07-31

■このIT全盛期に、ITと相性最悪の言語が天下取れるわけ無いだろ。

https://anond.hatelabo.jp/20200730225532

・Shift-JISとかいう特大の負債

・UTF-8だと2バイトになったり3バイトになったり、更にサロゲートペアまで出てくる(これは絵文字の影響で英語圏の人も今は同条件かもしれん)

・ファイルやデータを並び替えして漢字が先頭に来ると並び順が意味不明

・コレーションで何を同一と扱っていいのかも曖昧

・文がスペース区切りではないので全文検索の転置インデックス生成が複雑。形態素解析やらNgramやらなんやねん

Permalink | 記事への反応(3) | 02:10

2015-04-15

■http://anond.hatelabo.jp/20150415101520

いや別にどこでソートしようと計算量オーダーは変わんないだろ。

正直馬鹿にする意図で書いたのに本当にそういうレベルの話を求めていたとは…。

計算量オーダーを落とすアルゴリズムはハードウェアがどんなに進化しようと必須。

ハードの進歩なんてO(n^2)とO(nlogn)の差に比べたらハナクソみたいなもんだぞ。

ハードが進歩したら転置インデックスはいらねーのかって話。

近年進歩したのは分散処理系のアルゴリズムとランダマイズド系だろう。

Permalink | 記事への反応(1) | 10:22

2014-12-17

■http://anond.hatelabo.jp/20141217005036

俺そもそもプログラマじゃないしサーバとかフロントとかフレームワークとか全然知らんのだけど、

一般的にはfizzbuzzって「アルゴリズム的なもの」っていうくくりになるもんなの？？

15で割って3で割って5で割るだけだよね？？

このくらいの「アルゴリズム的」とされる処理をかかないで終わるプログラマの仕事っていうのが想像できない。

サーバとかフロントとかなんとかを知っていれば割り算できなくても全然仕事になるって感じなのか？

俺いわゆる情報科学的なアルゴリズムは全然疎くて、アルゴリズムの仕事してるとはとても言えないと思ってるけど、

それでもグラフの連結成分探索とか頭捻って転置インデックスみたいな構造思いついて計算量落とすとか、そのくらいはするぞ。

「コードが世界を変える！」とか息巻いてる感じのウェブ系の人たちは全員こんなの小学校の頃にやったよカス、って感じのレベルかと思ってるんだが。

Permalink | 記事への反応(1) | 01:19