「転置インデックス」を含む日記 RSS

はてなキーワード: 転置インデックスとは

2024-04-01

anond:20240401161211

精一杯わかりやすくしたんだがなぁ

要は「コンテンツ検索する」のが目的で、「関連性」の順番にソートしたいわけよ

最初の段階で転置インデックスとか近似最近傍法とかを使ってざっくり抽出するんだよ

近似最近傍法を使う場合は、コンテンツベクトルに変換したものを使って検索できるので、キーワードだけではなく、概念検索したりも可能

で、そこでざっと抽出したのが1万件だとしても、ユーザーが最終的に見るのはせいぜいTop100件だろう

そこでLTRという「クエリドキュメントの特徴量からスコア計算する仕組み」を使ってTop100件を抽出して並べ替え

というのが一連の流れ

anond:20240401153545

ルー大柴か?

まず情報検索転置インデックスLTR、近似最近傍法などの社内ライブラリを書いてる。

推薦システムCTR最適化のためにクリックデータから訓練データ作成して、特徴量からクリック確率予測し、最大化するコンテンツを出力してる。

文書分類は「セーフサーチ」と同じ手法を使っているが、特定の条件に合致する文書スコアリングするモデルを作ってる。

2023-09-26

検索エンジンの仕組み

技術的な内容を増田に書くという実験のために、試しに検索エンジンの仕組みについて書く。

検索エンジンは、大雑把に言ってクロールするパート、インデクシングするパート検索インターフェイスを出力するパートに分かれる。

インデクシング時に使っている基本手法は「転置インデックス」と呼ばれ、文書内のngramを文書ID対応付ける辞書を保存する。

インデクシングの別の種類としては、文書エンコーダからベクトルへ変換し、それを近似最近検索できるようにするものもある。

インデクシングされたものキーワードマッチ的に絞り込まれると、さらに精密な手法が使われる。

クエリドキュメントから特徴量設計し、関連性の高いものを引っ張るような訓練をする方法はLearning to rankという。

Learning to rankの中に使われる特徴量の一つにPage Rankがあるが、これは初期の検索エンジン画期的とされた量で、「リンクされるページの価値は高い」「高価値ページにリンクされると価値が高い」という基準からマルコフ連鎖計算する。

Page Rankは人間論文評価するときと似たような評価手順であるとされる。

Learning to rankの中にエンコーダからベクトルを特徴量として組み込むことも可能であり、そのようなエンコーダの初期の例がBERTである

こうやって絞り込まれ文書に対して、さら有用情報を表示するモデルがいくつか使われる。

情報抽出モデルでは、クエリ質問と見做してその回答を文書から抽出することがある。

あるいはクエリ人物名や組織名場所名などであれば、そのエンティティの詳細情報データベースから取得することもでき、これはナレッジグラフとも呼ぶ。

2021-11-23

anond:20211123220149

空間コストってのは使うデータサイズのことね。

語と記事対応させて検索できるようにするのが転置インデックス

検索可能な語が増えれば空間コストは増えるってのが常識

例えば個々の記事存在する単語をすべて記事対応させるって方法があるけど、これがelasticsearchとかで一般的にやってる方法

ngramは文字単語のn個の列を対応させる方法なのでさらに容量を使う。

そういう容量を使う価値はないと運営判断してるのでは?ってこと。

2020-07-31

このIT全盛期に、ITと相性最悪の言語が天下取れるわけ無いだろ。

https://anond.hatelabo.jp/20200730225532

Shift-JISかいう特大の負債

UTF-8だと2バイトになったり3バイトになったり、更にサロゲートペアまで出てくる(これは絵文字の影響で英語圏の人も今は同条件かもしれん)

ファイルデータを並び替えして漢字が先頭に来ると並び順が意味不明

・コレーションで何を同一と扱っていいのかも曖昧

・文がスペース区切りではないので全文検索転置インデックス生成が複雑。形態素解析やらNgramやらなんやねん

2015-04-15

http://anond.hatelabo.jp/20150415101520

いや別にどこでソートしようと計算量オーダーは変わんないだろ。

正直馬鹿にする意図で書いたのに本当にそういうレベルの話を求めていたとは…。

計算量オーダーを落とすアルゴリズムハードウェアがどんなに進化しようと必須

ハード進歩なんてO(n^2)とO(nlogn)の差に比べたらハナクソみたいなもんだぞ。

ハード進歩したら転置インデックスはいらねーのかって話。

近年進歩したのは分散処理系アルゴリズムランダマイズド系だろう。

2014-12-17

http://anond.hatelabo.jp/20141217005036

俺そもそもプログラマじゃないしサーバとかフロントとかフレームワークとか全然知らんのだけど、

一般的にはfizzbuzzって「アルゴリズム的なもの」っていうくくりになるもんなの??

15で割って3で割って5で割るだけだよね??

このくらいの「アルゴリズム的」とされる処理をかかないで終わるプログラマ仕事っていうのが想像できない。

サーバとかフロントとかなんとかを知っていれば割り算できなくても全然仕事になるって感じなのか?

俺いわゆる情報科学的なアルゴリズム全然疎くて、アルゴリズム仕事してるとはとても言えないと思ってるけど、

それでもグラフの連結成分探索とか頭捻って転置インデックスみたいな構造思いついて計算量落とすとか、そのくらいはするぞ。

コード世界を変える!」とか息巻いてる感じのウェブ系の人たちは全員こんなの小学校の頃にやったよカス、って感じのレベルかと思ってるんだが。

 
ログイン ユーザー登録
ようこそ ゲスト さん