想像してみてください。あなたは巨大な図書館の司書です。この図書館には数え切れないほどの本があり、あなたの仕事は誰かが特定の本を探しやすくすることです。しかし、本が多すぎるため、一つ一つの本を詳細に見て回るのは非現実的です。ここで、賢い方法が必要になります。
まず、各本がどんな内容か、どんな特徴を持っているかを把握します。たとえば、「冒険」や「ロマンス」、「科学」などのジャンルや、本が面白いか、難しいかなどの特徴です。これらの情報を「自然言語+特徴量」と考えます。
次に、この膨大な情報を図書館のシステムで扱いやすいように「圧縮&ベクトル化」します。これは、各本の情報をコンパクトな数値のリスト(ベクトル)に変換することを意味します。本の目録で言えば、各本にタグや番号を付けて、その本が持つ特徴を簡潔に表すようなものです。
そして、これらのベクトル化されたデータを「近似最近傍法ライブラリ」で管理します。これは、似たような特徴を持つ本が近くになるように、本の目録を整理する作業です。たとえば、あなたが「冒険」ジャンルの本を探している時、この方法を使うと、冒険に関する本が集められた目録のセクションをすぐに見つけることができます。
最終的に、この整理された目録を使って、誰でも簡単に欲しい本を見つけられるようになります。また、ある本が気に入ったら、似たような特徴を持つ他の本も簡単に推薦できるようになります。これが、情報検索や推薦システムで使える「ベクトルで検索するツール」の完成形です。
つまり、このツールは、膨大な図書館の本の目録を効率的に管理し、使いやすくするための便利な仕組みと言えるでしょう。
おわかり? by ChatGPT
で、なんのグループを出していてどのようなprocessing(NLP=Natural Language Processing)をどの段階でしているの?
まずコンテンツがあるだろ、これは自然言語+特徴量と考えていい これを社内ライブラリで圧縮&ベクトル化するわけよ あとはこの圧縮されたベクトルを近似最近傍法ライブラリでイン...
もうちょっとわかりやすく説明して😊
想像してみてください。あなたは巨大な図書館の司書です。この図書館には数え切れないほどの本があり、あなたの仕事は誰かが特定の本を探しやすくすることです。しかし、本が多す...
精一杯わかりやすくしたんだがなぁ 要は「コンテンツを検索する」のが目的で、「関連性」の順番にソートしたいわけよ で最初の段階で転置インデックスとか近似最近傍法とかを使って...
こういうことか? a うんこを食べる b うどんを食べる c 増田を書く d 増田をよむ 👇 A うんこ を 食べる B うどん を 食べる C 増田 を 書く D 増田 を よむ 👇 x うんこ う...
BoWを使うならそうだけど、tfidfでもできるし、BoWかtfidfをSVDで圧縮することもできる あるいはLLMを使ってベクトル化してもいい
あるいはLLMを使ってベクトル化してもいい わざわざLLM(大規模言語モデル)つかってベクトル化するってどういうこと? Bag-of-words TF-IDF = TF(単語の出現頻度)* IDF(各単語のレア...
BERTを使って検索するというのが一時期流行った その後はhuggingfaceで出てるようなモデルでベクトル化すると、概念マッチが実装できるようになった 例えば「なんかやわらかいもの」とい...
その後はhuggingfaceで出てるようなモデルでベクトル化すると、概念マッチが実装できるようになった 例えば「なんかやわらかいもの」というクエリを「スライム」「餅」と解釈させる...
「プロセッシングをする」なんて言葉を使うルー大柴はお前だけ