2020-12-25

anond:20201224204327

あっしもそんなに詳しいわけでは無いが、いくらなんでもはてな検索システム一般的全文検索から大きく外れた思想で作られているとは思えない。

まずもって検索システムつうのはどういうものかというと、通常のRDBの通常の検索の話だと、表の特定の列のデータ対象データがあったらその行を返すっつうものだ。

COL1COL2COL3
春麗回し蹴り
サガットタイガーアッパーカット
ベガキャミィグヘヘ
キャプテン沢田キャミィ澤田スペシャル'95

これでCOL2に索引をつけた場合検索条件に「隆」を入れたら行1と行2が返るつうのな。

全文検索だとちょっと面倒でこのCOL1とかCOL2に入るデータが「アストラギウス銀河を真っぷたつに分けた、バララントギルガメスの二つの星系が砲火を交えて、100年。」とかになるわけなのよね。

となると検索する人は「アストラギウス銀河」とか「バララント」とかで検索するわけで、それを想定して分割した「トークン」つう単位単語的なもので分割して索引を作るわけ。

そのトークン分割のやり方がいろいろあってそれで索引の出来方がかわって検索の使い勝手が変わってくる訳なんだけど、日本語場合、まず「てにおは」とかの「ストップワード」で分割して、それぞれのトークンをそれぞれ分割する・・・みたいなのは一般的なのね。

上の文章だと「アストラギウス銀河」 「真っぷたつ」「分けた」みたいに分割して、更に「アス」「アスト」「アストラ「スト」「ストラ」・・・みたいな。

もちろん索引サイズバカみたいになって全部スキャンした方がはやいやんけみたいになったら馬鹿馬鹿しいのでどのくらいのトークンを作るかはさじ加減なんだが、普通の仕組みなら「回し蹴り」はトークンとして入るので元記事の指摘はちょっと違うと思うのだ。

記事への反応 -
  • はてブで自分のブコメを検索しても、検索結果でヒットしないことがある。明らかなエラーだ。どうしてこういうことが起こるのか? また、どうすれば解決できるのか?    調べたと...

    • あっしもそんなに詳しいわけでは無いが、いくらなんでもはてなの検索システムが一般的な全文検索から大きく外れた思想で作られているとは思えない。 まずもって検索システムつうの...

    • 上場なんかしてしまったことと、不倫さんが退職してからどんどん外部委託してる方向

    • blueboyさんおつかれっす!

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん