2010-03-19

GoogleIMEはどうやって「読み」を取得してるのか→GoogleIMEを釣るアイディ

GoogleIMEの新しいバージョンが発表されたらしい。

難読人名、難読地名、難読用語から、ネットスラングまで色々と対応してくれるそりゃ大したものなようだが、よく考えたら

Googleはどうやってそんなものの「読み」を獲得してるのだろうという疑問がある。

語彙はGoogleお得意のデータベースがある。使用頻度や品詞なんちゃらの分類もお得意だろう。

だけど「読み」だけは、普通に考えたらネットからさらってそれを採用するってことはできない。

騎士くん」を「ナイトくん」と読むことも、「美空ちゃん」を「ぴゅあっぷるちゃん」と「読む」ということを

獲得することは、普通に考えたら不可能だ。日本語IMEは「読み」と語彙の紐付けで初めて成り立つものだから、

いくら「語彙」があったところで、「読み」が獲得できなければ無意味なわけだ。

そういう「難読モノ」や「ネットスラング」にまで対応するというのは、日本語IMEシステムにとってかなり難儀な技だと思う。

じゃあ、Googleはどうやってそんなものを獲得しているのだろう。

まさかわざわざ人力で入れているとも思えない。それはgoogleの芸風ではない。

Google Chrome検索サイトから、キーロガーのように獲得するか?

いやそれもダメだ。難読や変読のは、「本来の読みを無視した読み」で変換をかけるからだ。

ひとつの仮説としては、Wikipedia報道関係のニュースサイトなどで、

美空(ぴゅあっぷる)ちゃん」とか、「大分(おおいた)県」などのように、

漢字(よみがな)」という並び方に着目して「読み」を獲得しているのではないかということだ。

いったん「漢字」と「ひらがなの並び」の関連が取れれば、それを「読み」として獲得することは自動化できるだろう。

で、ここまでの推論が基本的アイディアとして正しいと仮定した上で。

はてなダイアリー2chで、「漢字(よみがな)」という法則を使って、GoogleIMEを釣ることはできないだろうかということ。

柊かがみ(おれのよめ)」という字面を並べまくることで、「おれのよ」ぐらいまでを入力したところで

柊かがみ」を変換候補に出すような釣り方とか、もしくは全く大間違いの「読み」をGoogle認識させる事は可能なのではということ。

まあ実際問題、メディア関連のサイトやwikipeidaあたりから獲得した読みをひっくり返すほどの

評価を与えられるとは思わないが・・・。

  • 以下、俺が元記事見た時の思考の流れ 単語+丸括弧でネット上から抽出、ただし丸括弧内はひらがな限定 こんな感じで収集かぁ・・・ ひらがな限定にすれば「スイーツ(笑)」とか「(AA略...

    • 検索範囲をニュースサイトやら特定のサイト(DQNネームなら一覧してるサイトからのみとか)に限定してるのか? 自動化するにしても、情報源くらいは手作業で選んで2chは参考にしない...

  • たぶん一定の情報の規則に従って結果を求めている という推論は正しそうだねぇ。 また、追加要素としてGoogleお得意の検索としてのランキングだと思うけどな。  ネットでのリンク...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん