GoogleIMEはどうやって「読み」を取得してるのか→GoogleIMEを釣るアイディ

はてな匿名ダイアリー

2010-03-19

■GoogleIMEはどうやって「読み」を取得してるのか→GoogleIMEを釣るアイディ

Google IMEの新しいバージョンが発表されたらしい。

難読人名、難読地名、難読用語から、ネットスラングまで色々と対応してくれるそりゃ大したものなようだが、よく考えたら

Googleはどうやってそんなものの「読み」を獲得してるのだろうという疑問がある。

語彙はGoogleお得意のデータベースがある。使用頻度や品詞なんちゃらの分類もお得意だろう。

だけど「読み」だけは、普通に考えたらネットからさらってそれを採用するってことはできない。

「騎士くん」を「ナイトくん」と読むことも、「美空ちゃん」を「ぴゅあっぷるちゃん」と「読む」ということを

獲得することは、普通に考えたら不可能だ。日本語 IMEは「読み」と語彙の紐付けで初めて成り立つものだから、

いくら「語彙」があったところで、「読み」が獲得できなければ無意味なわけだ。

そういう「難読モノ」や「ネットスラング」にまで対応するというのは、日本語 IME システムにとってかなり難儀な技だと思う。

じゃあ、Googleはどうやってそんなものを獲得しているのだろう。

まさかわざわざ人力で入れているとも思えない。それはgoogleの芸風ではない。

Google Chromeや検索サイトから、キーロガーのように獲得するか？

いやそれもダメだ。難読や変読のは、「本来の読みを無視した読み」で変換をかけるからだ。

ひとつの仮説としては、Wikipediaや報道関係のニュースサイトなどで、

「美空（ぴゅあっぷる）ちゃん」とか、「大分（おおいた）県」などのように、

「漢字（よみがな）」という並び方に着目して「読み」を獲得しているのではないかということだ。

いったん「漢字」と「ひらがなの並び」の関連が取れれば、それを「読み」として獲得することは自動化できるだろう。

で、ここまでの推論が基本的アイディアとして正しいと仮定した上で。

はてなダイアリーや2chで、「漢字（よみがな）」という法則を使って、Google IMEを釣ることはできないだろうかということ。

「柊かがみ（おれのよめ）」という字面を並べまくることで、「おれのよ」ぐらいまでを入力したところで

「柊かがみ」を変換候補に出すような釣り方とか、もしくは全く大間違いの「読み」をGoogleに認識させる事は可能なのではということ。

まあ実際問題、メディア関連のサイトやwikipeidaあたりから獲得した読みをひっくり返すほどの

評価を与えられるとは思わないが・・・。

Permalink | 記事への反応(2) | 21:47

記事への反応 -

http://anond.hatelabo.jp/20100319214712
以下、俺が元記事見た時の思考の流れ単語+丸括弧でネット上から抽出、ただし丸括弧内はひらがな限定こんな感じで収集かぁ・・・ひらがな限定にすれば｢スイーツ(笑)｣とか｢(AA略...
- http://anond.hatelabo.jp/20100319221635
  検索範囲をニュースサイトやら特定のサイト(DQNネームなら一覧してるサイトからのみとか)に限定してるのか？自動化するにしても、情報源くらいは手作業で選んで2chは参考にしない...
http://anond.hatelabo.jp/20100319214712
たぶん一定の情報の規則に従って結果を求めているという推論は正しそうだねぇ。また、追加要素としてGoogleお得意の検索としてのランキングだと思うけどな。　ネットでのリンク...

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

人気エントリ

注目エントリ

ようこそゲストさん