はてなキーワード: あっぷとは
難読人名、難読地名、難読用語から、ネットスラングまで色々と対応してくれるそりゃ大したものなようだが、よく考えたら
Googleはどうやってそんなものの「読み」を獲得してるのだろうという疑問がある。
語彙はGoogleお得意のデータベースがある。使用頻度や品詞なんちゃらの分類もお得意だろう。
だけど「読み」だけは、普通に考えたらネットからさらってそれを採用するってことはできない。
「騎士くん」を「ナイトくん」と読むことも、「美空ちゃん」を「ぴゅあっぷるちゃん」と「読む」ということを
獲得することは、普通に考えたら不可能だ。日本語IMEは「読み」と語彙の紐付けで初めて成り立つものだから、
いくら「語彙」があったところで、「読み」が獲得できなければ無意味なわけだ。
そういう「難読モノ」や「ネットスラング」にまで対応するというのは、日本語IMEシステムにとってかなり難儀な技だと思う。
じゃあ、Googleはどうやってそんなものを獲得しているのだろう。
まさかわざわざ人力で入れているとも思えない。それはgoogleの芸風ではない。
Google Chromeや検索サイトから、キーロガーのように獲得するか?
いやそれもダメだ。難読や変読のは、「本来の読みを無視した読み」で変換をかけるからだ。
ひとつの仮説としては、Wikipediaや報道関係のニュースサイトなどで、
「美空(ぴゅあっぷる)ちゃん」とか、「大分(おおいた)県」などのように、
「漢字(よみがな)」という並び方に着目して「読み」を獲得しているのではないかということだ。
いったん「漢字」と「ひらがなの並び」の関連が取れれば、それを「読み」として獲得することは自動化できるだろう。
で、ここまでの推論が基本的アイディアとして正しいと仮定した上で。
はてなダイアリーや2chで、「漢字(よみがな)」という法則を使って、GoogleIMEを釣ることはできないだろうかということ。
「柊かがみ(おれのよめ)」という字面を並べまくることで、「おれのよ」ぐらいまでを入力したところで
「柊かがみ」を変換候補に出すような釣り方とか、もしくは全く大間違いの「読み」をGoogleに認識させる事は可能なのではということ。
まあ実際問題、メディア関連のサイトやwikipeidaあたりから獲得した読みをひっくり返すほどの
評価を与えられるとは思わないが・・・。
http://dqname.jp/index.php?md=view&c=aa337
(漢字) 星 ( 9画 )
(読み) あっぷる ( appuru )
(性別) 女
(メモ)
・ 「アップルは英語で星って意味だから。アクア(雛萌)の漢字に苦労したからそのまんまつけた。アップルには星のように輝いてほしーし。」兄に「青空(えあ)」、姉に「花蓮(きゅーてぃ)」「雛萌(あくあ)」。
日本人の平均的な頭の程度がそうそう変わるわけもないと思うから、こういうぶっ飛んだ馬鹿って昔からいたはずだよね。
なんで昔は表面化してこなかったんだろう?
あるいは頭悪すぎて早死にしてたとか、間引きされてたとか?
(もちろんこれ自体はネタかもしれないけど、そうだとしても似たような奴いっぱいいるよね)