「変読」を含む日記 RSS

はてなキーワード: 変読とは

2010-03-19

GoogleIMEはどうやって「読み」を取得してるのか→GoogleIMEを釣るアイディ

GoogleIMEの新しいバージョンが発表されたらしい。

難読人名、難読地名、難読用語から、ネットスラングまで色々と対応してくれるそりゃ大したものなようだが、よく考えたら

Googleはどうやってそんなものの「読み」を獲得してるのだろうという疑問がある。

語彙はGoogleお得意のデータベースがある。使用頻度や品詞なんちゃらの分類もお得意だろう。

だけど「読み」だけは、普通に考えたらネットからさらってそれを採用するってことはできない。

騎士くん」を「ナイトくん」と読むことも、「美空ちゃん」を「ぴゅあっぷるちゃん」と「読む」ということを

獲得することは、普通に考えたら不可能だ。日本語IMEは「読み」と語彙の紐付けで初めて成り立つものだから、

いくら「語彙」があったところで、「読み」が獲得できなければ無意味なわけだ。

そういう「難読モノ」や「ネットスラング」にまで対応するというのは、日本語IMEシステムにとってかなり難儀な技だと思う。

じゃあ、Googleはどうやってそんなものを獲得しているのだろう。

まさかわざわざ人力で入れているとも思えない。それはgoogleの芸風ではない。

Google Chrome検索サイトから、キーロガーのように獲得するか?

いやそれもダメだ。難読や変読のは、「本来の読みを無視した読み」で変換をかけるからだ。

ひとつの仮説としては、Wikipedia報道関係のニュースサイトなどで、

美空(ぴゅあっぷる)ちゃん」とか、「大分(おおいた)県」などのように、

漢字(よみがな)」という並び方に着目して「読み」を獲得しているのではないかということだ。

いったん「漢字」と「ひらがなの並び」の関連が取れれば、それを「読み」として獲得することは自動化できるだろう。

で、ここまでの推論が基本的アイディアとして正しいと仮定した上で。

はてなダイアリー2chで、「漢字(よみがな)」という法則を使って、GoogleIMEを釣ることはできないだろうかということ。

柊かがみ(おれのよめ)」という字面を並べまくることで、「おれのよ」ぐらいまでを入力したところで

柊かがみ」を変換候補に出すような釣り方とか、もしくは全く大間違いの「読み」をGoogle認識させる事は可能なのではということ。

まあ実際問題、メディア関連のサイトやwikipeidaあたりから獲得した読みをひっくり返すほどの

評価を与えられるとは思わないが・・・。

2010-03-17

http://anond.hatelabo.jp/20100317234632

うーんと、俺はその作品を知らないし、調べてもよう分からんのだけど。どういう作品?

>お前が俺のお前への愛を信じないように、俺もお前の徹への愛(笑)を信じないよ。

それを決めるのはあなたではないと思うけど。私が思って徹がどう思うかだということにならん? それに私は徹がどう思っても批判的であることをやめないのだけど。

強いて言うなら、徹は朝鮮・妖術・柳生特撮男色捏造と色々ネタ盛りだくさんで、しかも何らかの思想性を伺わせて大変読み応えのある作家です、としか言えん。(ということは2chtwitterでさんざん書いてることだけど改めてここでも書く。面白いよ!)

ログイン ユーザー登録
ようこそ ゲスト さん