「仮名漢字変換」を含む日記 RSS

はてなキーワード: 仮名漢字変換とは

2009-09-14

http://anond.hatelabo.jp/20090909012935

はてなブックマークに捕捉された様なので、少し補足しておく。

常用漢字表」は現時点として「一般の社会生活において現代の国語を書き表すための漢字使用の目安」として位置附けられた存在である。だが併し、其の前身である処の「当用漢字表」は、「目安」ではなく「現代國語を書きあらわすために、日常使用する漢字の範囲」として、詰り漢字制限を実行させる為の根拠として、告示されたものだったのである。当然、漢字制限としての性質は「当用漢字表」から「常用漢字表」へと移った現在でも受継がれて居り、其の結果、「覚せい剤(覚醒剤)」とか「ぼう然(呆然)」とか「漏えい(漏洩)」とか混ぜ書きが公然となされるわけである。「常用漢字表」に載ってない漢字は誰も読めないから使用できない、そんな感覚で混ぜ書きをする本人は自己正当化してるのかも知れない。

漢字を書くのは、自己記憶の中から捻り出さなければならない部分がある。言葉を知ってる場合でも、漢字が導き出せない場合もある。純粋自己記憶依存する為、非常に労力の掛かる事も無きにしもあらず。併し乍、書かれた漢字を読む場合、対比させる為の漢字は既に眼前に存在するので、後は自分記憶と照し合せて行けばいいだけである。書く時の労力と比較したら遥かに軽いものだ。現在仮名漢字変換も基本は此の原理を利用して居る。若し解らない漢字にぶち当っても、文脈で読む事が出来る場合もある。其れでも駄目なら字引の出番だ。別に「常用漢字表」の様な枠に縛り附けなくとも問題はないと主張したい。逆に書く必要のある漢字に関しては此れは教育の問題として処理されるべきかも知れない。でも其れは「教育で必要な漢字」ではあっても決して「常用漢字表」では在り得ない。

2008-09-03

文章の書き手の同定方法

増田はてなの文句言ってるidを割り出した

文書の内容から同一人物の判定をすることは、まず無理です。それよりは筆跡鑑定的な手法を使うことをお奨めします。文章の記述法・書式から判断するということです。

記述法・書式」とは、「どういう言葉漢字に変換し、どういう言葉をひらがなで書いているか」とか、「どういう約物を好んで使っているか」とか、「どういうタイミングで改行をしているか」とかです。

こういう視点でもとの文章をみてみると、強烈な特徴があります。「ASCII文字と日本語の文字の間に半角スペースを入れる」という特徴です。これは普段からそういう文章を書いている人間以外には決して現れない特徴です。しかも「Web標準」「geekたち」の箇所だけはスペースが入っていません。このへん、使っている仮名漢字変換の設定や使用方法の癖がでていて興味深いです。

また、「弄る」「誤摩化してます」「目を瞑る」など、わりとひらがなで書かれることが多い用語も漢字に変換してたりするところにも、特徴があります。

id:zapaの文章をざっと見てみましたが、上記のような特徴が普段書いている文章に見られません。まあ、別人の書いた文章であると考えて間違いないでしょう。

ちなみに、私は「自分が書いた文章だということを決して明らかにしたくない」という文章を書く場合、別のIMEがはいった別のPCをつかってます。ここまで徹底している人間にはこの手法は使えませんが、普通のひとはそこまで気をつかいませんので、かなり有効な手法です。

(追記)

しかし、「増田はてなの文句言ってるidを割り出した」の文章も特徴だらけで特定が容易そうだなあ。

  • はてな記法になれているらしく、文章で多用。
  • 改行多用。改行は複数行の改行(改行記法)も必要に応じて使用
  • 長めの文章でも読点(、)を全く使用しない。
  • 「それほど」でも「それ程」でも「其れ程」でも「其程」でもなく、「其れほど」。
  • 全角英数字はいっさい使用せず。この辺に気はつかっている。
  • しかし「DIS」「id」「ID」と、大文字小文字の区別には無頓着

こういう文章書いている人で、Googleとかをつかった調査が好きな人、まわりにいません?

 
ログイン ユーザー登録
ようこそ ゲスト さん