2013-08-07

http://anond.hatelabo.jp/20130807191341

クソどうでもいいけど

http://moji.tekkai.com/zoom/%E9%AC%B1/page.html

欝って文字はU+9B31で 最近UTF-8エンコードされるからE9 AC B1になって3バイトだ 大抵の日本語は3バイトで長いと6バイト(異字体コード付き)だったはずだ。

 

今時シフトJISなんて殆ど使われてないって

サロゲートペアは正常にエンコードすれば4バイト 一番長いのはサロゲートペアに異自体コード付きで8バイトだったはずだが、調べないとわからん

欝も異字体コードがアレば3バイト以上になるはず。

 

もう、文字を見てそれが何バイトか見てわかる時代は終わってる。

記事への反応 -

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん