はてなキーワード: 形態素とは
日本語の複合語の省略において省略前の形態素のうち1モーラ分しか残らない事例|Colorless Green Ideas
https://id.fnshr.info/2015/03/29/one-mora-abbreviation/
https://yanakaan.hatenablog.com/entry/2017/11/13/094019
「アメフット」考──ことばをどんな風に短縮しますか|山本英治 AKA ほなね爺|note
https://note.com/yama_eigh3/n/n2212b2b5eee9
「アメフット」考: trivialities & realities
http://trivial.way-nifty.com/trivialities/2018/05/post-d8df.html
形態素分解が上手くできないんじゃない?
こういった厄介事を乗り越えてなんとか文章全体の形態素が把握できても、文章の論理構造が現在とは異なっているから難儀する
「結論が先じゃないから回りくどい」的な次元じゃなくて、現代語訳を見てもなお意味がつかめず
解説まで読んだところで「こういうことを言うのにこうやって文章を展開していくのか…」とかろうじて納得するので精いっぱい
ネット見てると言いたいことはあるのだろうことは分かるけど何が言いたいのかどうしても分からないって感じの文章に出会うことがあるが、自分にとって古文は終始そんな感じ。
今日置昌一の「ことばの事典」などという和歌や川柳がふんだんに引用されている事典を頭から読んでいるのだが、数千収録されているうちの7割以上は詩情が全く掴めない
受験業界では古文は暗記すれば読めるとかいうが、古語辞典でも首っ引きでも理解できない私も一種のディスレクシアでいいんじゃないか
今更だけど
すると、日本語ラップを聞いても、「こいつのリリックええやん」となりにくい。
結果、普及しにくい。
同じ「パプリカ」と言う単語でも、英語の方が拍(リズムの構成要素)が少ない。
日英訳を比較してみると、多くの場合で日本語の拍数が多いと思う。
(その分日本語は語の省略が多いが)
また、日英のラップの形態素数/単語数を比較してみてもいい。全体としては、日本語の方が少ないはず。
すると、日本語は、ラップのリリックで自然に表現できる情報が減る(語を詰め込む,と言う手段もあるにはあるけど)。
仕事柄ネットでの調べ物が多くGoogleを多用するのだが、同僚をみているとどうも要領が悪い。気になったキーワードくらいさっと調べられるようになりたいものである。
ただ自分が口出しをすると「うっせーおっさんだな」と言われるのがオチなのでここに書きとめることにする。ブラウザはChromeを例にするが他のブラウザでも同様の操作はできるはずである。
そもそも画面に検索対象が出ているのに、検索窓に自分で入力する人がいる。「そっちの方が早いから」が理由だが、絶対そんなことはないのでせめてコピペくらい覚えてほしい。
コピペにしても右クリックで「コピー」「ペースト」ってやる人がいる。「そっちの方が早い」と言い張るのだから諦めているが、ショートカット「Ctrl-C」「Ctrl-V」(Macの人はCtrlをCommandに置き換えてほしい)の方が早いと思う。あと、マウスをクリック&ドラッグしてずるずるとテキストを引っ張る人がいるが、最近はある程度の日本語の形態素を解釈するので、ダブルクリックからドラッグした方が単語単位で選択できてよい。
URL欄でGoogle検索できるようにしておく(これがChromeのデフォルトのはず)。なぜかBingとかYahooを頑なに使っている人がいるけど素直にGoogleでいい。
「Ctrl-L」を押すと検索窓にフォーカスが移ってURLが全選択になる。なので、本文中に検索したいキーワードがあったら選択して、「Ctrl-C/Ctrl-L/Ctrl-V/Enter」のコンボで一発で検索ができる
今閲覧しているページはそのままにしたいこともあるだろう。そういう時は新規タブを開く「Ctrl-T」を使う。新規タブは検索窓に最初からフォーカスがあるので、「Ctrl-C/Ctrl-T/Ctrl-V/Enter」のコンボで新規タブでの検索ができる。同様のことをする拡張機能などもあるのだが、他人の環境だと使えなかったりするからここでは紹介しない。
タブを活用するなら、タブ移動コマンドや「うっかり閉じてしまったタブを復元(Ctrl-Shift-T)」なども覚えておくと便利であるが、あまり大量のショートカットを一度に覚えるとかえって効率が落ちてしまうのでここでは深追いしない。
単語を1つずつ調べている人がいるが、わからない単語が多すぎるなら素直に「右クリック+T」で全文翻訳してしまった方が早い。ざっくり文意をつかんだら原文に戻す。そうすれば検索しなくてもだいたい読めるはず。
翻訳機能を使うのが恥ずかしい、あるいは、ほとんど辞書なしで読めるがわからない単語が稀にある程度なら
https://chrome.google.com/webstore/detail/mouse-dictionary/dnclbikcihnpjohihfcmmldgkjnebgnj
この拡張機能が便利なはずだ。マウスオーバーするだけで辞書が引けるスグレモノである。なぜ「はずだ」と書いたかというと、いちいちON/OFFをしなければいけないし、たまに調べるくらいなら前述のショートカットで十分間に合うので、インストールしたのはいいもののほとんど使っていないからである。
検索ワードもある程度コツがあるのだが別に紹介したい。「ググれカス」というのは簡単だが、文章にして説明すると案外面倒なものである。
時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
---|---|---|---|---|
00 | 56 | 11385 | 203.3 | 79.5 |
01 | 61 | 4651 | 76.2 | 43 |
02 | 28 | 3477 | 124.2 | 56.5 |
03 | 29 | 4545 | 156.7 | 36 |
04 | 17 | 6071 | 357.1 | 64 |
05 | 15 | 5744 | 382.9 | 128 |
06 | 30 | 4886 | 162.9 | 65.5 |
07 | 37 | 4608 | 124.5 | 52 |
08 | 62 | 6410 | 103.4 | 40.5 |
09 | 73 | 5633 | 77.2 | 42 |
10 | 70 | 6563 | 93.8 | 52 |
11 | 101 | 7925 | 78.5 | 35 |
12 | 106 | 10117 | 95.4 | 42 |
13 | 140 | 9610 | 68.6 | 33 |
14 | 137 | 7565 | 55.2 | 35 |
15 | 114 | 6666 | 58.5 | 32.5 |
16 | 121 | 13028 | 107.7 | 39 |
17 | 88 | 12250 | 139.2 | 42 |
18 | 140 | 11417 | 81.6 | 34 |
19 | 160 | 15344 | 95.9 | 26.5 |
20 | 116 | 12046 | 103.8 | 33.5 |
21 | 153 | 8659 | 56.6 | 31 |
22 | 163 | 13310 | 81.7 | 35 |
23 | 61 | 7475 | 122.5 | 51 |
1日 | 2078 | 199385 | 96.0 | 37 |
人(198), 自分(132), 女性(82), 今(79), 増田(76), 差別(71), 女(71), 人間(71), 話(70), 仕事(68), 男(66), 男性(60), 感じ(57), 相手(55), 社会(54), 問題(53), 同じ(51), 日本(51), ー(50), 必要(49), 気持ち(49), 意味(49), 前(46), あと(45), 普通(44), 関係(43), 親(42), 時間(41), 会社(40), こんな(40), 子供(40), 好き(39), 気(38), 目(36), 低能(35), 山口(35), 言葉(34), 被害(34), 存在(34), 今日(34), 結婚(33), 生活(32), 友達(31), 他(30), 最近(30), 手(29), 主義(29), https(28), 行動(28), メンバー(28), 安倍(28), 男女(28), 発言(28), 一緒(27), 頭(27), 心(26), 時代(26), 家(26), 専用(25), 意見(25), 自身(25), 理由(25), 人生(25), 車両(25), おっさん(24), 状態(24), ネット(24), 先生(23), 金(23), 現実(23), 周り(23), 場合(22), 結果(22), 世界(22), 責任(22), 娘(22), 自己(22), 別(21), 最初(21), 他人(21), 自体(21), ダメ(21), い(21), 全部(21), 大変(21), レベル(21), 可能(20), ~(20), アニメ(20), 女子(20), 昔(20), 否定(20), 馬鹿(20), 理解(20), 個人(20), 自民党(19), 嫌(19), 逆(19), 一番(19), http(19)
増田(76), 日本(51), 山口(35), 安倍(28), 自民党(19), 日(18), 東京(14), キモ(14), TOKIO(14), 自衛隊(12), アメリカ(8), 達也(8), 加計(7), 民主党(7), カス(6), 平成(6), 公明党(6), 昭和(6), 福島(6), JK(5), 共産党(5), 韓国(5), 羽生(5), スキ(5), 柳瀬(5), 中国(5), 晋(5), 大阪(5), マック(5), ぇ(5), 敬之(4), 愛媛(4), faq(4), チャイルド(4), 麻生(4), 京都(4), テレビ朝日(4), NHK(4), qa(4), ニセ(4), iPhone(3), 所(3), gt(3), CPU(3), 太郎(3), bot(3), 悟(3), フジテレビ(3), 出口(3), 健(3)
↑ MeCab ✕ NAIST辞書 (2011年に更新が止まっている。)
↓ MeCab ✕ mecab-ipadic-NEologd辞書 (固有名詞、新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)
人(184), 自分(125), 今(75), 話(68), 男(66), 女(66), 仕事(66), 増田(66), 人間(63), 女性(62), 感じ(55), 相手(51), 問題(51), 必要(49), 気持ち(48), あと(47), 意味(45), 差別(44), 前(44), 日本(43), 気(40), 子供(39), 普通(39), 男性(38), 目(37), 親(37), 関係(36), 低能(35), 好き(35), 社会(35), 今日(34), 会社(32), ー(32), 言葉(32), 友達(31), 存在(31), 結婚(31), 最近(30), 手(30), 他(30), https(29), 頭(28), 時間(27), 心(27), 理由(25), 意見(25), 現実(25), 人生(25), おっさん(24), 別(24), 被害者(23), 状態(23), 周り(23), しない(23), じゃなくて(23), 発言(22), 家(22), 場合(22), 金(22), 女性専用車両(22), 行動(22), 最初(21), 理解(21), 他人(21), 結果(21), A(21), 全部(21), 娘(21), レベル(21), 世界(21), 自体(20), 馬鹿(20), 先生(20), 男女(20), 勝手(20), 昔(20), 生活(20), アニメ(20), 嫌(20), ダメ(20), 否定(20), 逆(19), www(19), 批判(19), 顔(19), 大変(19), 一番(19), 誰か(19), 男性差別(19), 職場(19), 女の子(19), 一緒(19), 結局(18), 話題(18), http://(18), 時代(18), 記事(18), 無理(18), 自身(17), 山口(17)
増田(66), 日本(43), じゃなくて(23), 被害者(23), 女性専用車両(22), 娘(20), 男性差別(19), 山口(17), 安倍(15), TOKIO(15), 可能性(14), 安倍総理(14), なんだろう(14), いない(13), 自民党(12), 自衛隊(12), 主義者(12), スマホ(12), A(11), 山口メンバー(11), 生活保護(11), hatena(11), カス(11), 元増田(11), 差別主義(10), いいんじゃない(10), 一緒に(10), Twitter(10), 男女平等(9), 女子高生(9), 1人(9), 2人(8), PC(8), ブログ(8), s(8), 上の(8), JK(8), 社交辞令(8), わからん(8), B(8), …。(7), リアル(7), 犯罪者(7), ツイッター(7), 一方的(7), ニセ科学(7), 劣等感(7), コミュ障(7), キモ(7), 私たち(7), ジャニーズ(7), キモい(7), ネット右翼(7), まんこ(6), ブコメ(6), 2018年(6), 普通に(6), 東京(6), 20代(6), 山口達也(6), 昭和(6), 何度(6), 社会人(6), ???(6), 公明党(6), 発言権(6), アメリカ(6), 毒親(6), 加計学園(6), 100%(6), 個人的(6), パワハラ(6), 基本的(6), 最終的(6), 笑(5), かな(5), 加害者(5), 1年(5), にも(5), 共産党(5), なのか(5), GW(5), 悪いこと(5), 外国人(5), 非モテ(5), いいね(5), 強制わいせつ(5), 自己責任(5), 脳内(5), 安倍自民党(5), 低所得(5), キチガイ(5), 人として(5), ー(5), フェミ(5), マジで(5), イケメン(5), 想像力(5), ニート(5), 婚活(5)
例えば「女性」と「専用」と「車両」に分割されていたのが「女性専用車両」で1語と数えられている。辞書のデータソースとしてはてなキーワードを使ったと書いてあるからよりはてな向きかもしれない。
「いいんじゃない」が固有名詞扱いされているが、これは多分はてなキーワードをソースにした弊害ではないだろうか。はてなキーワードを見ると「いいんじゃない」というジャニーズタレントの楽曲があるという。「リアル」もはてなキーワードで三菱のテレビブランドとして説明されているせいで固有名詞扱いなのかもしれない。
一長一短があるな。
時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
---|---|---|---|---|
00 | 81 | 8461 | 104.5 | 39 |
01 | 30 | 9896 | 329.9 | 52.5 |
02 | 25 | 2601 | 104.0 | 70 |
03 | 20 | 4251 | 212.6 | 80.5 |
04 | 15 | 1012 | 67.5 | 25 |
05 | 2 | 2165 | 1082.5 | 1082.5 |
06 | 11 | 935 | 85.0 | 72 |
07 | 13 | 1887 | 145.2 | 93 |
08 | 38 | 3371 | 88.7 | 46 |
09 | 40 | 5422 | 135.6 | 55 |
10 | 66 | 9987 | 151.3 | 75 |
11 | 121 | 10709 | 88.5 | 45 |
12 | 102 | 8464 | 83.0 | 44 |
13 | 131 | 11529 | 88.0 | 44 |
14 | 104 | 9360 | 90.0 | 38.5 |
15 | 138 | 10370 | 75.1 | 42 |
16 | 189 | 13307 | 70.4 | 49 |
17 | 213 | 17541 | 82.4 | 49 |
18 | 118 | 8102 | 68.7 | 36 |
19 | 152 | 10983 | 72.3 | 31.5 |
20 | 63 | 4839 | 76.8 | 35 |
21 | 109 | 14993 | 137.6 | 62 |
22 | 136 | 11821 | 86.9 | 45.5 |
23 | 110 | 11771 | 107.0 | 46 |
1日 | 2027 | 193777 | 95.6 | 44 |
人(179), 女性(155), 自分(147), 男(108), 女(103), 男性(102), 社会(99), 話(97), 今(94), 増田(73), 前(64), 仕事(61), 意味(59), 相手(56), 問題(55), 人間(54), 同じ(52), ー(51), 関係(51), 男女(49), 必要(48), 好き(48), あと(47), 気(47), 子供(44), 感じ(43), https(43), 理由(41), 日本(41), 世界(40), 結婚(39), 時間(38), こんな(37), 普通(35), 進出(35), 手(35), 理解(34), 最近(33), 低能(33), 場合(32), 責任(32), 他(32), 気持ち(31), 個人(31), 会社(31), 逆(31), 山口(30), 目(30), 時代(30), 頭(29), 昔(29), 友達(29), com(29), 金(28), 先生(28), 一緒(28), 価値(28), メンバー(28), 無理(28), 存在(27), 一番(27), 猫(27), www(26), ネット(26), 被害(26), 言葉(26), 家族(26), 親(26), 状態(25), http(25), ゴミ(24), セックス(24), 自体(24), 雇用(24), 会見(23), ダメ(23), 結果(23), ~(23), 娘(23), アニメ(23), 通報(22), クズ(22), 最初(22), 企業(22), 人生(22), 確か(22), 全部(22), 嫌(21), 説明(21), 可能(21), 家(21), 原因(21), 今日(21), 差別(21), 主義(21), 現実(20), 周り(20), 家庭(20), 全体(20), 発言(20)
増田(73), 日本(41), 山口(30), 韓国(15), TOKIO(14), 東京(12), 日(12), 安倍(11), アメリカ(11), キモ(10), 中国(10), 達也(10), 自衛隊(10), detail(8), JK(8), 平成(7), 金(7), article(7), マック(6), jsfiddle(6), イラ(5), 北朝鮮(5), Twitter(5), どん(5), pdf(5), 松岡(5), 昭和(4), default(4), VTuber(4), 韓(4), 自民党(4), サンクス(4), セブン(4), jpg(4), ツイ(4), 米(4), images(3), 明治(3), files(3), 太郎(3), 大正(3), 大阪(3), 朝鮮(3), ワイ(3), Vtuber(3), BC(3), 中(3), sthya(3), バーガー(3), SNS(3)
↑ MeCab ✕ NAIST辞書 (2011年に更新が止まっている。)
↓ MeCab ✕ mecab-ipadic-NEologd辞書 (固有名詞、新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)
人(165), 自分(141), 女性(138), 男(105), 話(98), 女(95), 男性(95), 今(86), 社会(76), 前(62), 仕事(61), 相手(56), 増田(55), 意味(54), 気(50), 問題(49), 必要(48), 人間(48), 関係(47), あと(46), 好き(46), https(44), 子供(43), 感じ(42), 理由(41), 結婚(38), 日本(37), 手(35), 進出(35), 理解(34), 低能(33), 目(33), ー(33), 男女(33), 最近(33), 世界(32), 場合(32), 他(31), 普通(30), 気持ち(30), 頭(29), 会社(29), 逆(29), 時間(28), 先生(28), 友達(28), 無理(28), 昔(27), しない(27), 存在(26), .com(26), 言葉(26), www(25), 金(25), 一番(25), しよう(25), 猫(24), 自体(24), http://(24), 状態(23), セックス(23), 一緒(23), じゃなくて(23), ゴミ(23), 親(23), 娘(22), 雇用(22), クズ(22), ダメ(22), 通報(22), 確か(22), 全部(22), 責任(22), 嫌(22), アニメ(22), 最初(22), 結果(21), 人生(21), 今日(21), メンバー(21), 説明(21), 全く(21), 原因(21), 別(21), ネット(20), 女子高生(20), 周り(20), 価値(20), 一人(19), 時代(19), おっさん(19), 結局(19), 大人(19), 当たり前(19), 幸せ(19), 場所(19), 家(19), 記事(19), 現実(19), 議論(18)
増田(55), 日本(37), じゃなくて(23), 女子高生(20), 娘(20), TOKIO(17), 被害者(16), JK(16), 元増田(16), 山口(15), 可能性(15), なんだろう(13), 韓国(13), リアル(13), 社会的(12), いない(12), フェミ(12), 男女平等(11), アスペ(11), 女性専用車両(10), なのか(10), Twitter(10), 専業主婦(10), detail(9), アメリカ(9), 謝罪会見(9), 山口達也(9), 暴力装置(9), 自衛隊(9), キモ(9), 産む機械(9), 経済力(9), スマホ(9), アファーマティブアクション(8), 具体的(8), トラバ(8), 東京(8), s(8), 最終的(8), いいね(8), 分からん(8), わからん(8), 個人的(8), である(7), 何度(7), マジレス(7), いいんじゃない(7), 安倍(7), twitter(7), SNS(7), 性犯罪(7), 中国(7), 100円(7), 芸能界(7), ツイート(7), どんだけ(7), article(7), 私たち(7), まんこ(7), 4人(7), 家族主義(7), 価値観(6), 加害者(6), 金(6), livedoor(6), 基本的(6), 2018年(6), クリエイター(6), GW(6), jsfiddle(6), NG(6), 平成(6), ツイッター(6), ???(6), 介護士(6), お酒(6), 一緒に(6), 婚活(6), …。(5), 1000円(5), 普通に(5), 生物学(5), 北朝鮮(5), いつまでも(5), 笑(5), 生理休暇(5), アプリ(5), 外国人(5), エロい(5), 20代(5), アルコール依存症(5), ロリ(5), 山口メンバー(5), 男なら(5), マジで(5), LINE(5), ニート(5), org(5), ムスリム(5), マック(5)
時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
---|---|---|---|---|
00 | 79 | 9658 | 122.3 | 33 |
01 | 53 | 4692 | 88.5 | 40 |
02 | 44 | 3292 | 74.8 | 43.5 |
03 | 13 | 3863 | 297.2 | 121 |
04 | 8 | 2747 | 343.4 | 85 |
05 | 15 | 2423 | 161.5 | 58 |
06 | 19 | 3601 | 189.5 | 76 |
07 | 14 | 1496 | 106.9 | 52.5 |
08 | 40 | 2844 | 71.1 | 40.5 |
09 | 54 | 3439 | 63.7 | 36 |
10 | 100 | 11225 | 112.3 | 54 |
11 | 90 | 11656 | 129.5 | 31 |
12 | 77 | 7414 | 96.3 | 48 |
13 | 84 | 9407 | 112.0 | 42.5 |
14 | 122 | 6919 | 56.7 | 36 |
15 | 95 | 8498 | 89.5 | 41 |
16 | 77 | 9611 | 124.8 | 44 |
17 | 102 | 13434 | 131.7 | 50 |
18 | 116 | 10997 | 94.8 | 56.5 |
19 | 89 | 9362 | 105.2 | 58 |
20 | 86 | 9615 | 111.8 | 74.5 |
21 | 131 | 10112 | 77.2 | 31 |
22 | 98 | 7627 | 77.8 | 35.5 |
23 | 102 | 15118 | 148.2 | 55 |
1日 | 1708 | 179050 | 104.8 | 44 |
人(162), 自分(132), 今(82), 話(72), 仕事(71), ー(70), 増田(60), 時間(59), 人間(57), 前(56), https(50), 日本(50), 女(47), 好き(45), 必要(45), 男(44), 問題(44), 女性(43), 感じ(42), 関係(41), 気(40), こんな(39), 最近(38), 手(37), ネット(36), 同じ(36), 社会(35), 意味(35), ~(33), 理由(33), 男性(32), com(31), 普通(31), 会社(31), 頭(30), 目(30), あと(29), 気持ち(29), 相手(29), 子供(29), 今日(29), 理解(28), http(28), 生活(28), 漫画(27), 他(27), 企業(26), www(25), レベル(25), 無理(25), 絶対(25), 安倍(24), 結局(24), 政治(24), 時代(24), 世界(23), 家(23), 他人(22), 就職(21), 顔(21), 状況(21), 技術(21), 嫌(21), 一番(21), 結果(21), 情報(20), 周り(20), 韓国(20), 金(20), 可能(20), 個人(20), 勉強(20), 状態(20), 感覚(19), 場合(19), 警察(19), ストレス(19), エロ(18), 差別(18), 昔(18), 自体(18), 程度(18), ゲーム(18), 世の中(18), 人生(18), 経験(17), 親(17), anond(17), 国(17), 責任(17), 言葉(17), 行為(17), 学校(17), 作品(17), 馬鹿(17), ほとんど(17), 山口(17), メンバー(17), 存在(17), 努力(17)
増田(60), 日本(50), 安倍(24), 韓国(20), 山口(17), 日(12), キモ(11), 東京(10), 日野自動車(9), FaHNI(9), trucks(9), release(9), sugawara(9), racing(9), team(9), dakar(9), beiDW(9), KkJk(9), racereports(9), アメリカ(8), 北朝鮮(7), twitter(7), LINE(6), 韓(6), detail(6), 金(6), 中国(6), 伊集院(6), 自民党(6), 平成(6), 自衛隊(5), 大阪(5), 中(5), コス(5), real(5), 米(5), 米国(5), bayern(5), munich(4), 敬之(4), 光(4), 下高井戸(4), 達也(4), report(4), match(4), 朝鮮(4), 太郎(4), megalodon(4), どん(4), 東大(4)
↑ MeCab ✕ NAIST辞書 (2011年に更新が止まっている。)
↓ MeCab ✕ mecab-ipadic-NEologd辞書 (固有名詞、新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)
人(143), 自分(128), 今(79), 話(74), 仕事(68), 増田(53), 人間(47), 前(47), 女(46), 時間(46), 気(46), 男(45), 好き(45), 日本(44), 必要(44), https(44), 感じ(42), 問題(42), ー(40), 女性(40), 手(38), 最近(38), 関係(33), 理由(33), 気持ち(30), 会社(29), 相手(29), 子供(29), 普通(29), 意味(29), 目(29), あと(28), 今日(28), http://(27), しない(27), 頭(27), 理解(26), 他(26), 男性(26), 絶対(25), ネット(25), レベル(25), 無理(25), .com(24), 結局(24), 嫌(22), 他人(22), 状況(21), 一番(21), 結果(20), 顔(20), しよう(20), www(20), 周り(20), 勉強(20), 家(20), 時代(19), 場合(19), ストレス(19), 感覚(19), 状態(19), 世の中(18), 人生(18), 昔(18), バカ(18), ただ(18), 就職(18), 努力(17), 言葉(17), 名前(17), 韓国(17), 企業(17), 金(17), 程度(17), anond(17), 馬鹿(17), 自体(17), 話題(17), 毎日(17), 勝手(17), 意見(17), 社会(16), .jp(16), 全部(16), 作品(16), 記事(16), co.jp(16), 警察(16), 最初(16), 世界(15), ゲーム(15), 政治(15), 夫(15), 経験(15), 可能性(15), 内容(15), 漫画(15), 出て(15), 行為(15), 別(15)
増田(53), 日本(44), 韓国(17), 可能性(15), わからん(14), じゃなくて(13), twitter(13), youtube(13), マジで(12), 安倍総理(12), まんこ(10), v(10), 安倍(10), 何度(9), キモ(9), team(9), beiDW(9), dakar(9), trucks(9), KkJk(9), 漫画家(9), release(9), racing(9), 3w(9), 耐久性(9), 日野自動車(9), FaHNI(9), 24g(9), racereports(9), 山口メンバー(9), アプリ(9), hino(9), 基本的(9), sugawara(9), 午後ティー(8), 人間関係(8), スマホ(8), リアル(8), ???(8), LINE(8), 発達障害(8), いない(8), かもしれん(7), コミュ力(7), 分からん(7), detail(7), 北朝鮮(7), アメリカ(7), SNS(7), いいんじゃない(7), 最終的(7), なのか(7), E(6), なんだろう(6), オナ禁(6), アレ(6), 中国(6), 自民党(6), 登場人物(6), Twitter(6), 2歳(6), ある意味(6), お客さん(6), 就活(6), 女子高生(6), 1人(6), 大企業(6), 元増田(6), 唐揚げ(6), IT(6), JK(6), ファブリーズ(6), ダンバイン(6), にも(5), 自衛隊(5), 具体的(5), 副流煙(5), 金(5), AV(5), 米国(5), 社会的(5), 体育会系(5), ツイート(5), ぶっちゃけ(5), 涙(5), イケメン(5), ヤバい(5), 一人(5), フェミ(5), ブコメ(5), 技術力(5), 10年(5), OK(5), 夫婦(5), コスパ(5), カレー(5), ツイッター(5), …。(5), ネット上(5), go(4)
まず、大前提として、
原語の発音には、「意味のある区別」と「意味のない区別」があり、前者のみを区別し、後者は無視するのが音韻論。基本的に、ある言語のネイティブスピーカーはその言語において「意味のある区別」だけを直感的に感じ取ることができ、「意味のない区別」は意識しないと気づくことができない。
例えば、前回書いた増田( https://anond.hatelabo.jp/20171223040416 )で、「難波」と「あんな」の「ん」は違う音だけど、日本人(日本語のネイティブスピーカー)はその違いを無視すると書いた。ブコメを見ると違いがわからないという声があったので、ここで解説すると、「ナンバ」のように、直後にバ行またはパ行の音が続く場合は、「ん」は「唇を閉じて息を閉鎖し、その息を鼻の穴から出す」音になる。英語であればmに相当する。直後にナ行、タ行またはダ行が続く場合は、「下を上顎にぴったりつけて息を閉鎖し、その息を鼻の穴から出す」音になる。英語であればnに相当する。
英語であれば、これも前回の増田から持ってくると、water の t と、 talk の t は日本人には全然違う音のように聞こえる。でも、英語のネイティブスピーカーにとっては同じ音。
よく、英語のネイティブスピーカーにとっては違う音なのに日本人には同じに聞こえる発音が取りざたされるけど、逆もあるということ。ある言語のネイティブスピーカーであるということは、その言語にとって「意味のない区別」はしないように訓練されているということを意味すると同時に、「意味のある区別」はするように訓練されているということ。 r と l の区別が難しいのは前者の例だし、 water の t と talk の t が違う音に聞こえるのは後者の例。
同じことは日本語を学んでいる外国人にも言えて、例えば、「難波」の「ん」と「あんな」の「ん」は韓国人にとっては「違う音」なので、韓国人が別の単語を持ってきて「この『ん』はどっちですか?」なんて質問すると、日本人は「は? 『ん』は『ん』でしょ?」となる。韓国語なら「オッパンカンナムスタイル」の「カ」と「ネガチェイチャラガ」の「ガ」は濁音と清音だから違う音だけど、韓国語にはこの区別はないから韓国人は「同じ音」と思っている。
英語のカタカナ化では、「英語において区別のある音は区別し、区別のない音は区別しない」というルールが概ね採られていると思う。いわば、英語のカタカナ化とは、「英語の音韻論をカタカナだけでシミュレーションする」試みと言える。
以下、いくつか一般的だと感じるルールをリストしてみようと思う。なお、発音記号は、New Oxford American Dictionary に基づいている。
アメリカ英語には短母音と長母音の音韻上の区別はないので、ある音を長めに発音しても短めに発音しても同じように理解される。カタカナ語はこの事実を利用して、長音記号で区別することで、合計10種類の母音を区別できるようにしている。なお、10種類でも英語の音韻論を完全に再現するには足りない。実際に長音になりやすい音に優先的に長音記号が割り当てられているようだけど、全てではないように見える。
例 /ə/:sun, bus, an
例 /æ/ : cat, pat, bad
実際これらの音は「ア」に聞こえるという人がほとんどだと思う。cat は「キャット」なので「イャ段」説があるにはあるのだけど、/k/ の舌の形が日本語の「ヤ」の子音に近い為に /k/ の時だけ採用されたのかなと想像している。ちなみに英語には他に「キャ」のように聞こえる音はないので特に問題ない。/æ/は一貫してイャ段にすればいいのにと思わないでもない。
「エ」に聞こえることもある音。とは言え多くの場合「イ」に近く、また「エ」に聞こえる音は他にもあるので妥当。
例:look, good, foot
間違いなくウに聞こえる。
例 /wə/ :Quebec, sequence, quench
例:lot, pot, knot
「『ア』に聞こえる」という人がかなり多いと感じているのだけど、アには割り当てが他にあるので、オに寄せられたのではないかと想像している。
例:mail, male, eight
「エイ」段で書かれる事も多いが、日本語の音韻上「エー」と「エイ」の区別はない。
例:water, talk, ball
形態素とは、「意味の最小単位」。単語の中には複数の形態素からなるものがあって、例えば「文章」なら、「文」と「章」にはそれぞれ意味があり、それが集まって、「文章」という単語ができていると理解できる。英語でも、American という単語は、America と、an が合成されてできている。このそれぞれのパーツを「形態素」という。
カタカナ語は、どうも単語単位でなく形態素単位でやっているように見えることが多い。例えば、today は /təˈdeɪ/ だから、上のルールに従えば「タデイ」になるはずだけど、実際には「トゥデイ」になっている。また、consequence / ˈkɑnsɪkwəns/ も、上のルールに従えば「コンシケンス」だけど、実際には「コンシーケンス」になっていると思う。
しかし、これらは例外なのかといえば、形態素単位でカタカナ化していると考えると説明がつく。today は to-dayに分割できる。そして、to は 「トゥ」。(なお、これは「トゥー」になるはずなので、こっちは例外。too との衝突を避けたものと思う。)day は「デイ」なので、合わせて「トゥデイ」になる。consequence も con /kɑn/ は「コン」、sequence /ˈsikwəns/ は「シーケンス」なので、合わせて「コンシーケンス」。
「カタカナ語はアメリカ英語の音韻論をベースにしているのではなく、単にイギリス英語を聞こえたまま書いただけのものではないか」という指摘が前回の増田であった。
確かに、apple, girl など、イギリス英語「聞こえたまま」になっているように見える単語は多数あるが、すべての単語を調べたわけではないから確定的なことは言えないが、これらの単語は、アメリカ英語音韻論説でも同じ程度にうまく説明できる。それに、water, there など、イギリス英語聞こえ方説よりもアメリカ英語音韻論説の方がうまく説明できる例もある。(イギリス英語聞こえ方説をとれば、それぞれ、「ウォータ」、「ゼー」となるはず。)
実際にカタカナ語の多くがアメリカ英語から取られたのかそれともイギリス英語から取られたのかは個人的に知らないのでなんとも言えないのだけれども、カタカナ語とアメリカ英語の間にある程度の法則性が見られるという前提で、その法則を書いてみようと思った次第。
論文にしたければ、というか、論文にせずともを、以下のことはわかってもらうために必要:
特に説明するまでもない事実だと思うが、はてなブックマーカーには特定の話題に特定の同様のコメントをしがちなアカウントからなるクラスタが複数存在する。はてサ、ニセ科学批判クラスタ、・・・(モヒカン?)
とすると、ある程度のブックマークが集まったページのブックマークコメントを形態素分解し、同じようなページに同じようなコメントを付けるようなアカウントをあらかじめクラスタリングして、各ページについてその各クラスタのブックマーカーによるコメント頻度や各クラスタごとのコメント傾向を表してくれると、ブックマークされたページがどういうものかあらかじめわかりやすい。Deep Learningならもっとうまくやれるのかもしれない。実装してくれないかな。最近暇がないから、無駄なページを読みたくないんだよ。
xevraやmidas、blueboyのようなブックマーカーをoutlierとしてクラスタリング除外する機能も実装している必要がある。無論、midas閣下とxevra先生については独立して鑑賞したいのだが、それはお気に入りを使えばいい話である。
今更だが、はてブで http://www.atmarkit.co.jp/fjava/column/andoh/andoh53.html が人気だったのでまとめてみた。(末尾Eは英語)
まずはその記事にあった、16あるけど購読するべき15の開発者ブログ一覧(一部追加あり)
で、偏ってるんじゃないのとか、あれないよね、みたいなのとか、その時の http://reader.livedoor.com/ranking/hot.html とかから集めた、14しかないけど購読するべき15の開発者ブログ
あと、企業ブログじゃないけど、 http://reader.livedoor.com/ranking/subscribers.html から、これも購読するべき15の開発者ブログ
さらに、 http://gihyo.jp/dev/serial/01/alpha-geek にある、もっと購読するべき15の開発者ブログ
まだまだ、 http://geekdb.jp/ とか、 http://jibun.atmarkit.co.jp/lcom01/rensai/comrade01/comrade01.html とか、 http://bizmakoto.jp/bizid/kw/newgenchronicle.html とか、 http://web-engineer.buyuden.net/buyuden/ とか、これでも購読するべき30の開発者ブログ
あとは個人色強め、社会派、学者派、ビジネス派もある、これは好きにすべき15の非開発者ブログ
これ無いとかこれ違うとかあったらよろしく