「形態素」を含む日記 RSS

はてなキーワード: 形態素とは

2021-06-23

古文読めないのもディスレクシア症例に入れてほしい

こういった厄介事を乗り越えてなんとか文章全体の形態素が把握できても、文章論理構造現在とは異なっているから難儀する

結論が先じゃないから回りくどい」的な次元じゃなくて、現代語訳を見てもなお意味がつかめ

解説まで読んだところで「こういうことを言うのにこうやって文章を展開していくのか…」とかろうじて納得するので精いっぱい

ネット見てると言いたいことはあるのだろうことは分かるけど何が言いたいのかどうしても分からないって感じの文章出会うことがあるが、自分にとって古文は終始そんな感じ。

今日置昌一の「ことばの事典」などという和歌川柳がふんだんに引用されている事典を頭から読んでいるのだが、数千収録されているうちの7割以上は詩情が全く掴めない

受験業界では古文は暗記すれば読めるとかいうが、古語辞典でも首っ引きでも理解できない私も一種ディスレクシアいいんじゃない

普通場合は単に読解力が足りないと自己責任論を押し付けられるけども、病気となれば治療対象になるから

2020-01-11

anond:20200109114755

今更だけど

日本語英語系では,言語的に音の単位が違う。

で、日本語は、同じ拍数で表現できる言語情報が少ない。

すると、日本語ラップを聞いても、「こいつのリリックええやん」となりにくい。

結果、普及しにくい。

音の単位について、例えばパプリカのサビ冒頭とその英訳

同じ「パプリカ」と言う単語でも、英語の方が拍(リズム構成要素)が少ない。

英訳比較してみると、多くの場合日本語の拍数が多いと思う。

(その分日本語は語の省略が多いが)

また、日英のラップ形態素数/単語数を比較してみてもいい。全体としては、日本語の方が少ないはず。

すると、日本語は、ラップリリック自然表現できる情報が減る(語を詰め込む,と言う手段もあるにはあるけど)。

海外ではラップ系の音楽は,アレンジ等に加えてリリックに魅力を感じて鑑賞する人が多い。

一方で,日本語ラップは、同じように日本人大衆文化にはなりにくい。

2018-11-18

同僚に教えたい 検索がはかどるChromeショートカット

仕事ネットでの調べ物が多くGoogleを多用するのだが、同僚をみているとどうも要領が悪い。気になったキーワードくらいさっと調べられるようになりたいものである

ただ自分が口出しをすると「うっせーおっさんだな」と言われるのがオチなのでここに書きとめることにする。ブラウザChromeを例にするが他のブラウザでも同様の操作はできるはずである

コピー

そもそも画面に検索対象が出ているのに、検索窓に自分入力する人がいる。「そっちの方が早いから」が理由だが、絶対そんなことはないのでせめてコピペくらい覚えてほしい。

コピペにしても右クリックで「コピー」「ペースト」ってやる人がいる。「そっちの方が早い」と言い張るのだから諦めているが、ショートカット「Ctrl-C」「Ctrl-V」(Macの人はCtrlをCommandに置き換えてほしい)の方が早いと思う。あと、マウスクリックドラッグしてずるずるとテキストを引っ張る人がいるが、最近はある程度の日本語形態素解釈するので、ダブルクリックからドラッグした方が単語単位選択できてよい。

検索

URL欄でGoogle検索できるようにしておく(これがChromeデフォルトのはず)。なぜかBingとかYahooを頑なに使っている人がいるけど素直にGoogleでいい。

「Ctrl-L」を押すと検索窓にフォーカスが移ってURLが全選択になる。なので、本文中に検索したいキーワードがあったら選択して、「Ctrl-C/Ctrl-L/Ctrl-V/Enter」のコンボで一発で検索ができる

別タブで検索したい場合

今閲覧しているページはそのままにしたいこともあるだろう。そういう時は新規タブを開く「Ctrl-T」を使う。新規タブは検索窓に最初からフォーカスがあるので、「Ctrl-C/Ctrl-T/Ctrl-V/Enter」のコンボ新規タブでの検索ができる。同様のことをする拡張機能などもあるのだが、他人環境だと使えなかったりするからここでは紹介しない。

タブを活用するなら、タブ移動コマンドや「うっかり閉じてしまったタブを復元(Ctrl-Shift-T)」なども覚えておくと便利であるが、あまり大量のショートカットを一度に覚えるとかえって効率が落ちてしまうのでここでは深追いしない。

英文を読む

単語を1つずつ調べている人がいるが、わからない単語が多すぎるなら素直に「右クリック+T」で全文翻訳してしまった方が早い。ざっくり文意をつかんだら原文に戻す。そうすれば検索しなくてもだいたい読めるはず。

翻訳機能を使うのが恥ずかしい、あるいは、ほとんど辞書なしで読めるがわからない単語が稀にある程度なら

https://chrome.google.com/webstore/detail/mouse-dictionary/dnclbikcihnpjohihfcmmldgkjnebgnj

この拡張機能が便利なはずだ。マウスオーバーするだけで辞書が引けるスグレモノである。なぜ「はずだ」と書いたかというと、いちいちON/OFFをしなければいけないし、たまに調べるくらいなら前述のショートカットで十分間に合うので、インストールしたのはいものほとんど使っていないかである

検索ワードもある程度コツがあるのだが別に紹介したい。「ググれカス」というのは簡単だが、文章にして説明すると案外面倒なものである

2018-05-04

[]2018年5月3日木曜日増田

時間記事文字数文字数平均文字数中央値
005611385203.379.5
0161465176.243
02283477124.256.5
03294545156.736
04176071357.164
05155744382.9128
06304886162.965.5
07374608124.552
08626410103.440.5
0973563377.242
1070656393.852
11101792578.535
121061011795.442
13140961068.633
14137756555.235
15114666658.532.5
1612113028107.739
178812250139.242
181401141781.634
191601534495.926.5
2011612046103.833.5
21153865956.631
221631331081.735
23617475122.551
1日207819938596.037

頻出名詞

人(198), 自分(132), 女性(82), 今(79), 増田(76), 差別(71), 女(71), 人間(71), 話(70), 仕事(68), 男(66), 男性(60), 感じ(57), 相手(55), 社会(54), 問題(53), 同じ(51), 日本(51), ー(50), 必要(49), 気持ち(49), 意味(49), 前(46), あと(45), 普通(44), 関係(43), 親(42), 時間(41), 会社(40), こんな(40), 子供(40), 好き(39), 気(38), 目(36), 低能(35), 山口(35), 言葉(34), 被害(34), 存在(34), 今日(34), 結婚(33), 生活(32), 友達(31), 他(30), 最近(30), 手(29), 主義(29), https(28), 行動(28), メンバー(28), 安倍(28), 男女(28), 発言(28), 一緒(27), 頭(27), 心(26), 時代(26), 家(26), 専用(25), 意見(25), 自身(25), 理由(25), 人生(25), 車両(25), おっさん(24), 状態(24), ネット(24), 先生(23), 金(23), 現実(23), 周り(23), 場合(22), 結果(22), 世界(22), 責任(22), 娘(22), 自己(22), 別(21), 最初(21), 他人(21), 自体(21), ダメ(21), い(21), 全部(21), 大変(21), レベル(21), 可能(20), ~(20), アニメ(20), 女子(20), 昔(20), 否定(20), 馬鹿(20), 理解(20), 個人(20), 自民党(19), 嫌(19), 逆(19), 一番(19), http(19)

頻出固有名詞

増田(76), 日本(51), 山口(35), 安倍(28), 自民党(19), 日(18), 東京(14), キモ(14), TOKIO(14), 自衛隊(12), アメリカ(8), 達也(8), 加計(7), 民主党(7), カス(6), 平成(6), 公明党(6), 昭和(6), 福島(6), JK(5), 共産党(5), 韓国(5), 羽生(5), スキ(5), 柳瀬(5), 中国(5), 晋(5), 大阪(5), マック(5), ぇ(5), 敬之(4), 愛媛(4), faq(4), チャイルド(4), 麻生(4), 京都(4), テレビ朝日(4), NHK(4), qa(4), ニセ(4), iPhone(3), 所(3), gt(3), CPU(3), 太郎(3), bot(3), 悟(3), フジテレビ(3), 出口(3), 健(3)

MeCabNAIST辞書 (2011年に更新が止まっている。)

MeCabmecab-ipadic-NEologd辞書 (固有名詞新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)

頻出名詞

人(184), 自分(125), 今(75), 話(68), 男(66), 女(66), 仕事(66), 増田(66), 人間(63), 女性(62), 感じ(55), 相手(51), 問題(51), 必要(49), 気持ち(48), あと(47), 意味(45), 差別(44), 前(44), 日本(43), 気(40), 子供(39), 普通(39), 男性(38), 目(37), 親(37), 関係(36), 低能(35), 好き(35), 社会(35), 今日(34), 会社(32), ー(32), 言葉(32), 友達(31), 存在(31), 結婚(31), 最近(30), 手(30), 他(30), https(29), 頭(28), 時間(27), 心(27), 理由(25), 意見(25), 現実(25), 人生(25), おっさん(24), 別(24), 被害者(23), 状態(23), 周り(23), しない(23), じゃなくて(23), 発言(22), 家(22), 場合(22), 金(22), 女性専用車両(22), 行動(22), 最初(21), 理解(21), 他人(21), 結果(21), A(21), 全部(21), 娘(21), レベル(21), 世界(21), 自体(20), 馬鹿(20), 先生(20), 男女(20), 勝手(20), 昔(20), 生活(20), アニメ(20), 嫌(20), ダメ(20), 否定(20), 逆(19), www(19), 批判(19), 顔(19), 大変(19), 一番(19), 誰か(19), 男性差別(19), 職場(19), 女の子(19), 一緒(19), 結局(18), 話題(18), http://(18), 時代(18), 記事(18), 無理(18), 自身(17), 山口(17)

頻出固有名詞

増田(66), 日本(43), じゃなくて(23), 被害者(23), 女性専用車両(22), 娘(20), 男性差別(19), 山口(17), 安倍(15), TOKIO(15), 可能性(14), 安倍総理(14), なんだろう(14), いない(13), 自民党(12), 自衛隊(12), 主義者(12), スマホ(12), A(11), 山口メンバー(11), 生活保護(11), hatena(11), カス(11), 元増田(11), 差別主義(10), いいんじゃない(10), 一緒に(10), Twitter(10), 男女平等(9), 女子高生(9), 1人(9), 2人(8), PC(8), ブログ(8), s(8), 上の(8), JK(8), 社交辞令(8), わからん(8), B(8), …。(7), リアル(7), 犯罪者(7), ツイッター(7), 一方的(7), ニセ科学(7), 劣等感(7), コミュ障(7), キモ(7), 私たち(7), ジャニーズ(7), キモい(7), ネット右翼(7), まんこ(6), ブコメ(6), 2018年(6), 普通に(6), 東京(6), 20代(6), 山口達也(6), 昭和(6), 何度(6), 社会人(6), ???(6), 公明党(6), 発言権(6), アメリカ(6), 毒親(6), 加計学園(6), 100%(6), 個人的(6), パワハラ(6), 基本的(6), 最終的(6), 笑(5), かな(5), 加害者(5), 1年(5), にも(5), 共産党(5), なのか(5), GW(5), 悪いこと(5), 外国人(5), 非モテ(5), いいね(5), 強制わいせつ(5), 自己責任(5), 脳内(5), 安倍自民党(5), 低所得(5), キチガイ(5), 人として(5), ー(5), フェミ(5), マジで(5), イケメン(5), 想像力(5), ニート(5), 婚活(5)

例えば「女性」と「専用」と「車両」に分割されていたのが「女性専用車両」で1語と数えられている。辞書データソースとしてはてなキーワードを使ったと書いてあるからよりはてな向きかもしれない。

いいんじゃない」が固有名詞扱いされているが、これは多分はてなキーワードソースにした弊害ではないだろうか。はてなキーワードを見ると「いいんじゃない」というジャニーズタレント楽曲があるという。「リアル」もはてなキーワード三菱テレビブランドとして説明されているせいで固有名詞扱いなのかもしれない。

一長一短があるな。

2018-05-03

[]2018年5月2日水曜日増田

時間記事文字数文字数平均文字数中央値
00818461104.539
01309896329.952.5
02252601104.070
03204251212.680.5
0415101267.525
05221651082.51082.5
061193585.072
07131887145.293
0838337188.746
09405422135.655
10669987151.375
111211070988.545
12102846483.044
131311152988.044
14104936090.038.5
151381037075.142
161891330770.449
172131754182.449
18118810268.736
191521098372.331.5
2063483976.835
2110914993137.662
221361182186.945.5
2311011771107.046
1日202719377795.644

頻出名詞

人(179), 女性(155), 自分(147), 男(108), 女(103), 男性(102), 社会(99), 話(97), 今(94), 増田(73), 前(64), 仕事(61), 意味(59), 相手(56), 問題(55), 人間(54), 同じ(52), ー(51), 関係(51), 男女(49), 必要(48), 好き(48), あと(47), 気(47), 子供(44), 感じ(43), https(43), 理由(41), 日本(41), 世界(40), 結婚(39), 時間(38), こんな(37), 普通(35), 進出(35), 手(35), 理解(34), 最近(33), 低能(33), 場合(32), 責任(32), 他(32), 気持ち(31), 個人(31), 会社(31), 逆(31), 山口(30), 目(30), 時代(30), 頭(29), 昔(29), 友達(29), com(29), 金(28), 先生(28), 一緒(28), 価値(28), メンバー(28), 無理(28), 存在(27), 一番(27), 猫(27), www(26), ネット(26), 被害(26), 言葉(26), 家族(26), 親(26), 状態(25), http(25), ゴミ(24), セックス(24), 自体(24), 雇用(24), 会見(23), ダメ(23), 結果(23), ~(23), 娘(23), アニメ(23), 通報(22), クズ(22), 最初(22), 企業(22), 人生(22), 確か(22), 全部(22), 嫌(21), 説明(21), 可能(21), 家(21), 原因(21), 今日(21), 差別(21), 主義(21), 現実(20), 周り(20), 家庭(20), 全体(20), 発言(20)

頻出固有名詞

増田(73), 日本(41), 山口(30), 韓国(15), TOKIO(14), 東京(12), 日(12), 安倍(11), アメリカ(11), キモ(10), 中国(10), 達也(10), 自衛隊(10), detail(8), JK(8), 平成(7), 金(7), article(7), マック(6), jsfiddle(6), イラ(5), 北朝鮮(5), Twitter(5), どん(5), pdf(5), 松岡(5), 昭和(4), default(4), VTuber(4), 韓(4), 自民党(4), サンクス(4), セブン(4), jpg(4), ツイ(4), 米(4), images(3), 明治(3), files(3), 太郎(3), 大正(3), 大阪(3), 朝鮮(3), ワイ(3), Vtuber(3), BC(3), 中(3), sthya(3), バーガー(3), SNS(3)

MeCabNAIST辞書 (2011年に更新が止まっている。)

MeCabmecab-ipadic-NEologd辞書 (固有名詞新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)

頻出名詞

人(165), 自分(141), 女性(138), 男(105), 話(98), 女(95), 男性(95), 今(86), 社会(76), 前(62), 仕事(61), 相手(56), 増田(55), 意味(54), 気(50), 問題(49), 必要(48), 人間(48), 関係(47), あと(46), 好き(46), https(44), 子供(43), 感じ(42), 理由(41), 結婚(38), 日本(37), 手(35), 進出(35), 理解(34), 低能(33), 目(33), ー(33), 男女(33), 最近(33), 世界(32), 場合(32), 他(31), 普通(30), 気持ち(30), 頭(29), 会社(29), 逆(29), 時間(28), 先生(28), 友達(28), 無理(28), 昔(27), しない(27), 存在(26), .com(26), 言葉(26), www(25), 金(25), 一番(25), しよう(25), 猫(24), 自体(24), http://(24), 状態(23), セックス(23), 一緒(23), じゃなくて(23), ゴミ(23), 親(23), 娘(22), 雇用(22), クズ(22), ダメ(22), 通報(22), 確か(22), 全部(22), 責任(22), 嫌(22), アニメ(22), 最初(22), 結果(21), 人生(21), 今日(21), メンバー(21), 説明(21), 全く(21), 原因(21), 別(21), ネット(20), 女子高生(20), 周り(20), 価値(20), 一人(19), 時代(19), おっさん(19), 結局(19), 大人(19), 当たり前(19), 幸せ(19), 場所(19), 家(19), 記事(19), 現実(19), 議論(18)

頻出固有名詞

増田(55), 日本(37), じゃなくて(23), 女子高生(20), 娘(20), TOKIO(17), 被害者(16), JK(16), 元増田(16), 山口(15), 可能性(15), なんだろう(13), 韓国(13), リアル(13), 社会的(12), いない(12), フェミ(12), 男女平等(11), アスペ(11), 女性専用車両(10), なのか(10), Twitter(10), 専業主婦(10), detail(9), アメリカ(9), 謝罪会見(9), 山口達也(9), 暴力装置(9), 自衛隊(9), キモ(9), 産む機械(9), 経済力(9), スマホ(9), アファーマティブアクション(8), 具体的(8), トラバ(8), 東京(8), s(8), 最終的(8), いいね(8), 分からん(8), わからん(8), 個人的(8), である(7), 何度(7), マジレス(7), いいんじゃない(7), 安倍(7), twitter(7), SNS(7), 性犯罪(7), 中国(7), 100円(7), 芸能界(7), ツイート(7), どんだけ(7), article(7), 私たち(7), まんこ(7), 4人(7), 家族主義(7), 価値観(6), 加害者(6), 金(6), livedoor(6), 基本的(6), 2018年(6), クリエイター(6), GW(6), jsfiddle(6), NG(6), 平成(6), ツイッター(6), ???(6), 介護士(6), お酒(6), 一緒に(6), 婚活(6), …。(5), 1000円(5), 普通に(5), 生物学(5), 北朝鮮(5), いつまでも(5), 笑(5), 生理休暇(5), アプリ(5), 外国人(5), エロい(5), 20代(5), アルコール依存症(5), ロリ(5), 山口メンバー(5), 男なら(5), マジで(5), LINE(5), ニート(5), org(5), ムスリム(5), マック(5)

2018-05-02

[]2018年5月1日火曜日増田

時間記事文字数文字数平均文字数中央値
00799658122.333
0153469288.540
0244329274.843.5
03133863297.2121
0482747343.485
05152423161.558
06193601189.576
07141496106.952.5
0840284471.140.5
0954343963.736
1010011225112.354
119011656129.531
1277741496.348
13849407112.042.5
14122691956.736
1595849889.541
16779611124.844
1710213434131.750
181161099794.856.5
19899362105.258
20869615111.874.5
211311011277.231
2298762777.835.5
2310215118148.255
1日1708179050104.844

頻出名詞

人(162), 自分(132), 今(82), 話(72), 仕事(71), ー(70), 増田(60), 時間(59), 人間(57), 前(56), https(50), 日本(50), 女(47), 好き(45), 必要(45), 男(44), 問題(44), 女性(43), 感じ(42), 関係(41), 気(40), こんな(39), 最近(38), 手(37), ネット(36), 同じ(36), 社会(35), 意味(35), ~(33), 理由(33), 男性(32), com(31), 普通(31), 会社(31), 頭(30), 目(30), あと(29), 気持ち(29), 相手(29), 子供(29), 今日(29), 理解(28), http(28), 生活(28), 漫画(27), 他(27), 企業(26), www(25), レベル(25), 無理(25), 絶対(25), 安倍(24), 結局(24), 政治(24), 時代(24), 世界(23), 家(23), 他人(22), 就職(21), 顔(21), 状況(21), 技術(21), 嫌(21), 一番(21), 結果(21), 情報(20), 周り(20), 韓国(20), 金(20), 可能(20), 個人(20), 勉強(20), 状態(20), 感覚(19), 場合(19), 警察(19), ストレス(19), エロ(18), 差別(18), 昔(18), 自体(18), 程度(18), ゲーム(18), 世の中(18), 人生(18), 経験(17), 親(17), anond(17), 国(17), 責任(17), 言葉(17), 行為(17), 学校(17), 作品(17), 馬鹿(17), ほとんど(17), 山口(17), メンバー(17), 存在(17), 努力(17)

頻出固有名詞

増田(60), 日本(50), 安倍(24), 韓国(20), 山口(17), 日(12), キモ(11), 東京(10), 日野自動車(9), FaHNI(9), trucks(9), release(9), sugawara(9), racing(9), team(9), dakar(9), beiDW(9), KkJk(9), racereports(9), アメリカ(8), 北朝鮮(7), twitter(7), LINE(6), 韓(6), detail(6), 金(6), 中国(6), 伊集院(6), 自民党(6), 平成(6), 自衛隊(5), 大阪(5), 中(5), コス(5), real(5), 米(5), 米国(5), bayern(5), munich(4), 敬之(4), 光(4), 下高井戸(4), 達也(4), report(4), match(4), 朝鮮(4), 太郎(4), megalodon(4), どん(4), 東大(4)

MeCabNAIST辞書 (2011年に更新が止まっている。)

MeCabmecab-ipadic-NEologd辞書 (固有名詞新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)

頻出名詞

人(143), 自分(128), 今(79), 話(74), 仕事(68), 増田(53), 人間(47), 前(47), 女(46), 時間(46), 気(46), 男(45), 好き(45), 日本(44), 必要(44), https(44), 感じ(42), 問題(42), ー(40), 女性(40), 手(38), 最近(38), 関係(33), 理由(33), 気持ち(30), 会社(29), 相手(29), 子供(29), 普通(29), 意味(29), 目(29), あと(28), 今日(28), http://(27), しない(27), 頭(27), 理解(26), 他(26), 男性(26), 絶対(25), ネット(25), レベル(25), 無理(25), .com(24), 結局(24), 嫌(22), 他人(22), 状況(21), 一番(21), 結果(20), 顔(20), しよう(20), www(20), 周り(20), 勉強(20), 家(20), 時代(19), 場合(19), ストレス(19), 感覚(19), 状態(19), 世の中(18), 人生(18), 昔(18), バカ(18), ただ(18), 就職(18), 努力(17), 言葉(17), 名前(17), 韓国(17), 企業(17), 金(17), 程度(17), anond(17), 馬鹿(17), 自体(17), 話題(17), 毎日(17), 勝手(17), 意見(17), 社会(16), .jp(16), 全部(16), 作品(16), 記事(16), co.jp(16), 警察(16), 最初(16), 世界(15), ゲーム(15), 政治(15), 夫(15), 経験(15), 可能性(15), 内容(15), 漫画(15), 出て(15), 行為(15), 別(15)

頻出固有名詞

増田(53), 日本(44), 韓国(17), 可能性(15), わからん(14), じゃなくて(13), twitter(13), youtube(13), マジで(12), 安倍総理(12), まんこ(10), v(10), 安倍(10), 何度(9), キモ(9), team(9), beiDW(9), dakar(9), trucks(9), KkJk(9), 漫画家(9), release(9), racing(9), 3w(9), 耐久性(9), 日野自動車(9), FaHNI(9), 24g(9), racereports(9), 山口メンバー(9), アプリ(9), hino(9), 基本的(9), sugawara(9), 午後ティー(8), 人間関係(8), スマホ(8), リアル(8), ???(8), LINE(8), 発達障害(8), いない(8), かもしれん(7), コミュ力(7), 分からん(7), detail(7), 北朝鮮(7), アメリカ(7), SNS(7), いいんじゃない(7), 最終的(7), なのか(7), E(6), なんだろう(6), オナ禁(6), アレ(6), 中国(6), 自民党(6), 登場人物(6), Twitter(6), 2歳(6), ある意味(6), お客さん(6), 就活(6), 女子高生(6), 1人(6), 大企業(6), 元増田(6), 唐揚げ(6), IT(6), JK(6), ファブリーズ(6), ダンバイン(6), にも(5), 自衛隊(5), 具体的(5), 副流煙(5), 金(5), AV(5), 米国(5), 社会的(5), 体育会系(5), ツイート(5), ぶっちゃけ(5), 涙(5), イケメン(5), ヤバい(5), 一人(5), フェミ(5), ブコメ(5), 技術力(5), 10年(5), OK(5), 夫婦(5), コスパ(5), カレー(5), ツイッター(5), …。(5), ネット上(5), go(4)

2017-12-25

英語カタカナ化に見られるいくつかのパターン

まず、大前提として、

音韻論とは

原語の発音には、「意味のある区別」と「意味のない区別」があり、前者のみを区別し、後者無視するのが音韻論基本的に、ある言語ネイティブスピーカーはその言語において「意味のある区別」だけを直感的に感じ取ることができ、「意味のない区別」は意識しないと気づくことができない。

例えば、前回書いた増田( https://anond.hatelabo.jp/20171223040416 )で、「難波」と「あんな」の「ん」は違う音だけど、日本人日本語ネイティブスピーカー)はその違いを無視すると書いた。ブコメを見ると違いがわからないという声があったので、ここで解説すると、「ナンバ」のように、直後にバ行またはパ行の音が続く場合は、「ん」は「唇を閉じて息を閉鎖し、その息を鼻の穴から出す」音になる。英語であればmに相当する。直後にナ行、タ行またはダ行が続く場合は、「下を上顎にぴったりつけて息を閉鎖し、その息を鼻の穴から出す」音になる。英語であればnに相当する。

英語であれば、これも前回の増田から持ってくると、water の t と、 talk の t は日本人には全然違う音のように聞こえる。でも、英語ネイティブスピーカーにとっては同じ音。

よく、英語ネイティブスピーカーにとっては違う音なのに日本人には同じに聞こえる発音が取りざたされるけど、逆もあるということ。ある言語ネイティブスピーカーであるということは、その言語にとって「意味のない区別」はしないように訓練されているということを意味すると同時に、「意味のある区別」はするように訓練されているということ。 r と l の区別が難しいのは前者の例だし、 water の t と talk の t が違う音に聞こえるのは後者の例。

同じことは日本語を学んでいる外国人にも言えて、例えば、「難波」の「ん」と「あんな」の「ん」韓国人にとっては「違う音」なので、韓国人が別の単語を持ってきて「この『ん』はどっちですか?」なんて質問すると、日本人は「は? 『ん』は『ん』でしょ?」となる。韓国語なら「オッパンカンナムスタイル」の「カ」と「ネガチェイチャラガ」の「ガ」は濁音と清音から違う音だけど、韓国語にはこの区別はないか韓国人は「同じ音」と思っている。

英語カタカナ化では、「英語において区別のある音は区別し、区別のない音は区別しない」というルールが概ね採られていると思う。いわば、英語カタカナ化とは、「英語音韻論カタカナだけでシミュレーションする」試みと言える。

ルール実例

以下、いくつか一般的だと感じるルールリストしてみようと思う。なお、発音記号は、New Oxford American Dictionary に基づいている。

母音

アメリカ英語には短母音と長母音音韻上の区別はないので、ある音を長めに発音しても短めに発音しても同じように理解される。カタカナ語はこの事実を利用して、長音記号区別することで、合計10種類の母音区別できるようにしている。なお、10種類でも英語音韻論を完全に再現するには足りない。実際に長音になりやすい音に優先的に長音記号が割り当てられているようだけど、全てではないように見える。

  • /ə/, /æ/ はア段

例 /ə/:sun, bus, an

例 /æ/ : cat, pat, bad

実際これらの音は「ア」に聞こえるという人がほとんどだと思う。cat は「キャット」なので「イャ段」説があるにはあるのだけど、/k/ の舌の形が日本語の「ヤ」の子音に近い為に /k/ の時だけ採用されたのかなと想像している。ちなみに英語には他に「キャ」のように聞こえる音はないので特に問題ない。/æ/は一貫してイャ段にすればいいのにと思わないでもない。

  • /ɪ/ はイ段

例:it, knit, fit

「エ」に聞こえることもある音。とは言え多くの場合「イ」に近く、また「エ」に聞こえる音は他にもあるので妥当

  • /ʊ/ はウ段

例:look, good, foot

間違いなくウに聞こえる。

  • /ɛ/, /wə/ はエ段

例 /ɛ/:get, pen, set

例 /wə/ :Quebec, sequence, quench

  • /ɑ/ はオ段

例:lot, pot, knot

「『ア』に聞こえる」という人がかなり多いと感じているのだけど、アには割り当てが他にあるので、オに寄せられたのではないか想像している。

  • /ɑr/, /ər/ はアー段

例 /ɑr/ :car, par, park

例 /ər/ :water, per, nerd

  • /i/ はイー段

例:eat, sheet, seat

  • /u/ はウー段

例:cute, cool, tool

  • /eɪ/ はエー段

例:mail, male, eight

エイ」段で書かれる事も多いが、日本語音韻上「エー」と「エイ」の区別はない。

  • /ɔ/ はオー段

例:water, talk, ball

カタカナ化する単位単語ではなく形態素

形態素とは、「意味の最小単位」。単語の中には複数形態素からなるものがあって、例えば「文章」なら、「文」と「章」にはそれぞれ意味があり、それが集まって、「文章」という単語ができていると理解できる。英語でも、American という単語は、America と、an が合成されてできている。このそれぞれのパーツを「形態素」という。

カタカナ語は、どうも単語単位でなく形態素単位でやっているように見えることが多い。例えば、today は /təˈdeɪ/ だから、上のルールに従えば「タデイ」になるはずだけど、実際には「トゥデイ」になっている。また、consequence / ˈkɑnsɪkwəns/ も、上のルールに従えば「コンシケンス」だけど、実際には「コンシーケンス」になっていると思う。

しかし、これらは例外なのかといえば、形態素単位カタカナ化していると考えると説明がつく。today は to-dayに分割できる。そして、to は 「トゥ」。(なお、これは「トゥー」になるはずなので、こっちは例外。too との衝突を避けたものと思う。)day は「デイ」なので、合わせて「トゥデイ」になる。consequence も con /kɑn/ は「コン」、sequence /ˈsikwəns/ は「シーケンス」なので、合わせて「コンシーケンス」。

カタカナ語 = イギリス英語」説について

カタカナ語アメリカ英語音韻論ベースにしているのではなく、単にイギリス英語を聞こえたまま書いただけのものではないか」という指摘が前回の増田であった。

かにapple, girl など、イギリス英語「聞こえたまま」になっているように見える単語は多数あるが、すべての単語を調べたわけではないから確定的なことは言えないが、これらの単語は、アメリカ英語音韻論説でも同じ程度にうまく説明できる。それに、water, there など、イギリス英語聞こえ方説よりもアメリカ英語音韻論説の方がうまく説明できる例もある。(イギリス英語聞こえ方説をとれば、それぞれ、「ウォータ」、「ゼー」となるはず。)

実際にカタカナ語の多くがアメリカ英語から取られたのかそれともイギリス英語から取られたのかは個人的に知らないのでなんとも言えないのだけれども、カタカナ語アメリカ英語の間にある程度の法則性が見られるという前提で、その法則を書いてみようと思った次第。

2017-12-11

anond:20171211210402

音と意味対応関係発見したんだから論文だってできる。

論文にしたければ、というか、論文にせずともを、以下のことはわかってもらうために必要:

2017-01-11

ブクマカクラスタリング

特に説明するまでもない事実だと思うが、はてなブックマーカーには特定話題特定の同様のコメントをしがちなアカウントからなるクラスタ複数存在する。はてサニセ科学批判クラスタ・・・モヒカン?)

とすると、ある程度のブックマークが集まったページのブックマークコメント形態素分解し、同じようなページに同じようなコメントを付けるようなアカウントをあらかじめクラスタリングして、各ページについてその各クラスタブックマーカーによるコメント頻度や各クラスタごとのコメント傾向を表してくれると、ブックマークされたページがどういうものかあらかじめわかりやすい。Deep Learningならもっとうまくやれるのかもしれない。実装してくれないかな。最近暇がないから、無駄なページを読みたくないんだよ。

xevraやmidas、blueboyのようなブックマーカーをoutlierとしてクラスタリング除外する機能実装している必要がある。無論、midas閣下とxevra先生については独立して鑑賞したいのだが、それはお気に入りを使えばいい話である

2013-06-22

http://anond.hatelabo.jp/20130622164335

恣意的な要素はもちろんあるけれども、その言語で使われる音素のなかで実際の音に類似したものが選択される傾向が強いので、

擬音語以外の語・形態素等に比べれば擬音語恣意性はかなり低いです。

2010-10-30

購読するとかしないとか105のブログ

今更だが、はてブhttp://www.atmarkit.co.jp/fjava/column/andoh/andoh53.html が人気だったのでまとめてみた。(末尾Eは英語

まずはその記事にあった、16あるけど購読するべき15の開発者ブログ一覧(一部追加あり)

  1. http://alpha.mixi.co.jp/blog/
  2. http://engineer.dena.jp/
  3. http://labs.gree.jp/blog/
  4. http://developer.cybozu.co.jp/
  5. http://mtl.recruit.co.jp/
  6. http://blog.spicebox.jp/labs/
  7. http://labs.unoh.net/
  8. http://tech.kayac.com/
  9. http://techlife.cookpad.com/
  10. http://lab.cirius.co.jp/blog/
  11. http://searchblog.yahoo.co.jp/
  12. http://blogs.oracle.com/otnjp/
  13. http://yuiblog.com/ E
  14. http://blogs.msdn.com/b/ie/ E
  15. http://www.google.com/newproducts/ E
  16. http://ameblo.jp/cyberx-engineer/

で、偏ってるんじゃないのとか、あれないよね、みたいなのとか、その時の http://reader.livedoor.com/ranking/hot.html とかから集めた、14しかないけど購読するべき15の開発者ブログ

  1. http://tech.ecnavi.co.jp/
  2. http://staffblog.baidu.jp/
  3. http://lab.klab.org/young/
  4. http://ameblo.jp/principia-ca/
  5. http://kray.jp/blog/
  6. http://blog.livedoor.jp/techblog/
  7. http://twitterjp.blogspot.com/
  8. http://info.dwango.co.jp/rd/
  9. http://openlab.dino.co.jp/
    • ディノ
  10. http://d.hatena.ne.jp/hatenatech/
  11. http://blog.pixiv.net/
  12. http://ryus.co.jp/modules/d3blog/
    • RYUS
  13. http://www.tejimaya.com/blog
    • 手嶋屋
  14. http://www.sixapart.com/ E
  15. http://www.google.co.jp/search?q=開発者ブログ

あと、企業ブログじゃないけど、 http://reader.livedoor.com/ranking/subscribers.html から、これも購読するべき15の開発者ブログ

  1. http://d.hatena.ne.jp/naoya/
  2. http://satoshi.blogs.com/
  3. http://d.hatena.ne.jp/mala/
  4. http://takagi-hiromitsu.jp/diary/
  5. http://bulknews.typepad.com/ E
  6. http://d.hatena.ne.jp/amachang/
  7. http://neta.ywcafe.net/
  8. http://d.hatena.ne.jp/essa/
  9. http://www.rubyist.net/~matz/
  10. http://chalow.net/
  11. http://furukawablog.spaces.live.com/
  12. http://www.geekpage.jp/
  13. http://blog.livedoor.jp/lalha/
  14. http://0xcc.net/blog/
  15. http://www.goodpic.com/mt/

さらに、 http://gihyo.jp/dev/serial/01/alpha-geek にある、もっと購読するべき15の開発者ブログ

  1. http://d.hatena.ne.jp/higayasuo/
    • ひがやすを、Seasarの人
  2. http://blog.livedoor.jp/nipotan/
  3. http://d.hatena.ne.jp/Hamachiya2/
  4. http://developer.cybozu.co.jp/kazuho/
  5. http://d.hatena.ne.jp/koyhoge/
  6. http://d.hatena.ne.jp/i_ogi/
  7. http://www.aoky.net/
  8. http://steps.dodgson.org/
  9. http://kzk9.net/blog/
    • 太田一樹、分散並列の人、PFIの人
  10. http://hillbig.cocolog-nifty.com/
  11. http://d.hatena.ne.jp/tanakh/
  12. http://yusukebe.com/
    • 和田裕介、すけべー、YourAVHostの人、perlの人
  13. http://twitter.com/jch2355
    • 濱野純、Junio、gitの人
  14. http://blog.yappo.jp/
    • 大沢和宏、やっぽ、iYappoの人、perlの人
  15. http://d.hatena.ne.jp/tokuhirom/

まだまだ、 http://geekdb.jp/ とか、 http://jibun.atmarkit.co.jp/lcom01/rensai/comrade01/comrade01.html とか、 http://bizmakoto.jp/bizid/kw/newgenchronicle.html とか、 http://web-engineer.buyuden.net/buyuden/ とか、これでも購読するべき30の開発者ブログ

  1. http://d.hatena.ne.jp/pha/
  2. http://d.hatena.ne.jp/koizuka/
  3. http://d.hatena.ne.jp/higepon/
  4. http://d.hatena.ne.jp/nyaxt/
  5. http://d.hatena.ne.jp/authorNari/
  6. http://d.hatena.ne.jp/HolyGrail/
  7. http://coreblog.org/ats/
  8. http://d.hatena.ne.jp/satoru_net/
  9. http://d.hatena.ne.jp/wadap/
  10. http://www.milkstand.net/fsgarage/
  11. http://d.hatena.ne.jp/hirose31/
  12. http://trac.mizzy.org/public/blog
  13. http://www.otsune.com/diary/
  14. http://d.hatena.ne.jp/tasukuchan/
  15. http://www.be-interactive.org/
  16. http://d.hatena.ne.jp/sato-shi/
  17. http://d.hatena.ne.jp/Yoshiori/
  18. http://d.hatena.ne.jp/t-wada/
  19. http://www.hirax.net/
  20. http://d.aoikujira.com/blog/
  21. http://d.hatena.ne.jp/ZIGOROu/
  22. http://d.hatena.ne.jp/uta46/
  23. http://blog.masuidrive.jp/
  24. http://d.hatena.ne.jp/takahashim/
  25. http://d.hatena.ne.jp/kazu-yamamoto/
  26. http://networkautonomy.blogspot.com/
  27. http://ko.meadowy.net/~koichiro/diary/
  28. http://ko.meadowy.net/~nay/diary/
  29. http://d.hatena.ne.jp/gallu/
  30. http://d.hatena.ne.jp/mizuno_takaaki/

あとは個人色強め、社会派学者派、ビジネス派もある、これは好きにすべき15の非開発者ブログ

  1. http://blog.livedoor.jp/dankogai/
  2. http://d.hatena.ne.jp/umedamochio/
  3. http://ameblo.jp/takapon-jp/
  4. http://ikedanobuo.livedoor.biz/
  5. http://d.hatena.ne.jp/jkondo/
  6. http://www.ringolab.com/note/daiya/
  7. http://phpspot.org/blog/
  8. http://zen.seesaa.net/
  9. http://twitter.com/fromdusktildawn
  10. http://www.tez.com/blog/
  11. http://hiro.asks.jp/
  12. http://www.chikawatanabe.com/blog/
  13. http://mediologic.com/weblog/
    • 高広伯彦、広告派、スケダチの人
  14. http://japan.cnet.com/blog/kenn/
  15. http://www.kitajirushi.jp/

これ無いとかこれ違うとかあったらよろしく

 
ログイン ユーザー登録
ようこそ ゲスト さん