「mecab」を含む日記 RSS

はてなキーワード: mecabとは

2019-10-19

anond:20191019183452

自分機械学習に詳しいかどうかはわかりませんが,わかる範囲で書きます

質問テキストを投げるとそれに一番見合ったFAQページのリンクタイトルを表示してくれるチャットボット的なプログラム

チャットボット」はただの UI であるので

を実現する事が目的だと考えて話を進めましょう.

一般的にこのタスク類似文書検索と呼ばれていますブックマークコメントでは「ElasticSearchを使え」と言われています.ElasticSearch の More Like This Query 機能を使うことで類似文書検索が実現できるようです.あとはパラメータを調整することで思い通りの結果が得られるのではないでしょうか.

より高度なアプローチを取るのであれば,BERT と呼ばれるニューラルネットワークモデル活用した類似文書検索可能です.こちらのブログ (ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer) が参考になるでしょう.

しかしこれだけで終わると悲しいのでもう少し機械学習の話をすることにします.

機械学習的にこの問題に取り組むには順序学習 Learning to Rank という問題を解く必要があります.順序学習google 検索にも使われている機能です.

これは,「入力 x に対して N 個の候補 y_1, y_2, ..., y_N を類似している順に並び替えるようなスコアを出力する関数 f(x, y_i) を学習する」というものです.

More Like This Query 機能よりもこちらのアプローチが優れているのは,前者はどうパラメータチューニングしようと「類似している文書しか得られないのに対して,後者は(先程引用したような)「見合った」を明示的にデータとして与えてランキング学習できる,という点です.

学習データとして「この質問のに対してこの FAQ ページがもっとも見合っている」「この質問に対して A と B ふたつの FAQ ページがあるが,B より A の方が見合っている」「この質問に対して見合った順に全ての FAQ ページを並び替えたもの」といったデータを大量に準備することで,「見合った」を学習することが可能です.

しかこちらも ElasticSearch の機能に搭載されているようです.ありがとう ElasticSearch.お疲れ様でした.

もしあなたが ElasticSearch を使うのではなく, Python を使って再実装したいと考えているのであれば,目印として必要ライブラリ概念を書いておきます

AIとか機械学習に詳しい人にガチ質問なんだが

こういうのを実装したいと思ってるだがどんな言語ライブラリ使って

どのくらいの勉強期間と実装期間を費やせば作れるかな?




業務で使うというよりは習得メインだから回答の精度とかは二の次でいい

ちなみに自分スキルは一応本職だからPythonは触ったことないけど

MySQLいじったりテーブル設計したり学習データ管理用のGUI作ったりとかMeCab知識とかはどうにでもなると思う

あ、ただ微分積分とか行列については全くわからないと言っていいレベル

最近Web知識フロントエンド/バックエンド/フレームワーク/アーキテクチャ

総合的に勉強するより機械学習の方がむしろ低いとか聞くけど意味不明記号の羅列を見てるとにわかには信じられない……

”そこそこの大学をでて大学数学ちゃん習得している人にとっては”的な条件があるのだろうか

このくらいの仕組みならパパっと作れたりするのかなぁ

2019-01-28

anond:20190127005937

データを取ってるのは増田統計投稿される直前。

ランクインしなかった理由mecab-ipadic-NEologd辞書が「スキッパーキ」を固有名詞で分類するくせに「柴犬」を一般名詞に分類したためらしい。一般名詞だと15回以上出現しないとランクインできなかった。両方一般名詞なんだけどなぜブレるかはよく分からない。IPA辞書に元から載ってる単語とNEologdで追加された単語の違いだろうか。

2018-12-24

anond:20181224001110

事情はこんな感じ。

今日以降MeCab辞書mecab-ipadic-NEologd辞書に切り替える。昨日までのはNAIST辞書だった。メリットは週2回新語が追加されるので、2011年更新が止まったNAIST辞書に比べて時事ネタに強い。デメリット固有名詞じゃないものまで固有名詞に分類しようとすること。一長一短あるけれど、メンテナンスが止まった辞書を使い続けるよりは良さそうなので変える。はてなキーワードから新語を探しているそうなので、はてなキーワードを整備すれば精度が上がるかもしれない。

はてな増田キーワードページ https://anond.hatelabo.jp/keyword/改善してくれればこんなことしないのにと思う。いま久しぶりにキーワードページ見たら表示される単語の数が減ってる気がする。改善しようと手を付け始めたのだろうか?

2018年5月4日金曜日増田 https://anond.hatelabo.jp/20180505000152

2018-10-15

anond:20181015125805

音声認識/自由入力を分解してくれるまではmecabじゃなくてもwebapiとかで提供されてる。

docomoとかが提供している。結構なお値段で)

問題はそれで認識した文をどう返すかだよな。

「そもさん」という入力に対して「ぞうさんですか? ボクはきりんさんが好きです。でも、ぞうさんもっと好きです」って返したらそのpepperくんのぞうさんもぎ取られちまうわけだからな。

anond:20181015125006

普通にPepperくんの応答システム作れとかそんなんやろ。

音声認識/自由入力から目的動作引っ張るとかそういうの。

当然mecabが使えたかてゴールには辿りつかんぞw

2018-08-22

anond:20180822003612

mecab-ipadic-2.7.0-20070801-neologd-20180813、8月13日版の辞書だと「下方婚」は「下方」と「婚」に切り分けられるみたい。はてなキーワードに「下方婚」の項目を立てればそのうち収録されるんじゃないかな。

検索してみたけれど、昨日増田で下方婚という単語は1回しか使われてないみたいだよ。

2018-08-14

anond:20180814000431

mecab-ipadic-NEologd辞書を使っているのだけど、どういう方針固有名詞に分類しているのか分からないところがあります。ググっても解説してくれているところは無さそうだし。

はてなの協力ではてなキーワードをソースの一つとして使っているそうなので「いいんじゃない」あたりはそれを楽曲名だと解説しているはてなキーワードのせいで固有名詞扱いになっているんじゃないかな。

2018-08-13

anond:20180813000401

つの間にかmecab-ipadic-neologd辞書低能先生登録されてしまったようだ。先月は低能先生に分割されていたのに。はてなの恥はこういう方向からネット記憶されていくんだな。

2018-07-14

話題AIを使って増田おっさん率を判定してみた。

増田を見ていると女の投稿結構あるように思えるが

文章検証していくと明らかにおっさん投稿が多い。

よく見る男女論だけでも明らかにおっさん投稿してると思われる。

そこで増田にどれくらいおっさんがいるのか。

これを判定するためにAIを使って判定して見た。


  • ここからはやり方を説明するだけなので結論に飛んでもらっていい

まず知人25人を用意する。25人の内訳は男20人女5人。

女があまりまらなかったのは私の不徳の致すところ。勘弁していただきたい。

ここで男のうちでネカマ文章を書けるかどうか質問をし

そのうち書けると答えた7人はネカマ文章を書いてもらうことにした。

文章は500文字以上とし一人当たり4文章作成してもらった。

それをMECAB形態素解析し、単語使用率等を解析する。

Train Data 男 10 ネカマ 5 女 3

Test Data 男 3 ネカマ 2 女 2

Trainデータを使って機械学習をする。

ぶち込むNNは入り口は要素100、出口は1の五層のNN。単語数100を超える部分はカットした。

まり最初の100以外はすべてカットした。

Train Dataでの判定結果は91.2%、Test Dataでの成功率86.3%になった。

このNNをつかって増田ブクマ10以上の投稿

ランダムに300件検出しテストしたたところ以下の結果になった。

男63.2%

女4.3%

ネカマ32.5%

私のNNができが悪いだけかもしれないので、皆さんも試して欲しい。

2018-06-27

anond:20180627173423

そうだよ。mecab通せば確かに100文字20種類の符号圧縮できるかもしれんが、だからといってそれがIDか何かの一意になる情報かっていうと違う訳でな。

低能」というワード低能先生が使うワードかしれんが、ワイもそこそこ低能先生を装う。

まり、一つの書き込みからMecabのみを利用して判別する方法は無い訳で、

そこでどうやって書き込みを一意となるデータに集約するかがまずやるべきところだろ。

何をキーにしたりどういう塊にするつもりだ? トラバリーから全部抜くか?

anond:20180627171726

機械学習やってる人間なら思い付きの段階でどのアルゴリズムが上手く作用するかなんて判らないなんてのは常識だし、何をノイズと判定するかでも結果で変わってくるのに手も全く動かしてない状態でそんなん判るわけないだろ

RとMeCabだけ知ってる人間機械学習仕事で一切やったことない奴だなお前

anond:20180627171401

そこでRとMecabとか言っちゃうからにわかにみられる。

もうちょっとどういうアルゴリズム同一性判別するのかちゃんと(分かってるなら)言語化しなよ。

RとMeCab使って形態素解析すりゃたぶん8割9割くらいの増田特定できるけどな

2018-05-05

[]2018年5月4日金曜日増田

時間記事文字数文字数平均文字数中央値
00639839156.241
01485207108.539
02445027114.359.5
03418862216.1171
04253455138.2119
053711237.033
0613127297.827
07174898288.1163
0829273894.467
09334160126.180
1056511391.343
11575842102.545
126714024209.358
13576426112.752
14639038143.554
15476724143.151
16549269171.660.5
175213871266.842
18758632115.147
19708347119.247
208410528125.344.5
2186621172.242.5
227310058137.859
236717149256.057
1日1224177401144.953

頻出名詞

人(148), 自分(117), 今(57), 話(51), 前(49), 感じ(48), 好き(44), 気持ち(44), 増田(43), 仕事(43), 人間(40), 気(39), 問題(38), あと(37), 女(37), 必要(33), 男(33), 子供(33), 相手(32), おっさん(32), 会社(30), 友達(29), 関係(29), 言葉(28), 時間(28), 普通(27), 結果(27), ネット(26), 結局(26), 理由(25), 手(25), 日本(25), 一番(24), 誰か(24), 周り(24), https(24), 世の中(23), 声(23), 今日(23), 社会(23), 他(23), 存在(22), 女性(22), 親(22), 男性(22), 最近(22), 意味(22), 最初(21), 目(21), 頭(21), 場所(21), しない(21), 人生(21), 昔(21), 場合(20), 経験(20), 無理(20), 顔(19), 状態(19), 理解(19), ー(18), 結婚(18), 毎日(18), 全部(18), 責任(18), レベル(17), 嫌(17), 別(17), 先(17), 意見(17), 友人(17), 先輩(17), 心(17), 世界(17), 挨拶(17), 価値(16), 行動(16), まとも(16), 扱い(16), 逆(16), 仕方(16), 自体(16), 店(16), 他人(16), セックス(15), 体(15), 女の子(15), ただ(15), 職場(15), 金(15), セクハラ(15), 趣味(15), 幸せ(14), 家(14), 上司(14), 批判(14), 休み(14), 正直(14), 一人(14), .jp(14)

頻出固有名詞

増田(43), 日本(25), じゃなくて(13), 安倍総理(13), 社会人(13), 可能性(13), 被害者(12), 娘(10), …。(10), 自民党(10), 山口(9), スマホ(9), 安倍(8), 2018年(8), 加計学園(8), 1人(8), 東京(8), いない(8), 柳瀬(7), GW(7), 1日(7), 何度(7), ツイッター(7), なのか(6), 普通に(6), 基本的(6), 元増田(6), エロい(6), Twitter(6), SNS(6), いつまでも(6), 知らんけど(6), なんだろう(6), 毒親(6), ブコメ(6), 愛媛県(6), 財務省(5), いいんじゃない(5), アメリカ(5), 自分自身(5), A(5), 自己責任(5), 価値観(5), CM(5), 大企業(5), TOKIO(5), 2人(5), 最終的(5), カス(5), 自分たち(5), LGBT(5), 犯罪者(5), はてブ(5), コミュ障(5), いいね(5), 担当者(5), 笑(5), 1万円(5), ネット右翼(5), わからん(5), 安倍自民党(5), 悪いこと(5), なんの(5), 筋トレ(5), 金(4), 安倍晋三(4), 大阪(4), OK(4), 八代(4), はてなー(4), ネトウヨ(4), 具体的(4), 立川志らく(4), ちんこ(4), 精神障害(4), 30歳(4), 昭和(4), ブクマ(4), TBS(4), 一方的(4), 夫婦(4), 不快感(4), B(4), 劣等感(4), 分からん(4), 1年(4), 毎日(4), かな(4), 米(4), にも(4), 精神的(4), プリキュア(4), アレ(4), アイコン(4), 好きな人(4), 任天堂(4), 数年(4), ひるおび(4), 人間関係(4), リアル(4)

今日以降MeCab辞書を変更

今日以降MeCab辞書mecab-ipadic-NEologd辞書に切り替える。昨日までのはNAIST辞書だった。メリットは週2回新語が追加されるので、2011年に更新が止まったNAIST辞書に比べて時事ネタに強い。デメリット固有名詞じゃないものまで固有名詞に分類しようとすること。一長一短あるけれど、メンテナンスが止まった辞書を使い続けるよりは良さそうなので変える。はてなキーワードから新語を探しているそうなので、はてなキーワードを整備すれば精度が上がるかもしれない。

はてな増田キーワードページ https://anond.hatelabo.jp/keyword/改善してくれればこんなことしないのにと思う。いま久しぶりにキーワードページ見たら表示される単語の数が減ってる気がする。改善しようと手を付け始めたのだろうか?

2018-05-04

[]2018年5月3日木曜日増田

時間記事文字数文字数平均文字数中央値
005611385203.379.5
0161465176.243
02283477124.256.5
03294545156.736
04176071357.164
05155744382.9128
06304886162.965.5
07374608124.552
08626410103.440.5
0973563377.242
1070656393.852
11101792578.535
121061011795.442
13140961068.633
14137756555.235
15114666658.532.5
1612113028107.739
178812250139.242
181401141781.634
191601534495.926.5
2011612046103.833.5
21153865956.631
221631331081.735
23617475122.551
1日207819938596.037

頻出名詞

人(198), 自分(132), 女性(82), 今(79), 増田(76), 差別(71), 女(71), 人間(71), 話(70), 仕事(68), 男(66), 男性(60), 感じ(57), 相手(55), 社会(54), 問題(53), 同じ(51), 日本(51), ー(50), 必要(49), 気持ち(49), 意味(49), 前(46), あと(45), 普通(44), 関係(43), 親(42), 時間(41), 会社(40), こんな(40), 子供(40), 好き(39), 気(38), 目(36), 低能(35), 山口(35), 言葉(34), 被害(34), 存在(34), 今日(34), 結婚(33), 生活(32), 友達(31), 他(30), 最近(30), 手(29), 主義(29), https(28), 行動(28), メンバー(28), 安倍(28), 男女(28), 発言(28), 一緒(27), 頭(27), 心(26), 時代(26), 家(26), 専用(25), 意見(25), 自身(25), 理由(25), 人生(25), 車両(25), おっさん(24), 状態(24), ネット(24), 先生(23), 金(23), 現実(23), 周り(23), 場合(22), 結果(22), 世界(22), 責任(22), 娘(22), 自己(22), 別(21), 最初(21), 他人(21), 自体(21), ダメ(21), い(21), 全部(21), 大変(21), レベル(21), 可能(20), ~(20), アニメ(20), 女子(20), 昔(20), 否定(20), 馬鹿(20), 理解(20), 個人(20), 自民党(19), 嫌(19), 逆(19), 一番(19), http(19)

頻出固有名詞

増田(76), 日本(51), 山口(35), 安倍(28), 自民党(19), 日(18), 東京(14), キモ(14), TOKIO(14), 自衛隊(12), アメリカ(8), 達也(8), 加計(7), 民主党(7), カス(6), 平成(6), 公明党(6), 昭和(6), 福島(6), JK(5), 共産党(5), 韓国(5), 羽生(5), スキ(5), 柳瀬(5), 中国(5), 晋(5), 大阪(5), マック(5), ぇ(5), 敬之(4), 愛媛(4), faq(4), チャイルド(4), 麻生(4), 京都(4), テレビ朝日(4), NHK(4), qa(4), ニセ(4), iPhone(3), 所(3), gt(3), CPU(3), 太郎(3), bot(3), 悟(3), フジテレビ(3), 出口(3), 健(3)

MeCabNAIST辞書 (2011年に更新が止まっている。)

MeCabmecab-ipadic-NEologd辞書 (固有名詞新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)

頻出名詞

人(184), 自分(125), 今(75), 話(68), 男(66), 女(66), 仕事(66), 増田(66), 人間(63), 女性(62), 感じ(55), 相手(51), 問題(51), 必要(49), 気持ち(48), あと(47), 意味(45), 差別(44), 前(44), 日本(43), 気(40), 子供(39), 普通(39), 男性(38), 目(37), 親(37), 関係(36), 低能(35), 好き(35), 社会(35), 今日(34), 会社(32), ー(32), 言葉(32), 友達(31), 存在(31), 結婚(31), 最近(30), 手(30), 他(30), https(29), 頭(28), 時間(27), 心(27), 理由(25), 意見(25), 現実(25), 人生(25), おっさん(24), 別(24), 被害者(23), 状態(23), 周り(23), しない(23), じゃなくて(23), 発言(22), 家(22), 場合(22), 金(22), 女性専用車両(22), 行動(22), 最初(21), 理解(21), 他人(21), 結果(21), A(21), 全部(21), 娘(21), レベル(21), 世界(21), 自体(20), 馬鹿(20), 先生(20), 男女(20), 勝手(20), 昔(20), 生活(20), アニメ(20), 嫌(20), ダメ(20), 否定(20), 逆(19), www(19), 批判(19), 顔(19), 大変(19), 一番(19), 誰か(19), 男性差別(19), 職場(19), 女の子(19), 一緒(19), 結局(18), 話題(18), http://(18), 時代(18), 記事(18), 無理(18), 自身(17), 山口(17)

頻出固有名詞

増田(66), 日本(43), じゃなくて(23), 被害者(23), 女性専用車両(22), 娘(20), 男性差別(19), 山口(17), 安倍(15), TOKIO(15), 可能性(14), 安倍総理(14), なんだろう(14), いない(13), 自民党(12), 自衛隊(12), 主義者(12), スマホ(12), A(11), 山口メンバー(11), 生活保護(11), hatena(11), カス(11), 元増田(11), 差別主義(10), いいんじゃない(10), 一緒に(10), Twitter(10), 男女平等(9), 女子高生(9), 1人(9), 2人(8), PC(8), ブログ(8), s(8), 上の(8), JK(8), 社交辞令(8), わからん(8), B(8), …。(7), リアル(7), 犯罪者(7), ツイッター(7), 一方的(7), ニセ科学(7), 劣等感(7), コミュ障(7), キモ(7), 私たち(7), ジャニーズ(7), キモい(7), ネット右翼(7), まんこ(6), ブコメ(6), 2018年(6), 普通に(6), 東京(6), 20代(6), 山口達也(6), 昭和(6), 何度(6), 社会人(6), ???(6), 公明党(6), 発言権(6), アメリカ(6), 毒親(6), 加計学園(6), 100%(6), 個人的(6), パワハラ(6), 基本的(6), 最終的(6), 笑(5), かな(5), 加害者(5), 1年(5), にも(5), 共産党(5), なのか(5), GW(5), 悪いこと(5), 外国人(5), 非モテ(5), いいね(5), 強制わいせつ(5), 自己責任(5), 脳内(5), 安倍自民党(5), 低所得(5), キチガイ(5), 人として(5), ー(5), フェミ(5), マジで(5), イケメン(5), 想像力(5), ニート(5), 婚活(5)

例えば「女性」と「専用」と「車両」に分割されていたのが「女性専用車両」で1語と数えられている。辞書データソースとしてはてなキーワードを使ったと書いてあるからよりはてな向きかもしれない。

いいんじゃない」が固有名詞扱いされているが、これは多分はてなキーワードソースにした弊害ではないだろうか。はてなキーワードを見ると「いいんじゃない」というジャニーズタレント楽曲があるという。「リアル」もはてなキーワード三菱テレビブランドとして説明されているせいで固有名詞扱いなのかもしれない。

一長一短があるな。

2018-05-03

[]2018年5月2日水曜日増田

時間記事文字数文字数平均文字数中央値
00818461104.539
01309896329.952.5
02252601104.070
03204251212.680.5
0415101267.525
05221651082.51082.5
061193585.072
07131887145.293
0838337188.746
09405422135.655
10669987151.375
111211070988.545
12102846483.044
131311152988.044
14104936090.038.5
151381037075.142
161891330770.449
172131754182.449
18118810268.736
191521098372.331.5
2063483976.835
2110914993137.662
221361182186.945.5
2311011771107.046
1日202719377795.644

頻出名詞

人(179), 女性(155), 自分(147), 男(108), 女(103), 男性(102), 社会(99), 話(97), 今(94), 増田(73), 前(64), 仕事(61), 意味(59), 相手(56), 問題(55), 人間(54), 同じ(52), ー(51), 関係(51), 男女(49), 必要(48), 好き(48), あと(47), 気(47), 子供(44), 感じ(43), https(43), 理由(41), 日本(41), 世界(40), 結婚(39), 時間(38), こんな(37), 普通(35), 進出(35), 手(35), 理解(34), 最近(33), 低能(33), 場合(32), 責任(32), 他(32), 気持ち(31), 個人(31), 会社(31), 逆(31), 山口(30), 目(30), 時代(30), 頭(29), 昔(29), 友達(29), com(29), 金(28), 先生(28), 一緒(28), 価値(28), メンバー(28), 無理(28), 存在(27), 一番(27), 猫(27), www(26), ネット(26), 被害(26), 言葉(26), 家族(26), 親(26), 状態(25), http(25), ゴミ(24), セックス(24), 自体(24), 雇用(24), 会見(23), ダメ(23), 結果(23), ~(23), 娘(23), アニメ(23), 通報(22), クズ(22), 最初(22), 企業(22), 人生(22), 確か(22), 全部(22), 嫌(21), 説明(21), 可能(21), 家(21), 原因(21), 今日(21), 差別(21), 主義(21), 現実(20), 周り(20), 家庭(20), 全体(20), 発言(20)

頻出固有名詞

増田(73), 日本(41), 山口(30), 韓国(15), TOKIO(14), 東京(12), 日(12), 安倍(11), アメリカ(11), キモ(10), 中国(10), 達也(10), 自衛隊(10), detail(8), JK(8), 平成(7), 金(7), article(7), マック(6), jsfiddle(6), イラ(5), 北朝鮮(5), Twitter(5), どん(5), pdf(5), 松岡(5), 昭和(4), default(4), VTuber(4), 韓(4), 自民党(4), サンクス(4), セブン(4), jpg(4), ツイ(4), 米(4), images(3), 明治(3), files(3), 太郎(3), 大正(3), 大阪(3), 朝鮮(3), ワイ(3), Vtuber(3), BC(3), 中(3), sthya(3), バーガー(3), SNS(3)

MeCabNAIST辞書 (2011年に更新が止まっている。)

MeCabmecab-ipadic-NEologd辞書 (固有名詞新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)

頻出名詞

人(165), 自分(141), 女性(138), 男(105), 話(98), 女(95), 男性(95), 今(86), 社会(76), 前(62), 仕事(61), 相手(56), 増田(55), 意味(54), 気(50), 問題(49), 必要(48), 人間(48), 関係(47), あと(46), 好き(46), https(44), 子供(43), 感じ(42), 理由(41), 結婚(38), 日本(37), 手(35), 進出(35), 理解(34), 低能(33), 目(33), ー(33), 男女(33), 最近(33), 世界(32), 場合(32), 他(31), 普通(30), 気持ち(30), 頭(29), 会社(29), 逆(29), 時間(28), 先生(28), 友達(28), 無理(28), 昔(27), しない(27), 存在(26), .com(26), 言葉(26), www(25), 金(25), 一番(25), しよう(25), 猫(24), 自体(24), http://(24), 状態(23), セックス(23), 一緒(23), じゃなくて(23), ゴミ(23), 親(23), 娘(22), 雇用(22), クズ(22), ダメ(22), 通報(22), 確か(22), 全部(22), 責任(22), 嫌(22), アニメ(22), 最初(22), 結果(21), 人生(21), 今日(21), メンバー(21), 説明(21), 全く(21), 原因(21), 別(21), ネット(20), 女子高生(20), 周り(20), 価値(20), 一人(19), 時代(19), おっさん(19), 結局(19), 大人(19), 当たり前(19), 幸せ(19), 場所(19), 家(19), 記事(19), 現実(19), 議論(18)

頻出固有名詞

増田(55), 日本(37), じゃなくて(23), 女子高生(20), 娘(20), TOKIO(17), 被害者(16), JK(16), 元増田(16), 山口(15), 可能性(15), なんだろう(13), 韓国(13), リアル(13), 社会的(12), いない(12), フェミ(12), 男女平等(11), アスペ(11), 女性専用車両(10), なのか(10), Twitter(10), 専業主婦(10), detail(9), アメリカ(9), 謝罪会見(9), 山口達也(9), 暴力装置(9), 自衛隊(9), キモ(9), 産む機械(9), 経済力(9), スマホ(9), アファーマティブアクション(8), 具体的(8), トラバ(8), 東京(8), s(8), 最終的(8), いいね(8), 分からん(8), わからん(8), 個人的(8), である(7), 何度(7), マジレス(7), いいんじゃない(7), 安倍(7), twitter(7), SNS(7), 性犯罪(7), 中国(7), 100円(7), 芸能界(7), ツイート(7), どんだけ(7), article(7), 私たち(7), まんこ(7), 4人(7), 家族主義(7), 価値観(6), 加害者(6), 金(6), livedoor(6), 基本的(6), 2018年(6), クリエイター(6), GW(6), jsfiddle(6), NG(6), 平成(6), ツイッター(6), ???(6), 介護士(6), お酒(6), 一緒に(6), 婚活(6), …。(5), 1000円(5), 普通に(5), 生物学(5), 北朝鮮(5), いつまでも(5), 笑(5), 生理休暇(5), アプリ(5), 外国人(5), エロい(5), 20代(5), アルコール依存症(5), ロリ(5), 山口メンバー(5), 男なら(5), マジで(5), LINE(5), ニート(5), org(5), ムスリム(5), マック(5)

2018-05-02

[]2018年5月1日火曜日増田

時間記事文字数文字数平均文字数中央値
00799658122.333
0153469288.540
0244329274.843.5
03133863297.2121
0482747343.485
05152423161.558
06193601189.576
07141496106.952.5
0840284471.140.5
0954343963.736
1010011225112.354
119011656129.531
1277741496.348
13849407112.042.5
14122691956.736
1595849889.541
16779611124.844
1710213434131.750
181161099794.856.5
19899362105.258
20869615111.874.5
211311011277.231
2298762777.835.5
2310215118148.255
1日1708179050104.844

頻出名詞

人(162), 自分(132), 今(82), 話(72), 仕事(71), ー(70), 増田(60), 時間(59), 人間(57), 前(56), https(50), 日本(50), 女(47), 好き(45), 必要(45), 男(44), 問題(44), 女性(43), 感じ(42), 関係(41), 気(40), こんな(39), 最近(38), 手(37), ネット(36), 同じ(36), 社会(35), 意味(35), ~(33), 理由(33), 男性(32), com(31), 普通(31), 会社(31), 頭(30), 目(30), あと(29), 気持ち(29), 相手(29), 子供(29), 今日(29), 理解(28), http(28), 生活(28), 漫画(27), 他(27), 企業(26), www(25), レベル(25), 無理(25), 絶対(25), 安倍(24), 結局(24), 政治(24), 時代(24), 世界(23), 家(23), 他人(22), 就職(21), 顔(21), 状況(21), 技術(21), 嫌(21), 一番(21), 結果(21), 情報(20), 周り(20), 韓国(20), 金(20), 可能(20), 個人(20), 勉強(20), 状態(20), 感覚(19), 場合(19), 警察(19), ストレス(19), エロ(18), 差別(18), 昔(18), 自体(18), 程度(18), ゲーム(18), 世の中(18), 人生(18), 経験(17), 親(17), anond(17), 国(17), 責任(17), 言葉(17), 行為(17), 学校(17), 作品(17), 馬鹿(17), ほとんど(17), 山口(17), メンバー(17), 存在(17), 努力(17)

頻出固有名詞

増田(60), 日本(50), 安倍(24), 韓国(20), 山口(17), 日(12), キモ(11), 東京(10), 日野自動車(9), FaHNI(9), trucks(9), release(9), sugawara(9), racing(9), team(9), dakar(9), beiDW(9), KkJk(9), racereports(9), アメリカ(8), 北朝鮮(7), twitter(7), LINE(6), 韓(6), detail(6), 金(6), 中国(6), 伊集院(6), 自民党(6), 平成(6), 自衛隊(5), 大阪(5), 中(5), コス(5), real(5), 米(5), 米国(5), bayern(5), munich(4), 敬之(4), 光(4), 下高井戸(4), 達也(4), report(4), match(4), 朝鮮(4), 太郎(4), megalodon(4), どん(4), 東大(4)

MeCabNAIST辞書 (2011年に更新が止まっている。)

MeCabmecab-ipadic-NEologd辞書 (固有名詞新語に強い。正確に形態素に分割することよりも意味のある単語としてまとめることに重点が置かれている。)

頻出名詞

人(143), 自分(128), 今(79), 話(74), 仕事(68), 増田(53), 人間(47), 前(47), 女(46), 時間(46), 気(46), 男(45), 好き(45), 日本(44), 必要(44), https(44), 感じ(42), 問題(42), ー(40), 女性(40), 手(38), 最近(38), 関係(33), 理由(33), 気持ち(30), 会社(29), 相手(29), 子供(29), 普通(29), 意味(29), 目(29), あと(28), 今日(28), http://(27), しない(27), 頭(27), 理解(26), 他(26), 男性(26), 絶対(25), ネット(25), レベル(25), 無理(25), .com(24), 結局(24), 嫌(22), 他人(22), 状況(21), 一番(21), 結果(20), 顔(20), しよう(20), www(20), 周り(20), 勉強(20), 家(20), 時代(19), 場合(19), ストレス(19), 感覚(19), 状態(19), 世の中(18), 人生(18), 昔(18), バカ(18), ただ(18), 就職(18), 努力(17), 言葉(17), 名前(17), 韓国(17), 企業(17), 金(17), 程度(17), anond(17), 馬鹿(17), 自体(17), 話題(17), 毎日(17), 勝手(17), 意見(17), 社会(16), .jp(16), 全部(16), 作品(16), 記事(16), co.jp(16), 警察(16), 最初(16), 世界(15), ゲーム(15), 政治(15), 夫(15), 経験(15), 可能性(15), 内容(15), 漫画(15), 出て(15), 行為(15), 別(15)

頻出固有名詞

増田(53), 日本(44), 韓国(17), 可能性(15), わからん(14), じゃなくて(13), twitter(13), youtube(13), マジで(12), 安倍総理(12), まんこ(10), v(10), 安倍(10), 何度(9), キモ(9), team(9), beiDW(9), dakar(9), trucks(9), KkJk(9), 漫画家(9), release(9), racing(9), 3w(9), 耐久性(9), 日野自動車(9), FaHNI(9), 24g(9), racereports(9), 山口メンバー(9), アプリ(9), hino(9), 基本的(9), sugawara(9), 午後ティー(8), 人間関係(8), スマホ(8), リアル(8), ???(8), LINE(8), 発達障害(8), いない(8), かもしれん(7), コミュ力(7), 分からん(7), detail(7), 北朝鮮(7), アメリカ(7), SNS(7), いいんじゃない(7), 最終的(7), なのか(7), E(6), なんだろう(6), オナ禁(6), アレ(6), 中国(6), 自民党(6), 登場人物(6), Twitter(6), 2歳(6), ある意味(6), お客さん(6), 就活(6), 女子高生(6), 1人(6), 大企業(6), 元増田(6), 唐揚げ(6), IT(6), JK(6), ファブリーズ(6), ダンバイン(6), にも(5), 自衛隊(5), 具体的(5), 副流煙(5), 金(5), AV(5), 米国(5), 社会的(5), 体育会系(5), ツイート(5), ぶっちゃけ(5), 涙(5), イケメン(5), ヤバい(5), 一人(5), フェミ(5), ブコメ(5), 技術力(5), 10年(5), OK(5), 夫婦(5), コスパ(5), カレー(5), ツイッター(5), …。(5), ネット上(5), go(4)

2018-04-29

anond:20180426000203

はてブGIGAZINE人工知能や機械学習を利用しなくても「SQLの使い方」次第で収益アップは可能って記事を見かけた。収益でやってるわけじゃないけど、1日の増田MeCabで切り分け、品詞タグを付けてデータベースに格納できたとして次は何ができるのだろう?

2018年4月25日水曜日増田

MeCabで使われているのはNAIST辞書らしい。

種類延べ使用回数
名詞981869979
形容詞30053393
動詞173926181
助動詞3316643
助詞1423736
副詞5173658
連体詞391246
接続詞881107
接頭詞92773
感動詞115519
フィラー13155
その他22
合計12898177392
より細かく
種類延べ使用回数
名詞一般588530943
名詞サ変接続17699813
名詞非自立807111
名詞接尾4465180
名詞474595
名詞固有名詞11343364
名詞形容動詞語幹5893356
名詞代名詞823248
名詞副詞可能2392072
名詞ナイ形容詞語幹13264
名詞接続詞317
名詞特殊214
名詞動詞自立的12
形容詞自立2943484
形容詞非自立8202
形容詞接尾250
動詞自立171819932
動詞非自立724740
動詞接尾61509
助動詞3316643
助詞格助詞5420732
助詞接続助詞289215
助詞係助詞88077
助詞連体化25734
助詞助詞333025
助詞助詞262405
助詞並立助詞81737
助詞助詞/並立助詞/終助詞11594
助詞副詞2825
助詞特殊349
副詞一般4312597
副詞助詞接続861061
連体詞391246
接続詞881107
接続詞881107
接頭詞名詞接続82681
接頭詞形容詞接続245
接頭詞動詞接続36
感動詞115519
フィラー13155
その他間投22

以下は1エントリーに3回出現したら3回と数える方法で数えたもの

頻出動詞

する(4260), てる(1711), いる(1617), れる(1043), ある(1002), なる(974), 思う(688), 言う(647), いう(562), くる(351), やる(350), できる(335), 見る(300), られる(272), わかる(180), 出る(171), しまう(168), 考える(165), 行く(163), いく(156), 知る(152), せる(149), くれる(138), 分かる(129), みる(126), 乗る(124), 使う(122), 出来る(110), 持つ(110), 書く(109), やめる(107), 違う(105), 出す(94), しれる(90), 読む(88), 感じる(87), 作る(86), すぎる(84), ちゃう(84), いける(82), 聞く(78), でる(71), 乗れる(70), 認める(69), 買う(69), 叩く(63), 死ぬ(63), 来る(62), く(62), 変わる(62), 入る(60), 受ける(60), 食べる(60), もらう(57), 見える(57), 続ける(56), 言える(54), かける(53), 終わる(51), 守る(49), つける(48), 行う(47), 描く(46), 生きる(46), 語る(46), 入れる(45), 始める(45), 働く(45), 取る(42), 減る(41), 居る(41), 飲む(40), 許す(40), なくなる(39), 訴える(39), 話す(39), つく(37), 観る(37), かかる(37), おく(36), くださる(36), あげる(35), とる(34), 黙る(34), 得る(34), 言い出す(33), 殺す(33), 思える(32), 払う(32), 過ぎる(31), 教える(29), 辞める(29), 決める(28), 気づく(27), 怒る(27), 生まれる(27), 調べる(27), なれる(27), 扱う(26), 呼ぶ(26), 限る(25), いじめる(25), 起きる(25), 頑張る(25), 合う(25), がる(25), 変える(24), 含める(24), 待つ(24), 笑う(24), 立つ(24), 飽きる(24), 許せる(24), 戦う(23), 増える(23), 会う(23), 同じる(23), とく(23), 間違う(23), 捨てる(23), 信じる(22), 住む(22), 困る(22), よる(22), 読める(22), 通る(22), 覚える(22), 騒ぐ(22), 比べる(22), 楽しむ(21), 寝る(21), おる(21), 触る(21), 与える(21), 押し付ける(21), 見せる(21), 上がる(21), 避ける(20), 帰る(20), 思い出す(20), 向く(20), 進む(20), 続く(20), 歩く(20), 決まる(20), 着る(20), 選ぶ(19), 忘れる(19), 引く(19), 触れる(19), 分ける(19), つながる(18), 媚びる(18), 逃げる(18), 似る(18), 上げる(18), 起こす(18), もらえる(18), 繰り返す(18), 残る(18), 殴る(18), 答える(18), まとめる(18), 付き合う(17), 投げる(17), 付ける(17), 走る(17), 受け入れる(17), 含む(17), 求める(17), ひる(16), 関わる(16), 吐く(16), させる(16), 済む(16), 隠す(16), 集める(16), 始まる(16), 使える(15), 掲げる(15), うる(15), 流れる(15), 落ちる(15), 誘う(15), 除く(15), 止まる(15), 返す(15), まくる(15), だす(15), 示す(15), いえる(15), 問う(15), 追い出す(15), 消える(15), 送る(15), 食う(15)

頻出形容詞

ない(930), 良い(221), コワい(198), 悪い(142), 多い(140), 無い(104), ほしい(66), おかしい(60), よい(57), 高い(54), 楽しい(53), すごい(53), 強い(52), 怖い(50), っぽい(49), 面白い(44), 少ない(43), 欲しい(43), 正しい(38), 早い(34), やすい(33), 難しい(31), 低い(29), 近い(29), 弱い(28), 長い(28), 可愛い(25), 大きい(22), うまい(20), 若い(19), 凄い(19), かわいい(19), 恥ずかしい(19), 黒い(18), 優しい(18), 美味しい(17), 軽い(17), 安い(17), 上手い(17), 辛い(17), 新しい(17), 痛い(16), にくい(16), 古い(16), 甘い(15), 嬉しい(15), 小さい(15), 広い(14), 羨ましい(14), 臭い(14), 深い(13), やばい(13), つまらない(13), うるさい(11), 遅い(11), おいしい(11), 激しい(11), 厳しい(11), 重い(11), 苦しい(11), 珍しい(10), 悲しい(10), 偉い(10), 悔しい(9), 浅い(8), 寒い(8), つらい(8), 酷い(8), ええ(8), ダサい(8), 縁遠い(8), こい(7), かっこいい(7), 詳しい(7), きつい(7), まずい(7), づらい(7), ひどい(7), 忙しい(7), 細かい(7), 面倒くさい(6), 短い(6), 汚い(6), やさしい(6), めんどい(6), 狭い(6), 速い(6), ゆるい(6), しんどい(6), 素晴らしい(6), 嘆かわしい(6), でかい(5), 仲良い(5), 恐ろしい(5), 鬱陶しい(5), 熱い(5), くさい(5), 遠い(5), 怪しい(5), 温かい(5), いたい(4), すい(4), すまない(4), しょぼい(4), 冷たい(4), 古臭い(4), 格好いい(4), めんどくさい(4), ありがたい(4), うれしい(4), 青い(4), 暗い(4), 等しい(4), よろしい(4), おもしろい(3), 数多い(3), 憎い(3), もったいない(3), カッコイイ(3), 望ましい(3), 親しい(3), 興味深い(3), 少い(3), ものすごい(3), 手っ取り早い(3), 賢い(3), しつこい(3), 白い(3), 幼い(3), 物凄い(3), 気持ちいい(3), つまんない(3), 濃い(3), 悪しい(3), 貧しい(3), でっかい(3), 美しい(3), 済まない(3), たまらない(3), 危うい(3)

頻出副詞

どう(213), そう(213), もう(137), よく(95), もっと(85), なんで(74), ちょっと(70), 本当に(67), 別に(62), まだ(56), ちゃんと(53), 全く(50), 全然(47), とても(46), むしろ(46), まあ(44), なぜ(39), ずっと(35), 特に(35), 結構(34), やっぱり(33), もちろん(33), 多分(32), すぐ(30), いつも(29), とりあえず(28), まず(27), そんなに(27), かなり(25), これから(25), こう(23), すぐに(23), 少なくとも(22), とにかく(22), わざわざ(21), 初めて(21), ほぼ(20), 少し(20), どうして(19), さらに(19), たぶん(18), なんと(17), あまり(16), 実際(16), いっぱい(15), いきなり(15), きっと(15), すでに(15), やっぱ(14), 当然(14), 相当(14), いくら(14), たしかに(14), おそらく(14), どうしても(13), せめて(13), やたら(13), 大いに(13), もし(13), たまに(12), もう少し(12), あんまり(12), 既に(12), カッ(12), まさに(12), はっきり(12), なんとなく(12), 仲良く(11), 一応(11), めっちゃ(11), どんどん(11), 何故(11), どうせ(11), まさか(11), いくらでも(11), ある程度(11), 仮に(11), 更に(10), まったく(10), ああ(10), 単に(10), いい加減(10), そろそろ(10), どうにか(10), なかなか(10), 常に(10), それだけ(10), しっかり(9), はて(9), 何で(9), やはり(9), いやいや(9), あくまで(9), なんだか(9), 必ず(9), きちんと(9), ともかく(9), より(8), 実際は(8), こんなに(8), けっこう(8), もしかして(8), 今更(8), あまりに(8), そのうち(8), しばらく(8), いかに(8), 何より(8), 一体(7), 同時に(7), 要するに(7), あんなに(7), 大して(7), 意外と(7), 決して(7), たって(7), あえて(7), もはや(7), だいたい(7), ピン(7), たまたま(7), さすが(6), よろしく(6), たった(6), たとえ(6), どうぞ(6), とっくに(6), 突然(6), さっさと(6), ほんとに(6), よほど(6), そこら(6), つい(6), 勿論(5), それなり(5), 時々(5), 一度(5), しょっちゅう(5), ニコニコ(5), なにか(5), いったい(5), どうも(5), 無理やり(5), ひとつ(5), まして(5), やっと(5), 大体(5), さっぱり(5), 最も(5), 無理矢理(5), ワクワク(5), ちょい(5), 何故か(5), ふと(5), さ(5), ごく(5), やや(5), 公然(5), また(5), それほど(5), 多少(4), 本当は(4), ちょうど(4), そっくり(4), だんだん(4), だいぶ(4), せっかく(4), バンバン(4), 必ずしも(4), 何となく(4), いかにも(4), なんとも(4), どー(4), いか(4), ただただ(4), ダラダラ(4), ずーっと(4), 長々(4), うんうん(4), 未だに(4), どんなに(4), おいおい(4), 正直(4), かつて(4), よし(4), たかだか(4), 案外(4)

頻出助詞

の(6143), に(5349), は(5305), が(5200), て(4639), を(3739), と(3080), で(2801), も(2446), か(1594), から(1411), よ(1036), けど(720), って(707), とか(689), な(674), という(546), だけ(483), ね(451), じゃ(431), ば(428), し(423), や(368), ので(345), まで(249), として(233), たり(223), のに(222), しか(210), でも(204), なんて(203), わ(156), ぞ(152), かも(151), より(128), など(125), くらい(125), へ(117), だって(103), について(97), けれど(86), ながら(83), ほど(69), っていう(67), なぁ(61), ぐらい(58), なんか(53), なあ(53), に対して(50), なー(47), ばかり(46), こそ(44), にゃ(43), んで(41), によって(40), さ(39), による(38), にとって(37), だの(34), すら(34), ちゃ(32), に対する(28), なり(27), ぜ(26), ねぇ(26), のみ(25), ねー(22), ん(22), における(21), つ(18), とかいう(18), とも(17), とともに(17), さえ(16), ってな(16), において(15), に関して(14), つつ(13), ずつ(13), に関する(12), よー(12), ばっかり(12), だり(11), といった(11), ねえ(11), やら(11), っけ(11), どころか(10), ばっか(10), じゃあ(10), べ(10), により(9), たって(9), けども(8), っと(7), ものの(7), につき(6), かい(5), かしら(5), 程(5), ていう(4), をもって(4), かぁ(4), けれども(4), け(4), ねん(3), ノ(3), かな(3), に対し(3), もん(3), デ(3), にまつわる(3), を通して(3), を通じて(3), ど(2), につれ(2), ばかし(2), ワ(2), ヨ(2), なんぞ(2), にあたり(2), をめぐって(2), にかけて(2), しも(2), にわたって(2), なぞ(1), ちゃあ(1), のう(1), ネ(1), ども(1), にあたって(1), 之(1), からには(1), にたいして(1), といふ(1), にて(1), にたいする(1), に際して(1), わい(1), と共に(1), に当たり(1), なぁー(1)

頻出接続詞

でも(91), だから(84), そもそも(75), いや(67), また(65), ただ(60), そして(60), しかし(46), しかも(27), それで(24), なお(22), 例えば(22), つまり(22), それでも(21), ちなみに(20), じゃあ(20), そりゃ(19), 実は(17), だって(15), 一方(15), けど(15), かつ(15), それとも(12), よって(12), あるいは(11), だが(10), そしたら(10), では(10), そこで(10), または(8), んじゃ(8), じゃ(8), ってか(8), それどころか(8), ただし(8), ないし(8), たとえば(7), 及び(7), まずは(7), それなのに(7), だからこそ(7), 同じく(7), それと(6), なので(6), それにしても(6), もしくは(5), それに(5), だけど(5), てか(5), それなら(5), なら(5), ところで(4), こうして(4), だからといって(3), なぜなら(3), で(3), それから(3), 本当は(3), なのに(3), にもかかわらず(3), ましてや(2), おまけに(2), ところが(2), すると(2), というのも(2), ならば(2), したがって(2), そうなると(1), 追って(1), つまるところ(1), ほんで(1), および(1), 即(1), 次に(1), されど(1), 因みに(1), かくして(1), それも(1), ともあれ(1), 即ち(1), すなわち(1), しかしながら(1), けれども(1), ほなら(1), 否(1), たとへば(1), したら(1), ゆえに(1)

頻出感動詞

はい(31), ああ(29), はてな(23), うん(20), あ(20), ええ(19), まぁ(16), ほんと(15), ごめん(13), ありがとう(13), こりゃ(9), ま(9), すまん(8), じゃぁ(8), えっ(8), うーん(7), おっ(7), ごめんなさい(7), まあ(7), う(6), お疲れ様(6), あぁ(5), おい(5), そら(5), なるほど(5), あー(5), へー(4), さぁ(4), いいえ(4), あかん(3), いやー(3), ウン(3), ほら(3), よし(3), お(3), はぁ(3), おお(3), フェ(3), もしもし(2), おや(2), ふーん(2), おめでとう(2), さあ(2), うふふ(2), よお(2), うわ(2), はあ(2), はーい(2), え(2), あれ(2), さよなら(2), へぇ(2), おはよう(2), オー(2), あっ(2), ありがと(2), へえ(1), わーい(1), じゃー(1), なんともはや(1), ご馳走さま(1), ノー(1), はて(1), ヤダー(1), えー(1), さようなら(1), すみません(1), はっ(1), ざまあみろ(1), わぁ(1), すいません(1), 嗚呼(1), うーむ(1), ふふふ(1), いな(1), うふ(1), いえいえ(1), ほう(1), ねえ(1)

頻出助動詞

だ(6538), た(3603), ない(3312), う(771), です(558), ます(347), たい(337), ある(285), ん(210), ぬ(159), じゃん(111), べし(103), や(70), らしい(60), やん(33), り(30), っす(15), つ(11), ござる(11), じゃ(11), たり(11), じ(9), 無い(9), る(8), き(8), まい(7), まじ(5), やす(3), ごとし(2), なり(2), へん(2), 如し(1), けり(1)

頻出接頭詞

お(141), 大(45), 元(43), クソ(42), 反(42), 第(24), ご(24), 非(20), 新(18), 全(16), 他(15), 被(14), こ(14), バカ(13), 低(13), 再(12), 不(11), コ(11), 本(10), 逆(10), 約(10), 今(10), 副(9), 超(9), 旧(8), 最(7), 弱(7), ド(7), 前(6), す(6), 中(6), 高(6), 各(6), 自(5), 名(5), 現(5), 異(5), ま(5), 別(5), 女(5), ど(4), 無(4), 同(4), 立ち(4), 後(4), 即(4), 計(4), 親(3), 引き(3), 草(3), 小(3), 原(3), 初(3), くそ(3), み(3), 下(2), 等(2), ニセ(2), 抗(2), 横(2), 某(2), 分(2), 長(2), 実(2), 薄(2), ぶっ(2), 多(2), 好(2), 未(2), 若(1), 双(1), 生(1), 両(1), 共(1), 総(1), 可(1), 省(1), 助(1), 重(1), 消(1), 築(1), 内(1), 老(1), ぶち(1), 短(1), 丸(1), 悪(1), 単(1), 乳(1), 諸(1), 半(1), 満(1)

頻出フィラー

え(40), なんか(33), ま(22), あ(17), まあ(14), あの(13), あー(8), えーと(2), えー(2), うん(1), と(1), そうですね(1), ええと(1)

頻出連体詞

その(363), この(227), そういう(197), そんな(138), こういう(71), あの(53), どの(26), ある(20), どういう(19), 大きな(17), そういった(11), どんな(11), いろんな(11), 単なる(10), あらゆる(7), 小さな(7), あんな(7), いわゆる(6), 色んな(5), 何らかの(5), とある(4), 大した(4), おかしな(3), 然るべき(2), そうした(2), 輝ける(2), ろくな(2), 亡き(2), 見知らぬ(2), わが(2), ちょっとした(2), かかる(1), ありとあらゆる(1), さしたる(1), かの(1), 更なる(1), こうした(1), ほんの(1), 碌な(1)

2017-09-29

TechCrunch JPタイトルから hiwa 氏の翻訳か否かを深層学習推定する

追記 (9月30日 22:00)

最近タイトルを読むだけで hiwa 氏が翻訳したものかどうかがわかるようになってきた。

例えば、「死んだはずのBlackBerryがソフトウェア企業として蘇生、業績も株価も好調」というタイトルは「死んだはずの」という挑発的な言葉遣いは hiwa 氏だろう(そしてそのような文句は元記事にはないだろう)と推測したり(確認してみると元記事タイトルは "BlackBerry, yes BlackBerry, is making a comeback as a software company" であり、「死んだはずの」や「業績も株価好調」といった文言は含まれていない)、「GoogleがAmazonのEcho ShowからYouTubeを突然取り去る、サービス規約への違反だそうだ」というタイトルでは「〜〜〜、〜〜〜」という独特な文の接続や、文末の「だそうだ」という物言いから氏であろうと推測している。

私が推測できるのだからアルゴリズムでも可能ではないだろうか? そう考え、機械学習の中でも特に深層学習を用いて推定可能である検証した。

タスク

タイトル文字列(本文情報は用いない)からその記事翻訳者が hiwa 氏であるか ( = 1) そうでないか ( = 0) を学習予測する二値分類問題

学習データ

TechCrunch Japan記事データ 11,993 件。うち 3,781 件が hiwa 氏が翻訳したものである

手法

入力文は vanillaMeCab [1] を用いて分かち書きを行い、それぞれの単語は「日本語 Wikipedia エンティティベクトル」[2] を用いて 200 次元に埋め込んだ。語彙数は 17,272 だった。

予測モデルは 32 次元の LSTM [3]。dropout 率は 0.5。文の最大長は 120 単語zero-padding を行い、バッチサイズ 32 の Adam [4] で最適化した。

LSTM の実装には keras 公式に用意されたもの [5] を参考にした。

結果

精度 0.85, 再現率 0.80, f値 0.82 とまずまずの精度で予測可能であることがわかった。

ちなみに、 CNN による推定では 精度 0.84, 再現率 0.80, f値 0.82 という同等の結果を得た。

結論

機械学習を用いることで、記事を開く前に hiwa 氏が翻訳したものであるか否かがまずまずの精度で分類できることがわかった。深層学習はすごい。

参考文献

[1] MeCab: Yet Another Part-of-Speech and Morphological Analyzer

[2] Long Short-Term Memory

[3] 日本語 Wikipedia エンティティベクトル

[4] [1412.6980] Adam: A Method for Stochastic Optimization

[5] keras/imdb_lstm.py at master · fchollet/keras · GitHub

2017-09-19

anond:20170919004517

いつもは何も考えずにまず実装してるんですけど

今回はまずひたすらリサーチしてます

mecab ruby 名詞」で検索してヒットしたページみてとりあえずmecab組み込んだrubyプログラムテキスト突っ込んで、名詞だけ取り出せて、名詞カウントができることも理解しました

増田対応した mecab辞書、がヒントになりそうですね。助かります

名詞メタデータのようなもの(例えば、["学歴", "年収"]をcategory1、["韓国", "日本"]をcategory2)作るって感じで同じ記事の中で出てくる一緒に頻出しやす名詞カテゴリ分けできればあとは簡単そうなんですけど、それがmecab辞書ってことかな?違うか



追記

mecab辞書固有名詞取り出すために必要ってことか

https://blog.fenrir-inc.com/jp/2016/11/mecab.html

確かに増田特有言い回しがあるからそれに対応

それとも増田からmecab抽出した名詞増田特化させた独自mecab辞書を利用したmecabで解析するってこと?いや、自分でも書いてて効果がよく分からん

anond:20170919003931

mecab形態素解析して頻出名詞データ化する

ところは上手くできてるん?

増田対応した mecab辞書を作らないと難しそうな気もするけど。

アーカイブ ヘルプ
ログイン ユーザー登録
ようこそ ゲスト さん