「形態素分析」を含む日記 RSS

はてなキーワード: 形態素分析とは

2014-01-27

増田流行語を調べてみたら、やっぱりお前らは○○コンだった


きっか

増田で「増田データクラスタリングしたら面白いんじゃね?」って話になった

■暇だからリクエストされたプログラム作るけど、需要ある?

クラスタリングメタデータとか必要だったので、まずは簡単な統計をしてみた。

流れ

とりま2014/1/1〜1/26のデータ収集テキストだけで6MBという鬼畜っぷり。(データ1) それをYahoo形態素分析API単語に分解、集計(データ2) 見てもらえば分かるが、ノイズがひどい。「トラックバック」とか「こと」「それ」みたいな、意味も無い言葉が混じっている。こっからは手作業でノイズ単語を除去していく。その結果がこれ。1位から10位までを勝手に解説

結果

1位 子供 == 1030

なぞ。子連れの奴が多いのか、少年愛or少女者が多いのか。はたまた煽り文なのか。

2位 今 == 951

これは某塾講師の影響だろうな。いつ言うんだよ?

3位 日本 == 932

右翼の方々かな?島の問題で色々あったもんな。

4位 匿名 == 909

まぁそうだな。

5位 女 == 901

これは自覚症状あるだろ?

6位 問題 == 846

7位 男 == 789

8位 相手 == 754

9位 意味 == 739

10仕事 == 717

偉大なるニート先輩の言葉だな。

11位〜20位
  1. 時 == 700
  2. 結婚 == 663
  3. 奴 == 655
  4. 普通 == 639
  5. 本当 == 605
  6. 女性 == 596
  7. 時間 == 593
  8. 必要 == 567
 
ログイン ユーザー登録
ようこそ ゲスト さん