はてなキーワード: 形態素分析とは
増田で「増田のデータをクラスタリングしたら面白いんじゃね?」って話になった
クラスタリングはメタデータとか必要だったので、まずは簡単な統計をしてみた。
とりま2014/1/1〜1/26のデータを収集。テキストだけで6MBという鬼畜っぷり。(データ1) それをYahoo形態素分析APIで単語に分解、集計(データ2) 見てもらえば分かるが、ノイズがひどい。「トラックバック」とか「こと」「それ」みたいな、意味も無い言葉が混じっている。こっからは手作業でノイズ単語を除去していく。その結果がこれ。1位から10位までを勝手に解説
なぞ。子連れの奴が多いのか、少年愛or少女者が多いのか。はたまた煽り文なのか。
これは某塾講師の影響だろうな。いつ言うんだよ?
右翼の方々かな?島の問題で色々あったもんな。
まぁそうだな。
これは自覚症状あるだろ?
6位 問題 == 846
7位 男 == 789
8位 相手 == 754
9位 意味 == 739