2014-01-27

増田流行語を調べてみたら、やっぱりお前らは○○コンだった


きっか

増田で「増田データクラスタリングしたら面白いんじゃね?」って話になった

■暇だからリクエストされたプログラム作るけど、需要ある?

クラスタリングメタデータとか必要だったので、まずは簡単な統計をしてみた。

流れ

とりま2014/1/1〜1/26のデータ収集テキストだけで6MBという鬼畜っぷり。(データ1) それをYahoo形態素分析API単語に分解、集計(データ2) 見てもらえば分かるが、ノイズがひどい。「トラックバック」とか「こと」「それ」みたいな、意味も無い言葉が混じっている。こっからは手作業でノイズ単語を除去していく。その結果がこれ。1位から10位までを勝手に解説

結果

1位 子供 == 1030

なぞ。子連れの奴が多いのか、少年愛or少女者が多いのか。はたまた煽り文なのか。

2位 今 == 951

これは某塾講師の影響だろうな。いつ言うんだよ?

3位 日本 == 932

右翼の方々かな?島の問題で色々あったもんな。

4位 匿名 == 909

まぁそうだな。

5位 女 == 901

これは自覚症状あるだろ?

6位 問題 == 846

7位 男 == 789

8位 相手 == 754

9位 意味 == 739

10仕事 == 717

偉大なるニート先輩の言葉だな。

11位〜20位
  1. 時 == 700
  2. 結婚 == 663
  3. 奴 == 655
  4. 普通 == 639
  5. 本当 == 605
  6. 女性 == 596
  7. 時間 == 593
  8. 必要 == 567
記事への反応 -
  • JavascriptとかRubyとかPythonとかでweb系の仕事してる。SNSとか、ブラゲーとか、それなりのものなら作れると思う。 例えば、萌えキャラの目覚ましアプリとか、イタズラ用のブラクラとか、T...

    • きっかけ 増田で「増田のデータをクラスタリングしたら面白いんじゃね?」って話になった ■暇だからリクエストされたプログラム作るけど、需要ある? クラスタリングはメタデータ...

      • とりあえず増田で使われている単語数を調べてた。 http://anond.hatelabo.jp/20140127113403 特徴を表すメタデータが集まったらクラスタリングもやる。

        • 漏れがやろうとして出来てないことなんだけど、 ・1記事ごとにmecabで使用されてるワード抽出 ・使用頻度上から5つのワードを100%分の使用割合にする。 ・100%を3ビットくらいの閾値...

      • 適当に増田のキーワードリンクをつついていたら「増田の流行語を調べてみたら、やっぱりお前らは○○コンだった」というエントリにたどり着いて面白いなと思ってしまった。 http://ano...

    • 最近、Googleの画像検索から商品を購入することが多いんだけど、 候補の商品をいちいちブクマしたり、値段でソートしたりするのが面倒で仕方がない。 これをもっと簡単にできるように...

      • 需要あったみたいだな。寝るとこだった。 へ〜Googleで商品検索してるんだ。面白いね。 ちょっと確認 1)価格でソートできる、画像検索のブクマを作ればいいんだな? 2)対応させ...

        • 性能とかわりとどうでもいい家電とか服だと、デザインでしか見ないから画像がすべて 1)価格でソートできる、画像検索のブクマを作ればいいんだな? うん、ブクマってことは自...

    • 増田に蓄積された文章の特徴をクラスタリングして何人くらいの人が書き込んでるのかを明らかにして欲しい

      • クラスタリング!ビックデータだな。おもしろそう。 完全に特定できるかは分からんが、ひらがなの割合とか、文章の構成順とかで、カテゴリ分けはできると思う。 例えば、ガチ高学...

    • 需要あったみたいだな。寝るとこだった。 へ〜Googleで商品検索してるんだ。面白いね。 ちょっと確認 1)価格でソートできる、画像検索のブクマを作ればいいんだな? 2)対応させ...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん