2017-09-19

増田テキストマイニングして投稿者パターン判別

https://anond.hatelabo.jp/20170918004847

続き

テキストマイニング勉強して増田に頻出する人間の種類をパターン化しようとしてるんだけど、方法が思いつかない

スクレイピングデータを取る→mecab形態素解析して頻出名詞データ化する→頻出名詞によって元増田がどのカテゴリーの属するのか判定する

最後カテゴリーを作るのがむずい。カテゴリー名前を人力でつけようとするから難しいのか。ある程度頻出名詞が似通ったら(閾値を作って似てるの基準を作る)適当に振った名前group1,group2等に放り込むか。頻出名詞が似てるかどうかを判定するのは何の理論を使うのか、もしくは何のライブラリを使ったらどれだけ似てるかの判定を簡単にできるのか

最後のどれだけ似てるかの判定が自分は分からないってことが分かった

こういうのはどこで質問したら良い回答が得られるかな

記事への反応 -
  • URLに時間含まれてるから時間帯別の投稿者の属性を割り出せそう

    • https://anond.hatelabo.jp/20170918004847 続き テキストマイニング勉強して増田に頻出する人間の種類をパターン化しようとしてるんだけど、方法が思いつかない スクレイピングでデータを取る→m...

      • mecabで形態素解析して頻出名詞をデータ化する ところは上手くできてるん? 増田に対応した mecab辞書を作らないと難しそうな気もするけど。

        • いつもは何も考えずにまず実装してるんですけど 今回はまずひたすらリサーチしてます 「mecab ruby 名詞」で検索してヒットしたページみてとりあえずmecab組み込んだrubyプログラムにテキ...

          • いまRでできること見まくっててベイズ分類ってのがあって直感で調べてたら 単純ベイズ分類器を文書分類問題に適用した例を示す。(https://ja.wikipedia.org/wiki/%E5%8D%98%E7%B4%94%E3%83%99%E3%82%A4%E3%...

    • 逆にそれくらいしか推測値がないのか

      • もちろん文言を解析して時間帯とか曜日とか天気情報と絡めてその日の状態によってヘイトスピーチが増えるとか経済の話題が増えるとか言及が増えるとかそういう話で時間帯は例の1つ

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん