いつもは何も考えずにまず実装してるんですけど
「mecab ruby 名詞」で検索してヒットしたページみてとりあえずmecab組み込んだrubyプログラムにテキスト突っ込んで、名詞だけ取り出せて、名詞のカウントができることも理解しました
増田に対応した mecab辞書、がヒントになりそうですね。助かります
名詞のメタデータのようなもの(例えば、["学歴", "年収"]をcategory1、["韓国", "日本"]をcategory2)作るって感じで同じ記事の中で出てくる一緒に頻出しやすい名詞をカテゴリ分けできればあとは簡単そうなんですけど、それがmecab辞書ってことかな?違うか
追記
https://blog.fenrir-inc.com/jp/2016/11/mecab.html
それとも増田からmecabで抽出した名詞を増田特化させた独自のmecab辞書を利用したmecabで解析するってこと?いや、自分でも書いてて効果がよく分からん
URLに時間含まれてるから時間帯別の投稿者の属性を割り出せそう
https://anond.hatelabo.jp/20170918004847 続き テキストマイニング勉強して増田に頻出する人間の種類をパターン化しようとしてるんだけど、方法が思いつかない スクレイピングでデータを取る→m...
mecabで形態素解析して頻出名詞をデータ化する ところは上手くできてるん? 増田に対応した mecab辞書を作らないと難しそうな気もするけど。
いつもは何も考えずにまず実装してるんですけど 今回はまずひたすらリサーチしてます 「mecab ruby 名詞」で検索してヒットしたページみてとりあえずmecab組み込んだrubyプログラムにテキ...
いまRでできること見まくっててベイズ分類ってのがあって直感で調べてたら 単純ベイズ分類器を文書分類問題に適用した例を示す。(https://ja.wikipedia.org/wiki/%E5%8D%98%E7%B4%94%E3%83%99%E3%82%A4%E3%...
逆にそれくらいしか推測値がないのか
もちろん文言を解析して時間帯とか曜日とか天気情報と絡めてその日の状態によってヘイトスピーチが増えるとか経済の話題が増えるとか言及が増えるとかそういう話で時間帯は例の1つ