2017-09-19

anond:20170919004517

いつもは何も考えずにまず実装してるんですけど

今回はまずひたすらリサーチしてます

mecab ruby 名詞」で検索してヒットしたページみてとりあえずmecab組み込んだrubyプログラムテキスト突っ込んで、名詞だけ取り出せて、名詞カウントができることも理解しました

増田対応した mecab辞書、がヒントになりそうですね。助かります

名詞メタデータのようなもの(例えば、["学歴", "年収"]をcategory1、["韓国", "日本"]をcategory2)作るって感じで同じ記事の中で出てくる一緒に頻出しやす名詞カテゴリ分けできればあとは簡単そうなんですけど、それがmecab辞書ってことかな?違うか



追記

mecab辞書固有名詞取り出すために必要ってことか

https://blog.fenrir-inc.com/jp/2016/11/mecab.html

確かに増田特有言い回しがあるからそれに対応

それとも増田からmecab抽出した名詞増田特化させた独自mecab辞書を利用したmecabで解析するってこと?いや、自分でも書いてて効果がよく分からん

記事への反応 -
  • URLに時間含まれてるから時間帯別の投稿者の属性を割り出せそう

    • https://anond.hatelabo.jp/20170918004847 続き テキストマイニング勉強して増田に頻出する人間の種類をパターン化しようとしてるんだけど、方法が思いつかない スクレイピングでデータを取る→m...

      • mecabで形態素解析して頻出名詞をデータ化する ところは上手くできてるん? 増田に対応した mecab辞書を作らないと難しそうな気もするけど。

        • いつもは何も考えずにまず実装してるんですけど 今回はまずひたすらリサーチしてます 「mecab ruby 名詞」で検索してヒットしたページみてとりあえずmecab組み込んだrubyプログラムにテキ...

          • いまRでできること見まくっててベイズ分類ってのがあって直感で調べてたら 単純ベイズ分類器を文書分類問題に適用した例を示す。(https://ja.wikipedia.org/wiki/%E5%8D%98%E7%B4%94%E3%83%99%E3%82%A4%E3%...

    • 逆にそれくらいしか推測値がないのか

      • もちろん文言を解析して時間帯とか曜日とか天気情報と絡めてその日の状態によってヘイトスピーチが増えるとか経済の話題が増えるとか言及が増えるとかそういう話で時間帯は例の1つ

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん