2018-06-27

anond:20180627173423

そうだよ。mecab通せば確かに100文字20種類の符号圧縮できるかもしれんが、だからといってそれがIDか何かの一意になる情報かっていうと違う訳でな。

低能」というワード低能先生が使うワードかしれんが、ワイもそこそこ低能先生を装う。

まり、一つの書き込みからMecabのみを利用して判別する方法は無い訳で、

そこでどうやって書き込みを一意となるデータに集約するかがまずやるべきところだろ。

何をキーにしたりどういう塊にするつもりだ? トラバリーから全部抜くか?

  • RとMeCab使って形態素解析すりゃたぶん8割9割くらいの増田は特定できるけどな

    • そこでRとMecabとか言っちゃうからにわかにみられる。 もうちょっとどういうアルゴリズムで同一性を判別するのかちゃんと(分かってるなら)言語化しなよ。

      • 機械学習やってる人間なら思い付きの段階でどのアルゴリズムが上手く作用するかなんて判らないなんてのは常識だし、何をノイズと判定するかでも結果で変わってくるのに手も全く動...

        • どのアルゴリズムが使われるのかわからないじゃねーよw機械学習は魔法のステッキかなんかかw ワイが言ってるのは「発言データをどういう単位の塊にして」「それを機械学習なりに...

          • 発言データをどういう塊にするかが一番の難問じゃねーか!!! 発言データとノイズをどうやって判別するんだよ 手も動かしてねーから俺はわかんねーぞ

            • そうだよ。mecab通せば確かに100文字が20種類の符号に圧縮できるかもしれんが、だからといってそれがIDか何かの一意になる情報かっていうと違う訳でな。 「低能」というワードは低能先...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん