RとMeCab使って形態素解析すりゃたぶん8割9割くらいの増田は特定できるけどな
そこでRとMecabとか言っちゃうからにわかにみられる。 もうちょっとどういうアルゴリズムで同一性を判別するのかちゃんと(分かってるなら)言語化しなよ。
機械学習やってる人間なら思い付きの段階でどのアルゴリズムが上手く作用するかなんて判らないなんてのは常識だし、何をノイズと判定するかでも結果で変わってくるのに手も全く動...
どのアルゴリズムが使われるのかわからないじゃねーよw機械学習は魔法のステッキかなんかかw ワイが言ってるのは「発言データをどういう単位の塊にして」「それを機械学習なりに...
発言データをどういう塊にするかが一番の難問じゃねーか!!! 発言データとノイズをどうやって判別するんだよ 手も動かしてねーから俺はわかんねーぞ
そうだよ。mecab通せば確かに100文字が20種類の符号に圧縮できるかもしれんが、だからといってそれがIDか何かの一意になる情報かっていうと違う訳でな。 「低能」というワードは低能先...