クラスタリングの時点で素人ではないと思ってたけど、やっぱりこっち系の人なんだね。
Mecab入れようと思ってたんだけど、pythonラッパーのインスコが遅すぎ and Yahooの方がクオリティが高いらしい ということでYahooでやってた。
一応クローリングはPythonで簡単なスクリプト書いてたんだけど、ページごとにざっくり取得してるんだわ。記事ごとに取得できるスクリプト貰えると嬉しい。
手元あるオライリーのペンギン本に記事の特徴を検出するサンプルがあった気がするから、できると思う。
Permalink | 記事への反応(1) | 12:15
ツイートシェア
bashでおk? 増田の記事の本文のみ抽出するスクリプトがこれだ。 引数に記事IDを渡してやれば動く。 記事IDのクローリングは…自分で頑張ってみてくれ。 #! /bin/bashURL="http://anond.hatel...