2014-01-27

http://anond.hatelabo.jp/20140127114705

クラスタリングの時点で素人ではないと思ってたけど、やっぱりこっち系の人なんだね。

Mecab入れようと思ってたんだけど、pythonラッパーインスコが遅すぎ and Yahooの方がクオリティが高いらしい ということでYahooでやってた。

一応クローリングPythonで簡単なスクリプト書いてたんだけど、ページごとにざっくり取得してるんだわ。記事ごとに取得できるスクリプト貰えると嬉しい。

手元あるオライリーのペンギン本に記事の特徴を検出するサンプルがあった気がするから、できると思う。

  • bashでおk? 増田の記事の本文のみ抽出するスクリプトがこれだ。 引数に記事IDを渡してやれば動く。 記事IDのクローリングは…自分で頑張ってみてくれ。 #! /bin/bashURL="http://anond.hatel...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん