2014-08-06

増田釣りチェッカーを作りたい

増田日記を解析して釣りかどうか判定する。

文章の特徴(主に語彙)を解析して同一人物が書いたと思しき日記を探り当てる。

そのためには増田サーバHTTPリクエストを送って日記を大量にダウンロードしないといけないんだけど、うまくいかないので誰か助けてください。

とりあえず増田サーバにソケットつなげて

GET /20140806210945 HTTP/1.1

Host: anond.hatelabo.jp

みたいなHTTPリクエスト送って、


HTTP/1.1 200 OK

Date: Wed, 06 Aug 2014 12:46:07 GMT

Server: Apache/2.2.3 (CentOS)

X-Framework: Hatena/2.0

Content-Length: 11446

Content-Type: text/html; charset=utf-8

Vary: Accept-Encoding,User-Agent

以下メッセージボディ


みたいな返信をもらうところまではできたけど、メッセージボディを読んでもJavaScriptコードが書いてあるだけでどこにも日本語がない。

どうやったら日記の内容受け取れるのでしょう?

追記

よく見たらJavaScriptの中に細切れになった日本語日記ありました。

これ修復するのかぁ。

めんどいなぁ。

  • PerlのLWPで直接URLを叩いてGETアクセスしてみたら キーワードへのリンクがそこかしこに入ってて見づらいけど コンテンツも普通にDLできたよ タグは全部除けてテキストだけを確認してみ...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん