文章の特徴(主に語彙)を解析して同一人物が書いたと思しき日記を探り当てる。
そのためには増田のサーバにHTTPリクエストを送って日記を大量にダウンロードしないといけないんだけど、うまくいかないので誰か助けてください。
HTTP/1.1 200 OK
Date: Wed, 06 Aug 2014 12:46:07 GMT
Content-Length: 11446
Content-Type: text/html; charset=utf-8
Vary: Accept-Encoding,User-Agent
以下メッセージボディ
みたいな返信をもらうところまではできたけど、メッセージボディを読んでもJavaScriptのコードが書いてあるだけでどこにも日本語がない。
どうやったら日記の内容受け取れるのでしょう?
追記
よく見たらJavaScriptの中に細切れになった日本語の日記ありました。
これ修復するのかぁ。
めんどいなぁ。
PerlのLWPで直接URLを叩いてGETアクセスしてみたら キーワードへのリンクがそこかしこに入ってて見づらいけど コンテンツも普通にDLできたよ タグは全部除けてテキストだけを確認してみ...
あ、いえ、わざわざ試してもらってありがとうございます