はてなキーワード: Web::Scraperとは
http://b.hatena.ne.jp/t/... で拾えるのが一番なんだが、それが出来ないので拝借するこにした。
いつもブックマークを有難う。これからもよろしく。
あと、Web::ScraperとDBIx::Simpleも有難う。久々に手を動かしたけど、助かったよ。
スーパーpre記法がアレなまま直ってないわけで。
姉妹サイト(?)ができていたわけで。
なにやらcookieを食べようとした形跡があるわけで。
#!/usr/local/bin/perl -w use strict; use warnings; use Web::Scraper; use URI; use Perl6::Say; use MIME::Type; use HTTP::Cookies; use LWP::UserAgent; use Path::Class; use Data::Dumper;sub p { print Data::Dumper::Dumper(@_) }; # cookie_jar
そういえばinheritなんてものがあるのを忘れてた。
// ==UserScript== // @name add style // @namespace http://anond.hatelabo.jp/ // @include http://anond.hatelabo.jp/* // ==/UserScript== GM_addStyle( "font{color:inherit;font-size:inherit}"+ "u, s, strike{text-decoration:inherit}"+ "b{font-weight:inherit}"+ ".section{max-height:80em;overflow-y:auto}" );
firefoxオンリーだそうで http://anond.hatelabo.jp/20090120114819 ユーザースタイルシート的には
font{color:inherit;font-size:inherit} u, s, strike{text-decoration:inherit} b{font-weight:inherit} .section{max-height:80em;overflow-y:auto}
かな?
その他は http://anond.hatelabo.jp/20090120094216 の辺で。
それでストーカーするには Web::Scraperでその辺のタグの有無をチェックして DBIx::Simple で記録すればよいかな?
ついでに WWW::Mechanize::Plugin::Web::Scraper で封じ込めという手もありそう。
なんか呼ばれた気がしなくもない。
ここ1年程の、ほぼすべてのエントリナンバは提供できると思う。
ただ、削除されたエントリもそれなりに入ってるけど、入ってないものも多い。そんなデータ。
たぶん10万件×14桁で1.5Mほどかな。圧縮すれば2割くらいになってくれるだろうか。
いる人いる?
しかし、日単位なら365リクエストでいけるから、とってきた方が早いかも。
shならwgetとsed、perlならWeb::Scraper、gmならgm_xhrか。
xpathgraphという手もあるな。総計値になるけど。差分や統計が取れたらもっと面白いのに。