はてなキーワード: それPlaとは
4Uって知ってるかい?
”世界中の美女画像を皆でシェアするソーシャルイメージブックマークサービス”
とのことさ。それはほんともう美しい画像が満載で毎日見てても飽きないわけさ。
そこでローカルに画像を保存しようと思い、ちょっくら実装してみた。
#!/usr/local/bin/perl -w use strict; use warnings; use Web::Scraper; use LWP::UserAgent; use Perl6::Say; use MIME::Type; use URI; use Data::Dumper; sub p { print Data::Dumper::Dumper(@_) }; my $page = shift || 1000; unless ( $page =~ /^\d+$/ ) { die 'perl 4u.pl [page as int]'; } for my $i (1..$page) { my $url = sprintf 'http://4u.straightline.jp/?page=%s' , $i; say "request url>".$url; my $tmp = scraper { process 'ul.entry-list>li>div.entry-body>div.entry-photo>a', 'link[]' => '@href'; process 'ul.entry-list>li>div.entry-footer>div.wrapper-entry-description>div.entry-description>p.entry-img-src', 'img[]' => 'TEXT'; result 'link','img'; }->scrape( URI->new($url) ); my $links = $tmp->{link}; my $imgs = $tmp->{img}; if ( ref $links ne 'ARRAY' ) { say "end program."; exit; } for my $link (@$links) { $link =~ m{/([^/]+)$}; my $sesid = $1; sleep 1; my $image_url = shift @$imgs || next; $image_url = 'http://'.$image_url; say "get image url >".$image_url; my $ua = LWP::UserAgent->new; my $req = HTTP::Request->new(GET => $image_url); my $res = $ua->request($req); my $content = $res->content; my $content_type = $res->headers->header('content-type'); my $ext = MIME::Type->new( type => $content_type )->subType || 'bin'; my $write_path = './img/'.$sesid.'.'.$ext; if ( -f $write_path ) { say "file exsits end program >".$write_path; exit; } open my $FH, '>', $write_path; binmode $FH; print $FH $content; close $FH; say "write image >".$write_path; } }
貴様、うるせーんだよ。
今回俺としてはWeb::Scraper使いたかったので自力実装してみますた。
使い方を試しながらだったので製作時間2時間くらいかかたお。次からはもっと短縮できそうだ。
まーがーっと書いた後に整理してないからコード自体はかなり汚ねぇのでご了承を。ふへ。
とりあえず4u.plを叩くとカレントディレクトリのimgフォルダに取得した画像を次々書き込んでいく。
ちゃんと次のページにも遷移しながらどんどんがんがん書き込んでいくのさ。
で、以前取得したことのある画像にぶつかるとそこでプログラム終了。
ちゅーかなんつってもWeb::Scraperってばスゲエよな。俺のクリオアがびんびん反応するぜ。え?クオリアだって?うっせぇ野暮なこと言うなよ。
先にことわっとくけど、俺は法律に関してはさっぱりわからんよ。
で、ニュースの転載に関してなんだけど、((blogじゃなくてね))
例えば、ざっくり1年前あたりのニュースを見てみたんだけど、
この中で、
が見れなくなってる。
cnetやimpressあたりだと残ってるんだけど、一般向けの新聞社だと消されやすい印象。yahooとかもね。
そんなときに、全文転載してるblogがあると、元記事が見れて便利。
元記事が何で、どこからどこまでが元記事で、どこからがblog主の記事かがわかれば問題ないと思う。((法律上は知らないよ。)) ((Livedoor PJニュースの件はここが問題なのでは?))
見やすさからいうと、別ページになってた方がいいけど。魚拓とか使ってほしい。
otsuneさんのblogだと、リンクの横に_がついててキャッシュへのリンクになってるっぽいけど、公開してくれてないからキライだ><
あと、自動でウェブ魚拓とって、はてブの関連URLに登録してくれないかなぁ、誰か、それplaとか言いながら。
転載がほとんどでコメントが一言だけ、ってのもちょっといやだけど、
それよりも、はてダ使ってて、リンクにコメント一言とか、リンクだけってがひどいと思う。はてブ使えよ。
はてブの含む日記に載ってて、長いコメントがあるかなと思いながら見に行ったらリンクだけとか嫌過ぎる。
リンク先にどのくらいのコメントがあるかわかるようなの作ってくれないかなぁ、誰か、それgreとか言いながら。
しかし、著作権が存在しないことをたてにしたweb上での転載が横行すれば、独自性のあるブログを作ろうという野心を持ったブロガーが減少してしまわないか不安になる。現に、2chコピペブログやここはてな匿名ダイアリーにおいても、無断転載と思われる記事が結構多いのだ。無断転載をされた側は糾弾するすべがなく、無断転載をする側は何も考えずにブログのエントリやニュース記事を作製できてしまうことになる。これがネット上での議論をより質の低いものにすることは、目に見えている。よりよいネットでの議論を維持し再構築するためにも、「引用」を正しく用いてくださるよう、私から皆様にご協力をお願いしたい。
これに関しては、元記事へのリンクがある「転載」ではなくて、自分の記事としてコピーすることに問題があるんじゃないかな。
いわゆる「パクリ」ってやつですな。「剽窃」ってのもこのことか。
少なくとも、アホ理系青年の主張〜窓野マサミ☆アホージャーナル〜:ニュース記事転載系ブログサイトを読むと憎いし苦痛だ - livedoor Blog(ブログ)で言ってる「転載」とは違うと思う。