はてなキーワード: クローラとは
まったくもってナンセンス。話の桁が違いすぎる。
大域ってテキスト情報の大域なんざ静止画の数百分の一も食わない。音声通話の数万分の一も食わない。動画の百万分の一も食わない。
同様の事を千人でやっても大域に関してはまったく問題が無いという話をしてるんだ。
TCPコネクションにしてもたとえばMicrosoft.comは毎秒平均7000~9000回もの攻撃を受けていると言われる。
Librahack氏は毎秒一回ではなく、アクセス毎に1秒のウェイトを入れていた。瞬時の返答があった場合の最高1回/secに過ぎない。
これが、どんだぇ少ないアクセス頻度だか。HTTPコネクション数に限って言えば100人がクローラ使ったとしても中古パソコンで裁ける程度の話。
バックエンドDBがあってもそう。オラクル使っといて一人当たり数万アクセス程度でこけるとか無駄遣いもいいところ。
今回の状況って、個人用に図書館の目録作りたいんですとかいって図書館の全部の棚の前にびっしり大量の人がはりついて他の人が棚使えなくなってるような状況と一緒でしょう。
鳴門海峡に割り箸千本さしたら海流が止まってしまったというぐらいナンセンス。常識的に考えてちっとも大量の人ではない。
ご自由におとりくださいと書いてある店のチラシを1人で無意味にごっそり全部持っていくようなもんだよね。
限りあるリソースの占有ではない。チラシをとろうとしたら突然床が抜けて屋根が落ちてきたようなもの。
まさかこの程度で落ちるわけないし、適切なエラーが返ってこないし、どうなってるんだ?と思っていたら逮捕されました。あまりに理不尽。
システムに不具合が無ければ1秒1アクセスぐらい余裕でさばけたはず。全ての利用者がそういうアクセスをしたらまずいかもしれないけど。
っていうか、1分数回でもcookie食べないと同じトラブルは起きるんじゃないか?だから確かgoogleのクローラ弾いてたんでしょ?
今後は岡崎市立中央図書館のウェブサイトをクローラでアクセスしてよいの?
wgetしちゃっていいの?
波乗野郎しちゃっていいの?
岡崎市立中央図書館はLibrahack氏に謝れよ。本当に。
平成十七年(2005)の設計だから想定していなかったって阿呆ですか。
波乗野郎の発売は1996年だ。wgetもその頃からある。この時点で庶民にクローラ需要があったんだぞ。
俺だって十年前から自動巡回も一括取得も当たり前にやってた。
低品質な製品を発注してしまった責任を取りたくないから認められないのか?
三菱から見返りでももらっていたのか?
合法だけど迷惑行為だったとでも言いたいようだが、迷惑を受けたのは逮捕された側だっての。
今まで落ちなかったのは、たまたまそうやって利用されていなかっただけだろ。
利用者の方におかれましては、情報収集のために使われる手段が、他の利用者に迷惑をかけていないかどうかについて、ご配慮をお願いいたします。
同時1コネクション限度でアクセス毎に1秒ウェイトは十分すぎるほど配慮してるじゃないか。
頻度も大域も1万円の中古パソコンでもさばける程度のアクセスしかしてないじゃないか。
この図書館は最悪だな。こんなだから逮捕者まで出してしまったんだ。
三菱も悪いが図書館の態度も大きな原因だろう。無知でしたとか言う次元じゃない。
こんな図書館だから、こんな商品発注して、この有様なんだとしか言いようがない。
メッセサンオーで個人情報流出か!? エロゲ購入者リストがgoogleのキャッシュに
ttp://blog.livedoor.jp/insidears/archives/52275810.html
596 名前: 彫刻刀(アラバマ州)[] 投稿日:2010/04/01(木) 23:28:42.47 ID:PRQmTyUx
このコラボ半端ねえな・・
Googleクローラ + GoogleCache + Googleストリートビュー
628 名前: 薬さじ(埼玉県)[] 投稿日:2010/04/01(木) 23:29:26.50 ID:zcEdQIgm
»596
おっかねえ時代だw
679 名前: パステル(アラバマ州)[] 投稿日:2010/04/01(木) 23:30:42.19 ID:9qqh1Kjl
»596
id:HiromitsuTakagiが遂にWinnyネットワーク観測・閲覧ツールNyzillaをリリースする。
Nyzillaの特徴
Winny開発者である金子勇の著書では以下の様に書かれている(この文章はHiromitsuTakagiも引用している)。
しかしWinnyの場合、通信相手は不特定であり、Winnyプロトコルを使う誰もが通信相手になれます。たとえば、Winnyプロトコルを真似てWinnyノードに接続するようなプログラムの作成ができれば、接続相手のキャッシュファイルを観察することも可能です。このため、たとえどんなに強い暗号方式で通信内容を暗号化したとしても、通信相手は解読可能であり、通信内容は隠しようがありません。
要するに、Winnyネットワークに入れるソフトウェアさえ持ってれば、そこでやり取りされてる情報は筒抜けだよ、と言うことだ。
Winny自体にはない機能だが、特定のIPアドレスでどんな情報をやり取りしてるかと言う事も、全部駄々漏れなのだ。
元々駄々漏れしている情報を見える化するだけなのだから、何の問題もなかろう。
そもそも、見られて困る様な事をしている方が悪いのだ。
本当にそうか?
駄々漏れている情報なら晒して良いと言うスタンスであるならば、RFIDタグやBluetoothによる追跡のプライバシー問題を取り上げていたのは何だったのか。
だとしても、Winnyの仕様を叩けば良いのであって、特定のIPアドレスで何をやり取りしているかを晒すツールを公開する理由にはならない。
RFIDタグやBluetoothの問題を語る時に、追跡ツールを公開していないのと同じだ。
システムの問題を語る為に、個人を攻撃する凶器を放流する必要は無い。
HiromitsuTakagiの意図がどうであれ、Nyzillaが公開されれば、個人を攻撃する為に利用する輩が出てくるだろう。
必ず、出るだろう。
IPアドレスさえ判れば良いのだから簡単だ。
mixiアプリが始まって、今やmixiのアクセスだって足跡と組み合わせてIPアドレスが取得できる。
気に入らないコメントをつけた奴とか、ID知られちゃって仕方なくマイミクにした上司とか。
偉そうな事言ってるけど、Winnyでこんなファイル流してるじゃねーか、と。
攻撃の為に使う人間にとってはIPアドレスが可変だとか、IPアドレス=ユーザじゃないとか、そんな事はどうでも良い。
むしろ、全く無関係のWinnyユーザとIPアドレスがバッティングしてくれた方が都合が良い位だ。
「貴方の家の息子さんが著作権侵害を行っている証拠です」とか言われて往生する人も出て来るだろう。
或いは、悪意を持った攻撃者でなくても、単純な好奇心で知人のIPアドレスの利用状況を見てみる人だって居るだろう。
そこで運悪くIPアドレスのバッティングが起きたらどうするのか。
知識のある専門家がその技術を使うのと、知識のない素人が技術だけ使えてしまうのとでは、引き起こされる結果は全く違うものになるだろう。
ソフトウェアは一度公開されてしまえば、もう止められない。
HiromitsuTakagiの意図がどうかなど知らない。
だが、Nyzillaの公開は今までのセキュリティ・プライバシー問題に対する言動とは明らかに次元が異なる。
その行動は「Winnyで違法行為やってる様な奴は叩いて良い」と言う倫理観に基づいている様に見える。
個人的には「Winnyで違法行為やってる様な奴なんかどうなろうが知らん」が、そんな攻撃に巻き込まれるのはお断りだ。
真っ平ごめんだ。
Nyzillaの公開は12/23だと言う。
これだけは言っておく。
最初に「魔女が居るぞ」と叫んで火を放ったのはid:HiromitsuTakagi、君だ。
今後何が起ころうと、Nyzilla公開によって起きる全ての責任はid:HiromitsuTakagi、君にある。
さて、増田諸氏よ。貴方達はどうする?
火を手に掲げて、魔女を探しに行くのか
降りかかる火の粉を恐れ、謂れのない糾弾に慄くのか
どちらでも好きにすれば良い。
巷のPerl Mongerな人たちの間で話題の『モダンPerl入門』を読み始めた。
第1章はオブジェクト指向のトレンドの話で、とても興味深く読んだのだが、同時に「なんでこれPerlで実装せなあかんの?」と疑問に思った。ていうかオブジェクト指向やりたいならJavaやC#でいいじゃん。
継承という基本的な概念もないし、コンストラクタなんかも用意されていない。ゆえに、MooseとかのCPANモジュールを使って実装しなければいけないのだけれど、その分敷居が高くなって初心者には判りづらい。初心者でも現場に投入できるような、強力なオブジェクト指向機構が用意されているJavaやC#といった言語、StrutsやASP.NETといったフレームワークなんかとは全然違う。
私はメインがPHPとASP.NET(C#)という人間で、Perlはバッチプログラムとかクローラの実装とか雑用処理なんかに使っている。PHPは小規模プロジェクトでアジャイルな開発がしたい時、ASP.NETは大規模プロジェクトに呼ばれた時用の懐刀という感じで使い分けている。PerlでWebサービスを作ることももちろん出来るけれども、どちらかというとスピードが優先される開発に用いるものだと思うし、OOPを用いた大規模なプロジェクトにPerlを使おうとする理由がよく判らない。無駄に難しいし、そもそも本書を読めるレベルでPerlを理解している人の頭数がかなり少ないだろうから、実装しても保守コストがやたらかかる。Livedoorやmixiやはてなのような大規模サイトはPerlで動いているようだが。。。
『モダンPerl入門』は内容も書き方も素晴らしい良書だけれど、その辺りが引っかかった。「PerlでOOPを使う理由(APS.NETやStruts+Javaを採用しない理由)」は何なのだろうか? 私のプログラマーとしてのスキルが低いだけだと思うが、よく判らないので誰か教えてくだしあ。教えてダンコーガイ!
拝啓。
一雨ごとに秋に向かって涼しくなる今日この頃、いかがお過ごしでございましょうか。
あなた様のご評判、ご高名はかねがね伺っております。
日曜技術者としての地位はもはや盤石といった具合にご確立なさっているようで、
未経験の身から技術者としてこの業界に足を踏み入れ1年あまり、
プライベートで何のサービスも提供していないわたくしにとりましては、
非常に輝かしい存在でございます。
そんな2:50じゃない方のあなた様へ、
わたくしがおそれおおくも今回筆をとらせていただきましたのは、
あなた様のご真意をはてな村の皆々様が取り違えているように思えたからに他なりません。
あなた様のおブログ等を
わたくしのような若輩者が大変おそれおおいながらも拝見させていただきますと
はてな村の皆々様は書いていないことは、存在も実現もしていない事象と受け取っていられるように思えてなりません。
わたくしが思いますに、これははてな村の皆々様の人の良さが如実に反映されている結果に見えてなりません。
おそらくわたくしが思いますに、2:50じゃない方のあなた様のようにはてな村の皆々様はお修羅場をくぐり抜けてはいないのでしょう。
この結果もたらしますのは、はてな村の皆々様からあなた様へのおdisでありましたり、
おdisエントリによりリンクされましたあなた様へのサービス、
そしてそれに由来したあなた様おブログへの不要なアクセスへとつながるのではないかと、
あなた様は日曜技術者として、お時間はご有用に使われるべきでありますので、
このようなはてな村の皆々様との不毛な争いに巻き込まれるべきではありませんし、
なによりウェブサービス、ことAPIに関しましては一家言お持ちになっているあなた様のことですから、
おGoogle様のおボットクローラ、おlivedoorのおブログサーバへの負担に関してはご本意ではないのでは、と思うのです。
いえ、この点はあなた様のおブログにあります各おエントリーを通読させていただいておりますわたくしとしては、
そうに違いないと確信している次第でございます。
そこでまことに恐縮ではございますがひとつご提案をさせて頂こうと存じます。
はてな村の皆々様より、あなた様へのなんの恩恵もうけないおdisを回避する方法といたしまして、
あったことをそのまま時系列順になんのご省略もなくおブログおエントリをお書きになられるようおつとめ願えませんでしょうか。
御心の広い、お器の大きいあなた様のことですので「おdisりあいも多少の縁」と、
お誤用も気にせず平然とおdisエントリのおトラックバックをお受けになられるやもしれませんが、
そのことのご対応により、あなた様の日曜技術者としてのお時間が失われることは、
わたくしをはじめとしたおウェブ住人にとりまして大変な損害になることもあわせてお考えくださいませ。
なにとぞ、あなた様のご体験なされましたことをお時系列順にお包み隠さずおエントリされることをお願い申し上げます。
敬具。
追伸。
先だってリリースされましたお顔にお落書きされるサービスなのですが、
大変気になっているところでございます。
別に大した事でも何でもない。とりあえずShareのクローラとしてこれを入れる。使い方はここが詳しい。
んで、対象となる2chのダウンロード板から、対象となるジャンルのスレッドを見つけ、常駐する(専用ブラウザの併用がオススメ)。
そのスレッドで何らかのファイルの放流が確認された場合、即座にクローラが蓄積しているデータベースから検索をかけ、
そのファイルを保有しているノードのIPアドレスを発見順にいくつかそのスレッドへ晒していく。
可能であれば、nslookupコマンドとか使ってリモートホストなんかも付け加える。
…というのを繰り返すと、P2P厨への嫌がらせ程度にはなるんじゃないかなーと思う今日この頃。
あの手の「職人」ってのは、自分が仕込んだファイルの反応を見るために2chのスレッドを見てるはずだしね。
またこの方法は、一度ルーチン化してしまえば、
一つのスレッドにつき、かかる時間はせいぜい十数分と低コスト(ただしクローラは常時稼働が望ましい)で、
一定期間続けていれば、特徴的な行動パターンを示す放流者(いわゆる「職人」って奴ら)ならば特定可能かも知れないという
副次的な効果も見込めると思われる(実際、こないだ逮捕されてた連中はそれで特定されたみたいだし)。
ただし、上記の手法は午後がヒマで死にそうな俺が15分で思いついた浅知恵なので効果は全く未知数だし、