「クローラ」を含む日記 RSS

はてなキーワード: クローラとは

2010-09-02

http://anond.hatelabo.jp/20100902161406

まったくもってナンセンス。話の桁が違いすぎる。

大域ってテキスト情報の大域なんざ静止画の数百分の一も食わない。音声通話の数万分の一も食わない。動画の百万分の一も食わない。

同様の事を千人でやっても大域に関してはまったく問題が無いという話をしてるんだ。

TCPコネクションにしてもたとえばMicrosoft.comは毎秒平均7000~9000回もの攻撃を受けていると言われる。

Librahack氏は毎秒一回ではなく、アクセス毎に1秒のウェイトを入れていた。瞬時の返答があった場合の最高1回/secに過ぎない。

これが、どんだぇ少ないアクセス頻度だか。HTTPコネクション数に限って言えば100人クローラ使ったとしても中古パソコンで裁ける程度の話。

バックエンドDBがあってもそう。オラクル使っといて一人当たり数万アクセス程度でこけるとか無駄遣いもいいところ。

今回の状況って、個人用に図書館目録作りたいんですとかいって図書館の全部の棚の前にびっしり大量の人がはりついて他の人が棚使えなくなってるような状況と一緒でしょう。

鳴門海峡に割り箸千本さしたら海流が止まってしまったというぐらいナンセンス常識的に考えてちっとも大量の人ではない。

ご自由におとりくださいと書いてある店のチラシを1人で無意味にごっそり全部持っていくようなもんだよね。

りあるリソースの占有ではない。チラシをとろうとしたら突然床が抜けて屋根が落ちてきたようなもの。

何度も何度もシステム落としてるんだから空気読めって話じゃん。

まさかこの程度で落ちるわけないし、適切なエラーが返ってこないし、どうなってるんだ?と思っていたら逮捕されました。あまりに理不尽

そんだけ負荷をかけたいなら対応コスト費用分ぐらい寄付しなよ。

三菱税金ぼったくって、図書館税金無駄づかいを知らん振りの怠慢。まともに作れば落ちるようなアクセス頻度ではない。

ビジーも伝えずダウンしといて、エラー返せる余裕も無いほどのDOS攻撃だったなどとは笑止千万

http://anond.hatelabo.jp/20100902161406

システム不具合が無ければ1秒1アクセスぐらい余裕でさばけたはず。全ての利用者がそういうアクセスをしたらまずいかもしれないけど。

っていうか、1分数回でもcookie食べないと同じトラブルは起きるんじゃないか?だから確かgoogleクローラ弾いてたんでしょ?

岡崎市立中央図書館には結局クロールして良いの?

今後は岡崎市立中央図書館ウェブサイトクローラアクセスしてよいの?

wgetしちゃっていいの?

波乗野郎しちゃっていいの?

岡崎市立中央図書館はLibrahack氏に謝れよ。本当に。

平成十七年(2005)の設計だから想定していなかったって阿呆ですか。

波乗野郎の発売は1996年だ。wgetもその頃からある。この時点で庶民にクローラ需要があったんだぞ。

俺だって十年前から自動巡回も一括取得も当たり前にやってた。

品質製品を発注してしまった責任を取りたくないから認められないのか?

三菱から見返りでももらっていたのか?

合法だけど迷惑行為だったとでも言いたいようだが、迷惑を受けたのは逮捕された側だっての。

今まで落ちなかったのは、たまたまそうやって利用されていなかっただけだろ。

利用者の方におかれましては、情報収集のために使われる手段が、他の利用者に迷惑をかけていないかどうかについて、ご配慮をお願いいたします。

同時1コネクション限度でアクセス毎に1秒ウェイトは十分すぎるほど配慮してるじゃないか。

何百メガバイトものファイルを大量に落としたわけでもない。

頻度も大域も1万円の中古パソコンでもさばける程度のアクセスしかしてないじゃないか。

この図書館は最悪だな。こんなだから逮捕者まで出してしまったんだ。

三菱も悪いが図書館の態度も大きな原因だろう。無知でしたとか言う次元じゃない。

こんな図書館だから、こんな商品発注して、この有様なんだとしか言いようがない。

2010-04-02

メッセサンオー個人情報流出か!? エロゲ購入者リストgoogleキャッシュ

ttp://blog.livedoor.jp/insidears/archives/52275810.html

596 名前: 彫刻刀(アラバマ州)[] 投稿日:2010/04/01(木) 23:28:42.47 ID:PRQmTyUx

このコラボ半端ねえな・・

Googleクローラ + GoogleCache + Googleストリートビュー

628 名前: 薬さじ(埼玉県)[] 投稿日:2010/04/01(木) 23:29:26.50 ID:zcEdQIgm

»596

おっかねえ時代だw

679 名前パステル(アラバマ州)[] 投稿日:2010/04/01(木) 23:30:42.19 ID:9qqh1Kjl

»596

グーグル先生鬼畜過ぎる

2009-12-22

魔女狩りの聖夜に

id:HiromitsuTakagiが遂にWinnyネットワーク観測・閲覧ツールNyzillaをリリースする。

Nyzillaの特徴


Winny開発者である金子勇の著書では以下の様に書かれている(この文章はHiromitsuTakagiも引用している)。

しかしWinnyの場合、通信相手は不特定であり、Winnyプロトコルを使う誰もが通信相手になれます。たとえば、Winnyプロトコルを真似てWinnyノード接続するようなプログラムの作成ができれば、接続相手のキャッシュファイルを観察することも可能です。このため、たとえどんなに強い暗号方式で通信内容を暗号化したとしても、通信相手は解読可能であり、通信内容は隠しようがありません。

また、Winnyキャッシュファイルは、そもそも公開されているデータと考えるべきです。

金子勇著「Winnyの技術」p.151より

要するに、Winnyネットワークに入れるソフトウェアさえ持ってれば、そこでやり取りされてる情報は筒抜けだよ、と言うことだ。

Winny自体にはない機能だが、特定のIPアドレスでどんな情報をやり取りしてるかと言う事も、全部駄々漏れなのだ。

元々駄々漏れしている情報見える化するだけなのだから、何の問題もなかろう。

そもそも、見られて困る様な事をしている方が悪いのだ。

本当にそうか?

駄々漏れている情報なら晒して良いと言うスタンスであるならば、RFIDタグBluetoothによる追跡のプライバシー問題を取り上げていたのは何だったのか。

単に駄々漏れている「仕様」が問題だ、と言うだけなのか。

だとしても、Winny仕様を叩けば良いのであって、特定のIPアドレスで何をやり取りしているかを晒すツールを公開する理由にはならない。

RFIDタグBluetoothの問題を語る時に、追跡ツールを公開していないのと同じだ。

システムの問題を語る為に、個人を攻撃する凶器を放流する必要は無い。

HiromitsuTakagiの意図がどうであれ、Nyzillaが公開されれば、個人を攻撃する為に利用する輩が出てくるだろう。

必ず、出るだろう。

IPアドレスさえ判れば良いのだから簡単だ。

mixiアプリが始まって、今やmixiアクセスだって足跡と組み合わせてIPアドレスが取得できる。

気に入らないコメントをつけた奴とか、ID知られちゃって仕方なくマイミクにした上司とか。

偉そうな事言ってるけど、Winnyでこんなファイル流してるじゃねーか、と。

攻撃の為に使う人間にとってはIPアドレスが可変だとか、IPアドレスユーザじゃないとか、そんな事はどうでも良い。

むしろ、全く無関係のWinnyユーザIPアドレスバッティングしてくれた方が都合が良い位だ。

架空請求詐欺にも利用出来るかも知れない。

未だに1クリック詐欺に引っかかる人が居る位だ。

「貴方の家の息子さんが著作権侵害を行っている証拠です」とか言われて往生する人も出て来るだろう。

或いは、悪意を持った攻撃者でなくても、単純な好奇心で知人のIPアドレスの利用状況を見てみる人だって居るだろう。

そこで運悪くIPアドレスバッティングが起きたらどうするのか。

知識のある専門家がその技術を使うのと、知識のない素人技術だけ使えてしまうのとでは、引き起こされる結果は全く違うものになるだろう。

ソフトウェアは一度公開されてしまえば、もう止められない。

Winnyネットワークが止まらないのと同じだ。

HiromitsuTakagiの意図がどうかなど知らない。

だが、Nyzillaの公開は今までのセキュリティプライバシー問題に対する言動とは明らかに次元が異なる。

その行動は「Winny違法行為やってる様な奴は叩いて良い」と言う倫理観に基づいている様に見える。

倫理観と言えば聞こえが良いが、要は私刑だ。

個人的には「Winny違法行為やってる様な奴なんかどうなろうが知らん」が、そんな攻撃に巻き込まれるのはお断りだ。

真っ平ごめんだ。

Nyzillaの公開は12/23だと言う。

クリスマスを前に魔女狩りが始まる訳だ。

これだけは言っておく。

最初に「魔女が居るぞ」と叫んで火を放ったのはid:HiromitsuTakagi、君だ。

今後何が起ころうと、Nyzilla公開によって起きる全ての責任id:HiromitsuTakagi、君にある。

さて、増田諸氏よ。貴方達はどうする?

火を手に掲げて、魔女を探しに行くのか

降りかかる火の粉を恐れ、謂れのない糾弾に慄くのか

どちらでも好きにすれば良い。

2009-02-19

モダンPerl入門』を第1章だけ読んだ

巷のPerl Mongerな人たちの間で話題の『モダンPerl入門』を読み始めた。

第1章はオブジェクト指向トレンドの話で、とても興味深く読んだのだが、同時に「なんでこれPerlで実装せなあかんの?」と疑問に思った。ていうかオブジェクト指向やりたいならJavaC#でいいじゃん。

Perl5には本格的なOOPの仕組みが実装されていない。

継承という基本的な概念もないし、コンストラクタなんかも用意されていない。ゆえに、MooseとかのCPANモジュールを使って実装しなければいけないのだけれど、その分敷居が高くなって初心者には判りづらい。初心者でも現場に投入できるような、強力なオブジェクト指向機構が用意されているJavaC#といった言語StrutsASP.NETといったフレームワークなんかとは全然違う。

私はメインPHPASP.NET(C#)という人間で、Perlバッチプログラムとかクローラの実装とか雑用処理なんかに使っている。PHPは小規模プロジェクトアジャイルな開発がしたい時、ASP.NETは大規模プロジェクトに呼ばれた時用の懐刀という感じで使い分けている。PerlWebサービスを作ることももちろん出来るけれども、どちらかというとスピードが優先される開発に用いるものだと思うし、OOPを用いた大規模なプロジェクトPerlを使おうとする理由がよく判らない。無駄に難しいし、そもそも本書を読めるレベルPerlを理解している人の頭数がかなり少ないだろうから、実装しても保守コストがやたらかかる。Livedoormixiはてなのような大規模サイトPerlで動いているようだが。。。

モダンPerl入門』は内容も書き方も素晴らしい良書だけれど、その辺りが引っかかった。「PerlOOPを使う理由(APS.NETStruts+Java採用しない理由)」は何なのだろうか? 私のプログラマーとしてのスキルが低いだけだと思うが、よく判らないので誰か教えてくだしあ。教えてダンコーガイ

2008-10-09

拝啓、2:50じゃない方のあなた様へ。

拝啓。

一雨ごとに秋に向かって涼しくなる今日この頃、いかがお過ごしでございましょうか。

あなた様のご評判、ご高名はかねがね伺っております。

日曜技術者としての地位はもはや盤石といった具合にご確立なさっているようで、

経験の身から技術者としてこの業界に足を踏み入れ1年あまり、

プライベートで何のサービスも提供していないわたくしにとりましては、

非常に輝かしい存在でございます。

そんな2:50じゃない方のあなた様へ、

わたくしがおそれおおくも今回筆をとらせていただきましたのは、

あなた様のご真意をはてな村の皆々様が取り違えているように思えたからに他なりません。

あなた様のおブログ等を

わたくしのような若輩者が大変おそれおおいながらも拝見させていただきます

はてな村の皆々様は書いていないことは、存在も実現もしていない事象と受け取っていられるように思えてなりません。

わたくしが思いますに、これははてな村の皆々様の人の良さが如実に反映されている結果に見えてなりません。

おそらくわたくしが思いますに、2:50じゃない方のあなた様のようにはてな村の皆々様はお修羅場をくぐり抜けてはいないのでしょう。

この結果もたらしますのは、はてな村の皆々様からあなた様へのおdisでありましたり、

disエントリによりリンクされましたあなた様へのサービス

そしてそれに由来したあなた様おブログへの不要なアクセスへとつながるのではないかと、

浅薄な知識ながらにわたくしは杞憂しております。

あなた様は日曜技術者として、お時間はご有用に使われるべきでありますので、

このようなはてな村の皆々様との不毛な争いに巻き込まれるべきではありませんし、

なによりウェブサービス、ことAPIに関しましては一家言お持ちになっているあなた様のことですから、

Google様のおボットクローラ、おlivedoorのおブログサーバへの負担に関してはご本意ではないのでは、と思うのです。

いえ、この点はあなた様のおブログにあります各おエントリー通読させていただいておりますわたくしとしては、

そうに違いないと確信している次第でございます。

そこでまことに恐縮ではございますがひとつご提案をさせて頂こうと存じます。

はてな村の皆々様より、あなた様へのなんの恩恵もうけないおdisを回避する方法といたしまして、

あったことをそのまま時系列順になんのご省略もなくおブログエントリをお書きになられるようおつとめ願えませんでしょうか。

御心の広い、お器の大きいあなた様のことですので「おdisりあいも多少の縁」と、

誤用も気にせず平然とおdisエントリのおトラックバックをお受けになられるやもしれませんが、

そのことのご対応により、あなた様の日曜技術者としてのお時間が失われることは、

わたくしをはじめとしたおウェブ住人にとりまして大変な損害になることもあわせてお考えくださいませ。

なにとぞ、あなた様のご体験なされましたことをお時系列順にお包み隠さずおエントリされることをお願い申し上げます。

敬具。

追伸。

先だってリリースされましたお顔にお落書きされるサービスなのですが、

あの写真モデルになられている方はどなたなのでしょうか。

大変気になっているところでございます。

2008-05-20

Share」でアニメとかを放流してる奴らへの嫌がらせ

別に大した事でも何でもない。とりあえずShareクローラとしてこれを入れる。使い方はここが詳しい。

んで、対象となる2chダウンロード板から、対象となるジャンルスレッドを見つけ、常駐する(専用ブラウザの併用がオススメ)。

そのスレッドで何らかのファイルの放流が確認された場合、即座にクローラが蓄積しているデータベースから検索をかけ、

そのファイルを保有しているノードIPアドレス発見順にいくつかそのスレッドへ晒していく。

可能であれば、nslookupコマンドとか使ってリモートホストなんかも付け加える。

…というのを繰り返すと、P2P厨への嫌がらせ程度にはなるんじゃないかなーと思う今日この頃

あの手の「職人」ってのは、自分が仕込んだファイルの反応を見るために2chスレッドを見てるはずだしね。

またこの方法は、一度ルーチン化してしまえば、

一つのスレッドにつき、かかる時間はせいぜい十数分と低コスト(ただしクローラは常時稼働が望ましい)で、

一定期間続けていれば、特徴的な行動パターンを示す放流者(いわゆる「職人」って奴ら)ならば特定可能かも知れないという

副次的な効果も見込めると思われる(実際、こないだ逮捕されてた連中はそれで特定されたみたいだし)。

ただし、上記の手法は午後がヒマで死にそうな俺が15分で思いついた浅知恵なので効果は全く未知数だし、

2chスレッドにそういったIPアドレスを公開する事の是非や賛否やリスクまではよく分からんので実行するなら自己責任で。

ログイン ユーザー登録
ようこそ ゲスト さん