Webスクレイピングツールは一般であまり認知されていないが、Webを中心としたIT界隈では常識的なツールであり、端的に言えば登録したWebページを巡回し更新を監視するツールである。
似たようなものにRSSやAtomフィードリーダーなどが存在するものの、Webスクレイピングツールの業界共通認識としては、監視するWebページにRSSやAtomフィードが無くともWebページ情報の差異を過去と現在で計算し、変更の閾値を超えたWebページの更新を通知し、そして保存できるというものである。
変更の閾値という処理が挟まれる理由として、広告などを代表例にWebページ閲覧時の更新の度に変化する可能性があるため1%でも更新が通知されると更新の通知が膨大となるため些細な変更を無視するためだ。
もしWebスクレイピングツールで更新されているページにPDFやJPEGなどのバイナリファイルが存在したとしても、PDFやJPEGなどのバイナリファイルが存在したとき多くの場合Diffと呼ばれる差分検出ツールを用いてバイナリファイル単位で変更があったかどうかを監視している。
Colaboなど現代の多くの団体はWebを活用して運営されているため情報をWebを介して告知するので、暇空茜応援団はそれを逆手に取り情報更新を監視している。
暇空茜応援団が即座にWeb情報の更新へ反応するのはこういった背景があるのだ。
逆に言えばWebページの更新を秒間で行うなど更新通知を飽和させるカウンターなどを想定できるが、閾値を変えればその様なカウンター手法を無視できるため意味がないし、特定のキーワードだけ抽出することも可能なので無駄なリソースとなるため無駄であると忠告しておきたい。
じゃあホームページを更新しなければ良いんじゃね?
Colaboは自分自身で公告はWebでやるって言ってるんだよなぁ 自分で作ったルールなので守らないわけにはいかない 暇空茜応援団はそれをわかっていてWebスクレイピングしてる この点に関...
ネットストーカーそこまでやってんのか
これをネットストーカーと呼ぶかは立場によるところだろうけど、Webスクレイピングツール自体を悪だって言い始めるとGoogleとかYahooは成立しなくなるので注意が必要だ まぁ個人的にはWe...
更新を監視されてなにか不都合があるんですか?
どっち派とか関係なく技術者の立場から言うとrobots.txt内にサイトに対するスクレイピングのルールを定義できるんだからこんなこといってたら笑われるぞ
それを守るか守らないかは巡回者の良心によるなんて当たり前の話じゃないか何を言ってるんだ