2023-01-13

暇空茜応援団Webスクレイピングを導入していて更新監視している

Webスクレイピングツール一般であまり認知されていないが、Webを中心としたIT界隈では常識的ツールであり、端的に言えば登録したWebページを巡回更新監視するツールである

似たようなものRSSAtomフィードリーダーなどが存在するものの、Webスクレイピングツール業界共通認識としては、監視するWebページにRSSAtomフィードが無くともWebページ情報差異過去現在計算し、変更の閾値を超えたWebページの更新を通知し、そして保存できるというものである

変更の閾値という処理が挟まれ理由として、広告などを代表例にWebページ閲覧時の更新の度に変化する可能性があるため1%でも更新が通知されると更新の通知が膨大となるため些細な変更を無視するためだ。

もしWebスクレイピングツール更新されているページにPDFJPEGなどのバイナリファイル存在したとしても、PDFJPEGなどのバイナリファイル存在したとき多くの場合Diffと呼ばれる差分検出ツールを用いてバイナリファイル単位で変更があったかどうかを監視している。

Colaboなど現代の多くの団体Web活用して運営されているため情報Webを介して告知するので、暇空茜応援団はそれを逆手に取り情報更新監視している。

暇空茜応援団が即座にWeb情報更新へ反応するのはこういった背景があるのだ。

逆に言えばWebページの更新を秒間で行うなど更新通知を飽和させるカウンターなどを想定できるが、閾値を変えればその様なカウンター手法無視できるため意味がないし、特定キーワードだけ抽出することも可能なので無駄リソースとなるため無駄である忠告しておきたい。

  • じゃあホームページを更新しなければ良いんじゃね?

    • Colaboは自分自身で公告はWebでやるって言ってるんだよなぁ 自分で作ったルールなので守らないわけにはいかない 暇空茜応援団はそれをわかっていてWebスクレイピングしてる この点に関...

  • ネットストーカーそこまでやってんのか

    • これをネットストーカーと呼ぶかは立場によるところだろうけど、Webスクレイピングツール自体を悪だって言い始めるとGoogleとかYahooは成立しなくなるので注意が必要だ まぁ個人的にはWe...

  • 更新を監視されてなにか不都合があるんですか?

  • どっち派とか関係なく技術者の立場から言うとrobots.txt内にサイトに対するスクレイピングのルールを定義できるんだからこんなこといってたら笑われるぞ

    • それを守るか守らないかは巡回者の良心によるなんて当たり前の話じゃないか何を言ってるんだ

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん