2012-08-23

インターネットアーカイブキャッシュ保管率は、せいぜい10~20%程度】

http://q.hatena.ne.jp/1344478346

に一部書いたが、13年前からコツコツと作っていたホームページのうち、

半分のサイトを、Hoopsという無料HPサービスで構築していた。

(もう半分はGeocitiesで構築)

Hoopsはその後楽天インフォシークサービス継承したが、

2010年に楽天は突然無料HPサービスiswebライト)の停止を宣言した。

※因みに、間もなく有料サービスiswebまでも停止を宣言する。

 ウェブアーカイブに対する楽天三木谷の無理解ぶりには唖然とするし、

 この一件のせいで、自分の中で、楽天は「嫌いな企業ワースト3」に入ってしまっている。

サイト常連から、「早く復旧してくれ」の要望が多かったのだが、

いかんせん、消失したページ数が1,000頁近く、

ファイル容量40MB近くなので、都度都度アップするのは非常に困難。

そこで思いついた「迷案」が、

インターネットアーカイブ ウェイバックマシンに保管されているキャッシュページへの

 リンクを掲載することで、消失ページの代替とする」ことだった。

しかし、この迷案は、結局名案じゃなく迷案に留まった。

結論から言えば、ウェイバックマシンキャッシュ保管率は、

せいぜい10~20%程度でしかなかったのである

※結局、残り80~90%については、

 自宅PCキャッシュを「はてなダイアリー」にアップせざるを得なく、今日時点で半分程度の復旧率。

ネットを見渡しても、

インターネットアーカイブが、どれ位の割合キャッシュを保管しているのか?」という

レポート殆ど存在していない。

なので当初、自分は「キャッシュをほぼ100%保管しているだろう」と思い込んでいたのだが、

どうやらそうではないらしい。

1,000頁近くのサイトについて、都度都度「インターネットアーカイブに保管されているか?」を

地検証した人は、恐らく日本では自分しかいないのではないか

折角なので、「インターネットアーカイブはどういうページを保管しているか?」等について、

将来、他の人の参考になるように、傾向をレポートしておく。

1.「他サイトからリンクされているページ」の保存率は高い

  恐らく、他サイトからロボットがやってくるから、と思われる。

2.インターネットアーカイブキャッシュは2001年と2004年に多い

  これは自分のページだけかもしれないが、この頃のキャッシュ結構ヒットする。

  逆に言えば、2005年にアップしたページの保存率は低い。

  感覚論だが、2004年以前にアップされたページのキャッシュ保管率は70~80%、

  2005年以降にアップされたページのキャッシュ保管率は5~10%程度である

3.2009年以降は、殆どキャッシュされていない。

  一説には、

  「2009年以降については、アーカイブ財団側の作業が間に合ってないため、キャッシュ公開に時間がかかるから

  とか

  「著作権の問題があるので、ここ数年のキャッシュについては、アーカイブ財団側が意図的に公開を遅らせている」

  との情報があるが、真偽は不明。

  少なくとも、自分HPを見る限り、2009年以降でキャッシュされたケースはレア

  (保管率1~2%程度?)

4.ページランクが高いページは保存されやすい。

  自分サイトのケースだと、

  「鉄コの部屋」という鉄道コラムサイト比較的保存されているが、

  「コーヒーブレーク」という一般的なコラムサイトは保存率が良くない。

  恐らく、「鉄コの部屋」のページランク比較的高かったことが影響していると思われる。

  • 増田がどれほどの知識あって書いてるのかも、文旨もさっぱり解らないのだが Internet Archiveはインターネットの歴史を蓄積研究するための物で 別段、全部を蓄積する義務あるなんてもん...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん