2008-01-18

はてなブックマークの収集スクリプトを書いてみた

ので、その結果を貼ってみます。とりあえず、はてなブックマークが始まってから1ヶ月(2005/2/10〜2005/3/9,1033エントリ)の、ブックマーク数によるベスト10を出しました。

ここで皆さんにお願いがあるのですが、今回のベストX以外にどういう観点でデータを抽出したら良いか(どういう一覧がほしいか)、コメントをいただけませんか?データは集めてみたものの、活用方法に困ってます。

1位:Ajax: Web アプリケーション開発の新しいアプローチ
2位:Google検索コマンドと演算子一覧/Web検索! メタサーチ/
3位:Wikipedia
4位:Google
5位:通知表の所見欄に書きたいけど書けない(性格を表す)言葉を書きかえる一覧表
6位:正しい知識を得たい人の爲のCSS2リファレンス
7位:Jess : Automated Japanese Essay Scoring System
8位:窓の杜 - 【特集】「Firefox」プラグイン特集 第1回
9位:ITmedia
10位:スラッシュドット ジャパン

====================

でした。

当時はまだ「有名サイトトップページにとりあえず貼っておく」みたいな使われ方をしていますね。ブックマークをどう使うか、というスタイルを探していたんでしょうか。

ちなみにこのときのキーワード出現回数のベスト20は

b:keyword:コンピュータ(330回)」「b:keyword:ウェブ(321回)」「b:keyword:一般(147回)」「b:keyword:はてな(77回)」「b:keyword:Google(67回)」「b:keyword:サイエンス(47回)」「b:keyword:blog(42回)」「b:keyword:ゲーム(41回)」「b:keyword:Internet Explorer(33回)」「b:keyword:はてなブックマーク(31回)」「b:keyword:RSS(30回)」「b:keyword:Microsoft(30回)」「b:keyword:JavaScript(29回)」「b:keyword:読書(28回)」「b:keyword:iPod(25回)」「b:keyword:firefox(25回)」「b:keyword:Apple(24回)」「b:keyword:ニッポン放送(23回)」「b:keyword:サービス(23回)」「b:keyword:音楽(20回)」

で、タグベスト20は

b:t:web(88回)」「b:t:blog(65回)」「b:t:ネタ(59回)」「b:t:news(49回)」「b:t:はてな(42回)」「b:t:it(33回)」「b:t:hatena(33回)」「b:t:社会(30回)」「b:t:ニュース(28回)」「b:t:neta(27回)」「b:t:misc(26回)」「b:t:ajax(26回)」「b:t:tool(25回)」「b:t:software(24回)」「b:t:tips(23回)」「b:t:javascript(23回)」「b:t:ブログ(22回)」「b:t:まとめ(21回)」「b:t:livedoor(20回)」「b:t:google(20回)」

でした。当時から「ネタタグって多かったんですかね(タグキーワード現在の付与状況しか分からないので、当時の本当の状態が分からない)。

  • ごめんなさい。「現在までのランクイン回数」はウソで、収集した期間でのランクイン回数を表しています。

  • どこらへんのデータまでクロールしたの? DBにつっこんだんだったら頻出ドメイン意外のという条件もつけてほしいな。

  • > どこらへんのデータまでクロールしたの? > DBにつっこんだんだったら頻出ドメイン意外のという条件もつけてほしいな。 集めたのは「過去の人気エントリ」だけで、今はまだRuby...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん