> DBにつっこんだんだったら頻出ドメイン意外のという条件もつけてほしいな。
集めたのは「過去の人気エントリ」だけで、今はまだRubyスクリプト内のオブジェクトとしてデータを持たせています(1年ぶんで4.5MB程度)。各日付のHTMLをパースして、エントリごとのデータをまとめた、というレベルです。
大したデータサイズではないので、オンメモリで持たせてしまっています(いや、正確にはまだRubyを学び始めたばかりで、DBの取り扱い方法を知らない)。
「頻出ドメイン以外」というリクエストですが、たとえばドメインの上位n個までに該当するエントリを、さっきのランキングから外すみたいなイメージで合っていますか?それなら何とかなりそうです。
ので、その結果を貼ってみます。とりあえず、はてなブックマークが始まってから1ヶ月(2005/2/10〜2005/3/9,1033エントリ)の、ブックマーク数によるベスト10を出しました。 ここで皆さん...
> どこらへんのデータまでクロールしたの? > DBにつっこんだんだったら頻出ドメイン意外のという条件もつけてほしいな。 集めたのは「過去の人気エントリ」だけで、今はまだRuby...
ごめんなさい。「現在までのランクイン回数」はウソで、収集した期間でのランクイン回数を表しています。
どこらへんのデータまでクロールしたの? DBにつっこんだんだったら頻出ドメイン意外のという条件もつけてほしいな。