「DERBY」を含む日記 RSS

はてなキーワード: DERBYとは

2018-04-06

[]2018年4月5日木曜日増田

時間記事文字数文字数平均文字数中央値
0096864290.034
01649338145.939.5
02354877139.362
03456922153.856
04131591122.466
05122232186.069
06161889118.189
0736316087.872.5
0883530964.043
09120755863.046.5
109910489105.957
1114719894135.348
121301073982.653.5
13121894373.952
141261215796.548
151421121579.049
161661338880.747.5
17107906084.746
189910436105.448
191701485487.437
201561360687.243.5
2116217179106.041.5
2211713990119.646
231641268877.443
1日242623015694.946

頻出名詞

人(232), 自分(146), 女(122), 増田(104), 話(99), https(97), 男(91), 女性(89), com(80), ー(77), 問題(76), 今(73), 相撲(70), 日本(70), 人間(66), 仕事(58), 感じ(57), en(57), 普通(56), community(56), us(56), hc(56), posts(56), 子供(53), 前(53), 土俵(50), 好き(50), 気(49), 男性(47), 関係(44), 社会(43), 相手(42), 時間(42), 頭(41), 禁制(41), 今日(41), 同じ(40), 意味(40), あと(39), 革靴(36), 目(35), 会社(35), ネット(35), 気持ち(35), 女人(35), 差別(34), 手(34), こんな(33), ~(33), 必要(32), 一番(32), 結婚(31), 他人(31), 顔(30), 靴(29), 金(29), http(28), www(28), 絶対(28), 世界(28), 最近(28), 無理(28), help(27), 存在(27), 嫌(27), 場合(27), 個人(26), 周り(26), 理由(26), 宗教(26), 企業(25), zendesk(25), 結局(25), 足(25), 理解(25), 人生(25), 話題(24), 他(24), 昔(24), 記事(24), バカ(23), 言葉(23), 女子(23), otoy(23), ダメ(22), 逆(22), いいん(22), 一つ(22), 興味(22), おっさん(21), 結果(21), 大学(21), 生活(21), レベル(21), 友達(21), 全部(21), 日本人(21), 上(20), 今回(20), アホ(20)

頻出固有名詞

増田(104), 日本(70), help(27), 日(19), appointuit(19), 宝塚(14), 東京(13), キモ(13), GRATIS(12), GUARDA(12), アメリカ(11), ROMA(10), note(10), BARSELONA(9), Online(8), チリ(8), Vivo(8), MILAN(8), En(7), DERBY(7), Ver(7), 安倍(7), twitter(7), INTER(7), HD(7), 中国(6), Barcelona(6), 関西(6), Twitter(6), cobinhood(6), ST(6), REAMING(6), BEivo(5), ユダヤ(5), 宝塚歌劇団(5), PRIJENOS(5), リー(5), support(5), wiki(5), DIREKTAN(5), Liverpool(5), City(5), ONLINE(5), 京都(5), Gledajte(5), イスラム教(5), ガル(5), ASL(5), 上野(5), Manchester(5)

2012-03-24

簡単なクローラ作るならPythonだよ!

http://d.hatena.ne.jp/nishiohirokazu/20120323/1332504404

最近Webクローラクライアントを作るお仕事が増えた。WebクローラクライアントというのはHTTP(S)を介して様々なファイルダウンロードして解析し、結果を溜め込むだけのプログラムであるボットともいう。

クローリングの規模が大きくなると、クロール処理部と結果貯蓄部を分離する必要がある。クローラには様々なものがあるが、ものによっては特定のサーバに集中的にクローリングを行うこともある。このとき、1つのIPを使って集中的にクローリングを行うと、攻撃とみなされ一瞬でbanされてしまう。そこで、一見するとまったく関係なさそうなIPを複数確保し、それぞれにクローラーを仕掛けて走らせるのである

結果貯蓄部は、要するにデータベースサーバであり、何を使用しても良い。クロール処理部とのやりとりに使用するプロトコルRDB依存プロトコル(MySQL Socketとか)でもHTTPでもなんでもいいが、とにかくクロール処理部が解析した結果を随時溜め込めるようにしなければいけない。逆に言うと、まぁ、口さえできるのであれば何を使用しても良い。

問題は、クロール処理部に何を使用するかである。おおまかな要件は次の通りである

これらの要件を満たそうとすると、ぶっちゃけJavaPythonくらいしか選択肢が無い。

JavaPython
HTTP(S)HttpURLConnectionかApache HTTP Clienturllibかurllib2
環境依存Write once, run anywhere (VM最初からインストールされてるのはSolarisくらいのものだが、どんなOSでも大体はすぐインストールできる)UNIXであればほぼ標準で入ってる、Windowsインストーラも用意されている
キャッシュ機能JDK6にDerby標準搭載Python 2.5からsqlite3標準搭載

JavaPythonの違いは山ほどあるが、簡単なことをやらせるだけならPythonJavaよりも使用メモリが少なくなりがちなので、そういう場面であればPythonは(現時点においては)最強の座に君臨すると考えられる。

余談であるが、私が本当に好きなのはPerlであり、

という条件下であれば何の迷いもなくPerlを使っていたであろう。畜生

 
ログイン ユーザー登録
ようこそ ゲスト さん