はてなキーワード: クロールとは
ばっかお前、20年前はネットのどこで(といってもメーリングリストかニュースグループしかなかった)何をどうつぶやいても実名丸出しでガチの罵声が返ってくる状況だったんだぞ。マジ「汚物は消毒だ~!」の時代。今の方がよっぽど温いわ。
インターネットがそんな「何を言っても許される場所」だったのはほんの数年に過ぎないってことを自覚するべき。ネットの歴史からすれば、非常に例外的というか特異的な時期に過ぎない。
あと10年前はもうgoogleの超広範囲クロールが実用化されてたんで、何を言っても許されたのはもうちょっと前、2000年ごろまでだと思うなー。
Webシステムとは縁遠い事務職のリーマンが、ある日思い立って、ニッチな用途の検索エンジンサービスを作ってみたので、ちょっと書いてみようと思います。
ちなみに、検索エンジンといっても、googleカスタム検索とかのお茶濁し系じゃなくて、apache Solrというオープンソース検索エンジンを、VPS上で動かしているという、それなりに本
気度の高いものです。
なんで素人がそんな物騒なものを動かす羽目になったかは、後述。
やりたい構想みたいなことを思いついたのは、もう6、7年前ほど前のこと。初めて独り暮らしを始めたときに、ひどく不便を感じたことがあり、こんなサービスがあったら便利だなあ、
ちなみにその妄想をふと高校の同期に話したとき、そのサービスはどこにあるのか?!と、えらくがっつかれたのを、覚えてます。まあ、俺と同じく偏執狂の奴だったからだと思います
が。
ただ、しがない事務職リーマンということもあり、当然、技術も無く、そのときは、やるならこんな名前のサービス名だろうなあ、とか、そんな妄想レベルで、話は終わっていました。
そんな感じで、5年ほど月日は経ち、なんとなくリーマン人生の流れも見えてきたところで、以前、妄想していたことを、ふと思い出しました。
5年も経ったら、さすがに自分が考えたようなこと、誰かがやっているだろうと調べてみたところ、意外なことに、競合になるようなサービスは存在せず。ちょうど異動があって、少し時
間が出来たこともあり、じゃあ、着手してみようかと思い立ちました。
やりたいことは、大手サイトの情報検索。ただ、商品ページ内の特定情報、それも、商品ごとに正規化されていない表記を、正規化して抽出する必要があったので、大手サイトの既設API
だけではとても実現不可能でした。
まあ、だからこそ、5年間、誰もやろうとしなかったんでしょうが。
ということで、とても一発では解決できなさそうな内容だったので、自分でなんとか実現できそうな機能に細分化して、各個撃破していくことにしました。
随分と考えた結果、
以上に区分できると考えて、これらを各個撃破していくこととしました。
また、技術もなく、プログラミングも出来ず、ましてやlinuxサーバのお守りをしたことなんて当然ないので、インターネット上に置くサーバですべての処理を完結させるのではなく、イ
ンターネット上に置くリソースは最小限に留め、できる限り、勝手がわかる自宅のwindowsパソコンで処理を行うことにしました。
ちなみにさらっと結論だけ書いてますが、ここまで至るまでに、いろいろと調べ続たり、考え込んだりしていたので、思い立ってから3ヵ月は掛かってます。。。
さて、やる方針を決めたあと、はじめに着手したのは、要の検索エンジンサーバです。
いろいろとググって調べて、mySQLというやつか、apache Solrというやつかに絞りましたが、結局、Solrを使うことにしました。
MySQLのほうが実績は多そうだったのですが、Solrのほうが検索専門で、滅茶苦茶動作が速いらしいということ、MySQLでも出来るが特に速度が遅いらしい全文検索機能も使いたかったこ
と、あとファセット機能がジャンル絞りこみに便利に使えそうだったので、というのが理由です。
ちょうどSolr本が発売されていたこともあり、それを参考に、自分が使うように設定ファイルを変更していきました。
しかし、初めは設定ファイルの内容も意味不明な上に、私の書き方も雑なのか、少しいじっただけでまったく動かなくなる。結局、設定ファイルを一文字ずつ変更しては動作検証、とい
った始末で、進捗は地を這うよう。ある程度思い通りにSolrを扱えるようになるまで、3ヵ月以上掛かったでしょうか。。。
さらに、検索エンジンのフロントエンド(Solrの検索結果を、htmlに変換するプログラム)も書かなければならない。プログラミングが出来ない人間には、これが本当に辛かった。
Solr本に、いろんなプログラミング言語でサンプルがあったのですが、迷った末に、わずか数行なら書いた(≒コピペした)経験があるという理由で、javascriptを苦渋の選択。
しかし、選択はしてみたが、基礎が本当に無いから内容がサッパリ頭に入ってこない。こちらも、わかるところから本当に1文字ずつ変えていくといった手探り状態。
プログラミングについては、今回のためだけだから、といった理由で、一切基礎をやらずに着手したのが裏目に出たのか、サンプルのソースをモノにして、書き上げるのに、ゆうに半年
以上。本当に時間が掛かりました。
さらに、Solr周りで計9ヶ月間ハマっていた頃、忘れもしない、kanzen21のおっさんが彗星のように現れて、衝撃を受けることになります。
大手サイトのページをクロールして検索エンジンを作る手法は、私と考えていた構想の枠組みとまさに「完全に一致」な訳で。。。
図書館事件に注目していたのも同じで、あまりの一致具合に衝撃を受けっぱなしでした。
その後の成り行き等も含めて、興味深く観察させて頂き、本当に参考になりました。
そんな感じで紆余曲折もありましたが、ようやく難題だった、プログラミング関連に目処が立ってきたので、あとはクローラと肝心のデータ処理です。ここからは、勝手知ったるwindows
まず、クローラですが、専用のクローラをwindows用に探してきたり、それを設定するのも大変なので、今回はテレホーダイ時代に使っていたような、フリーのweb巡回ソフトを利用する
こととしました。指定のhtmlをダウンロードしてくるだけなので、別に変に新しいものに手を出す必要もないので。
また、ダウンロードしてきたhtmlファイルについては、これまたフリーの日本語処理ツールでcsv方式に加工することにして、処理ルール部分を相当に作り込みました。
このあたりは、全体を通して見てもキモの部分なんですが、ある意味、ちょっとしたパズル感覚だったので、プログラミング言語の部分と違って、かなり楽しかったです。
あとは、msdosのバッチファイル(これは前から知っていた)で、これらの処理を繋ぎ、cygwinのcurlとかいうツールで、連続して検索エンジンサーバにcsvファイルをアップロードする
仕組みを作りました。
検索エンジンサーバには、容量は少ないが、安くて高性能という、今回の用途にピッタリだった、さくらのVPSを借りて設定。CentOSのサーバ構築ホームページを見ながら、サーバとか
Solr管理URLとかにセキュリティを掛けて、こちらも素人ながら、意外とすんなり設定。
ホームページは、vpsサーバに相乗りさせるのではなく、別にさくらのレンタルサーバを借りました。apacheの設定方法等を習得する必要がありませんし、vpsのリソースをapacheと分け
合う必要が無くなるので。ホームページのhtmlファイル、cssファイル等も調べながら設定し、画像も準備しました。
あと、構想を思いついたときに妄想していたサービス名の.comドメインは、すでに他者に取得されていたのですが、どうも使っている風にも見えなかったので、whoisで出てきたメールア
ドレスに連絡して交渉し、幾ばくか払って買い取りました。
結局、足かけ18か月。ようやく完成。
楽天市場の家具を、幅x奥行x高さ(家具サイズ)で検索できる、楽天市場・家具カテゴリ専門の検索エンジン
この商品数規模(データ収録約30万アイテム)で、1センチ単位で家具のサイズ指定検索が可能な手段は、商用サービスも含めて、ほかには存在しないと思います。
kanzen21と違って、エロじゃないから華はないけどね。。。
ちなみに冒頭で少し書いたきっかけですが、就職して独り暮らしを開始したときに、新しい家にピッタリサイズの家具が欲しかったのですが、これが楽天で探すのは至難の技でして。
楽天で家具を探してみようと思った人には判っていただけると思うのですが、楽天では、価格では範囲指定やソートができても、サイズでは検索出来ないんです。
これは、楽天では、商品のサイズ情報は商品の自由記述欄に記載することになっているためで、商品ごとにサイズの記載方法がバラバラのため、検索が事実上、不能となっています。
家電製品とかに関しては、種類が少ないこともあり、メーカーのホームページとかでサイズを確認した上で、商品型番で検索すればいいので、それほど問題にはならないのですが、家具
って、種類が非常に多く、型番もあったり無かったりで、家電のようにサイズを調べることができません。
・・・ということで、カグサイズでは、楽天の商品ページにいろいろな書式で書かれているサイズ情報を拾って解析して正規化し、範囲指定やソートして検索ができるようにしています
。
また、単に寸法サイズを拾うだけでは、梱包サイズとか引き出し内寸とかも引っ掛かってしまうので、それらは出来るだけ排除して、商品の外寸が優先して引っ掛かるよう、アルゴリズ
ムを調整しています。
単位(センチとミリ)に関しても、商品ごとにバラバラ(単に単位だけでなく、商品説明のどこに"センチ"とか"ミリ"と記載しているかについてもバラバラです。)なので、サイズ表記
の前後の状況をみて、正しいと思われる単位で拾うようにしています。
あと、変わった使い方としては、欲しい家具の価格比較みたいなこともできます。
家具は、同じ商品でも、店ごとに型番が違ったりすることがよくあり、簡単には価格の比較が行いづらいジャンルの商品です。
しかし、型番は違っても、同じ商品なら原則、サイズは同じですから、欲しい商品とまったく同じサイズで検索をかけると、同等商品があるのかどうか比較しやすい・・・といった使い
方もできます。
と、そんな感じで、しがない事務職リーマンが作ってみた、ニッチな用途の検索webサービスを、サービスインさせて頂きました。
一般に公開されていて、誰でもアクセスできる情報でも、ニーズが有りそうな切り口の条件で検索性を高めれば、新しい価値を創造できるんじゃないかという実験です。
もしよろしければ、ぜひ、使ってみてくださいー。それでは!
----------
あんた一昨日くらいに下のような内容を投稿して消さなかったか?
基本設定が似てる。
設定の似た作り話を何度も投稿して何がしたいんだ?ブクマ集め?意見収集?
「二番目」でいるのが辛い
そうなると、もちろん前の彼氏が初めての彼氏で、三年も付き合った相手らしいけれど、僕と付き合うためだけに別れてくれた。
初めてラーメン屋に連れていってくれたのも、初めて一緒にお酒を呑んだのも、初めてカラオケに行ったのも、
初めて一緒に映画館にいったのも、初めてドライブに連れて行ってくれたのも、初めてお泊りをしたのも、
初めての海外旅行も、初めて一緒に手をつないで街を歩いたのも、初めてふたりきりでクリスマスを祝ったのも、
初めてキスをしたのも、初めてのセックスも……前の彼氏はあらゆる「初めて」を彼女に教え、彼女のあらゆる「初めて」を持っていった。
僕は何をしても二番目。すでに恋人ではなかった前の彼氏とは今でもいい友人として続いているらしく、
彼女はとても無邪気なので、あらゆる場面で何のためらいもなく前の彼氏の名前をだしてくる。
僕と何かしようとするたびに、「これ、◯◯君ともやったことがあるんだよ」。
彼女の経験したことのない何かを教えてあげようと、いろんなところに連れていっても、どんなことをしても、
「これ、◯◯君ともやったことあるよ~」と、いつもの愛くるしい笑顔で言ってくる。
下世話な話、セックスにしたって、どんなプレイを試してみても、僕も僕で訊かないほうがいいものを、
つい「これ、前の彼氏ともしたことある?」と訊ねてしまい、その度に彼女は「うん」……。
僕は俗に言う処女厨ではないし、今まで付き合った彼女達は別に僕が初めての彼氏ではなかった(僕が初めての彼氏という娘もひとりいたけれど)
彼女が前の彼氏と何をしていようと自由。僕だって前の彼女達といろんな経験をしたんだし、僕が口をはさんだところで過ぎたことはどうにかなることじゃない。
しかし、何をしても、どんなことを試みても、彼女に「初めて」を教えてあげることができない。
僕に思いついてできる限りの彼女の「初めて」を、前の彼氏が根こそぎ持っていった。
彼女の中ではもう過ぎたことでも、「◯◯君とやったことがある」ことを彼女としている間、前の彼氏の幻影が常につきまとっているような気がする。
一体何をすれば彼女の「初めて」になれるのかわからない。彼女のあらゆる経験に前の彼氏の手垢がついている。
身勝手な理屈だとはわかっていても前の彼氏のことを、ずるいな、と思う。卑怯だ、と思う。
男としてこんなことをいうのは酷いのかもしれないけれど、せめて彼女が僕の前に、たった一人ではなく何人かと交際していてくれたなら、少しは気も楽になる。
前の彼女達にはそんな気持ちを抱くことはなかった。彼女が初めてだ。きっと、「二番目」であることが僕には辛い。
彼女にはそんな気持ちを悟られないように努めてはいても、前の彼氏の事を考える度に心がくすんでいくのがわかる。
僕にできるのはせめて彼女の「最後」になってあげることくらいだけれど、「初めて」になるのは「初めて」を過ぎてしまえば終わる話だが、「最後」になれるかは終わりまでわからない。
どうすることもできないがそれでも、醜い嫉妬を抱いてしまうのは、彼女に対して申し訳なく思う。小さい男だな、と我ながら思う。彼女の無邪気さがなおさら、僕に罪悪感を植えつける。
「はてなウェブ検索」なんかよりブクマされたページの検索機能をつけて欲しい。
はてブ新着で見て、ブクマしようかどうか迷った挙句に結局しなかったページが後で気になったけど全然探せなくて困る事がよくあるから…という自分勝手な理由からだけどさ。
とにかくはてブで見つけたんだから「3users以上にブクマされてるページ」というのは確実なわけで、そこから探したいんだ。
【お知らせ】2011/09/07
http://d.hatena.ne.jp/uniqueweb/20110906/1315285545
プログラムは全く得意じゃないけれど最近よく見かけるようになったエロ動画検索を自分でも作ってみたくて頑張ってみました。
近年、インターネットの普及によりエロ動画が自宅で簡単に見れるという素晴らしい時代になりました。
自分が若い頃はインターネットなんてものはなくエロビデオが主流でドキドキしながらレンタルビデオ屋に行き、可愛い女の子がレジにいない隙を見計らってお兄さんにパッケージを伏せて空箱を渡しビデオを借りたものでした。
お兄さんにビデオの空箱を渡そうとした時に可愛い子がレジに戻ってきて焦って渡すのをやめてものすごく変な動きをしながらエロビコーナーに引き返していくなんてことも多々ありましたw
僕のお気に入りといえば「白石ひとみ」や「あいだもも」といった女優でよく借りてました。エロビを借りるということがものすごく恥ずかしい時代?年頃?でカモフラージュに普通のビデオと一緒に借りるということもしていました。それはそれは大変な思いでオナニーしてたんです!
しかも、ビデオデッキ自体が貴重な時代でリビングに一台しかないのが当たり前でした。
深夜家族が寝静まってからヘッドフォンとビデオを抱えリビングに行き暗がりの中でヘッドフォンをテレビに差し込んでビデオの再生ボタンを期待に胸をふくらませながら押したものです。いいシーンを何回も見るためにビデオを巻き戻すんですが、ビデオを巻き戻すガチャンガチャンという機械音で家族が起きてこないか?とかそれはそれはドキドキしながら見てました。一仕事終えたあとヘッドフォンを外したらジャックが外れていて大音量で喘ぎ声が響き渡っていたなんてこともありました。誰も起きてこなかったのは優しさなんでしょうか?w
さて、大分前置きが長くなりましたがエロというものはものすごい技術発展させるものだと思います。エロのおかげで日本でビデオは普及しエロのおかげで日本でインターネットはものすごく普及したと言っていいと思います。自分もエロを通して技術の発展に貢献し自分自身のスキルアップになれば。という高い志を持ってこのサイトを制作しました。決して自らのオナニーライフの充実と性癖を充たすため作ったわけではありません・・・w
※2011.08.07 利用中のサーバーに障害が発生しているようで現在サーバーに接続できない状態となっています・・・
サイト名の由来は抜きネタからきています。抜きネーター、ヌキネーターという感じですw
エロサイトの制作工程を日記にしてみたんで良かったら読んで下さい。そしてこのサイトを使って夜いろいろと励んでくれたら嬉しいです。
まず前提条件としてお金をほとんどかけたくない。アダルトサイトであるということから
月の予算は5000円以内で考えていたのでけっこう探すのが大変でした。
日本でアダルトサイトを許可している所はかなり限られていてさらにやりたいことができるのは
専用サーバーかVPSしかないのでそうなると専用サーバーは予算オーバーなので
VPSで探すことになり検索しまくってはじめに見つけたVPSはKAGOYAのVPSだったのですがβ版で募集を締め切っていて泣く泣く諦めました。
KAGOYAはかなり評判がいいみたいなので使ってみたかった。
次に見つけたのが○○○VPS。海外サーバーで日本語サポートがあり転送量の制限なしディスク容量100G
月1300円程度で借りれるということで初期設定費用に5000円程度かかりましたが借りてみました。
結果、ここは最悪でした。
あまりの酷さに1ヶ月で解約。
よく調べてみたら評判がものすごく悪い某VPSの再販らしいです。
もう失敗したくないと思い今度は比較的有名な海外サーバーLINODE。
iptablesの設定でどうしてもうまくいかなくて拙い英語でメールしてみたら
10分しないうちに返信がきました!
メールに書かれているとおりにコマンドを入力したらあっさり解決。
担当のブライアンはなぜか分からないけどとてもフレンドリーで親切に感じましたw
LINODEは複数のディストリビューションから好きなものを選択できるので
とりあえず、64bit版を選択。
一番面倒だけど重要だということで
Tripwire
ほんとに面倒でした。
はじめはmysqlにストレージエンジンgroongaを使おうと思ったのですが
初めに借りた最悪なVPSはOSが32bit版だったのでgroongaがのソースが見つからずなぜかと思っていたら
どこかで見つけた記事で32bit版ではgroongaの性能を発揮しきれないということで32bit版の提供をやめてしまったらしいと書いてたので
じゃあ、sennaにするかということで最悪VPSでsennaをインストール。
その後LINODEに変更したのでOSに64bit版を選択し念願のgroongaをインストール。
しかし、調べてみると
プログラムもそれに合わせてその都度書き換えたので2度手間どころか3度手間4度手間でした・・・
まず
そして下記の順番でインストール
rpm -ivh mecab-0.98-tritonn.1.0.12a.x86_64.rpm
rpm -ivh mecab-ipadic-2.7.0.20070801-tritonn.1.0.12a.x86_64.rpm
rpm -ivh senna-1.1.4-tritonn.1.0.12a.x86_64.rpm
rpm -ivh MySQL-shared-5.0.87-tritonn.1.0.12a.x86_64.rpm
rpm -ivh MySQL-client-5.0.87-tritonn.1.0.12a.x86_64.rpm
rpm -ivh MySQL-server-5.0.87-tritonn.1.0.12a.x86_64.rpm
rpm -ivh MySQL-devel-5.0.87-tritonn.1.0.12a.x86_64.rpm
my.cnfの設定をして終了
で肝心の全文検索ですがデータ件数が5万件程度で少ないせいなのか、あいまい検索と比べてそれほど速さを実感できなかったです・・・
でもきっとすごく速くなったはず!
ちなみに「麻美ゆま おっぱい」で検索した場合、0.01 secで結果が返ってきました。
さて、動画データの作成ですがいくつかのエロサイト等制作記事でもあるようにスクレイピングということをします。
スクレイピングとはWEBサイトから特定の情報だけを取得することでネット上にあるサイトをクロールして必要なデータだけを拾ってデータを作るといった感じでしょうか。
スクレイピングのプログラム自体は以前にTidy関数を使って為替データを10分おきに取得するような物を作ったことがあったのでそれほど時間はかからないかなと思ったのですがけっこう時間かかりました。
スクレイピングにはTidyとhtmlSQL、それにPHP Simple HTML DOM Parserを使いました。
SQL みたいな文法で HTML を抽出する PHP のライブラリ
htmlSQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」
3つの中で抜群に使えるのはPHP Simple HTML DOM Parserだったんですが
ループ処理させるとメモリがすごいことになって今回のようなスクレイピングに向いてないみたいで
結局、htmlSQLとTidyの両方を使ってスクレイピングしました。
両方ともPHP Simple HTML DOM Parserに比べるとうまくデータの取得ができないことが多く残念な感じなんですが他に選択肢がないので・・・
使える順に並べると
といった感じかもしれません。
おおまかにデータを取得して正規表現で特定データを抜き出しました。
http://affiliate.dmm.com/link.html
利用可能な物はパッケージ画像、サンプル画像(縮小)と書かれていたのでそれに従い画像を利用。
注記に※ユーザーレビューは引用いただけません。とだけ書かれているのでそれ以外は引用ありと判断して説明文とタイトルなどを利用
女優データとジャンルデータ、DVDデータ、を紐付けたデータベースを作成し検索ワードに応じて検索結果に関連する商品を表示させるようにしました。
現状、売り上げ0で意味があるのか分かりませんけどw
エロサイトということで多少はチューニングとか設定とかしないとまずいかもと思い色々調べて設定しました。
やったこと
KeepAlive On MaxKeepAliveRequests 60 KeepAliveTimeout 3 <IfModule prefork.c> StartServers 7 MinSpareServers 5 MaxSpareServers 10 ServerLimit 30 MaxClients 30 MaxRequestsPerChild 4000 </IfModule>
様子見ということで2日間で設定してみました。
query_cache_limit=1M
query_cache_min_res_unit=4k
query_cache_size=16M
query_cache_type=1
とりあえずこんなところを設定してみましたが、爆発的なアクセスがあるわけでもないので有効なのか今のところ分かりません(-_-;)
Apache Benchでテストはしてみましたけど問題はない感じですが実際にチューニングができているか分かりません。
プログラマーとして有名なゆうすけさんのサイトとgoogleを参考にしました。
シンプルで使いやすいようにしようと思いこのデザインにしました。
クロスブラウザはIE7、firefox3、chromeで行いました。
可変ものって作ったことなかったんですがけっこう面倒なんですね。
ブックマーク機能とメニューの折りたたみ機能、検索結果の表示方法切替を作りました。
まず、ブックマーク機能ですがログインなしで気に入った動画をブックマークできるようにしました。
ブックマークに追加した動画はブックマークページで確認できるようにしました。
cookie機能を利用したらいけると思い色々調べてjquery.cookie.jsを利用。
保存したクッキー情報を呼び出してphpに渡して処理し指定要素にブックマーク一覧をloadメソッドで表示させるという感じです。
$(function(){ $("#youso").load("xxx.php"); });
メニューの折りたたみ機能は人気AV女優やAV女優別、人気タグなどをそのまま表示させるとずらっと長くなって邪魔だったのでつけました。
これには同じくjquery.cookie.jsを利用しました。
参考サイト:http://blog.caraldo.net/2009/03/newjqqookiemenu.php
検索結果の表示方法切替にはZoomer Galleryを利用しました。
参考URL:http://phpjavascriptroom.com/?t=ajax&p=jquery_plugin_zoom#a_zoomergallery
検索結果ページで表示される
[ここの画像]
××× の検索結果
44件中 1~10件目を表示
ここの画像の部分をクリックするとgoogleイメージ検索みたいに一覧でイメージ表示できるようにしてみました。
基本的に動画の埋め込みを許可しているサイトのみプレイヤー表示をしそれ以外は画像を表示し動画データへリンクするようにしました。
埋め込み部分はあらかじめそれぞれのサイトに対応したプレーヤー部分のコードを記述しVIDEOIDの部分に置き換えるような形にしました。
XVIDEOSを例にすると
XVIDEOSの場合かならず動画のurlがhttp://www.xvideos.com/videoXXXXXX/のようになりますのでXXXXXXの部分を
VIDEOID部分に置き換えるようにプログラムを組みました、
埋め込み部のソース
>||<object width="510" height="400" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=8,0,0,0" ><param name="quality" value="high" /><param name="bgcolor" value="#000000" /><param name="allowScriptAccess" value="always" /><param name="movie" value="http://static.xvideos.com/swf/flv_player_site_v4.swf" /><param name="allowFullScreen" value="true" /><param name="flashvars" value="id_video=VIDEOID" /><embed src="http://static.xvideos.com/swf/flv_player_site_v4.swf" allowscriptaccess="always" width="510" height="400" menu="false" quality="high" bgcolor="#000000" allowfullscreen="true" flashvars="id_video=VIDEOID" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" /></object>
||<
その他の動画サイトもURLの一部分のデータを使っているので同様の処理をしました。
実際の作業は2、3週間ですが色々調べる時間が多くて制作に2ヶ月くらいかかりました。
自分でエロ動画検索を作ってみて有名プログラマーさん達がいかに優秀なのか思い知らされました。
全くWEBの知識がない人で4、5ヶ月ですごいの作っちゃう人とかもいるみたいですし世の中広いな~と思います。
大分、色んな知識を得ることができました。
これからプラグラムを勉強しようと思う人はぜひエロサイトから入ってみて下さい。
そんなこんなで?頑張って作ってみたエロ動画検索、良かったら使ってみて下さい。
これで少しは技術の発展に役立てたでしょうか?w
P.S エロサイトを作っていてはじめは楽しくて興奮しながら作ってたのですが最後の方はエロい物を見ても全く反応しなくなりましたw
不能ではないんですけど・・・今現在も性欲が著しく減退しております・・・
そしてスーパーpre記法がうまういかないのはなぜ?はてな匿名ダイアリー初投稿で全然分からない・・・
そしてそしてプログラマーさんとかデザイナーさんとかエロい人とかお気軽にお声をおかけ下さい。
【お知らせ】2011/09/07
を達成したんだけど、共通点に気がついたので自慢まじりに書く。
TOEICの900も、マラソンのサブ4も、ゴルフの100切りも、始めた頃には遠くにみえる。そして、たぶん最初の目標地点。そこを目指すマニュアルはいっぱいあって、それにお金を払う人もいっぱいいる。俺もいっぱい払った。。
YDPは、目標として切りがいい。数字で表されていて到達したか客観的に評価できる。まわりを見渡せば到達した人が必ず目に入る、そんなレベル。
YDPに到達するためには日常のルーティンから、時間を確保しなくちゃいけない。努力が必要。難しいのは、確保すること、続けること。マニュアル通り。その2つぐらいなら出来そうな気がするし、出来た人が近くにいる。そんなレベルがYDP。
TOEIC900なら、一応の英会話は出来る。相手が何を言うか分かる時は問題ない。電話もパターンを知ってれば対応可能。読むのはまず問題なし。メールのやりとり、自分の専門分野で知らない単語は出てこない。書くのも英借文でクリア。
マラソンサブ4なら、「今週末フルマラソン出ます。」って同僚に言える。練習方法を誰かに教えることが出来る。ナイキショップでiPod Sports Kitの前で話しかけられても恥ずかしくない。
ゴルフ100切りなら、突然の週末のラウンドに誘われる。人のパットライン踏んだりしない。自分の球の行方は追える。他の人の球も見つけてあげることが出来る。ラウンドの全てのショットを思い出せる。
でも、TOEIC900なんて、所詮入り口。気の利いたことは一切言えない。映画の細かい筋は追えない。ネイティブと同じに笑えない。いつの間にか主人公の恋人死んでる。YDPに来るまで、こんだけやってきたのに、あと何倍の努力でラスボスに会えるの?
でも、マラソンサブ4なんて、所詮入り口。順位とか考えられないし、週に4,5回走ってこのタイムなんて、もうこれ以上どうやって練習するの?タイムも縮まらなくて、もうモチベーションの限界。
でも、ゴルフ100切りなんて、所詮入り口。握ったら確実にむしられる。パーとかボギーとか、名前が付いている打数で終われない。楽しいというよりストレスたまる。わざわざバックティーからまわる意味が分からない。
英語が出来るって、もうTOEICではかれるレベルじゃないってことを知った。
マラソン2時間前半って、俺がダッシュしてるぐらいのスピードだって知った。
18回パーをとっても負けるとか。
YDPにたどり着いても、達成感とかない。テストの結果とかスコアが出た瞬間だけ達成感を感じてすぐ消える。もうこれ以上努力しなくていいやなんて思えない。どこからも、もう休んでいいよって声が聞こえてこない。もう残りの人生の方が少ないってのに。こんだけやって、やっとの思いでYDPにたどり着いてもそれが通過地点って。
留学する前、「英語はもう勉強しなくてもいい」って自分で分かる瞬間がくると思ってた。そんなものは来なかった。もう帰らなきゃいけないのに。
俺がYDPに到達したこと思い返してみた。どれもこれもそんな瞬間はやってきていない。
1. トップのすごさ。
2. トップとの埋められない距離。始める前は目標がみえなくて距離が測れない。YDPに来て距離が測れると絶望できる。
3. YDPに到達したってことはわかる。
4. YDP到達後、さらに進もうかどうか迷う。成長カーブがプラトーに近づく。
1.国立大学に入る。俺は宮廷の医学部。そこまで行くと、赤門と鉄門の差が分かる。
2. サッカーで天皇杯の地方予選ベスト8ぐらい。本気モードのサッカー部出身者に軽くあしらわれる。Jリーガーはそれよりすごくて、日本代表は… その先考えたくもない。
3. クロールで4km泳げる。距離はいくらでも行くけど、スピードは出ない。
4. 夜中一人で救急病院で当直してても怖くない。トリアージと応急処置は出来る。自分の専門以外の治療は無理。
5. 自分の専門分野の手術が一人できる。やっとゴッドハンドがゴッドな理由が分かる。理由が分かっても真似できない。
6. IF 5点ぐらいの雑誌に投稿できる。留学して基礎実験始めて、ボスの名前借りてやっとこのレベル。CellとかNatureとかScienceとか意味が分からない。
結局、一つに集中してこなかったから、どれもこれも中途半端。中途半端すぎて、自慢なのか自虐なのかすら判断できないレベル。だれもdisってもくれない。
ここまでやっても、こんなもん。掲示板の中の人たちの「明日から本気出す」って強い共感を覚える。向こうからは共感してもらえないけど。
こっちで「灯台みたいな三流大学出て恥ずかしいけど、日本人には面と向かってそれを言えない。」って言ってる人がいる。優越感を感じられるはずと思って頑張ってここまでやってきたのに、まだまだ劣等感は無くならない。
http://anond.hatelabo.jp/20110302194206
http://anond.hatelabo.jp/20110302192450
いちおう、被疑事実の有無であって、犯罪かどうかはやっぱり、裁判所の仕事。
被疑で過失といわれたら、冤罪事件を起訴猶予とかかれたら、犯罪者になっちまうけど、起訴猶予することは検察の判断でできちまうから、それを犯罪確定とするのは無理がある。
法律上XXという要件を見たし犯罪であるが、XXという条項により無罪とする。というケースが存在し得るが、その場合は起訴することが可能。(どうなるかは裁判所の判断なので)
という話と
いやもうこれ、要件的に前例がないから、不起訴にしてほしければ、つまり、前歴を消したければ、訴えるしか無いと思うよ。手続き上。
検察がやっていることが、合法非合法の判断もやっぱり裁判所だからね。
「未必の故意」と「認識ある過失」のいずれかに該当するか?といわれれば、検察は未必の故意 といっているが、実際は1段階重く言ってるんだとして、認識ある過失だとしても
これ、逆に無過失にはもっていけないだろ。本人は故意じゃない過失だ(「それは過失になりませんか?」)って、うっかり、いっちゃってるみたいだけど、過失でも犯罪だろ。やっぱり。
主張するなら、無過失を主張しないといけないけど、
サーバーに一定以上の負荷をかけたらダウンする。という事は予見できるか? =できる。
1秒に1回の割合での負荷でダウンすることは予見できるか?=通常起こりえないと判断する。
でも、この組み合わせは、割合の問題になっちゃうから、認識ある過失なんじゃね?って可能性が残る。
となると、これはもう、前例がないせいで認識ある過失を無過失にかえることは検察では出来なくて、
検察で不起訴にはできないから、不起訴相当の判断を求めて、訴えるしか無いと思う。
プログラマーとして裁判費用のカンパを求められればするとおもう。
ただまぁ、クロールするなら、HTMLではなく、APIをというのが、これからの常識になりそう。
あと、ヘッダに これは攻撃ではありません。クロールです。お問い合わせはXXXX@XXXXって埋め込んどけと。いう事だね。
やらおん・やられやく分裂騒動がほぼ判明しました。以下がその真相になります。
この騒動を引き起こしたのは「萌通」のこと古林弘忠という人間です。彼の所業について以下にまとめます。
2011年01月15日ごろ「やられやくの管理人がブログでトレントファイルを販売している」という話題が盛り上がりました。
証拠の不自然さからスレは鎮火したのですが、古林弘忠はやらおんが犯人に違いないと「萌通新聞」上で告発しました。
これらは現在「萌通」が使っているアドセンスコードから芋蔓式に発覚しました。上記サイトからそれを確認できます。
2004年以前 RO内にてヒロディーンを名乗りロキ、ヘイムダル鯖で暴れる
2004年未明 『ヘイムダル銀行』を開設し、RMT詐欺、鯖間取引詐欺、育成代行詐欺を働く
2004年10月 対人戦で敗北したJ氏の名を騙り詐欺を働き信用毀損
2005年04月 訴えようとした被害者Nに報復するため、RMT詐欺犯逮捕の捏造ニュースを流し信用毀損
2006年02月 競馬ブログ 『情報得ブログ』開設 小林美琴を名乗る
2006年10月 『☆★なりきり恋愛コンサルタント★☆』開設。グングニル・コバヤシを名乗る
2006年12月 『せれぶろ♪』開設。大学生兼社長コバヤシを名乗る
2007年02月 ASPで華麗なるFX「レバレッジ・クエスト」を販売。当初はN氏を騙り、後に古林弘忠を名乗る
規約違反によりASPを追い出された後は、ペーパーカンパニーを立ち上げ再販を繰り返す、2009年まで確認
2007年05月 【Jword認定】サブプライムショックすらあざ笑う インド株究極の「ZERO・リスクトレード」販売、トライアングル・エージェンシー、細木わこを騙る
2007年08月 【日本初JWord認定競馬商材】立花流投資競馬を販売。カリスマ女子大生立花美羽を名乗る
2008年02月 超然FX 2008年人生やり直しプロジェクト 「全てのFXトレーダーよ 超然たれ!」をASPにて販売、トライアングル・エージェンシー
2008年12月 FX革命「FXスナイパーシステム」を販売。合同会社セントラルインベストメントよりASPで出した後、インフォ通信で販売
2009年04月 【最強の副収入モデル】元ネットカフェ難民の男のオークションメソッド 「億ションへの夢しるべ」を販売。新世界プロジェクト合同会社
2009年05月 アニメ違法視聴ブログ『懐アニちゃんねる 無料アニメ視聴 アニメニュースまとめ』開設
2009年05月 ブログ『萌通新聞』開設。オールハイル・オレンジを名乗る
2009年06月 情報商材販売サイト、『詐欺師退治のためのインフォ通信』を開設。詐欺商材を販売
2009年06月 「★名前付き!メルマガ読者獲得代行サービス」を販売。小林寛忠を名乗る
2009年10月 「ある無料サービスに申し込んで○○するだけで6万円の収入」販売。小林寛忠を名乗る
2009年10月 「時給2355円の副業・サイドビジネスが毎週届くマネーの宅配」販売。小林寛忠を名乗る
2009年12月 「【ネット埋蔵金2010】たった二つのステップのみで179800円保障」販売。尾畑澪を騙る
2010年02月 同人誌転載ブログ『ユビキタスちゃんねる』開設。ユビキタスを名乗る
2010年04月 「皇帝FXシステム」販売。新世界プロジェクト合同会社、川澄舞を名乗る
2010年08月 「黒字スタートの作業代行ビジネス」を販売。ケーエイチキャピタルマネジメント、小林寛忠を名乗り、斉藤悠を騙る
ただし一部不正確であること、そしてこれでもまだ全貌ではない可能性があります。
ROにおいてヒロディーンを名乗り、RMT詐欺被害がほとんど泣き寝入り状態であったことに付け込んで詐欺を繰り返しました。
被害者の1人N氏は警察が介入しないため、独自に振り込み口座名コバヤシヒロタダから彼の素性を洗い出そうとしました。それに対してコバヤシヒロタダは「ヒロディーンとして有名なRMT詐欺師N氏が逮捕された」という新聞記事を捏造することで報復しました。本物の新聞記事がゲーム内のキャラクター名までも報道することなどまずありえません。しかしこの風評被害によってN氏は2年間に渡って苦しめられられました。2007年、被害届が受理され供述調書が作られたというところで情報は途絶えています。
MMORPGの後、彼が目に付けたのは株、そして情報商材でした。
古林弘忠は当初はASP(アフィリエイトサービスプロパイダ)を利用して販売していました。ASPとは情報商材を販売する中間業者であり、手数料が取られるため割高になりますが、利益は1ヶ月間ASP側にプールされる仕組みになっており、信頼のおける企業のみ参加していることを売りにしています。
しかし古林弘忠はここで永久サポート、キャッシュバックなどを謳い、中身のない情報商材を販売、被害者がクレームをつけようとしたところ架空の住所だったためにASPから追い出されました。それでも懲りずにペーパーカンパニーを作ってはASPに中身のない情報商材を高額で出品し、詐欺を繰り返しました。
またASPから追放された情報商材をペーパーカンパニーから直接販売することで被害者を拡大しました。
彼はブログで面白いことを書く才能には欠如していたようですが、こうした謳い文句で他人を踊らせ、他人を陥れることにかけては天才的だと言えます。
古林弘忠はこうした複数のペーパーカンパニーを立ち上げました。被害者は「特定商取引法に基づく表記」に書かれたこれらの企業の住所に連絡しましたが、架空のもので連絡は取れませんでした。特に被害者の多かった情報商材レバレッジ・クエストについては被害者の会が結成されるまでに至りましたが、古林弘忠が雲隠れしたため解決には至りませんでした。
彼がペーパーカンパニーに使った住所は悪質な振り込め詐欺・融資保証金詐欺の拠点として複数サイトから警告が出されています。
株や競馬、情報商材詐欺に手を出していたものの大きな利益を上げられなかったのか、彼が次に目をつけたのはブログのアフィリエイトでした。数万PVがあると偽り広告を募集したり、YouTubeにアップロードされたアニメ動画を埋め込んだブログ、同人誌を違法アップロードしたブログを作成しアフィリエイトで利益を上げようとしました。
やがて目に付けたのがゲーム・アニメ界隈の情報系ブログでした。彼がそこで何を思い、何をしたのかはまだ判明していません。時間とともに明らかになるでしょう。
恐らく古林弘忠に潰されたブログは1つや2つではないと思います。
やらおんを陥れようとした情報商材サイトと、古林弘忠が作っていたサイトにはいくつかの共通点があります。
彼のサイトや、彼が作った情報商材サイトには一定の文体の特徴があります。
彼が作った情報商材サイト、そしてやらおんを陥れようとした情報商材サイトのヘッダを確認すると次の記述があります。
<META name="GENERATOR" content="IBM WebSphere Studio Homepage Builder Version 10.0.0.0 for Windows>
これはホームページビルダー10で作成されたサイトだということを意味します。最新のホームページビルダーのバージョンは15で、バージョン10が発売したのは2005年です。
萌通が過去、2007年や2008年に作ったサイト、そして2010年にやらおんを陥れるために作ったサイトは全て修正パッチを全く当てていないホームページビルダー10で作られていました。
もちろんここまでは偶然という可能性もあります。
ASPを通していない直接販売型の情報商材サイトというのは、一般的に詐欺の可能性が高いのでほとんど相手にされません。
それだけでなくこのサイトは宣伝・広告が全く行われていませんでした。通常情報商材はその手のスパムのようなブログで大量に取り上げられることが多いのですが、このサイトのように1件もリンクされないの異常です。どうやって利益を上げるつもりだったのでしょうか?
アフィリエイトブログによって利益を上げる方法を定価98,800円のところを特別価格29,800円で販売するといいながら、1,575円のアフィリエイトノウハウ本のAmazonリンクを貼るのも謎です。まるで商売する気がないというか、Amazonリンクにアフィリエイトコードを埋め込むために置いたと解釈した方が自然です。
この情報商材サイトが発覚したきっかけは、次の2chの書き込みでした。
351 名前: レインボーファミリー(catv?)[sage] 投稿日:2011/01/15(土) 19:12:19.81 ID:MxCsM2Jp0
さて、ここで俺が気付いた情報が一つある。
http://*********.tsuchigumo.com/
このサイトだ。
なんと http://*********.blog39.fc2.com/ のブログに張り付けられているアフィコード 「******-22」と一致
ですが、この時点でこのサイトは作りたてでgoogleのクロールの対象ではなく検索しても出てこなかったのです。
検索しても出てこないサイトを、彼は一体どこから見つけ出してきたのでしょうか?
この発見者の発言は「萌通新聞」における古林弘忠の発言と驚くほど酷似しています。
329 名前: レインボーファミリー(catv?)[sage] 投稿日:2011/01/15(土) 18:59:56.97 ID:MxCsM2Jp0
・つまりミクシーと割れの関連は本来皆無で、ミクシーはプライベートな物だと推測できる。
・ミクシーは晒される事は予定しなかったので意図的な嘘のない信用できる内容が書いてある。
・つまりミクシーに張り付けている新しく作ったプロフの内容も信頼できる。
・割れ厨は http://*********.blog39.fc2.com/ の管理人である。
ここまでは確定できる情報だ。
355 名前: レインボーファミリー(catv?)[sage] 投稿日:2011/01/15(土) 19:14:33.95 ID:MxCsM2Jp0
皆惑わされるなよ。
やられやく管理人なのか、やらおん管理人なのかはどうでもいい。
割れ厨を追求することこそがこの祭りの本旨だ。
やられやくにしろやらおんのどちらかにしろ、割れ厨をつぶせば終わる事だ。
以上。
まとめるとこうなります。
全ては状況証拠であり、確定的なものはありません。なので彼の言葉を借りておきます。
この記事は特定個人を誹謗中傷するために書いたわけではありません。
だよねえ。
こういう発想が無い辺り、元増田はいかにも男性だなあ…と思った。
子育てについて語るのは圧倒的に女が多いけど、女には相当反発されるシステムだと思う。
はてなではよく腐女子の世界の閉鎖性が話題になるけど、別に腐女子に限らず「女の世界」って多かれ少なかれああいうもんだから。
自分でWEBサービスを作りたいと思っている人へ ( http://anond.hatelabo.jp/20101203150748 ) を読んで、初心者じゃなくてある程度の経験者が作ったらこうなるんだよってことで書いています。でも正直4ヶ月でそこまでできるようになるなんておそらく相当頭がいいんじゃないかなと思うんです。いや、本当に凄いと思う。
まず作ったサービスはグルーポンチケットのまとめサイト。 グルーポンナビ( http://gp-navi.net/ )まず自分のスペックだけど、昔から趣味でプログラムやったり仕事でプログラムしたりしてました。Web系ばっかりやってるいちおうこういうのを作るのには慣れてる方です。
それで私ですが、まず最初に http://anond.hatelabo.jp/20101203150748 の人と同じで全然お金を使いたくなかったです。だからいろんなホスティング会社を探したりしたんですが、VPSを借りちゃうと大金がかかるんですよね。そこで、いわゆる流行のクラウドであるHeroku( http://heroku.com/ )を使う事にしました。
このHerokuは無料で使えるから良いんですけど、バッチ処理を行うには有料のサーバを契約しなくちゃいけないんです。しかもWebの一回のリクエストは30秒までに押さえなくちゃいけないっていう制限があったりで、正直無料で使うには厳しい。
でもやっぱり無料っていう響きに吸い寄せられてHerokuを使うと決めてアプリケーションを書き始めました。Railsで書いて賞味2週間くらいちまちまと進めてアプリを完成させました。だいたい一日2時間くらいかな。Railsにはそこまで詳しくはなかったけど、Webで検索すれば結構情報がヒットするからそこまでの苦労は無かったです。それよりも制限のあるHerokuでどうやって実現するかというのが、結構問題でした。
それでしばらく運用してました。このときは全然宣伝しませんでしたから、ほとんどページビューはあがらなかったです。宣伝大事。これほんと。それでHerokuで作った仕組みなんですが、無料でやりたかったので、Workersを契約しないでアプリをつくってました。だからWebのリクエストをトリガーとして普通にクロールさせるよう作ったんです。でも、クロールするサイトを徐々に増やしていくと30秒以内にリクエストが終了しなくなってきてさぁ問題。どうしようかと考えたあげく、レンタルサーバもいいなっておもったけど、結局自宅サーバをたてることにしました。たぶん、これが一番コストパフォーマンスが良い。でも気をつけなくちゃ行けないのが、サーバ自体の管理を自分でやらなくちゃいけないから結構めんどくさいんですよね。結局自宅サーバかよって感じです。
サーバをNTT-X Storeで発注して発注して、16,800円。かなり安いです。このサーバの詳細は http://wiki.nothing.sh/page/NEC%20Express5800%A1%BFGT110b に書かれています。なんでこのマシンにしたのかというと、VMWareのESXiで仮想化をしたくて、それに対応している安いサーバがこれだったというわけ。ちなみに、これをすると管理が楽になる。例えば、マシンのバックアップが取りたいなと思ってもすぐできるんですね。だから仮想化は凄く良い。
でも、素のGT110bを使うとメモリも少ないしCPUも弱いしハードディスクも少ないので、これはネットで買い足しました。あ、あとデスクトップ用のモニタが無かったのでそれも中古で買いました。それが次のような感じ。
ずいぶんと安い買い物だったと思います。もちろん、マシンの上で動かしているOSはLinuxなので、ライセンス料もかからないしとてもリーズナブルです。
ここまできたら後はアプリを作り直すだけでした。Herokuで作ってたときにはHerokuの制限を考えながらアプリを作ってたので作りづらかったですが、自宅サーバを使うとそういった制限はなくなるのですごく作りやすい。お金を払うだけの価値はあると思います。やっぱりお金をかけるべきところはかけないとダメですね。
それから結構このアプリケーションは携帯ユーザの女の子がよく使ってくれます。結構教えると毎日見てくれるんですよ。やっぱりお買い物と言えば女の子ですね。だから、携帯対応しました。携帯はいままでやった事は無かったんだけど、Railsのプラグインであるjpmobile( https://github.com/darashi/jpmobile )を使ったところすごく簡単に対応する事ができた。凄いですね。id:darashiさんに感謝です。
iPhoneも対応していますが、こちらもあまり詳しくなかったので最初はjQuery mobileを使って構築しました。でもちょっと重かったのでjQuery mobileはやめて手組しています。そもそも一ページしか無いのでそんない難しい事は無いですね。
ウェブサービス公開するのはそこまで難しくないんですが、それを流行らせるのはかなり難しいですね。面白いサービスとかであれば結構色んなところがとりあげてくれたりするんですけど、後発のサービスになるとなかなか。。。開発者の方は作る事よりもどうやってみんなに知ってもらうかを考えるのがすごく大変な事だと思います。お金かけて広告うてれば楽なんですけどね。
とにかく作ったら公開。やる事は各方面への宣伝です。今のところやってるのはTwitterへの投稿と、ここへの投稿ですかね。これからいろいろ試そうとしているところ。このサービスがある程度知名度が上がってきたらまたそのとき軌跡を書きたいと思います。
Twitter、楽しんでますか?
そろそろ誰か好きな人が出来たりしましたね。良かった。じゃあストーキングしちゃいましょう。
今回は「@masudadayo」さんをストーキングしてみます。(example.com的な例示IDがないので作りました。同様の用途で使いたい方使っちゃってください。)
鍵がかかってる人は諦めましょう。また、なるべくリアルタイムで捕捉することを念頭に置いて書いています。
まさかただフォローするだけ、良くてもListに入れる、RSS登録するだけなんかじゃないですよね。それでは「全て」追えません。検索を使います。
検索ワードは「from:masudadayo OR to:masudadayo OR @masudadayo」。to:と@を併記しているのは検索の仕様です。to:はin_reply_toがついているものだけを対象に検索しています。
Twitterをやっていれば自分のホームから検索すればこのクエリを保存することができます。保存したものはiPhoneなどからも使えるので出先でのチェックもできますね。
また、これ以外にさらにORで繋げて対象のニックネームなども書きたいのですが、公式検索は日本語に非常に弱いのであまり効果がないかもしれません。
そこで使えるのが通称「yats検索」(ここ)。かなり日本語のヒット率が高いのでオススメです。ただ、クロール対象が狭いので出来れば公式と併用したいところ。
ちなみに、なんとMacのTwitterクライアント「夜フクロウ」には公式検索とyats検索をマージして検索結果として表示してくれる機能が搭載されています。
他にもGoogleのアップデート検索や、NAVERのリアルタイム検索なども使えることがあります。削除されたツイートなどがインデックスに残っていたり、ね。
favを使ってコミュニケーションをとっている通称ふぁぼクラスタだとこれは外せません。
favstarではほぼリアルタイムに観測ができます。Recentがふぁぼられ、Givenがふぁぼり。ただ、無料だと時系列に過去へさかのぼれるのが1ページ(20件)だけなので古いものが見れません。
そこで、国産サービスだと有名なふぁぼったーや、最近ではふぁぼろぐなんかも出来ました。
特にふぁぼろぐは、自分のふぁぼを整理して見られるのが恥ずかしい!と言って非公開にする人が続出しています。favはその人の趣味嗜好や内面を知ることのできる大事なデータですから必ずチェックしましょう。
対象が仲良くしてる人(@を飛ばしてるとかRTしてるとか)気になりますよね。
ずばり、なかよしったーでは最近のツイートの中から一番を調べられます。
また、Twilogなら、対象の人が登録してれば過去全て、してなくても最近のツイートの中から仲の良い順に表示されます。右ペインの「Friends」でどうぞ。
Twitivityでプロフィールや、アイコン画像変遷が追いかけられます。気持ちや環境に変化があるとプロフィールを変える人は多いのでこれでぜひ。
特に、Twitpicなどの写真系や、foursquareや国産ならロケタッチを始めとした位置情報サービス系。
電波の悪さや、APIの不調などでサードパーティのサービスにだけデータがアップされて、Twitterにはつぶやかれていない事が結構あるので、ツイートとは別にチェックしておくのをオススメします。
他にも皆さんの素敵なTwitterストーキング術があれば教えてください。Facebookのように複雑でないTwitterはストーキングが非常に簡単ですね。
では、タイムラインで。
今後は岡崎市立中央図書館のウェブサイトをクローラでアクセスしてよいの?
wgetしちゃっていいの?
波乗野郎しちゃっていいの?
岡崎市立中央図書館はLibrahack氏に謝れよ。本当に。
平成十七年(2005)の設計だから想定していなかったって阿呆ですか。
波乗野郎の発売は1996年だ。wgetもその頃からある。この時点で庶民にクローラ需要があったんだぞ。
俺だって十年前から自動巡回も一括取得も当たり前にやってた。
低品質な製品を発注してしまった責任を取りたくないから認められないのか?
三菱から見返りでももらっていたのか?
合法だけど迷惑行為だったとでも言いたいようだが、迷惑を受けたのは逮捕された側だっての。
今まで落ちなかったのは、たまたまそうやって利用されていなかっただけだろ。
利用者の方におかれましては、情報収集のために使われる手段が、他の利用者に迷惑をかけていないかどうかについて、ご配慮をお願いいたします。
同時1コネクション限度でアクセス毎に1秒ウェイトは十分すぎるほど配慮してるじゃないか。
頻度も大域も1万円の中古パソコンでもさばける程度のアクセスしかしてないじゃないか。
この図書館は最悪だな。こんなだから逮捕者まで出してしまったんだ。
三菱も悪いが図書館の態度も大きな原因だろう。無知でしたとか言う次元じゃない。
こんな図書館だから、こんな商品発注して、この有様なんだとしか言いようがない。
http://b.hatena.ne.jp/entry/www.asahi.com/digital/internet/NGY201005250031.html
このニュース、ブックマークで話題になってたけど、回数や間隔のことより、「蔵書DBクロール」のコメントが何件かあって気になる。
たいていの公共図書館の書誌データ=MARCはTRC(か他社)の著作物で契約して買ってるものだし、外部から勝手にコピペですら本当はだめなんだが。
よくヤフオクやオンライン古書店で本のあらすじをコピペして最後に(MARCデータベースより)って書いてる人がいるけどあれはアウトでしょう。Cマークじゃないんだから出典を書いておけばいいってもんじゃない。
しかしなぁ、
世の中には、パスワード一覧をEXCELファイルで作っちゃって、まちがってメールで関連先に送付しちゃって大問題っていう
それでいて、操業停止になるくらい、ユーザーが離れるわけでもないんだぜ?
そりゃぁ、セキュリティーなんて向上しないし、みんな無視するよなぁ
安かろう悪かろうで、そういう業者に発注するからそういうことになるんだが・・・
真面目にセキュリティーに取り組んでる奴がバカをみる・・・
嫌な時代だよな。
ちなみにな・・・
http://mag.wb-i.net/2010_04_02.html
対処策が・・・
1.metaタグの挿入(noindex,nofollow,noarchive)
2.USER_AGENTよるSpiderの排除
なんつーかな。
そもそも、セッション持って、外部から見られないように対策すべきであって、クロールされなきゃ良いって問題じゃないと思うんだが?
それにmetaタグよりrobots.txt使えば早いのに・・・とか、突っ込みどころ満載。
これを無しで販売したそのマインドがすばらしいし
それを購入した方のマインドもすらばらいい。
起きるべくして起きた事件としかいいようがない。
つーか、こんな初歩の初歩にひっかかるようじゃ、
真面目な攻撃食らったら簡単に個人情報吐き出しそうだな・・・このプログラム。
SQLインジェクションに感染したりして・・・w
アレクサのプラグインとかOrbitのプラグインとか、URLだけなら、外出ししそうなものは山ほどあるだろと?
プラグイン含めてURL履歴外出しを疑い始めたらキリがないよ。
あとは、それでリストが出来て、そのリストをGoogleが再利用したとか。
つーか、Blogとかやっていて、Botsみれば、Botsがどんだけヘビーにクロールしてくるかってのはよく知ってるはず。
バイドーとかMSNとか嫌というほど、変なURLでもクロールしてくるし。
企業内でアレクサとかOrbitやSkypeあとはその手のプラグイン使う方がよほど問題だ。
OrbitやSkypeなんて、P2PのためにFWに穴あけてくるから、設定がザルだと社内ネット破られるんだよアレ。
で、結局、一番はFWを固くしろと。それ以外で企業のFWは守れないし、XXは使うなっていって、使うのが0になった試しなんて無いから期待しねーよ。
だから、ちゃんとFW固くできる奴を雇えよ大企業はって話かと。
一番考えられるのはURLをメーラーからコピペして検索しただろ。
Cheromeは窓が1つなので、起きやすいのは事実だがな