「クロール」を含む日記 RSS

はてなキーワード: クロールとは

2012-01-25

http://anond.hatelabo.jp/20120125011830

ばっかお前、20年前はネットのどこで(といってもメーリングリストニュースグループしかなかった)何をどうつぶやいても実名丸出しでガチの罵声が返ってくる状況だったんだぞ。マジ「汚物は消毒だ~!」の時代。今の方がよっぽど温いわ。

インターネットがそんな「何を言っても許される場所」だったのはほんの数年に過ぎないってことを自覚するべき。ネット歴史からすれば、非常に例外的というか特異的な時期に過ぎない。

あと10年前はもうgoogleの超広範囲クロール実用化されてたんで、何を言っても許されたのはもうちょっと前、2000年ごろまでだと思うなー。

2012-01-10

http://anond.hatelabo.jp/20120110100424

「あ、これ出てたんだ」とか「なんだよこれwww」っていう商品でアマゾンアクセスさせる事が出来れば

後はユーザー勝手アマゾンクロールしてついで買いをしていく

2012-01-07

事務職リーマンwebサービス作ってみた

Webシステムとは縁遠い事務職のリーマンが、ある日思い立って、ニッチな用途の検索エンジンサービス作ってみたので、ちょっと書いてみようと思います

ちなみに、検索エンジンといっても、googleカスタム検索とかのお茶濁し系じゃなくて、apache Solrというオープンソース検索エンジンを、VPS上で動かしているという、それなりに本

気度の高いものです。

なんで素人がそんな物騒なものを動かす羽目になったかは、後述。



アイデアときっかけ

やりたい構想みたいなことを思いついたのは、もう6、7年前ほど前のこと。初めて独り暮らしを始めたときに、ひどく不便を感じたことがあり、こんなサービスがあったら便利だなあ、

と、ぼんやり妄想していました。

ちなみにその妄想をふと高校の同期に話したとき、そのサービスはどこにあるのか?!と、えらくがっつかれたのを、覚えてます。まあ、俺と同じく偏執狂の奴だったからだと思います

が。

ただ、しがない事務職リーマンということもあり、当然、技術も無く、そのときは、やるならこんな名前サービス名だろうなあ、とか、そんな妄想レベルで、話は終わっていました。

そんな感じで、5年ほど月日は経ち、なんとなくリーマン人生の流れも見えてきたところで、以前、妄想していたことを、ふと思い出しました。

5年も経ったら、さすがに自分が考えたようなこと、誰かがやっているだろうと調べてみたところ、意外なことに、競合になるようなサービス存在せず。ちょうど異動があって、少し時

間が出来たこともあり、じゃあ、着手してみようかと思い立ちました。



やりたいことは非常に面倒だった

やりたいことは、大手サイト情報検索。ただ、商品ページ内の特定情報、それも、商品ごとに正規化されていない表記を、正規化して抽出する必要があったので、大手サイトの既設API

だけではとても実現不可能でした。

まあ、だからこそ、5年間、誰もやろうとしなかったんでしょうが

ということで、とても一発では解決できなさそうな内容だったので、自分でなんとか実現できそうな機能に細分化して、各個撃破していくことにしました。



面倒なサービスをどう実現するか

随分と考えた結果、

以上に区分できると考えて、これらを各個撃破していくこととしました。

また、技術もなく、プログラミングも出来ず、ましてやlinuxサーバのお守りをしたことなんて当然ないので、インターネット上に置くサーバですべての処理を完結させるのではなく、イ

ンターネット上に置くリソースは最小限に留め、できる限り、勝手がわかる自宅のwindowsパソコンで処理を行うことにしました。

ちなみにさらっと結論だけ書いてますが、ここまで至るまでに、いろいろと調べ続たり、考え込んだりしていたので、思い立ってから3ヵ月は掛かってます。。。



検索エンジン周りの開発

さて、やる方針を決めたあと、はじめに着手したのは、要の検索エンジンサーバです。

いろいろとググって調べて、mySQLというやつか、apache Solrというやつかに絞りましたが、結局、Solrを使うことにしました。

MySQLのほうが実績は多そうだったのですが、Solrのほうが検索専門で、滅茶苦茶動作が速いらしいということ、MySQLでも出来るが特に速度が遅いらしい全文検索機能も使いたかったこ

と、あとファセット機能ジャンル絞りこみに便利に使えそうだったので、というのが理由です。

ちょうどSolr本が発売されていたこともあり、それを参考に、自分が使うように設定ファイルを変更していきました。

しかし、初めは設定ファイルの内容も意味不明な上に、私の書き方も雑なのか、少しいじっただけでまったく動かなくなる。結局、設定ファイルを一文字ずつ変更しては動作検証、とい

った始末で、進捗は地を這うよう。ある程度思い通りにSolrを扱えるようになるまで、3ヵ月以上掛かったでしょうか。。。

さらに、検索エンジンフロントエンドSolr検索結果を、htmlに変換するプログラム)も書かなければならない。プログラミングが出来ない人間には、これが本当に辛かった。

Solr本に、いろんなプログラミング言語でサンプルがあったのですが、迷った末に、わずか数行なら書いた(≒コピペした)経験があるという理由で、javascriptを苦渋の選択。

しかし、選択はしてみたが、基礎が本当に無いから内容がサッパリ頭に入ってこない。こちらも、わかるところから本当に1文字ずつ変えていくといった手探り状態。

プログラミングについては、今回のためだけだから、といった理由で、一切基礎をやらずに着手したのが裏目に出たのか、サンプルのソースをモノにして、書き上げるのに、ゆうに半年

以上。本当に時間が掛かりました。



kanzen21.comに衝撃を受ける

さらに、Solr周りで計9ヶ月間ハマっていた頃、忘れもしない、kanzen21のおっさん彗星のように現れて、衝撃を受けることになります

大手サイトのページをクロールして検索エンジンを作る手法は、私と考えていた構想の枠組みとまさに「完全に一致」な訳で。。。

図書館事件に注目していたのも同じで、あまりの一致具合に衝撃を受けっぱなしでした。

その後の成り行き等も含めて、興味深く観察させて頂き、本当に参考になりました。



クローラ周りとかの開発

そんな感じで紆余曲折もありましたが、ようやく難題だった、プログラミング関連に目処が立ってきたので、あとはクローラと肝心のデータ処理です。ここからは、勝手知ったるwindows

の領域なので、多少の安心感があります

まず、クローラですが、専用のクローラwindows用に探してきたり、それを設定するのも大変なので、今回はテレホーダイ時代に使っていたような、フリーweb巡回ソフトを利用する

こととしました。指定のhtmlダウンロードしてくるだけなので、別に変に新しいものに手を出す必要もないので。

また、ダウンロードしてきたhtmlファイルについては、これまたフリー日本語処理ツールでcsv方式に加工することにして、処理ルール部分を相当に作り込みました。

このあたりは、全体を通して見てもキモの部分なんですが、ある意味ちょっとしたパズル感覚だったので、プログラミング言語の部分と違って、かなり楽しかったです。

あとは、msdosバッチファイル(これは前から知っていた)で、これらの処理を繋ぎcygwincurlかいうツールで、連続して検索エンジンサーバcsvファイルアップロードする

仕組みを作りました

検索エンジンサーバには、容量は少ないが、安くて高性能という、今回の用途にピッタリだった、さくらVPSを借りて設定。CentOSサーバ構築ホームページを見ながら、サーバとか

Solr管理URLとかにセキュリティを掛けて、こちらも素人ながら、意外とすんなり設定。

ホームページは、vpsサーバ相乗りさせるのではなく、別にさくらレンタルサーバを借りました。apacheの設定方法等を習得する必要がありませんし、vpsリソースapacheと分け

合う必要が無くなるので。ホームページhtmlファイルcssファイル等も調べながら設定し、画像も準備しました。

あと、構想を思いついたとき妄想していたサービス名の.comドメインは、すでに他者に取得されていたのですが、どうも使っている風にも見えなかったので、whoisで出てきたメール

ドレスに連絡して交渉し、幾ばくか払って買い取りました。



ようやく完成

結局、足かけ18か月。ようやく完成。



楽天市場家具を、幅x奥行x高さ(家具サイズ)で検索できる、楽天市場家具カテゴリ専門の検索エンジン

カグサイズ検索

http://kagusize.com



この商品数規模(データ収録約30万アイテム)で、1センチ単位家具サイズ指定検索が可能な手段は、商用サービスも含めて、ほかには存在しないと思います

kanzen21と違って、エロじゃないから華はないけどね。。。




カグサイズ検索提供する価値について

ちなみに冒頭で少し書いたきっかけですが、就職して独り暮らしを開始したときに、新しい家にピッタリサイズ家具が欲しかったのですが、これが楽天で探すのは至難の技でして。

楽天家具を探してみようと思った人には判っていただけると思うのですが、楽天では、価格では範囲指定やソートができても、サイズでは検索出来ないんです。

これは、楽天では、商品のサイズ情報は商品の自由記述欄に記載することになっているためで、商品ごとにサイズの記載方法がバラバラのため、検索事実上、不能となっています

家電製品とかに関しては、種類が少ないこともあり、メーカーホームページとかでサイズを確認した上で、商品型番で検索すればいいので、それほど問題にはならないのですが、家具

って、種類が非常に多く、型番もあったり無かったりで、家電のようにサイズを調べることができません。

しかも、サイズが非常に重要な商品です。なんて不便な!


・・・ということで、カグサイズでは、楽天の商品ページにいろいろな書式で書かれているサイズ情報を拾って解析して正規化し、範囲指定やソートして検索ができるようにしています

また、単に寸法サイズを拾うだけでは、梱包サイズとか引き出し内寸とかも引っ掛かってしまうので、それらは出来るだけ排除して、商品の外寸が優先して引っ掛かるよう、アルゴリズ

ムを調整しています

単位センチミリ)に関しても、商品ごとにバラバラ(単に単位だけでなく、商品説明のどこに"センチ"とか"ミリ"と記載しているかについてもバラバラです。)なので、サイズ表記

前後の状況をみて、正しいと思われる単位で拾うようにしています




その他

あと、変わった使い方としては、欲しい家具価格比較みたいなこともできます

家具は、同じ商品でも、店ごとに型番が違ったりすることがよくあり、簡単には価格比較が行いづらいジャンルの商品です。

しかし、型番は違っても、同じ商品なら原則、サイズは同じですから、欲しい商品とまったく同じサイズ検索をかけると、同等商品があるのかどうか比較しやすい・・・といった使い

方もできます


おわりに

と、そんな感じで、しがない事務職リーマン作ってみたニッチな用途の検索webサービスを、サービスインさせて頂きました。

一般に公開されていて、誰でもアクセスできる情報でも、ニーズが有りそうな切り口の条件で検索性を高めれば、新しい価値創造できるんじゃないかという実験です。

もしよろしければ、ぜひ、使ってみてくださいー。それでは!

----------

カグサイズ検索

http://kagusize.com


追記

アップ直前の変更により、最大サイズの指定がうまく働かなくなっていたため、修正をしました。ご指摘有難うございました。

2011-12-05

http://anond.hatelabo.jp/20111205224724

あんた一昨日くらいに下のような内容を投稿して消さなかったか

基本設定が似てる。

設定の似た作り話を何度も投稿して何がしたいんだ?ブクマ集め?意見収集?

「二番目」でいるのが辛い



今、僕が付き合っている彼女は僕が二番目の彼氏らしい。

そうなると、もちろん前の彼氏が初めての彼氏で、三年も付き合った相手らしいけれど、僕と付き合うためだけに別れてくれた。



前の彼氏彼女にたくさんの「初めて」を教えてくれたようだ。

初めてラーメン屋に連れていってくれたのも、初めて一緒にお酒を呑んだのも、初めてカラオケに行ったのも、

初めて一緒に映画館にいったのも、初めてドライブに連れて行ってくれたのも、初めてお泊りをしたのも、

初めての海外旅行も、初めて一緒に手をつないで街を歩いたのも、初めてふたりきりでクリスマスを祝ったのも、

初めてキスをしたのも、初めてのセックスも……前の彼氏はあらゆる「初めて」を彼女に教え、彼女のあらゆる「初めて」を持っていった。



僕は何をしても二番目。すでに恋人ではなかった前の彼氏とは今でもいい友人として続いているらしく、

彼女はとても無邪気なので、あらゆる場面で何のためらいもなく前の彼氏名前をだしてくる。

僕と何かしようとするたびに、「これ、◯◯君ともやったことがあるんだよ」。

彼女経験したことのない何かを教えてあげようと、いろんなところに連れていっても、どんなことをしても、

「これ、◯◯君ともやったことあるよ~」と、いつもの愛くるしい笑顔で言ってくる。

下世話な話、セックスにしたって、どんなプレイを試してみても、僕も僕で訊かないほうがいいものを、

つい「これ、前の彼氏ともしたことある?」と訊ねてしまい、その度に彼女は「うん」……。

僕は俗に言う処女厨ではないし、今まで付き合った彼女達は別に僕が初めての彼氏ではなかった(僕が初めての彼氏という娘もひとりいたけれど)

彼女が前の彼氏と何をしていようと自由。僕だって前の彼女達といろんな経験をしたんだし、僕が口をはさんだところで過ぎたことはどうにかなることじゃない。

しかし、何をしても、どんなことを試みても、彼女に「初めて」を教えてあげることができない。

僕に思いついてできる限りの彼女の「初めて」を、前の彼氏が根こそぎ持っていった。

彼女の中ではもう過ぎたことでも、「◯◯君とやったことがある」ことを彼女としている間、前の彼氏の幻影が常につきまとっているような気がする。

一体何をすれば彼女の「初めて」になれるのかわからない。彼女のあらゆる経験に前の彼氏の手垢がついている。

勝手理屈だとはわかっていても前の彼氏のことを、ずるいな、と思う。卑怯だ、と思う。



男としてこんなことをいうのは酷いのかもしれないけれど、せめて彼女が僕の前に、たった一人ではなく何人かと交際していてくれたなら、少しは気も楽になる。

前の彼女達にはそんな気持ちを抱くことはなかった。彼女が初めてだ。きっと、「二番目」であることが僕には辛い。

彼女にはそんな気持ちを悟られないように努めてはいても、前の彼氏の事を考える度に心がくすんでいくのがわかる。

僕にできるのはせめて彼女の「最後」になってあげることくらいだけれど、「初めて」になるのは「初めて」を過ぎてしまえば終わる話だが、「最後」になれるかは終わりまでわからない。

どうすることもできないがそれでも、醜い嫉妬を抱いてしまうのは、彼女に対して申し訳なく思う。小さい男だな、と我ながら思う。彼女の無邪気さがなおさら、僕に罪悪感を植えつける。

「男は最初の男になりたがり、女は最後の女になりたがる」という言葉意味が、少しだけわかったような気がする。

増田Googleクロールされるのが結構いから、消してもキャッシュが残ってたりするんだよな。

http://webcache.googleusercontent.com/search?q=cache:fLNHBFA9YjEJ:anond.hatelabo.jp/20111203005808+http://anond.hatelabo.jp/20111203005808

2011-09-16

ブクマされたページの検索機能を早く!

はてなウェブ検索」なんかよりブクマされたページの検索機能をつけて欲しい。


はてブ新着で見て、ブクマしようかどうか迷った挙句に結局しなかったページが後で気になったけど全然探せなくて困る事がよくあるから…という自分勝手な理由からだけどさ。

とにかくはてブで見つけたんだから「3users以上にブクマされてるページ」というのは確実なわけで、そこから探したいんだ。

ヒントの少ない広大なWebから見つけようと思っても全然見つからなくてさ…。

2011-08-04

独学のプログラムエロ動画検索作ってみた

【お知らせ】2011/09/07

新しいエロWEBサービス作りました

http://d.hatena.ne.jp/uniqueweb/20110906/1315285545



プログラムは全く得意じゃないけれど最近よく見かけるようになったエロ動画検索自分でも作ってみたくて頑張ってみました。

近年、インターネットの普及によりエロ動画が自宅で簡単に見れるという素晴らしい時代になりました。

自分が若い頃はインターネットなんてものはなくエロビデオが主流でドキドキしながらレンタルビデオ屋に行き、可愛い女の子レジにいない隙を見計らってお兄さんにパッケージを伏せて空箱を渡しビデオを借りたものでした。

お兄さんにビデオ空箱を渡そうとした時に可愛い子がレジに戻ってきて焦って渡すのをやめてものすごく変な動きをしながらエロビコーナーに引き返していくなんてことも多々ありましたw

僕のお気に入りといえば「白石ひとみ」や「あいだもも」といった女優でよく借りてました。エロビを借りるということがものすごく恥ずかしい時代?年頃?でカモフラージュ普通ビデオと一緒に借りるということもしていました。それはそれは大変な思いでオナニーしてたんです

しかも、ビデオデッキ自体が貴重な時代でリビングに一台しかないのが当たり前でした。

深夜家族が寝静まってからヘッドフォンビデオを抱えリビングに行き暗がりの中でヘッドフォンテレビ差し込んでビデオ再生ボタンを期待に胸をふくらませながら押したものです。いいシーンを何回も見るためにビデオを巻き戻すんですが、ビデオを巻き戻すガチャガチャンという機械音で家族が起きてこないか?とかそれはそれはドキドキしながら見てました。一仕事終えたあとヘッドフォンを外したらジャックが外れていて大音量で喘ぎ声が響き渡っていたなんてこともありました。誰も起きてこなかったのは優しさなんでしょうか?w

さて、大分前置きが長くなりましたがエロというものものすごい技術発展させるものだと思いますエロのおかげで日本ビデオは普及しエロのおかげで日本インターネットものすごく普及したと言っていいと思います自分エロを通して技術の発展に貢献し自分自身のスキルアップになれば。という高い志を持ってこのサイト制作しました。決して自らのオナニーライフの充実と性癖を充たすため作ったわけではありません・・・

※2011.08.07 利用中のサーバーに障害が発生しているようで現在サーバー接続できない状態となっています・・・

※2011.08.07 23:53 復帰した模様です

サイト名:ヌキネーター

サイト名の由来は抜きネタからきています。抜きネーター、ヌキネーターという感じです

エロサイト制作工程日記にしてみたんで良かったら読んで下さい。そしてこのサイトを使って夜いろいろと励んでくれたら嬉しいです

では制作日記を書いていきたいと思います

サーバー選び

まず前提条件としてお金ほとんどかけたくない。アダルトサイトであるということから

サーバー選びからはいりました。

月の予算は5000円以内で考えていたのでけっこう探すのが大変でした。

日本アダルトサイトを許可している所はかなり限られていてさらにやりたいことができるのは

専用サーバーVPSしかないのでそうなると専用サーバー予算オーバーなので

VPSで探すことになり検索しまくってはじめに見つけたVPSはKAGOYAのVPSだったのですがβ版で募集を締め切っていて泣く泣く諦めました。

KAGOYAはかなり評判がいいみたいなので使ってみたかった。

次に見つけたのが○○○VPS海外サーバー日本語サポートがあり転送量の制限なしディスク容量100G

月1300円程度で借りれるということで初期設定費用に5000円程度かかりましたが借りてみました。

結果、ここは最悪でした。

  • 通信が頻繁に切れる
  • 激重
  • 借りて一ヶ月もしないうちにサービス継続が困難になりそうなのでIPが変わるとかメールがくる
  • まりに通信環境が悪すぎるとメールすると環境調査に協力してくれとメールがくる
  • 時間をかけて沢山の項目を調べて返信するも全く返答がない。

まりの酷さに1ヶ月で解約。

よく調べてみたら評判がものすごく悪い某VPS再販らしいです

お金時間をドブに捨てました・・・

もう失敗したくないと思い今度は比較的有名な海外サーバーLINODE

日本語サポートはないけれど抜群のサポートです

iptablesの設定でどうしてもうまくいかなくて拙い英語メールしてみたら

10分しないうちに返信がきました!

メールに書かれているとおりにコマンド入力したらあっさり解決。

素晴らしい!はじめからLINODEにすればよかった。

担当ブライアンはなぜか分からないけどとてもフレンドリーで親切に感じましたw

サーバー設定

LINODEは複数のディストリビューションから好きなものを選択できるので

とりあえず、64bit版を選択。

サーバー設定はほんとに面倒ですね。

一番面倒だけど重要だということで

SSH

Tripwire

chkrootkit

Clam AntiVirus

iptables

Apache

SSL

その他各種監視ツールの導入をしました。

ほんとに面倒でした。

データベース

はじめはmysqlストレージエンジンgroongaを使おうと思ったのです

初めに借りた最悪なVPSOSが32bit版だったのでgroongaがのソースが見つからずなぜかと思っていたら

どこかで見つけた記事で32bit版ではgroongaの性能を発揮しきれないということで32bit版の提供をやめてしまったらしいと書いてたので

じゃあ、sennaにするかということで最悪VPSsennaインストール

その後LINODEに変更したのでOSに64bit版を選択し念願のgroongaをインストール

しかし、調べてみると

などが理由で、結局sennaに戻して2度手間に・・・

プログラムもそれに合わせてその都度書き換えたので2度手間どころか3度手間4度手間でした・・・

senna導入はrpmでさくっといけるので簡単です

依存関係で少しはまりました。

まず

# rpm -qa | grep -i mysql

mysqlインストールされてたら削除

perl-DBIが必要なのでインストール

# yum install perl-DBI

そして下記の順番でインストール

rpm -ivh mecab-0.98-tritonn.1.0.12a.x86_64.rpm

rpm -ivh mecab-ipadic-2.7.0.20070801-tritonn.1.0.12a.x86_64.rpm

rpm -ivh senna-1.1.4-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-shared-5.0.87-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-client-5.0.87-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-server-5.0.87-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-devel-5.0.87-tritonn.1.0.12a.x86_64.rpm

my.cnfの設定をして終了

で肝心の全文検索ですデータ件数が5万件程度で少ないせいなのか、あいまい検索と比べてそれほど速さを実感できなかったです・・・

でもきっとすごく速くなったはず!

ちなみに「麻美ゆま おっぱい」で検索した場合、0.01 secで結果が返ってきました。


動画データ作成

さて、動画データ作成ですがいくつかのエロサイト制作記事でもあるようにスクレイピングということをします。

スクレイピングとはWEBサイトから特定の情報だけを取得することでネット上にあるサイトクロールして必要なデータだけを拾ってデータを作るといった感じでしょうか。

スクレイピングプログラム自体は以前にTidy関数を使って為替データ10分おきに取得するような物を作ったことがあったのでそれほど時間はかからいかなと思ったのですがけっこう時間かかりました。

スクレイピングにはTidyhtmlSQL、それにPHP Simple HTML DOM Parserを使いました。

下記のサイトを参考にしました。

phpによるスクレイピング処理入門

SQL みたいな文法で HTML を抽出する PHP のライブラリ

htmlSQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」

つの中で抜群に使えるのはPHP Simple HTML DOM Parserだったんです

ループ処理させるとメモリがすごいことになって今回のようなスクレイピングに向いてないみたいで

結局、htmlSQLTidyの両方を使ってスクレイピングしました。

両方ともPHP Simple HTML DOM Parserに比べるとうまくデータの取得ができないことが多く残念な感じなんですが他に選択肢がないので・・・

使える順に並べると

PHP Simple HTML DOM Parser

htmlSQL

Tidy

といった感じかもしれません。

おおまかにデータを取得して正規表現で特定データを抜き出しました。

広告との連携

広告にはDMMアフィリエイトを利用しています

http://affiliate.dmm.com/link.html

利用可能な物はパッケージ画像、サンプル画像(縮小)と書かれていたのでそれに従い画像を利用。

注記に※ユーザーレビュー引用いただけません。とだけ書かれているのでそれ以外は引用ありと判断して説明文とタイトルなどを利用

女優データジャンルデータDVDデータ、を紐付けたデータベース作成検索ワードに応じて検索結果に関連する商品を表示させるようにしました。

現状、売り上げ0で意味があるのか分かりませんけどw

負荷対策とか転送量とかDOS攻撃対策とか

エロサイトということで多少はチューニングとか設定とかしないとまずいかもと思い色々調べて設定しました。

やったこと

KeepAlive On

MaxKeepAliveRequests 60

KeepAliveTimeout 3

<IfModule prefork.c>
StartServers       7
MinSpareServers    5
MaxSpareServers   10
ServerLimit       30
MaxClients        30
MaxRequestsPerChild  4000
</IfModule>

様子見ということで2日間で設定してみました。

query_cache_limit=1M

query_cache_min_res_unit=4k

query_cache_size=16M

query_cache_type=1

とりあえずこんなところを設定してみましたが、爆発的なアクセスがあるわけでもないので有効なのか今のところ分かりません(-_-;)

Apache Benchでテストはしてみましたけど問題はない感じですが実際にチューニングができているか分かりません。


サイトデザイン

プログラマーとして有名なゆうすけさんのサイトgoogleを参考にしました。

シンプルで使いやすいようにしようと思いこのデザインしました。

3カラム中央可変となっています

クロスブラウザIE7、firefox3、chromeで行いました。

可変ものって作ったことなかったんですがけっこう面倒なんですね。

サイト機能

ブックマーク機能とメニューの折りたたみ機能検索結果の表示方法切替を作りました

まず、ブックマーク機能ですログインなしで気に入った動画ブックマークできるようにしました。

ブックマークに追加した動画ブックマークページで確認できるようにしました。

cookie機能を利用したらいけると思い色々調べてjquery.cookie.jsを利用。

保存したクッキー情報を呼び出してphpに渡して処理し指定要素にブックマーク一覧をloadメソッドで表示させるという感じです

$(function(){
$("#youso").load("xxx.php");
});

メニューの折りたたみ機能は人気AV女優AV女優別、人気タグなどをそのまま表示させるとずらっと長くなって邪魔だったのでつけました。

これには同じくjquery.cookie.jsを利用しました。

参考サイトhttp://blog.caraldo.net/2009/03/newjqqookiemenu.php

検索結果の表示方法切替にはZoomer Galleryを利用しました。

参考URLhttp://phpjavascriptroom.com/?t=ajax&p=jquery_plugin_zoom#a_zoomergallery

検索結果ページで表示される

[ここの画像]

××× の検索結果

44件中 1~10件目を表示

ここの画像の部分をクリックするとgoogleイメージ検索みたいに一覧でイメージ表示できるようにしてみました。

動画表示ページ

基本的に動画の埋め込みを許可しているサイトのみプレイヤー表示をしそれ以外は画像を表示し動画データリンクするようにしました。

埋め込み部分はあらかじめそれぞれのサイト対応したプレーヤー部分のコード記述しVIDEOIDの部分に置き換えるような形にしました。

XVIDEOSを例にすると

XVIDEOS場合かならず動画urlhttp://www.xvideos.com/videoXXXXXX/のようになりますのでXXXXXXの部分を

VIDEOID部分に置き換えるようにプログラムを組みました、

埋め込み部のソース

>||<object width="510" height="400" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=8,0,0,0" ><param name="quality" value="high" /><param name="bgcolor" value="#000000" /><param name="allowScriptAccess" value="always" /><param name="movie" value="http://static.xvideos.com/swf/flv_player_site_v4.swf" /><param name="allowFullScreen" value="true" /><param name="flashvars" value="id_video=VIDEOID" /><embed src="http://static.xvideos.com/swf/flv_player_site_v4.swf" allowscriptaccess="always" width="510" height="400" menu="false" quality="high" bgcolor="#000000" allowfullscreen="true" flashvars="id_video=VIDEOID" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" /></object>
||<

その他の動画サイトURLの一部分のデータを使っているので同様の処理をしました。

まとめ

実際の作業は2、3週間ですが色々調べる時間が多くて制作に2ヶ月くらいかかりました。

自分エロ動画検索を作ってみて有名プログラマーさん達がいかに優秀なのか思い知らされました。

皆さん思いついて数日で作ってしまうのでびっくりです

全くWEBの知識がない人で4、5ヶ月ですごいの作っちゃう人とかもいるみたいですし世の中広いな~と思います

しかし、エロサイト作りで勉強になりますね~

大分、色んな知識を得ることができました。

これからプラグラム勉強しようと思う人はぜひエロサイトから入ってみて下さい。

きっと楽しいですよ!

そんなこんなで?頑張って作ってみたエロ動画検索、良かったら使ってみて下さい。

これで少しは技術の発展に役立てたでしょうか?w

アダルト動画検索ヌキネーター

P.S エロサイトを作っていてはじめは楽しくて興奮しながら作ってたのです最後の方はエロい物を見ても全く反応しなくなりましたw

  不能ではないんですけど・・・現在も性欲が著しく減退しております・・・

  そしてスーパーpre記法がうまういかないのはなぜ?はてな匿名ダイアリー投稿全然からない・・・

  そしてそしてプログラマーさんとかデザイナーさんとかエロい人とかお気軽にお声をおかけ下さい。



【お知らせ】2011/09/07

新しいエロWEBサービス作りました

http://d.hatena.ne.jp/uniqueweb/20110906/1315285545

2011-03-03

TOEIC 900と、マラソンサブ4と、ゴルフ100切りと。

 を達成したんだけど、共通点に気がついたので自慢まじりに書く。



スペック

 男 子供2匹 マイナー系外科医 現在留学




やれば出来そうにみえる地点(YDPと名付けよう)


 TOEICの900も、マラソンのサブ4も、ゴルフの100切りも、始めた頃には遠くにみえる。そして、たぶん最初目標地点。そこを目指すマニュアルはいっぱいあって、それにお金を払う人もいっぱいいる。俺もいっぱい払った。。


 YDPは、目標として切りがいい。数字で表されていて到達したか客観的に評価できる。まわりを見渡せば到達した人が必ず目に入る、そんなレベル


 YDPに到達するためには日常ルーティンから時間を確保しなくちゃいけない。努力が必要。難しいのは、確保すること、続けること。マニュアル通り。その2つぐらいなら出来そうな気がするし、出来た人が近くにいる。そんなレベルがYDP。



YDPに到達すると、経験者として振る舞うことが出来る


 TOEIC900なら、一応の英会話は出来る。相手が何を言うか分かる時は問題ない。電話パターンを知ってれば対応可能。読むのはまず問題なし。メールのやりとり、自分の専門分野で知らない単語は出てこない。書くのも英借文でクリア


 マラソンサブ4なら、「今週末フルマラソンます。」って同僚に言える。練習方法を誰かに教えることが出来る。ナイキショップiPod Sports Kitの前で話しかけられても恥ずかしくない。


 ゴルフ100切りなら、突然の週末のラウンドに誘われる。人のパットライン踏んだりしない。自分の球の行方は追える。他の人の球も見つけてあげることが出来る。ラウンドの全てのショットを思い出せる。




YDPに到達すると、YDPは所詮入り口に過ぎないことが分かる


 でも、TOEIC900なんて、所詮入り口。気の利いたことは一切言えない。映画の細かい筋は追えない。ネイティブと同じに笑えない。いつの間にか主人公の恋人死んでる。YDPに来るまで、こんだけやってきたのに、あと何倍の努力ラスボスに会えるの?


 でも、マラソンサブ4なんて、所詮入り口。順位とか考えられないし、週に4,5回走ってこのタイムなんて、もうこれ以上どうやって練習するの?タイムも縮まらなくて、もうモチベーション限界


 でも、ゴルフ100切りなんて、所詮入り口。握ったら確実にむしられる。パーとかボギーとか、名前が付いている打数で終われない。楽しいというよりストレスたまる。わざわざバックティーからまわる意味が分からない。



YDPに到達すると、トップのすごさに気がつく


 英語が出来るって、もうTOEICではかれるレベルじゃないってことを知った。


 マラソン2時間前半って、俺がダッシュしてるぐらいのスピードだって知った。


 18回パーをとっても負けるとか。

 


 YDPにたどり着いても、達成感とかない。テスト結果とかスコアが出た瞬間だけ達成感を感じてすぐ消える。もうこれ以上努力しなくていいやなんて思えない。どこからも、もう休んでいいよって声が聞こえてこない。もう残りの人生の方が少ないってのに。こんだけやって、やっとの思いでYDPにたどり着いてもそれが通過地点って。


 留学する前、「英語はもう勉強しなくてもいい」って自分で分かる瞬間がくると思ってた。そんなものは来なかった。もう帰らなきゃいけないのに。


 俺がYDPに到達したこと思い返してみた。どれもこれもそんな瞬間はやってきていない。



YDPに到達すると感じる共通のこと。


1. トップのすごさ。

2. トップとの埋められない距離。始める前は目標がみえなくて距離が測れない。YDPに来て距離が測れると絶望できる。

3. YDPに到達したってことはわかる。

4. YDP到達後、さらに進もうかどうか迷う。成長カーブプラトーに近づく。



YDPに到達するってこれぐらいのことだよね。

俺の経験から(ここ自慢だから聞いてくれ、disってくれ)。



1.国立大学に入る。俺は宮廷の医学部。そこまで行くと、赤門と鉄門の差が分かる。

2. サッカー天皇杯地方予選ベスト8ぐらい。本気モードサッカー部出身者に軽くあしらわれる。Jリーガーはそれよりすごくて、日本代表は… その先考えたくもない。

3. クロールで4km泳げる。距離はいくらでも行くけど、スピードは出ない。

4. 夜中一人で救急病院で当直してても怖くない。トリアージと応急処置は出来る。自分の専門以外の治療は無理。

5. 自分の専門分野の手術が一人できる。やっとゴッドハンドがゴッドな理由が分かる。理由が分かっても真似できない。

6. IF 5点ぐらいの雑誌投稿できる。留学して基礎実験始めて、ボス名前借りてやっとこのレベルCellとかNatureとかScienceとか意味が分からない。

7. 狙った増田で、はてブ100超え。




 結局、一つに集中してこなかったから、どれもこれも中途半端中途半端すぎて、自慢なのか自虐なのかすら判断できないレベル。だれもdisってもくれない。


 ここまでやっても、こんなもん。掲示板中の人たちの「明日から本気出す」って強い共感を覚える。向こうから共感してもらえないけど。


 こっちで「灯台みたいな三流大学出て恥ずかしいけど、日本人には面と向かってそれを言えない。」って言ってる人がいる。優越感を感じられるはずと思って頑張ってここまでやってきたのに、まだまだ劣等感は無くならない。

http://anond.hatelabo.jp/20110302194206

http://anond.hatelabo.jp/20110302192450

いちおう、被疑事実の有無であって、犯罪かどうかはやっぱり、裁判所仕事

被疑で過失といわれたら、冤罪事件を起訴猶予とかかれたら、犯罪者なっちまうけど、起訴猶予することは検察の判断でできちまうから、それを犯罪確定とするのは無理がある。

 

法律上XXという要件を見たし犯罪であるが、XXという条項により無罪とする。というケースが存在し得るが、その場合起訴することが可能。(どうなるかは裁判所の判断なので)

という話と

いやもうこれ、要件的に前例がないから、不起訴にしてほしければ、つまり、前歴を消したければ、訴えるしか無いと思うよ。手続き上。

検察がやっていることが、合法非合法の判断もやっぱり裁判所からね。

 

未必の故意」と「認識ある過失」のいずれかに該当するか?といわれれば、検察未必の故意 といっているが、実際は1段階重く言ってるんだとして、認識ある過失だとしても

これ、逆に無過失にはもっていけないだろ。本人は故意じゃない過失だ(「それは過失になりませんか?」)って、うっかり、いっちゃってるみたいだけど、過失でも犯罪だろ。やっぱり。

主張するなら、無過失を主張しないといけないけど、

サーバーに一定以上の負荷をかけたらダウンする。という事は予見できるか? =できる。

1秒に1回の割合での負荷でダウンすることは予見できるか?=通常起こりえないと判断する。

 

でも、この組み合わせは、割合の問題になっちゃから認識ある過失なんじゃね?って可能性が残る。

 

となると、これはもう、前例がないせいで認識ある過失を無過失にかえることは検察では出来なくて、

検察で不起訴にはできないから、不起訴相当の判断を求めて、訴えるしか無いと思う。

そんで、図書館側を 名誉毀損で訴えるしか無いと思う。

 

プログラマーとして裁判費用カンパを求められればするとおもう。

 

ただまぁ、クロールするなら、HTMLはなく、APIをというのが、これから常識になりそう。

あと、ヘッダに これは攻撃ではありません。クロールです。お問い合わせはXXXX@XXXXって埋め込んどけと。いう事だね。

2011-01-21

やらおんを陥れようとした萌通の正体について

やらおん・やられやく分裂騒動がほぼ判明しました。以下がその真相になります

  • http://anond.hatelabo.jp/20110127225558

この騒動を引き起こしたのは「萌通」のこと古林弘忠という人間です。彼の所業について以下にまとめます

やらおんを陥れようとした事件とは?

2011年01月15日ごろ「やられやくの管理人ブログでトレントファイルを販売している」という話題が盛り上がりました

証拠の不自然からスレは鎮火したですが、古林弘忠やらおん犯人に違いないと「萌通新聞」上で告発しました

古林弘忠ネット上で6年間の行動まとめ

  • http://affisearch.com/?q=2311075118337001

これらは現在「萌通」が使っているアドセンスコードから芋蔓式に発覚しました。上記サイトからそれを確認できます

2004年以前  RO内にてヒロディーンを名乗りロキ、ヘイムダル鯖で暴れる

2004年未明  『ヘイムダル銀行』を開設し、RMT詐欺、鯖間取引詐欺、育成代行詐欺を働く

2004年10月  対人戦で敗北したJ氏の名を騙り詐欺を働き信用毀損

2005年04月  訴えようとした被害者Nに報復するため、RMT詐欺逮捕捏造ニュースを流し信用毀損

2006年02月  競馬ブログ 『情報ブログ』開設 小林美琴を名乗る

2006年10月  『☆★なりきり恋愛コンサルタント★☆』開設。グングニル・コバヤシを名乗る

2006年12月  『せれぶろ♪』開設。大学生社長コバヤシを名乗る

2007年02月  ASPで華麗なるFX「レバレッジ・クエスト」を販売。当初はN氏を騙り、後に古林弘忠を名乗る

          規約違反によりASPを追い出された後は、ペーパーカンパニーを立ち上げ再販を繰り返す、2009年まで確認

2007年05月  【Jword認定】サブプライムショックすらあざ笑う インド株究極の「ZEROリスクトレード」販売、トライアングルエージェンシー、細木わこを騙る

2007年08月  【日本JWord認定競馬商材】立花投資競馬を販売。カリスマ女子大生立花美羽を名乗る

2008年02月  超然FX 2008年人生やり直しプロジェクト 「全てのFXトレーダーよ 超然たれ!」をASPにて販売、トライアングルエージェンシー

2008年12月  FX革命「FXスナイパーシステム」を販売。合同会社セントラルインベストメントよりASPで出した後、インフォ通信で販売

2009年04月  【最強の副収入モデル】元ネットカフェ難民の男のオークションメソッド 「億ションへの夢しるべ」を販売。新世界プロジェクト合同会社

2009年05月  アニメ違法視聴ブログ『懐アニちゃんねる 無料アニメ視聴 アニメニュースまとめ』開設

2009年05月  ブログ『萌通新聞』開設。オールハイルオレンジを名乗る

2009年06月  情報商材販売サイト、『詐欺師退治のためのインフォ通信』を開設。詐欺商材を販売

2009年06月  「★名前付き!メルマガ読者獲得代行サービス」を販売。小林寛忠を名乗る

2009年10月  「ある無料サービスに申し込んで○○するだけで6万円の収入」販売。小林寛忠を名乗る

2009年10月  「時給2355円の副業サイドビジネスが毎週届くマネー宅配」販売。小林寛忠を名乗る

2009年12月  「【ネット埋蔵金2010】たった二つのステップのみで179800円保障」販売。尾畑澪を騙る

2010年02月  同人誌転載ブログユビキタスちゃんねる』開設。ユビキタスを名乗る

2010年04月  「皇帝FXシステム」販売。新世界プロジェクト合同会社川澄舞を名乗る

2010年08月  「黒字スタートの作業代行ビジネス」を販売。ケーエイキャピタルマネジメント小林寛忠を名乗り、斉藤悠を騙る

2010年10月  ブログ『萌通.com』開設。オールハイルオレンジを名乗る

2011年01月  「無料ブログで日給15万円を稼ぐ裏技」を販売すると見せかけやらおんを陥れようとして失敗

ただし一部不正であること、そしてこれでもまだ全貌ではない可能性があります

MMORPG時代

ROにおいてヒロディーンを名乗り、RMT詐欺被害がほとんど泣き寝入り状態であったことに付け込んで詐欺を繰り返しました

被害者の1人N氏は警察が介入しないため、独自に振り込み口座名コバヤシヒロタダから彼の素性を洗い出そうとしました。それに対してコバヤシヒロタダ「ヒロディーンとして有名なRMT詐欺師N氏が逮捕された」という新聞記事を捏造することで報復しました。本物の新聞記事がゲーム内のキャラクター名までも報道することなどまずありえません。しかしこの風評被害によってN氏は2年間に渡って苦しめられられました2007年、被害届が受理され供述調書が作られたというところで情報は途絶えています。

情報商材詐欺

MMORPGの後、彼が目に付けたのは株、そして情報商材した

古林弘忠は当初はASP(アフィリエイトサービスプロパイダ)を利用して販売していました。ASPとは情報商材を販売する中間業者であり、手数料が取られるため割高になりますが、利益は1ヶ月間ASP側にプールされる仕組みになっており、信頼のおける企業のみ参加していることを売りにしています。

しか古林弘忠はここで永久サポートキャッシュバックなどを謳い、中身のない情報商材を販売、被害者クレームをつけようとしたところ架空の住所だったためにASPから追い出されました。それでも懲りずにペーパーカンパニーを作ってはASPに中身のない情報商材を高額で出品し、詐欺を繰り返しました

またASPから追放された情報商材ペーパーカンパニーから直接販売することで被害者を拡大しました

彼のやり口は一定のパターンがあります

彼はブログ面白いことを書く才能には欠如していたようですが、こうした謳い文句で他人を踊らせ、他人を陥れることにかけては天才的だと言えます

古林弘忠はこうした複数のペーパーカンパニーを立ち上げました被害者は「特定商取引法に基づく表記」に書かれたこれらの企業の住所に連絡しましたが、架空のもので連絡は取れませんでした。特に被害者の多かった情報商材レバレッジ・クエストについては被害者の会が結成されるまでに至りましたが、古林弘忠雲隠れしたため解決には至りませんでした

彼がペーパーカンパニーに使った住所は悪質な振り込め詐欺融資保証金詐欺の拠点として複数サイトから警告が出されています。

ブログ時代

株や競馬情報商材詐欺に手を出していたものの大きな利益を上げられなかったのか、彼が次に目をつけたのはブログアフィリエイトした。数万PVがあると偽り広告を募集したり、YouTubeアップロードされたアニメ動画を埋め込んだブログ同人誌違法アップロードしたブログ作成アフィリエイト利益を上げようとしました

やがて目に付けたのがゲームアニメ界隈の情報ブログした。彼がそこで何を思い、何をしたのかはまだ判明していません。時間とともに明らかになるでしょう。

恐らく古林弘忠に潰されたブログは1つや2つではないと思いま

やらおんを陥れようとしたサイト疑惑

やらおんを陥れようとした情報商材サイトと、古林弘忠が作っていたサイトはいくつかの共通点があります

1.古林弘忠独特の文体

彼のサイトや、彼が作った情報商材サイトには一定の文体の特徴があります

  • 「私は」「それは」など主語、「しかし」「では」など接続詞の後に頻繁に読点を打つ。
  • 鍵括弧に『二重鍵括弧』を使う。
  • 三点リーダに「…」ではなく「・・・(全角中点)」を使う。
  • 「~だろうか?」「~なのか?」と疑問を呈してからそれに答える。
2.ホームページ作成ソフト

彼が作った情報商材サイト、そしてやらおんを陥れようとした情報商材サイトのヘッダを確認すると次の記述があります

<META name="GENERATOR" content="IBM WebSphere Studio Homepage Builder Version 10.0.0.0 for Windows>

これはホームページビルダー10で作成されたサイトだということを意味します。最新のホームページビルダーバージョンは15で、バージョン10が発売したのは2005年です

萌通が過去2007年2008年に作ったサイト、そして2010年やらおんを陥れるために作ったサイトは全て修正パッチを全く当てていないホームページビルダー10で作られていました

もちろんここまでは偶然という可能性もあります

3.ASPを通していない、宣伝広告もされていないサイト

ASPを通していない直接販売型の情報商材サイトというのは、一般的に詐欺の可能性が高いのでほとんど相手にされません。

それだけでなくこのサイト宣伝広告が全く行われていませんでした。通常情報商材はその手のスパムのようなブログで大量に取り上げられることが多いのですが、このサイトのように1件もリンクされないの異常です。どうやって利益を上げるつもりだったのでしょうか?

アフィリエイトブログによって利益を上げる方法を定価98,800円のところを特別価格29,800円で販売するといいながら、1,575円のアフィリエイトノウハウ本のAmazonリンクを貼るのも謎です。まるで商売する気がないというか、Amazonリンクアフィリエイトコードを埋め込むために置いたと解釈した方が自然です

4.検索に出てこないはずのサイト

この情報商材サイトが発覚したきっかけは、次の2chの書き込みでした

351 名前レインボーファミリー(catv?)[sage] 投稿日:2011/01/15(土) 19:12:19.81 ID:MxCsM2Jp0

さて、ここで俺が気付いた情報が一つある。


http://*********.tsuchigumo.com/


このサイトだ。


なんと http://*********.blog39.fc2.com/ のブログに張り付けられているアフィコード 「******-22」と一致


アフィコードなんて検索すればバレると言う事を知らなかったみたいだな。

(以下省略、また一部情報は伏せてあります

ですが、この時点でこのサイトは作りたてでgoogleクロールの対象ではな検索しても出てこなかったです

検索しても出てこないサイトを、彼は一体どこから見つけ出してきたのでしょうか?

5.萌通新聞における古林弘忠の発言との類似性

この発見者の発言は「萌通新聞」における古林弘忠の発言と驚くほど酷似していま

329 名前レインボーファミリー(catv?)[sage] 投稿日:2011/01/15(土) 18:59:56.97 ID:MxCsM2Jp0

 ・まず割れ中の不手際からミクシーがばれた。

 ・つまりミクシーと割れの関連は本来皆無で、ミクシープライベートな物だと推測できる。

 ・ミクシーは晒される事は予定しなかったので意図的な嘘のない信用できる内容が書いてある。

 ・つまりミクシーに張り付けている新しく作ったプロフの内容も信頼できる。

 ・割れ厨は http://*********.blog39.fc2.com/ の管理人である


 ここまでは確定できる情報だ。

 全て割れ厨不手際とあさはかさで偶然に繋がったから。 

355 名前レインボーファミリー(catv?)[sage] 投稿日:2011/01/15(土) 19:14:33.95 ID:MxCsM2Jp0

 皆惑わされるなよ。

 やられやく管理人なのか、やらおん管理人なのかはどうでもいい。


 割れ厨を追求することこそがこの祭りの本旨だ。


 この割れ厨がどこの誰かこそが重要

 やられやくにしろやらおんのどちらかにしろ、割れ厨をつぶせば終わる事だ。


 以上。

まとめるとこうなります

  1. やらおんを陥れようとしたサイト古林弘忠過去作成していたサイトの文体と類似
  2. やらおんを陥れようとしたサイト古林弘忠過去作成していたサイトホームページビルダー10で作成
  3. 全く宣伝リンクもされていない商売実態があるのか極めて疑わしい情報商材サイトである
  4. レインボーファミリー(catv?)は見つけられないはずのサイト検索によって発見した
  5. レインボーファミリー(catv?)の発言は古林弘忠の自サイトにおける文言と酷似している

全ては状況証拠であり、確定的なものはありません。なので彼の言葉を借りておきます

この記事は特定個人を誹謗中傷するために書いたわけではありません。

彼が犯罪行為をしたかどうかは確定していない事をお伝えしておきマス。

オマケ・古林弘忠過去に名乗った名前一覧

2011-01-15

http://anond.hatelabo.jp/20110115015026

あと子育てについてのプライベートtweet勝手クロールされるのは嫌悪感の方が先にくると思う。

だよねえ。

こういう発想が無い辺り、元増田はいかに男性だなあ…と思った。

子育てについて語るのは圧倒的に女が多いけど、女には相当反発されるシステムだと思う。

はてなではよく腐女子世界の閉鎖性が話題になるけど、別に腐女子に限らず「女の世界」って多かれ少なかれああいうもんだから

気の合う仲間内キャッキャウフフするのは好きでも、自分ツイート不特定多数大公開したがる女はあまり居ないから。

http://anond.hatelabo.jp/20110115003843

何をしたい、何をさせたいサイトなのかが分からない…。

テーマより先に、まず「ユーザの欲求」を考えて、それを「解決」に導くサービスを作らないといけないんじゃないのかなぁ。

エロは「性欲」っていう強力なもんがあるし、trivistは「知識欲」や「娯楽」を元にしてるんだけど、子育てに悩んでtwitterに呟いてる人が求めているのは、呟きの重み付けじゃなくて具体的な解決策だと思うんだ。呟くってことは返事を期待してるってことで、twitterの中で完結してて外部連携に意義があるの?って思う。

あと子育てについてのプライベートtweet勝手クロールされるのは嫌悪感の方が先にくると思う。

2010-12-07

自分WEBサービスを作りたいと思っている人へ(プログラミング経験

Webサービスを公開するまでの軌跡を語るよ

自分WEBサービスを作りたいと思っている人へ ( http://anond.hatelabo.jp/20101203150748 ) を読んで、初心者じゃなくてある程度の経験者が作ったらこうなるんだよってことで書いています。でも正直4ヶ月でそこまでできるようになるなんておそらく相当頭がいいんじゃないかなと思うんです。いや、本当に凄いと思う。

まず作ったサービスグルーポンチケットまとめサイトグルーポンナビ( http://gp-navi.net/ )まず自分スペックだけど、昔から趣味プログラムやったり仕事プログラムしたりしてましたWeb系ばっかりやってるいちおうこういうのを作るのには慣れてる方です

お金使いたくないからHerokuを使う

それで私ですが、まず最初http://anond.hatelabo.jp/20101203150748 の人と同じで全然お金を使いたくなかったです。だからいろんなホスティング会社を探したしたですが、VPSを借りちゃうと大金がかかるんですよね。そこで、いわゆる流行クラウドであるHeroku( http://heroku.com/ )を使う事にしました

このHerokuは無料で使えるから良いんですけど、バッチ処理を行うには有料のサーバ契約しなくちゃいけないんですしかWebの一回のリクエストは30秒までに押さえなくちゃいけないっていう制限があったりで、正直無料で使うには厳しい

でもやっぱり無料っていう響きに吸い寄せられてHerokuを使うと決めてアプリケーションを書き始めましたRailsで書いて賞味2週間くらいちまちまと進めてアプリを完成させました。だいたい一日2時間くらいかな。Railsにはそこまで詳しくはなかったけど、Web検索すれば結構情報がヒットするからそこまでの苦労は無かったです。それよりも制限のあるHerokuでどうやって実現するかというのが、結構問題でした

でもやっぱり無料じゃ厳しい

それでしばらく運用してました。このとき全然宣伝しませんでしたから、ほとんどページビューはあがらなかったです宣伝大事。これほんと。それでHerokuで作った仕組みなんですが、無料でやりたかったので、Workersを契約しないでアプリをつくってました。だからWebリクエストをトリガーとして普通にクロールさせるよう作ったんです。でも、クロールするサイトを徐々に増やしていくと30秒以内にリクエストが終了しなくなってきてさぁ問題。どうしようかと考えたあげく、レンタルサーバもいいなっておもったけど、結局自宅サーバをたてることにしました。たぶん、これが一番コストパフォーマンスが良い。でも気をつけなくちゃ行けないのが、サーバ自体の管理自分でやらなくちゃいけないから結構めんどくさいんですよね。結局自宅サーバかよって感じです

サーバの発注とかシステムの構成

サーバNTT-X Storeで発注して発注して、16,800円。かなり安いです。このサーバの詳細は http://wiki.nothing.sh/page/NEC%20Express5800%A1%BFGT110b に書かれています。なんでこのマシンしたのかというと、VMWareのESXiで仮想化したくて、それに対応している安いサーバがこれだったというわけ。ちなみに、これをすると管理が楽になる。例えば、マシンバックアップが取りたいなと思ってもすぐできるんですね。だから仮想化は凄く良い。

でも、素のGT110bを使うとメモリも少ないしCPUも弱いしハードディスクも少ないので、これはネットで買い足しました。あ、あとデスクトップ用のモニタが無かったのでそれも中古で買いました。それが次のような感じ。

ずいぶんと安い買い物だったと思います。もちろん、マシンの上で動かしているOSLinuxなので、ライセンス料もかからないしとてもリーズナブルです

ここまできたら後はアプリを作り直すだけでした。Herokuで作ってたときにはHerokuの制限を考えながらアプリを作ってたので作りづらかったですが、自宅サーバを使うとそういった制限はなくなるのですごく作りやすい。お金を払うだけの価値はあると思います。やっぱりお金をかけるべきところはかけないとダメですね。

携帯対応とか

それから結構このアプリケーション携帯ユーザ女の子がよく使ってくれます。結構教えると毎日見てくれるんですよ。やっぱりお買い物と言えば女の子ですね。だから、携帯対応しました携帯はいままでやった事は無かったんだけど、Railsプラグインであるjpmobile( https://github.com/darashi/jpmobile )を使ったところすごく簡単に対応する事ができた。凄いですね。id:darashiさんに感謝です

iPhone対応していますが、こちらもあまり詳しくなかったので最初jQuery mobileを使って構築しました。でもちょっと重かったのでjQuery mobileはやめて手組しています。そもそも一ページしか無いのでそんない難しい事は無いですね。

感想

最後に一番強調したい事を。。。

ウェブサービス公開するのはそこまで難しくないんですが、それを流行らせるのはかなり難しいですね。面白いサービスとかであれば結構色んなところがとりあげてくれたりするんですけど、後発のサービスになるとなかなか。。。開発者の方は作る事よりもどうやってみんなに知ってもらうかを考えるのがすごく大変な事だと思います。お金かけて広告うてれば楽なんですけどね。

とにかく作ったら公開。やる事は各方面への宣伝です。今のところやってるのはTwitterへの投稿と、ここへの投稿ですかね。これからいろいろ試そうとしているところ。このサービスがある程度知名度が上がってきたらまたそのとき軌跡を書きたいと思います。

2010-11-15

Twitterストーキングのすゝめ

Twitter、楽しんでますか?

そろそろ誰か好きな人が出来たりしましたね。良かった。じゃあストーキングしちゃいましょう。

今回は「@masudadayo」さんをストーキングしてみます。(example.com的な例示IDがないので作りました。同様の用途で使いたい方使っちゃってください。)

鍵がかかってる人は諦めましょう。また、なるべくリアルタイムで捕捉することを念頭に置いて書いています。



関連ツイートを全て追いかける

まさかただフォローするだけ、良くてもListに入れる、RSS登録するだけなんかじゃないですよね。それでは「全て」追えません。検索を使います。

まずは公式の検索ここ)を使ってみましょう。

検索ワードは「from:masudadayo OR to:masudadayo OR @masudadayo」。to:と@を併記しているのは検索仕様です。to:はin_reply_toがついているものだけを対象に検索しています。

Twitterをやっていれば自分のホームから検索すればこのクエリを保存することができます。保存したものはiPhoneなどからも使えるので出先でのチェックもできますね。

また、これ以外にさらにORで繋げて対象のニックネームなども書きたいのですが、公式検索日本語に非常に弱いのであまり効果がないかもしれません。

そこで使えるのが通称「yats検索」(ここ)。かなり日本語ヒット率が高いのでオススメです。ただ、クロール対象が狭いので出来れば公式と併用したいところ。

ちなみに、なんとMacTwitterクライアント夜フクロウ」には公式検索とyats検索マージして検索結果として表示してくれる機能が搭載されています。

他にもGoogleアップデート検索や、NAVERリアルタイム検索なども使えることがあります。削除されたツイートなどがインデックスに残っていたり、ね。

ふぁぼりふぁぼられを全て追いかける

favを使ってコミュニケーションをとっている通称ふぁぼクラスタだとこれは外せません。

favstarではほぼリアルタイムに観測ができます。Recentがふぁぼられ、Givenがふぁぼり。ただ、無料だと時系列過去へさかのぼれるのが1ページ(20件)だけなので古いものが見れません。

そこで、国産サービスだと有名なふぁぼったーや、最近ではふぁぼろぐなんかも出来ました。

特にふぁぼろぐは、自分のふぁぼを整理して見られるのが恥ずかしい!と言って非公開にする人が続出しています。favはその人の趣味嗜好や内面を知ることのできる大事なデータですから必ずチェックしましょう。

仲の良い人誰だろう?

対象が仲良くしてる人(@を飛ばしてるとかRTしてるとか)気になりますよね。

ずばり、なかよしったーでは最近ツイートの中から一番を調べられます。

また、Twilogなら、対象の人が登録してれば過去全て、してなくても最近ツイートの中から仲の良い順に表示されます。右ペインの「Friends」でどうぞ。

アイコンとかプロフィールとかが変わってる

Twitivityプロフィールや、アイコン画像変遷が追いかけられます。気持ちや環境に変化があるとプロフィールを変える人は多いのでこれでぜひ。

サードパーティな連動サービスも忘れずに

特に、Twitpicなどの写真系や、foursquare国産ならロケタッチを始めとした位置情報サービス系。

電波の悪さや、APIの不調などでサードパーティサービスにだけデータがアップされて、Twitterにはつぶやかれていない事が結構あるので、ツイートとは別にチェックしておくのをオススメします。




他にも皆さんの素敵なTwitterストーキング術があれば教えてください。Facebookのように複雑でないTwitterストーキングが非常に簡単ですね。

では、タイムラインで。

2010-10-23

http://anond.hatelabo.jp/20101023225600

その例で言うと

顔に水を付けることが出来ないにもかかわらず、

最近クロールを泳いでみたよ

とりあえずお金時間無駄にしたけど

いい経験になったよ

2010-10-13

http://anond.hatelabo.jp/20101012201102

実名こえー。

あとその実名googleに捕捉されるのがこえー。

mixiみたいにクロール禁止とかしてくれなきゃ臆病な俺らが実名登録とか、

どう考えても無理っしょ。アルファギーク有名人とは違うんです。

2010-09-14

好きな人名前 その2

http://anond.hatelabo.jp/20100907085547 の続きなんだけど、

自分名前を調べるときに、人間じゃないとわからない質問に答える、

いわゆるCAPTCHAを設ければロボットによるクロールがなくなるから、

実用的になるんじゃないかなと思ったり。

でも画像認証以外の良いCAPTCHAが思いつかない。

サイト利用者が質問を出し合って、その質問が人間が答えたものか判断する、

って仕組みを考えたけど面倒かもと思ったけど、メールのやりとりみたいで楽しいかもと思ったり。

その宛先が好きな人ならなおさら。



漏れ好きな人名前を叫びたいんだよ!

2010-09-02

岡崎市立中央図書館には結局クロールして良いの?

今後は岡崎市立中央図書館ウェブサイトクローラアクセスしてよいの?

wgetしちゃっていいの?

波乗野郎しちゃっていいの?



岡崎市立中央図書館はLibrahack氏に謝れよ。本当に。

平成十七年(2005)の設計だから想定していなかったって阿呆ですか。

波乗野郎の発売は1996年だ。wgetもその頃からある。この時点で庶民にクローラ需要があったんだぞ。



俺だって十年前から自動巡回も一括取得も当たり前にやってた。



品質製品を発注してしまった責任を取りたくないから認められないのか?

三菱から見返りでももらっていたのか?


合法だけど迷惑行為だったとでも言いたいようだが、迷惑を受けたのは逮捕された側だっての。

今まで落ちなかったのは、たまたまそうやって利用されていなかっただけだろ。

利用者の方におかれましては、情報収集のために使われる手段が、他の利用者に迷惑をかけていないかどうかについて、ご配慮をお願いいたします。

同時1コネクション限度でアクセス毎に1秒ウェイトは十分すぎるほど配慮してるじゃないか。

何百メガバイトものファイルを大量に落としたわけでもない。

頻度も大域も1万円の中古パソコンでもさばける程度のアクセスしかしてないじゃないか。



この図書館は最悪だな。こんなだから逮捕者まで出してしまったんだ。

三菱も悪いが図書館の態度も大きな原因だろう。無知でしたとか言う次元じゃない。

こんな図書館だから、こんな商品発注して、この有様なんだとしか言いようがない。

2010-05-26

図書館サイトアクセス逮捕の件

図書館HPアクセス3万3千回 業務妨害容疑で男逮捕

http://b.hatena.ne.jp/entry/www.asahi.com/digital/internet/NGY201005250031.html


このニュースブックマークで話題になってたけど、回数や間隔のことより、「蔵書DBクロール」のコメントが何件かあって気になる。

たいていの公共図書館書誌データ=MARCTRC(か他社)の著作物契約して買ってるものだし、外部から勝手コピペですら本当はだめなんだが。


よくヤフオクオンライン古書店で本のあらすじをコピペして最後に(MARCデータベースより)って書いてる人がいるけどあれはアウトでしょう。Cマークじゃないんだから出典を書いておけばいいってもんじゃない。

2010-04-04

http://anond.hatelabo.jp/20100404011633

しかしなぁ、

世の中には、パスワード一覧をEXCELファイルで作っちゃって、まちがってメールで関連先に送付しちゃって大問題っていう

インターネット企業』もあるわけだし・・・

それでいて、操業停止になるくらい、ユーザーが離れるわけでもないんだぜ?

そりゃぁ、セキュリティーなんて向上しないし、みんな無視するよなぁ

 

安かろう悪かろうで、そういう業者に発注するからそういうことになるんだが・・・

真面目にセキュリティーに取り組んでる奴がバカをみる・・・

嫌な時代だよな。

ちなみにな・・・

http://mag.wb-i.net/2010_04_02.html

対処策が・・・

1.metaタグの挿入(noindex,nofollow,noarchive)

2.USER_AGENTよるSpiderの排除

なんつーかな。

そもそも、セッション持って、外部から見られないように対策すべきであって、クロールされなきゃ良いって問題じゃないと思うんだが?

それにmetaタグよりrobots.txt使えば早いのに・・・とか、突っ込みどころ満載。

クッキーを使ったログイン機能と指定したIPアドレス(複数指定可能)からのみ管理プログラムアクセスできる機能を搭載予定

これを無しで販売したそのマインドがすばらしいし

それを購入した方のマインドもすらばらいい。

起きるべくして起きた事件としかいいようがない。

 

無かったのかよ・・・管理画面にログイン機能・・・

つーか、こんな初歩の初歩にひっかかるようじゃ、

真面目な攻撃食らったら簡単に個人情報吐き出しそうだな・・・このプログラム

SQLインジェクション感染したりして・・・w

2010-04-03

http://anond.hatelabo.jp/20100403084111

IEFF使っていても、

アレクサのプラグインとかOrbitプラグインとか、URLだけなら、外出ししそうなものは山ほどあるだろと?

プラグイン含めてURL履歴外出しを疑い始めたらキリがないよ。

あとは、それでリストが出来て、そのリストGoogleが再利用したとか。

つーか、Blogとかやっていて、Botsみれば、Botsがどんだけヘビーにクロールしてくるかってのはよく知ってるはず。

バイドーとかMSNとか嫌というほど、変なURLでもクロールしてくるし。

企業内でアレクサとかOrbitSkypeあとはその手のプラグイン使う方がよほど問題だ。

OrbitSkypeなんて、P2PのためにFWに穴あけてくるから、設定がザルだと社内ネット破られるんだよアレ。

で、結局、一番はFWを固くしろと。それ以外で企業FWは守れないし、XXは使うなっていって、使うのが0になった試しなんて無いから期待しねーよ。

だから、ちゃんとFW固くできる奴を雇えよ大企業はって話かと。

 

一番考えられるのはURLメーラーからコピペして検索しただろ。

そんなものIEでもFFでもChromeでも止められない。

Cheromeは窓が1つなので、起きやすいのは事実だがな

いずれにしろ、パスワード検索する奴ってのは少なからず事故を含めいるし

URLセッションキー替わりにパスを入れる何って防げない。

2010-04-02

http://anond.hatelabo.jp/20100402181017

Googleが何かミスをした」訳でも「悪意をもって何かをした」訳でもないからかな。

Googleの落ち度は何だと思うの?

ミスも悪意もなくても、現実Googleサーバー個人情報を晒してる状態になってる。まずくね?

2ちゃんねるだってひろゆきに悪意はなくても裁判には負けた。サーバーで何かを公開するってことは思わぬ責任をかぶることもあるってことだろう。

しかもGoogle場合、他人のサーバー勝手クロールしてマズイ情報勝手に複製して公開。言い逃れはできないと思うのだが。

http://blog.livedoor.jp/insidears/archives/52275810.html

パスワードを平文で保存の上がいた・・・

POSTで受け取ったパスワードをGETのURLセッションキー替わりに添付

そしてGoogle先生クロールされる・・・

・・


は?

顧客情報 大規模漏えい

しかも、エロゲーの購入客リスト

あぁ、エイプリルフールかw

2010-03-18

表現規制系のネタ半年に一度くらいの割合で盛り上がるなあ‥

明日はてブを「表現規制タグで数年くらいクロールしてみるか。

規制賛成派、反対派のIDも収集しよう。

2010-03-06

http://anond.hatelabo.jp/20100306202336

post消せるよ

誰かにふぁぼられて、ふぁぼったーとかにクロールされちゃうと残るけど。

- 転職ならen
- 派遣ならen
3ページ中1ページ目を表示(合計:61件)