「VPS」を含む日記 RSS

はてなキーワード: VPSとは

2012-01-07

事務職リーマンwebサービス作ってみた

Webシステムとは縁遠い事務職のリーマンが、ある日思い立って、ニッチな用途の検索エンジンサービス作ってみたので、ちょっと書いてみようと思います

ちなみに、検索エンジンといっても、googleカスタム検索とかのお茶濁し系じゃなくて、apache Solrというオープンソース検索エンジンを、VPS上で動かしているという、それなりに本

気度の高いものです。

なんで素人がそんな物騒なものを動かす羽目になったかは、後述。



アイデアときっかけ

やりたい構想みたいなことを思いついたのは、もう6、7年前ほど前のこと。初めて独り暮らしを始めたときに、ひどく不便を感じたことがあり、こんなサービスがあったら便利だなあ、

と、ぼんやり妄想していました。

ちなみにその妄想をふと高校の同期に話したとき、そのサービスはどこにあるのか?!と、えらくがっつかれたのを、覚えてます。まあ、俺と同じく偏執狂の奴だったからだと思います

が。

ただ、しがない事務職リーマンということもあり、当然、技術も無く、そのときは、やるならこんな名前サービス名だろうなあ、とか、そんな妄想レベルで、話は終わっていました。

そんな感じで、5年ほど月日は経ち、なんとなくリーマン人生の流れも見えてきたところで、以前、妄想していたことを、ふと思い出しました。

5年も経ったら、さすがに自分が考えたようなこと、誰かがやっているだろうと調べてみたところ、意外なことに、競合になるようなサービス存在せず。ちょうど異動があって、少し時

間が出来たこともあり、じゃあ、着手してみようかと思い立ちました。



やりたいことは非常に面倒だった

やりたいことは、大手サイト情報検索。ただ、商品ページ内の特定情報、それも、商品ごとに正規化されていない表記を、正規化して抽出する必要があったので、大手サイトの既設API

だけではとても実現不可能でした。

まあ、だからこそ、5年間、誰もやろうとしなかったんでしょうが

ということで、とても一発では解決できなさそうな内容だったので、自分でなんとか実現できそうな機能に細分化して、各個撃破していくことにしました。



面倒なサービスをどう実現するか

随分と考えた結果、

以上に区分できると考えて、これらを各個撃破していくこととしました。

また、技術もなく、プログラミングも出来ず、ましてやlinuxサーバのお守りをしたことなんて当然ないので、インターネット上に置くサーバですべての処理を完結させるのではなく、イ

ンターネット上に置くリソースは最小限に留め、できる限り、勝手がわかる自宅のwindowsパソコンで処理を行うことにしました。

ちなみにさらっと結論だけ書いてますが、ここまで至るまでに、いろいろと調べ続たり、考え込んだりしていたので、思い立ってから3ヵ月は掛かってます。。。



検索エンジン周りの開発

さて、やる方針を決めたあと、はじめに着手したのは、要の検索エンジンサーバです。

いろいろとググって調べて、mySQLというやつか、apache Solrというやつかに絞りましたが、結局、Solrを使うことにしました。

MySQLのほうが実績は多そうだったのですが、Solrのほうが検索専門で、滅茶苦茶動作が速いらしいということ、MySQLでも出来るが特に速度が遅いらしい全文検索機能も使いたかったこ

と、あとファセット機能ジャンル絞りこみに便利に使えそうだったので、というのが理由です。

ちょうどSolr本が発売されていたこともあり、それを参考に、自分が使うように設定ファイルを変更していきました。

しかし、初めは設定ファイルの内容も意味不明な上に、私の書き方も雑なのか、少しいじっただけでまったく動かなくなる。結局、設定ファイルを一文字ずつ変更しては動作検証、とい

った始末で、進捗は地を這うよう。ある程度思い通りにSolrを扱えるようになるまで、3ヵ月以上掛かったでしょうか。。。

さらに、検索エンジンフロントエンドSolr検索結果を、htmlに変換するプログラム)も書かなければならない。プログラミングが出来ない人間には、これが本当に辛かった。

Solr本に、いろんなプログラミング言語でサンプルがあったのですが、迷った末に、わずか数行なら書いた(≒コピペした)経験があるという理由で、javascriptを苦渋の選択。

しかし、選択はしてみたが、基礎が本当に無いから内容がサッパリ頭に入ってこない。こちらも、わかるところから本当に1文字ずつ変えていくといった手探り状態。

プログラミングについては、今回のためだけだから、といった理由で、一切基礎をやらずに着手したのが裏目に出たのか、サンプルのソースをモノにして、書き上げるのに、ゆうに半年

以上。本当に時間が掛かりました。



kanzen21.comに衝撃を受ける

さらに、Solr周りで計9ヶ月間ハマっていた頃、忘れもしない、kanzen21のおっさん彗星のように現れて、衝撃を受けることになります

大手サイトのページをクロールして検索エンジンを作る手法は、私と考えていた構想の枠組みとまさに「完全に一致」な訳で。。。

図書館事件に注目していたのも同じで、あまりの一致具合に衝撃を受けっぱなしでした。

その後の成り行き等も含めて、興味深く観察させて頂き、本当に参考になりました。



クローラ周りとかの開発

そんな感じで紆余曲折もありましたが、ようやく難題だった、プログラミング関連に目処が立ってきたので、あとはクローラと肝心のデータ処理です。ここからは、勝手知ったるwindows

の領域なので、多少の安心感があります

まず、クローラですが、専用のクローラwindows用に探してきたり、それを設定するのも大変なので、今回はテレホーダイ時代に使っていたような、フリーweb巡回ソフトを利用する

こととしました。指定のhtmlダウンロードしてくるだけなので、別に変に新しいものに手を出す必要もないので。

また、ダウンロードしてきたhtmlファイルについては、これまたフリー日本語処理ツールでcsv方式に加工することにして、処理ルール部分を相当に作り込みました。

このあたりは、全体を通して見てもキモの部分なんですが、ある意味ちょっとしたパズル感覚だったので、プログラミング言語の部分と違って、かなり楽しかったです。

あとは、msdosバッチファイル(これは前から知っていた)で、これらの処理を繋ぎcygwincurlかいうツールで、連続して検索エンジンサーバcsvファイルアップロードする

仕組みを作りました

検索エンジンサーバには、容量は少ないが、安くて高性能という、今回の用途にピッタリだった、さくらVPSを借りて設定。CentOSサーバ構築ホームページを見ながら、サーバとか

Solr管理URLとかにセキュリティを掛けて、こちらも素人ながら、意外とすんなり設定。

ホームページは、vpsサーバ相乗りさせるのではなく、別にさくらレンタルサーバを借りました。apacheの設定方法等を習得する必要がありませんし、vpsリソースapacheと分け

合う必要が無くなるので。ホームページhtmlファイルcssファイル等も調べながら設定し、画像も準備しました。

あと、構想を思いついたとき妄想していたサービス名の.comドメインは、すでに他者に取得されていたのですが、どうも使っている風にも見えなかったので、whoisで出てきたメール

ドレスに連絡して交渉し、幾ばくか払って買い取りました。



ようやく完成

結局、足かけ18か月。ようやく完成。



楽天市場家具を、幅x奥行x高さ(家具サイズ)で検索できる、楽天市場家具カテゴリ専門の検索エンジン

カグサイズ検索

http://kagusize.com



この商品数規模(データ収録約30万アイテム)で、1センチ単位家具サイズ指定検索が可能な手段は、商用サービスも含めて、ほかには存在しないと思います

kanzen21と違って、エロじゃないから華はないけどね。。。




カグサイズ検索提供する価値について

ちなみに冒頭で少し書いたきっかけですが、就職して独り暮らしを開始したときに、新しい家にピッタリサイズ家具が欲しかったのですが、これが楽天で探すのは至難の技でして。

楽天家具を探してみようと思った人には判っていただけると思うのですが、楽天では、価格では範囲指定やソートができても、サイズでは検索出来ないんです。

これは、楽天では、商品のサイズ情報は商品の自由記述欄に記載することになっているためで、商品ごとにサイズの記載方法がバラバラのため、検索事実上、不能となっています

家電製品とかに関しては、種類が少ないこともあり、メーカーホームページとかでサイズを確認した上で、商品型番で検索すればいいので、それほど問題にはならないのですが、家具

って、種類が非常に多く、型番もあったり無かったりで、家電のようにサイズを調べることができません。

しかも、サイズが非常に重要な商品です。なんて不便な!


・・・ということで、カグサイズでは、楽天の商品ページにいろいろな書式で書かれているサイズ情報を拾って解析して正規化し、範囲指定やソートして検索ができるようにしています

また、単に寸法サイズを拾うだけでは、梱包サイズとか引き出し内寸とかも引っ掛かってしまうので、それらは出来るだけ排除して、商品の外寸が優先して引っ掛かるよう、アルゴリズ

ムを調整しています

単位センチミリ)に関しても、商品ごとにバラバラ(単に単位だけでなく、商品説明のどこに"センチ"とか"ミリ"と記載しているかについてもバラバラです。)なので、サイズ表記

前後の状況をみて、正しいと思われる単位で拾うようにしています




その他

あと、変わった使い方としては、欲しい家具価格比較みたいなこともできます

家具は、同じ商品でも、店ごとに型番が違ったりすることがよくあり、簡単には価格比較が行いづらいジャンルの商品です。

しかし、型番は違っても、同じ商品なら原則、サイズは同じですから、欲しい商品とまったく同じサイズ検索をかけると、同等商品があるのかどうか比較しやすい・・・といった使い

方もできます


おわりに

と、そんな感じで、しがない事務職リーマン作ってみたニッチな用途の検索webサービスを、サービスインさせて頂きました。

一般に公開されていて、誰でもアクセスできる情報でも、ニーズが有りそうな切り口の条件で検索性を高めれば、新しい価値創造できるんじゃないかという実験です。

もしよろしければ、ぜひ、使ってみてくださいー。それでは!

----------

カグサイズ検索

http://kagusize.com


追記

アップ直前の変更により、最大サイズの指定がうまく働かなくなっていたため、修正をしました。ご指摘有難うございました。

2011-12-08

Operaが重いと思ったらvpsを疑ってみる

vpsとは"visited pages search"の略で、vpsフォルダの中に訪問したページのデータを貯めこんで全文検索できるようにしてあるらしいのだが、これが溜まるとOperaの動作が重くなるようだ。

最近Operaがページを読み込むたびに1.5秒ほどフリーズしていたのがvpsを削除することでなくなった。これでOpera出会った時の軽快さが戻ってきた。

他にもキャッシュ関連のデータはあるはずだが、自分環境ではvpsの削除でじゅうぶん速くなった。というわけでOperaユーザーで速度を重視する人はvpsフォルダの削除も考えてもいいと思う。

関連ページ

Opera、起動と終了が遅いのを改善する

http://d.hatena.ne.jp/gnarl/20090405/1238927684

FreeBSD: Opera のガリガリの原因を find - classiclog

http://artrec.homeunix.com/news/classiclog/story/1274006262_60618_0.html

2011-09-16

http://anond.hatelabo.jp/20110916180518

普通定義が不明だけど、過去普通Windows95発売後以後にPCさわりIT業界印刷業界にかかわっていない)ひとたちなら多くても2台。

大体1台がふつうだよ。



ていうか、普通の人でPC6台って多くないかな。

俺なんか家にサーバ3台とクライアント3台しかおいてないよ(ディスプレイ数は聞くな)。

DCにはサーバ数台とVPSも数個借りてるけど、俺は趣味と実益かねてるからな。

2011-09-15

世界中「ありがとう」を集めるサービス作ってみた

THANKFUL WORLD - 世界を「ありがとう」でつなげよう -

似たようなサービスは既にあると思いますが、PHPプログラムの練習課題として作成してみました。

投稿から「ありがとう」にまつわる話を投稿してもらい、感謝の気持ちを伝えるサービスです


サービスを作った目的

この中で一番の目的だったのは3番目の最後までやり遂げるだったりします。

本当にどんなものでもよかったので、最後まで作り上げて公開するのを目標にやってきました。

システム環境

Apache+PHP+MySQLオーソドックスもの

Webサーバの構築課題も含めてなので、さくらVPSを一台契約しました。

インストールから設定まで行って初めて分かることも多くありました。

開発期間

1週間

思いついてから公開までの時間です

やって良かったこと

  • Webサーバについての知識が深まった
  • システムを構築するに当たっての手順や手法などを改めて考えさせられた
  • 次に向けての課題点が見つかったこと

次に自分が覚えることが見えたのは大きいです

今できることを高めることも重要ですが、自分に足りないものを吸収してより良い形で昇華することも必要。

反省すべき点

  • 思いつきで行動したため、行き当たりばったりで思っていたものとは異なる形となった
  • 最初設計時間をかけるべき

設計が全てだと思います

個人でサービスを作る以上、自分自身がクライアントなので途中で行う仕様変更改善や思いつきによる変更など)に対する文句のぶつけ場所もありません。

念入りに設計を行い、それに基づいて開発を行う。

当たり前のことですが当たり前に行うのが難しいです

何事も初めが肝心です

最後

ひと通り開発を行ってみて、自分の知識や能力についてもある程度把握できたように思えます

今できることもわかったので、次は今できないことをできるように知識を深め、

今できることと合わせて新たな段階に進めればと思います

長々とお読み頂きありがとうございました。

2011-09-06

投げ売り堂の App Engine 対応状況。

投げ売り堂Google App Engine をしようしてますが、9月から慌しくなっている Google App Engine の新料金体系 に対しての対応について。



ほぼApp Engine アプリケーションのリソースを管理する方法を参考に作業を進めています



対応前は、日額1.5~2ドルで月間で45~60ドル

対応後は、日額1~1.2ドルで月間で30~36ドル



一先ず、まだ Background無料枠で対応できそう?なので回せる分はそちらに回したり

先ほどのリンクでも対応できていない部分があるので、まだ対応の余地はあります


しかし、やはりこのアプリつのために 2000~3000円くらいとられるのは、うーん・・・という感じはします。

自分くらいのアクセスだと、スケーラビリティは全く考慮しなくてもまだまだ大丈夫なので

さくらVPS を借りて、そちらの方で動かせるように移植を行っていこうと思います



投げ売り堂は、まだどちらに移行するかなどは考え中ですが、どちらでも対応できるようにするつもりです

2011-08-08

フジテレビ韓流批判=左翼批判と勘違いしてるはてなユーザーらに失望した

一連のフジテレビ韓流批判に関して、一部のはてなユーザーらが左翼批判と勘違いしている人が結構いる。どのアカウントなのかは書かないけど。

今回のデモに参加した人って、嫌韓で集まった人もいれば、ゴリ押し広告手法に対しての抗議、電波の私利私欲で利用などなど個人の見解は、様々なんだと思う。

個人的な見解を述べさせてもらえれば、今回の問題って、右とか左とかの問題じゃないんだよね。

例えば、露骨な広告手法として「セカンドライフ」「AKB48」などが代表的で、前者はブームとして一切定着せず終了。

後者来年には、失速しているだろう。前者も後者ネット等ではかなり叩かれた。

これらを叩いている人間に対して「ネトウヨがまた馬鹿な事やってるよ。やれやれ。」とは言わない。

そして、今回「韓国」ということでネットを中心に批判が集まると、一部のはてなアカウントらは彼らを「ネトウヨ」としてカテゴライズする。

デモに集まった連中の思想が一緒なわけないのに。どうしてもカテゴライズしたいのであれば、「反マスコミ」であり右翼左翼ではない。

また一部に、フジテレビ民間企業から好き勝手にやらせればいいという意見もあるが、これも現状の民放放送の影響力に関して、甘く見すぎている。

いくつか例を挙げてみよう。

個人的にはどれもこれもバランスの問題だが、全部アウト。ただし、この3つの中で一番、性質が悪いのが[3]である。それは韓国という事ではなく手法の問題。

ネットで誰かが「これは健全ステルスマーケティングだ。」と言ったそうだ。その通り これはステルスマーケティングだと思う。しかし、ステルスマーケティング

やる条件として「絶対にバレてはいけない!」というルールリスクを背負う必要がある。それが今回モロにバレてしまったわけだ。

参入の敷居が"超"がつく程高すぎる公共の電波を使って。

地デジ化でその敷居はやや下がったとはいえ、参入表明してる企業があるだろうか?孫正義ですテレビ局を所有できてないんだぞ。

故に、電波国民の共有財産であり、むやみやたらに私利私欲に使ってはいけない。

インターネットサーバーVPSが980円で借りれるような時代です

そのネット上で、「韓国最高!」「韓国の物をどんどん買おう!」「K-POP!素敵!愛してる!」

それを、"仮に"韓国政府からお金をもらってやったってまったく問題ない。

しかし、電波となれば話は別。

趣味趣向が多様化するこの時代に大多数の若者が一つの方向に向いているわけないのに。

フジテレビに限った話ではないが、なんで、テレビコンテンツ一極集中なんだろうか?

ふかわりょうの言うとおり、時代を映すテレビはもう終わったのかもしれない。

客「以前、来たときは、いろんな国の料理が食べらたのに、今は焼肉キムチばっかりじゃないか!これじゃ、胃がもたれるよ。」

店「サンチュもあるからヘルシーでしょ?」

あいつら、本気でこう考えてそうで怖い。

結局、抗議してる人たちってテレビが好きだったんだと思うんだ。


関連エントリー

http://anond.hatelabo.jp/20110808090041

2011-08-04

独学のプログラムエロ動画検索作ってみた

【お知らせ】2011/09/07

新しいエロWEBサービス作りました

http://d.hatena.ne.jp/uniqueweb/20110906/1315285545



プログラムは全く得意じゃないけれど最近よく見かけるようになったエロ動画検索自分でも作ってみたくて頑張ってみました。

近年、インターネットの普及によりエロ動画が自宅で簡単に見れるという素晴らしい時代になりました。

自分が若い頃はインターネットなんてものはなくエロビデオが主流でドキドキしながらレンタルビデオ屋に行き、可愛い女の子レジにいない隙を見計らってお兄さんにパッケージを伏せて空箱を渡しビデオを借りたものでした。

お兄さんにビデオ空箱を渡そうとした時に可愛い子がレジに戻ってきて焦って渡すのをやめてものすごく変な動きをしながらエロビコーナーに引き返していくなんてことも多々ありましたw

僕のお気に入りといえば「白石ひとみ」や「あいだもも」といった女優でよく借りてました。エロビを借りるということがものすごく恥ずかしい時代?年頃?でカモフラージュ普通ビデオと一緒に借りるということもしていました。それはそれは大変な思いでオナニーしてたんです

しかも、ビデオデッキ自体が貴重な時代でリビングに一台しかないのが当たり前でした。

深夜家族が寝静まってからヘッドフォンビデオを抱えリビングに行き暗がりの中でヘッドフォンテレビ差し込んでビデオ再生ボタンを期待に胸をふくらませながら押したものです。いいシーンを何回も見るためにビデオを巻き戻すんですが、ビデオを巻き戻すガチャガチャンという機械音で家族が起きてこないか?とかそれはそれはドキドキしながら見てました。一仕事終えたあとヘッドフォンを外したらジャックが外れていて大音量で喘ぎ声が響き渡っていたなんてこともありました。誰も起きてこなかったのは優しさなんでしょうか?w

さて、大分前置きが長くなりましたがエロというものものすごい技術発展させるものだと思いますエロのおかげで日本ビデオは普及しエロのおかげで日本インターネットものすごく普及したと言っていいと思います自分エロを通して技術の発展に貢献し自分自身のスキルアップになれば。という高い志を持ってこのサイト制作しました。決して自らのオナニーライフの充実と性癖を充たすため作ったわけではありません・・・

※2011.08.07 利用中のサーバーに障害が発生しているようで現在サーバー接続できない状態となっています・・・

※2011.08.07 23:53 復帰した模様です

サイト名:ヌキネーター

サイト名の由来は抜きネタからきています。抜きネーター、ヌキネーターという感じです

エロサイト制作工程日記にしてみたんで良かったら読んで下さい。そしてこのサイトを使って夜いろいろと励んでくれたら嬉しいです

では制作日記を書いていきたいと思います

サーバー選び

まず前提条件としてお金ほとんどかけたくない。アダルトサイトであるということから

サーバー選びからはいりました。

月の予算は5000円以内で考えていたのでけっこう探すのが大変でした。

日本アダルトサイトを許可している所はかなり限られていてさらにやりたいことができるのは

専用サーバーVPSしかないのでそうなると専用サーバー予算オーバーなので

VPSで探すことになり検索しまくってはじめに見つけたVPSはKAGOYAのVPSだったのですがβ版で募集を締め切っていて泣く泣く諦めました。

KAGOYAはかなり評判がいいみたいなので使ってみたかった。

次に見つけたのが○○○VPS海外サーバー日本語サポートがあり転送量の制限なしディスク容量100G

月1300円程度で借りれるということで初期設定費用に5000円程度かかりましたが借りてみました。

結果、ここは最悪でした。

  • 通信が頻繁に切れる
  • 激重
  • 借りて一ヶ月もしないうちにサービス継続が困難になりそうなのでIPが変わるとかメールがくる
  • まりに通信環境が悪すぎるとメールすると環境調査に協力してくれとメールがくる
  • 時間をかけて沢山の項目を調べて返信するも全く返答がない。

まりの酷さに1ヶ月で解約。

よく調べてみたら評判がものすごく悪い某VPS再販らしいです

お金時間をドブに捨てました・・・

もう失敗したくないと思い今度は比較的有名な海外サーバーLINODE

日本語サポートはないけれど抜群のサポートです

iptablesの設定でどうしてもうまくいかなくて拙い英語メールしてみたら

10分しないうちに返信がきました!

メールに書かれているとおりにコマンド入力したらあっさり解決。

素晴らしい!はじめからLINODEにすればよかった。

担当ブライアンはなぜか分からないけどとてもフレンドリーで親切に感じましたw

サーバー設定

LINODEは複数のディストリビューションから好きなものを選択できるので

とりあえず、64bit版を選択。

サーバー設定はほんとに面倒ですね。

一番面倒だけど重要だということで

SSH

Tripwire

chkrootkit

Clam AntiVirus

iptables

Apache

SSL

その他各種監視ツールの導入をしました。

ほんとに面倒でした。

データベース

はじめはmysqlストレージエンジンgroongaを使おうと思ったのです

初めに借りた最悪なVPSOSが32bit版だったのでgroongaがのソースが見つからずなぜかと思っていたら

どこかで見つけた記事で32bit版ではgroongaの性能を発揮しきれないということで32bit版の提供をやめてしまったらしいと書いてたので

じゃあ、sennaにするかということで最悪VPSsennaインストール

その後LINODEに変更したのでOSに64bit版を選択し念願のgroongaをインストール

しかし、調べてみると

などが理由で、結局sennaに戻して2度手間に・・・

プログラムもそれに合わせてその都度書き換えたので2度手間どころか3度手間4度手間でした・・・

senna導入はrpmでさくっといけるので簡単です

依存関係で少しはまりました。

まず

# rpm -qa | grep -i mysql

mysqlインストールされてたら削除

perl-DBIが必要なのでインストール

# yum install perl-DBI

そして下記の順番でインストール

rpm -ivh mecab-0.98-tritonn.1.0.12a.x86_64.rpm

rpm -ivh mecab-ipadic-2.7.0.20070801-tritonn.1.0.12a.x86_64.rpm

rpm -ivh senna-1.1.4-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-shared-5.0.87-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-client-5.0.87-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-server-5.0.87-tritonn.1.0.12a.x86_64.rpm

rpm -ivh MySQL-devel-5.0.87-tritonn.1.0.12a.x86_64.rpm

my.cnfの設定をして終了

で肝心の全文検索ですデータ件数が5万件程度で少ないせいなのか、あいまい検索と比べてそれほど速さを実感できなかったです・・・

でもきっとすごく速くなったはず!

ちなみに「麻美ゆま おっぱい」で検索した場合、0.01 secで結果が返ってきました。


動画データ作成

さて、動画データ作成ですがいくつかのエロサイト制作記事でもあるようにスクレイピングということをします。

スクレイピングとはWEBサイトから特定の情報だけを取得することでネット上にあるサイトクロールして必要なデータだけを拾ってデータを作るといった感じでしょうか。

スクレイピングプログラム自体は以前にTidy関数を使って為替データ10分おきに取得するような物を作ったことがあったのでそれほど時間はかからいかなと思ったのですがけっこう時間かかりました。

スクレイピングにはTidyhtmlSQL、それにPHP Simple HTML DOM Parserを使いました。

下記のサイトを参考にしました。

phpによるスクレイピング処理入門

SQL みたいな文法で HTML を抽出する PHP のライブラリ

htmlSQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」

つの中で抜群に使えるのはPHP Simple HTML DOM Parserだったんです

ループ処理させるとメモリがすごいことになって今回のようなスクレイピングに向いてないみたいで

結局、htmlSQLTidyの両方を使ってスクレイピングしました。

両方ともPHP Simple HTML DOM Parserに比べるとうまくデータの取得ができないことが多く残念な感じなんですが他に選択肢がないので・・・

使える順に並べると

PHP Simple HTML DOM Parser

htmlSQL

Tidy

といった感じかもしれません。

おおまかにデータを取得して正規表現で特定データを抜き出しました。

広告との連携

広告にはDMMアフィリエイトを利用しています

http://affiliate.dmm.com/link.html

利用可能な物はパッケージ画像、サンプル画像(縮小)と書かれていたのでそれに従い画像を利用。

注記に※ユーザーレビュー引用いただけません。とだけ書かれているのでそれ以外は引用ありと判断して説明文とタイトルなどを利用

女優データジャンルデータDVDデータ、を紐付けたデータベース作成検索ワードに応じて検索結果に関連する商品を表示させるようにしました。

現状、売り上げ0で意味があるのか分かりませんけどw

負荷対策とか転送量とかDOS攻撃対策とか

エロサイトということで多少はチューニングとか設定とかしないとまずいかもと思い色々調べて設定しました。

やったこと

KeepAlive On

MaxKeepAliveRequests 60

KeepAliveTimeout 3

<IfModule prefork.c>
StartServers       7
MinSpareServers    5
MaxSpareServers   10
ServerLimit       30
MaxClients        30
MaxRequestsPerChild  4000
</IfModule>

様子見ということで2日間で設定してみました。

query_cache_limit=1M

query_cache_min_res_unit=4k

query_cache_size=16M

query_cache_type=1

とりあえずこんなところを設定してみましたが、爆発的なアクセスがあるわけでもないので有効なのか今のところ分かりません(-_-;)

Apache Benchでテストはしてみましたけど問題はない感じですが実際にチューニングができているか分かりません。


サイトデザイン

プログラマーとして有名なゆうすけさんのサイトgoogleを参考にしました。

シンプルで使いやすいようにしようと思いこのデザインしました。

3カラム中央可変となっています

クロスブラウザIE7、firefox3、chromeで行いました。

可変ものって作ったことなかったんですがけっこう面倒なんですね。

サイト機能

ブックマーク機能とメニューの折りたたみ機能検索結果の表示方法切替を作りました

まず、ブックマーク機能ですログインなしで気に入った動画ブックマークできるようにしました。

ブックマークに追加した動画ブックマークページで確認できるようにしました。

cookie機能を利用したらいけると思い色々調べてjquery.cookie.jsを利用。

保存したクッキー情報を呼び出してphpに渡して処理し指定要素にブックマーク一覧をloadメソッドで表示させるという感じです

$(function(){
$("#youso").load("xxx.php");
});

メニューの折りたたみ機能は人気AV女優AV女優別、人気タグなどをそのまま表示させるとずらっと長くなって邪魔だったのでつけました。

これには同じくjquery.cookie.jsを利用しました。

参考サイトhttp://blog.caraldo.net/2009/03/newjqqookiemenu.php

検索結果の表示方法切替にはZoomer Galleryを利用しました。

参考URLhttp://phpjavascriptroom.com/?t=ajax&p=jquery_plugin_zoom#a_zoomergallery

検索結果ページで表示される

[ここの画像]

××× の検索結果

44件中 1~10件目を表示

ここの画像の部分をクリックするとgoogleイメージ検索みたいに一覧でイメージ表示できるようにしてみました。

動画表示ページ

基本的に動画の埋め込みを許可しているサイトのみプレイヤー表示をしそれ以外は画像を表示し動画データリンクするようにしました。

埋め込み部分はあらかじめそれぞれのサイト対応したプレーヤー部分のコード記述しVIDEOIDの部分に置き換えるような形にしました。

XVIDEOSを例にすると

XVIDEOS場合かならず動画urlhttp://www.xvideos.com/videoXXXXXX/のようになりますのでXXXXXXの部分を

VIDEOID部分に置き換えるようにプログラムを組みました、

埋め込み部のソース

>||<object width="510" height="400" classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://fpdownload.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=8,0,0,0" ><param name="quality" value="high" /><param name="bgcolor" value="#000000" /><param name="allowScriptAccess" value="always" /><param name="movie" value="http://static.xvideos.com/swf/flv_player_site_v4.swf" /><param name="allowFullScreen" value="true" /><param name="flashvars" value="id_video=VIDEOID" /><embed src="http://static.xvideos.com/swf/flv_player_site_v4.swf" allowscriptaccess="always" width="510" height="400" menu="false" quality="high" bgcolor="#000000" allowfullscreen="true" flashvars="id_video=VIDEOID" type="application/x-shockwave-flash" pluginspage="http://www.macromedia.com/go/getflashplayer" /></object>
||<

その他の動画サイトURLの一部分のデータを使っているので同様の処理をしました。

まとめ

実際の作業は2、3週間ですが色々調べる時間が多くて制作に2ヶ月くらいかかりました。

自分エロ動画検索を作ってみて有名プログラマーさん達がいかに優秀なのか思い知らされました。

皆さん思いついて数日で作ってしまうのでびっくりです

全くWEBの知識がない人で4、5ヶ月ですごいの作っちゃう人とかもいるみたいですし世の中広いな~と思います

しかし、エロサイト作りで勉強になりますね~

大分、色んな知識を得ることができました。

これからプラグラム勉強しようと思う人はぜひエロサイトから入ってみて下さい。

きっと楽しいですよ!

そんなこんなで?頑張って作ってみたエロ動画検索、良かったら使ってみて下さい。

これで少しは技術の発展に役立てたでしょうか?w

アダルト動画検索ヌキネーター

P.S エロサイトを作っていてはじめは楽しくて興奮しながら作ってたのです最後の方はエロい物を見ても全く反応しなくなりましたw

  不能ではないんですけど・・・現在も性欲が著しく減退しております・・・

  そしてスーパーpre記法がうまういかないのはなぜ?はてな匿名ダイアリー投稿全然からない・・・

  そしてそしてプログラマーさんとかデザイナーさんとかエロい人とかお気軽にお声をおかけ下さい。



【お知らせ】2011/09/07

新しいエロWEBサービス作りました

http://d.hatena.ne.jp/uniqueweb/20110906/1315285545

2011-03-30

http://anond.hatelabo.jp/20110330100141

2011-03-29

典型的PHPerの13の悪癖

PHPerの問題点は、視野が狭いこと。典型的には以下のような悪癖を持つ。

何も知らないかPHPを愛せるんだよ、PHPerは。だからまず、HTMLCSSJavaScriptSQLを覚えろ。次に、Javaに移行しろ。そんなに難しくないよ、Java。特に大量にコードを書けるPHPerは、速度が出てライブラリ化が容易なJavaの方が向いている。今はVPSがあるので、小規模案件でも問題ない。

15年間ほどPHPインターネットを支えてきたが、そろそろ設計の脆さが問題になっている。PHP 6の開発が振り出しに戻ったのは、不幸な事故はない。ウェブ仕事をしていれば、PHPJavaで共通する知識も多い。PHPerはJavaを覚えてPHPさよならしろ。そして恥ずかしい悪癖を直すべきだ。

2011-01-12

サイト運営をやってみて起こった6つの想定外

1ヶ月ほど前に、アノニマスダイアリーサービスの紹介させてもらった「完全に一致」のおっさんです

昨年11月25日に公開させてもらったサービスですが、公開から約1ヶ月半の間、いくつも思ってもみなかった事が起こりました



かに聞いて欲しいものの、例のSEの友人が精神的な病で倒れてしまい聞いてくれる人もおらず、

Twitterでは短すぎてかけず、なおかつブログもないのでここに書かせてもらいます。

「なんだ、またかよ」という方、お目汚し失礼しました



想定外1:サーバーが幾度となくダウン

最初の記事を書いて、初日から約1週間で300万アクセスがあり、この間何度もサーバーが応答しなくなるという事態に陥りました

MySQLサーバーWEBサーバーの調整を教えてもらったお陰で、かなりダウン回数減らす事ができたものの、結局全然処理が間に合ってくれませんでした

一番のネックになったのは画像の変換処理と転送量でした

公開した当初は、DMMから直接画像を読み込みを行っていましたが、怒られるんじゃないかと思い、一度読み込んだ女優画像

サーバーに保存し2回目から自分サーバーの中の画像を読み、PHPで必要なサイズで書き出すというやり方をしていました

しかし、1秒あたりのアクセス回数が多すぎた為、PHPでの処理が全く間に合わず、画像表示ができないという状況に陥りました

いくつかの画像処理PHPを探していたところ、うまい処理をやっているスクリプトがあり、それを使わせてもらいました

が、完全には解決できず、結局、VPSサーバーをもう一つ用意し、画像の処理専用で使うことで何とか乗り切りました




想定外2:大手サイトでの紹介

アノニマスダイアリーからアクセスが一段落し、そろそろ画像サーバーを消して元のサーバーに戻そうとした頃、

またアクセス数が増えだしました。何かと思ったら「R25」というサイトからした

R25の紹介記事(http://r25.yahoo.co.jp/fushigi/jikenbo_detail/?id=20101209-00004623-r25

私はこのサイトを見たことがなかったのですが、ドメインからしてYahooサービスの一つだと思います。

R25から10日間ほど継続的にアクセスがあり、ここからも300万くらいのアクセスとなりました

R25内のアクセス数ランキングでも3位まで上昇したことが大きかったんだと思います。




想定外3:海外サイトからアクセス

ある日、問い合わせフォームから漢字ばかりのメールが飛んできた為、文字化けしたかと思っていたら、中国の方からの問い合わせでした

AV NO1というサイトから来たという内容で、励ましのお言葉をいただきました

AV NO1 での紹介記事(http://avno1.com/?action-channel-name-viewblogitem-itemid-5525)

ここを皮切りに、中国韓国ロシアアメリカカナダ等、世界中の方からアクセスしていただき、特に中国韓国ユーザーさんは今でも多く来ています。

日本アダルトビデオは企画物があっていいよな!」という内容のメールを複数もらいました

海外ではあまり企画物ってないんだそうです



最終的に12月アクセス数は800万アクセスを記録。

初めてつくったWEBサービスしたが、この数字がものすごい数であることはわかりました




想定外4:DMMアフィリエイトの仕組みをしらなかった

ここからお金の面での想定外お話を。



先日の結果報告の日記で、200万アクセスあってDMMへの導入が10クリック報酬額が700円というご報告をしました

その報告の後で、R25や各国からアクセスがあったので、報酬だんだん増え、結果12月は約15,000円となりました

正直少ないんだろうなとは思いますが、15,000円は私のお小遣いからすると大金です



想定外だったのは、DMMアフィリエイトの仕組みでした

DMMアフィリエイトは、Aという商品のアフィリエイトリンクユーザークリックし、Aを買った場合報酬になるそうですが、

別のBの商品を買った場合報酬にならないらしいです

DMMアフィリエイトは1商品をどううまく推薦するかが、報酬アップの肝のようです

この仕組み上、完全に一致は全く向いていなかったのです




想定外5:スポンサーが登場

一番驚いた出来事。



サイトを作る時にいろんなサイトをみて、「広告について」というコンテンツを一応用意していました

もちろん、スポンサーがつくなんて思っていなかったのですが、12月中旬に、複数の広告代理店さんから一気に広告オファーが来ました

広告運用経験など無く、いろいろなサイトや記事を調べ、料金の提示をし、メールでのやりとりをさせてもらい、複数社と契約に至りました



その結果、一ヶ月の広告収入が合わせてなんと、30万円オーバー



DMM報酬額の少なさにがっかりしていた矢先の出来事だったので衝撃的でした

私の月給とほぼ同じ額が、突然口座に振り込まれるという、信じられない事が起こりました

契約期間は単月であるため、継続かどうかはまだ決まっていませんが。




想定外6:サイト購入希望の問い合わせ

スポンサー契約の数日後、今度は「サイトを売ってくれ」というオファーが1日に2件同時にありました

1件は大手広告代理店から、もう1件は個人の方でした



購入希望金額は、2件とも300万円という非常に高額なものを提示していただきました



しかし、もう少しやりたい事があった為、2件ともお断りさせていただきました

ありがたいことに、個人の方はお断りした今でも、ラブコールをいただいています。(この日記に書くことは了承をもらいました。)




サイト売却を断った理由

サイト売却を断った理由である「もう少しやりたかった事」の一つが、今回追加した、”会えるAV女優検索です

AVに出ている女優さん達は、キャバクラや、ヘルスデリバリーヘルスで働いている人も多く居るようで、

それぞれのサイトでも大々的に「AV女優在籍」と書いてあることが多くありました

そこで、それをまとめて検索できるようにしました



私は地方に住んでいる為、正直会える確率は低い為、都市圏にすんでいる方が羨ましいです

有名な女優さんも多く居るようで、出張に行くときには是非、とか思ってしまいます。

見ていただける方はこちらから

http://www.kanzen21.com/actress/




最後

以上ですWEBサービス運用自体が初めてなので、もしかしたら「当たり前じゃん」というような事も含まれるのかもしれません。

しかし、私にとってはとても衝撃的で、脳が痺れる体験ばかりでした

この一ヶ月半、何度も夢に出てくる程、このサイトの事ばかりを考えていました



結果的に大成功となりましたが、いろんな偶然や幸運が重なったお陰の成果であり、これが自分の力だとは思いません。

しかし同時に、"チャレンジした結果"であることは迷うごとなき事実だと思っています。

その道のプロじゃなくても、会社組織じゃなくても、専業じゃなくてもやれる。



アノニマスダイアリーに書くのは、おそらくこれが最後になると思います。

この経験を元に、さらなる努力をしてまいります

みなさん本当にありがとうございました。これから完全に一致をよろしくお願いします




完全に一致 管理人

http://www.kanzen21.com/

2010-12-13

[][][][][][][]

Heroku | Ruby Cloud Platform as a Service

http://heroku.com/



Amazon Elastic Compute Cloud (Amazon EC2)

http://aws.amazon.com/jp/ec2/



Virtual Dedicated Servers - Highly Configurable Plans Low Prices

http://www.godaddy.com/hosting/virtual-dedicated-servers.aspx



Linode - Xen VPS Hosting

http://www.linode.com/



Slicehost - VPS Hosting

http://www.slicehost.com/



Dedicated Server, Managed Hosting, Web Hosting by Rackspace Hosting

http://www.rackspace.com/index.php



SoftLayer® Technologies - About CloudLayer

http://www.softlayer.com/cloudlayer/



BULK SERVER|全プラン初期費用0円 最低利用期間1ヶ月 月額費用5,800円からの専用サーバAtomプラン

http://bulkserver.jp/service/atom



専用サーバーレンタル|即席サーバー - プラン案内 - サービス - 専用サーバレンタルならメガファクトリ

http://www.megafactory.com/html_service/s_sokuseki.htm



【基本構成】ライトプラン : マイティサーバーの専用サーバー

http://www.mtsv.jp/server/light/



専用サーバーヘリオスアルファ 特徴・料金|専用サーバーVPSのSaaSes

http://www.saases.jp/hosting/hos_001.html



さくらVPSVPS(仮想専用サーバ)はさくらインターネット

http://vps.sakura.ad.jp

http://server.sakura.ad.jp/dedicated/index.html



クラウドならニフティパブリックコンピューティングサービス

http://cloud.nifty.com/



IIJ クラウド(クラウドコンピューティング)サービス - IIJ GIO

http://www.iij.ad.jp/GIO/



共用サーバーVPS)|専用サーバーVPSのSaaSes

http://www.saases.jp/vps/index.html



ゴヤクラウド/VPS|カゴヤクラウド

http://www.kagoya.jp/cloud/vps/



prgmr http://prgmr.com/xen/

RapidXen http://www.rapidxen.net/

RapidKVM http://www.rapidkvm.net/

Arpnetworks http://www.arpnetworks.com/vps

Quickweb http://quickweb.co.nz/

NordicVPS http://nordicvps.com/

Thrust::VPS http://www.thrustvps.com/

Curlhost http://www.curlhost.com/

BudgetVM http://www.budgetvm.com/

neosurge http://www.neosurge.com/

NFOservers http://www.nfoservers.com/order-virtual-dedicated-server.php

EliteDataHosting http://www.elitedatahosting.com/vps.html

PhotonVPS http://www.photonvps.com/



http://www.webhostingtalk.com/



http://hibari.2ch.net/hosting/

2010-12-07

自分WEBサービスを作りたいと思っている人へ(プログラミング経験

Webサービスを公開するまでの軌跡を語るよ

自分WEBサービスを作りたいと思っている人へ ( http://anond.hatelabo.jp/20101203150748 ) を読んで、初心者じゃなくてある程度の経験者が作ったらこうなるんだよってことで書いています。でも正直4ヶ月でそこまでできるようになるなんておそらく相当頭がいいんじゃないかなと思うんです。いや、本当に凄いと思う。

まず作ったサービスグルーポンチケットまとめサイトグルーポンナビ( http://gp-navi.net/ )まず自分スペックだけど、昔から趣味プログラムやったり仕事プログラムしたりしてましたWeb系ばっかりやってるいちおうこういうのを作るのには慣れてる方です

お金使いたくないからHerokuを使う

それで私ですが、まず最初http://anond.hatelabo.jp/20101203150748 の人と同じで全然お金を使いたくなかったです。だからいろんなホスティング会社を探したしたですが、VPSを借りちゃうと大金がかかるんですよね。そこで、いわゆる流行クラウドであるHeroku( http://heroku.com/ )を使う事にしました

このHerokuは無料で使えるから良いんですけど、バッチ処理を行うには有料のサーバ契約しなくちゃいけないんですしかWebの一回のリクエストは30秒までに押さえなくちゃいけないっていう制限があったりで、正直無料で使うには厳しい

でもやっぱり無料っていう響きに吸い寄せられてHerokuを使うと決めてアプリケーションを書き始めましたRailsで書いて賞味2週間くらいちまちまと進めてアプリを完成させました。だいたい一日2時間くらいかな。Railsにはそこまで詳しくはなかったけど、Web検索すれば結構情報がヒットするからそこまでの苦労は無かったです。それよりも制限のあるHerokuでどうやって実現するかというのが、結構問題でした

でもやっぱり無料じゃ厳しい

それでしばらく運用してました。このとき全然宣伝しませんでしたから、ほとんどページビューはあがらなかったです宣伝大事。これほんと。それでHerokuで作った仕組みなんですが、無料でやりたかったので、Workersを契約しないでアプリをつくってました。だからWebリクエストをトリガーとして普通にクロールさせるよう作ったんです。でも、クロールするサイトを徐々に増やしていくと30秒以内にリクエストが終了しなくなってきてさぁ問題。どうしようかと考えたあげく、レンタルサーバもいいなっておもったけど、結局自宅サーバをたてることにしました。たぶん、これが一番コストパフォーマンスが良い。でも気をつけなくちゃ行けないのが、サーバ自体の管理自分でやらなくちゃいけないから結構めんどくさいんですよね。結局自宅サーバかよって感じです

サーバの発注とかシステムの構成

サーバNTT-X Storeで発注して発注して、16,800円。かなり安いです。このサーバの詳細は http://wiki.nothing.sh/page/NEC%20Express5800%A1%BFGT110b に書かれています。なんでこのマシンしたのかというと、VMWareのESXiで仮想化したくて、それに対応している安いサーバがこれだったというわけ。ちなみに、これをすると管理が楽になる。例えば、マシンバックアップが取りたいなと思ってもすぐできるんですね。だから仮想化は凄く良い。

でも、素のGT110bを使うとメモリも少ないしCPUも弱いしハードディスクも少ないので、これはネットで買い足しました。あ、あとデスクトップ用のモニタが無かったのでそれも中古で買いました。それが次のような感じ。

ずいぶんと安い買い物だったと思います。もちろん、マシンの上で動かしているOSLinuxなので、ライセンス料もかからないしとてもリーズナブルです

ここまできたら後はアプリを作り直すだけでした。Herokuで作ってたときにはHerokuの制限を考えながらアプリを作ってたので作りづらかったですが、自宅サーバを使うとそういった制限はなくなるのですごく作りやすい。お金を払うだけの価値はあると思います。やっぱりお金をかけるべきところはかけないとダメですね。

携帯対応とか

それから結構このアプリケーション携帯ユーザ女の子がよく使ってくれます。結構教えると毎日見てくれるんですよ。やっぱりお買い物と言えば女の子ですね。だから、携帯対応しました携帯はいままでやった事は無かったんだけど、Railsプラグインであるjpmobile( https://github.com/darashi/jpmobile )を使ったところすごく簡単に対応する事ができた。凄いですね。id:darashiさんに感謝です

iPhone対応していますが、こちらもあまり詳しくなかったので最初jQuery mobileを使って構築しました。でもちょっと重かったのでjQuery mobileはやめて手組しています。そもそも一ページしか無いのでそんない難しい事は無いですね。

感想

最後に一番強調したい事を。。。

ウェブサービス公開するのはそこまで難しくないんですが、それを流行らせるのはかなり難しいですね。面白いサービスとかであれば結構色んなところがとりあげてくれたりするんですけど、後発のサービスになるとなかなか。。。開発者の方は作る事よりもどうやってみんなに知ってもらうかを考えるのがすごく大変な事だと思います。お金かけて広告うてれば楽なんですけどね。

とにかく作ったら公開。やる事は各方面への宣伝です。今のところやってるのはTwitterへの投稿と、ここへの投稿ですかね。これからいろいろ試そうとしているところ。このサービスがある程度知名度が上がってきたらまたそのとき軌跡を書きたいと思います。

2010-12-03

http://anond.hatelabo.jp/20101203150748

ゴヤはOpenVZだからなあ。俺としてはより自由度の高いさくらVPSお薦めしたい。

http://anond.hatelabo.jp/20101203150748

35歳。

去年までプログラマの知識ゼロ君だったけど、HTMLとかAjaxとか

勉強して4ヶ月でWEBサービスを公開した。一度やってみなよ。

ベータ版だけど、カゴヤで900円を払えば50GBのVPS鯖貰える。

借りるだけ借りてサービス開始せずにやめることもできるし、

OSを思い切って3つ入れてしまえばIPアドレスは3倍になる。

金なきゃ自鯖で公開すればいいだけ。暇つぶしになる。

RubyとかPerlとか色々あるのでマジでお勧め

http://anond.hatelabo.jp/20101203150748

ゴヤ中の人乙wwww

VPSといったらさくらかServersManくらいし選択肢が無いのは現状当然の認識であるはずなのに!

自分WEBサービスを作りたいと思っている人へ

もう、いいおっさんの年齢なんですが、先日、とあるWEBサービス公開しました

5年ほど前からぼーっと考えていたんですが、如何せん、事務職の自分には”創る技術”が無かった。



優れた若い技術者id:amachangとかうらやましい)や、チャレンジ精神あふれる経営者id:hiroyukiegamiとか)が出てくる中うつうつとしている自分に嫌気がさし、4か月前の7月からHTMLプログラム勉強を始めた。




本屋立ち読みしたら、まずはHTML勉強する必要があると、書いてあった。同時にCSSを学んだ。



プログラムを作りたかったので、次にJavascriptをやった。

jQueryがすごい。「プログラムって誰でもできるんだ。」この時そう思った。



検索システムを作りたかったので、本屋に行ったらCGI/Perlの本がいっぱいあったので、Perl勉強した



しかし、HTMLテンプレートが使いたかったのでPHP+Smarty勉強した



作りたかったWEBサービス大手サイトデータ検索サイトだったので、自動データを集める必要があった。

クローラーというらしい

PerlのLWPを勉強したが、データを集めた後に加工する必要があった。簡単そうだったRubyとMechanizeを勉強した

Rubyはものすごくきれいにプログラムがかけることを知った。話し言葉に近い気がする。



プログラムを作っている時、最初自分パソコンの中でやっていて気付かなかったが、実際に公開するときレンタルサーバーを使うというのを知って調べると、Linuxサーバーが多いということを知った。

から、今度は自宅のあいているパソコンLinuxを入れた。

Linuxを入れたはいいものの、全く使い方が分から四苦八苦してRubyのインストールした

世界中メインで動いているWEBサーバーApacheということも3か月前に知った。

Apacheの設定がテキストファイルなのも驚いた。cd,ls,vi,mv,cp,chmod等、基本的なUNIXコマンドを覚えた。



例の図書館の事件があったので、クローラーを動かすのをためらったが定期的にちょっとずつなら怒られないんじゃないかと、Crontabを勉強した



自宅のサーバーが壊れてしまい、構築が大変だったので今度はVPSサーバーを借りた。

同じように構築はしたがかなり苦労した。このとき、始めてmakeというコマンドを使った。コンパイルというらしい



クローラー自動的にデータを集めていたが、動かし始めて2カ月目でデータファイルが1GBを超えていることに気がついた。

このときテキストファイルデータを扱おうと思っていたが大きすぎて動かない。

SQLサーバーというものを触り始めた。

最終的にデータ量は5GBを超えた。




11月も後半、本稼働用のサーバーを探していたら、丁度カゴヤVPSサーバーベータ版を募集していた。

ここぞとばかりに申し込みボタンクリックして申し込んだ。

すごく、快適です。まだベータですが、本番稼動でも、50GBで900円という激安プランです

http://www.kagoya.jp/cloud/vps/

さくらさんの2.5倍の容量でさくらさんよりちょっと安い。

ベータ版では、3つまでOSインストールができます。もちろんそれぞれにIPアドレスが振られます

このVPSサーバー管理システムインストールし、もろもろの環境も作って、11月末についに、公開。



AV女優スリーサイズから検索できるシステム、「完全に一致です

 【完全に一致AV女優類似検索システム

 http://www.kanzen21.com/

類似検索機能付きで、2次元3次元をつなげる夢のシステムですはい

「なんだエロかよ」とか言わないでください。

真剣に作ったんだ。仕事をしながらよく頑張ったと自分をほめてあげたい







このシステムは、下記のような構成になっています。

----------------------------------------------

サーバー:カゴヤVPSサーバーベータ版)

WEBサーバーApache

SQLサーバーMySQL



HTMLXHTML+CSS

インターフェースjQuery+selectToUISlider

検索プログラムPHP

テンプレートエンジンSmarty

クローラーRuby+Mechanize+Cron

-----------------------------------------------



サーバー上にある静的なHTMLは1ページもなく、mod_rewriteですべてPHPが処理しています。

ボタン等の画像は、GIMP作りました




一番大変だった事は、、、



このサイトデータDMM社のデータを使わせてもらったのですが、AV女優顔写真をそのまま使うのは、肖像権的にNGらしく、AV女優の作品の中からその女優の顔が一番大きく写っているパッケージを使うことにしました

しかし、女優データは約5万件。作品データ12万件。とても手作業でやるわけにもいきませんでした



結局どうしたかというと、Face.com(http://face.com/)という、画像の顔認識ができるAPI無料提供しているサービスを利用しました

同様のことができる、OpenCVというソフトがあるのですが、最初から付いているパターンデータでは人の正面の写真しか顔として認識しませんでした

それに比べて、Face.comの認識精度は驚くほど高く、横だろうが斜めだろうがかなりの精度で顔を認識してくれました

データJSON形式で返してくれる(JSONもこのとき初めて知った)為、取得したデータを後で加工しやすかったです



1.このAPIを使い12万件の作品データをすべてスキャンするプログラムを書く※1

2.顔の縦の長さと横の長さを取得

3.縦×横で顔の面積を計算

4.作品テーブルの中に3で計算した顔の面積を追加

5.SQL女優テーブルと作品テーブルを結合

6.その女優の作品の中で顔面積が一番大きなパッケージ写真をその女優顔写真として代用しました。※2

※1 APIの制限が1時間1000リクエスト迄だったので、これまたCronで・・・

※2 実際には女優テーブルと作品テーブルを繋ぐ中間テーブルのフラグONした。若干の間違いはあるものの、かなり正確に出ました





長々と書きましたが、ズブの素人から約4ヵ月でここまで出来ました

勉強する前、SEをやっている友人に話したら、「3年はかかるんじゃないか?」と言われましたが、できたものを見せたら褒めてくれました

WEBサービスを作りたいと思っていて、技術がないからとあきらめている人は、とりあえずやってみてください。意外に簡単にできますよ。

あと、クローラーが動いていると、全能感を味わえるので楽しいです






あ、あと、椎名舞さんのファンです



-----------------------------------------

19:30追記

サーバーソフトからアラートが上がって、見てみてたらなんかすごいアクセス貰ってまして。

ありがとうございます




>カゴヤ中の人乙wwww VPSといったらさくらServersManくらいし選択肢が無いのは現状当然の認識であるはずなのに!

ゴヤ人間じゃないですよー。広告してるつもりもないんですが、ベータ版だからかもしれませんけど、すごい快適ですよ。今は。

何よりタダなので。

本当に月額900円のまま本公開になったら、環境構築もめんどくさいのでそのまま契約しちゃうかもです




>カゴヤはOpenVZだからなあ。俺としてはより自由度の高いさくらVPSお薦めしたい。

そうなんですか。2週間のお試し期間はつかったのですが、正直どっちがいいとかわかりません。

どんな風に自由度が高いんですかね?あと、アダルトOKなんですっけ?




>組み立てるプログラミングは本当に簡単だよ。 みんなで入り口を隠しているだけだよ。 #組み立てるだけじゃなくて、アルゴリズムを練ることが真のプログラミングかもしれない

そう思います。感覚的にはジグソーパズルに似てました

ただ、ピースを探すのに時間がかかりましたけど。

私の場合は、アルゴリズムとかその辺はできなそうですね-。

サンプルプログラムの組み合わせで作ったようなサービスですので、プログラムソースとかぐっちゃぐちゃです

一応、公開前に見える所はきれいにしたつもりですが・・・






もともと、作ろうと思ったきっかけなんですけど、

椎名舞さんがですね、すでに引退しちゃってるんですよ。ずいぶん前に。

で、彼女プロポーションが大好きなんですね。私。

それで、検索エンジン検索したです。でも、なかなか出ないんですね。



欲望のままにやってたら、次から次に壁にぶち当たって、そしたらいつの間にかできました



結果、このシステム使って椎名舞さんのプロポーションに似たAV女優を探すと、

雛乃つばめさんとか、果梨さんとか、佐伯さきさんとか既にDVD持っている女優さんばっかりヒットしちゃうんですね。確かに似てるんですスタイル

当たっててうれしいやら、既に持っていて悲しいやら。




あと、スタイルが似てる女優って顔も似てる気がする。

とくに最近の細い子は。





あ。デザインは、某企業をパk、じゃないリスペクトさせてもらいました




-------------------------------------

23:55追記

アクセス過多でサーバーが落ちました

寝てたらサーバーからアラートメール携帯に飛んできておこされました

こんな瞬発的なアクセスを考えていなかったので、とりあえず再起動しました

が、また重くなってます。。。どうしたらいいんだろう。

しい方居たらアドバイスいただけるとうれしいです




-------------------------------------

12/4 01:45追記

何度再起動してもサーバーが反応しなくなるので、うぎゃーってなってたのですが、

親切な方が「MySQLサーバーが原因じゃね?デフォルトだろ?query_cache_sizeを設定したらいいよ。」とわざわざお問い合わせからアドバイスくれました

設定してみたら驚くほどつながりやすくなりました

同じSQLクエリーを保持してくれるらしく、実際にデータ検索を行わないので高速になるそうです。こんなの知らなかった。ありがとうごいました

プログラムはサンプルがあるからどうにかなるんですが、サーバー周りの事が全然わかりません。。。。ぐうぅぅ。。。。

おやすみなさい。


-------------------------------------

12/6 23:30追記

ブックマークコメントもらっていた事を別の日記で説明しました

http://anond.hatelabo.jp/20101206224349


-------------------------------------

1/12 10:00追記

最終報告を書きました想定外ばかり。

http://anond.hatelabo.jp/20110112095450

2010-12-02

さくらインターネット伝説

ネット上でみかけたさくらインターネット伝説を覚えている限り書いてみた

 

・石狩にデータセンター建設する事が決まってから石狩関係企業株価がuprising

・長らく国内VPS市場王座不在のまま零細企業平和シェアを分け合っていたが、さくらが信じられない価格で参入するという第一報を受けた某サーバー会社社長発狂して新幹線の中で全裸になり逮捕

さくらクラウドに参入するとの報告を受けたAmazonジェフ・ベゾス取締役会で思わず舌打ち EC2最高責任者号泣 Rackspaceの株価ストップ安

・業を煮やした競合サーバー業者がWikileaks田中社長プライベートでの悪行を密告しようとしたが清廉潔白すぎてネタが見つからず断念

・石狩のデータセンターで空調代わりに北海道特有の低温外気を取り入れようとしてホコリの問題が持ち上がるが、半導体生産にも使われる高度なホコリ除去技術を導入してもはやレンタルサーバー会社して意味が分からないレベルに達する

経団連の集まりでさくらインターネットNTTソフトバンクKDDI東京電力JRなどに匹敵する日本を代表するインフラ企業に成長する可能性を秘めていると話題になる

マザーズ上場企業をことごとく乗っ取って喰いものにしてきた日本最大の某ヤクザさくらの清廉潔白すぎる経営に手も足も出なかった

・業を煮やしたヤクザ田中社長にヒットマンを放つがその天真爛漫な瞳の輝きに思わずチャカを手放し泣きながら謝った

・そのヒットマンは今データセンター警備員として再就職

さくら特需に湧く石狩では今年生まれた女の子が5人に一人の割合で「さくら」と命名される

男の子にもさくらと名付けようとした親が問題になる

いか安価サーバーユーザーをたくさん詰め込むかに明け暮れる他社を尻目に採算を度外視してでも無知ユーザーでも安心して使える環境を整えるさくらインターネット経営方針にダライラマが感動して声明を出そうとした日中関係に影響が出る事を懸念した側近が止めた

mixiGREEはてななどウェブサービス企業がこよなく愛してやまない

mixiを抱えるために国内で最もプライベートデータを保持する企業の一つとして各所から恐れられている

日本で最も眼鏡が似合う男としてペヨンジュン陣営からマーケティング戦略の参考にされた 結果ペヨンジュン日本で大成功

2006年8月三国屋建設クレーン船が起こした首都圏大規模停電で1,400,000戸が停電列車携帯電話などの基礎インフラが止まり日本が大混乱に陥る中、さくらの全データセンターにおいて被害ゼロ 社長ランチ食いながら涼しげに停電ニュースを眺める姿が社内で目撃される

2008年におこった西新宿データセンター火災事故日本の基幹インフラを止めろと支持された某人民共和国テロである可能性が示唆されている

2010-11-22

さくらVPSセキュリティに悩む(日記9)

初回:http://anond.hatelabo.jp/20101118000033

前回:http://anond.hatelabo.jp/20101122141124


店のHP(Wordpressで構築)をさくらVPS移転完了。

無事、稼働している様子。


これで旧サーバからおさらば出来る。

ぶっちゃげサーバはここ最近明らかに調子がおかしく、

某所でもヤバイヤバイ言われており、サポート掲示板でのサービス提供者の発言も

結構ヤバゲな運用状況に陥っているのが透けて見えていた。

まぁ月々500円でmysqlpostgresqlを使い放題だし、安かろう悪かろうじゃないけど致し方がない面もあり。



さて、今度はさくらVPSに移ったわけだが、レビューによると性能は良いらしい。

ただし、root権限があるので自分セキュリティアップデートに気をつけないといけないわけだが…


セキュリティiptableぐらいしかかけてない…

現状を羅列してみる。

さすがにこれはヤバイ気がする。


みんなセキュリティはどうしてるんだろ?あと追加でやるとすれば…


つの間にかAppArmorがカーネルマージされたのか。

http://sourceforge.jp/magazine/10/10/22/0725213

日記8

初回:http://anond.hatelabo.jp/20101118000033

前回:http://anond.hatelabo.jp/20101120162538


さくらVPSWordPress動作テスト完了。

マッタリやり過ぎている事も原因のひとつだが、時間がかかりすぎている。

だが確実にひとつ目標―店のHP移転―に近づきつつある。


さて、後やることは…

2010-11-19

さくらVPS(ubuntu)で独自ドメインしてみた(日記6)

初回:http://anond.hatelabo.jp/20101118000033

前回:http://anond.hatelabo.jp/20101119000741



以上で独自ドメインの鯖への割り当ての変更は完了できた。

VPS側に特にBIND入れる作業は不要の様子。


以下、参考文献

http://blog.mobf.net/archives/157

https://wiki.ubuntulinux.jp/UbuntuTips/DedicatedServer/ApacheVirtualHost

http://tobysoft.net/wiki/index.php?Ubuntu/apache2

日記5

初回:http://anond.hatelabo.jp/20101118000033

前回:http://anond.hatelabo.jp/20101118220620


直近でやりたいことを整理してみる。


今からやること

- 転職ならen
- 派遣ならen
2ページ中1ページ目を表示(合計:38件)