「クローラー」を含む日記 RSS

はてなキーワード: クローラーとは

2013-12-19

エロサイトを立ち上げた引きこもり~魂の物語エピソード6

---------------------------------------------------------------------------

動画 エロサイト←これが僕の作ったサイトです

---------------------------------------------------------------------------

前回の続き

html学習に加え、サイトを作りながらCSS勉強中。

苦労の甲斐があってエロサイトのおおまかな枠組みはできてきた。

ここまできて僕は、どうやったらwebサイトとして機能するのだろう(ヤフーとかグーグルとかに載るんだろう)?

という疑問を持った。とゆうか最初にその疑問を持てという話でもあるが、とにかく僕は急にそう思い始めた。

ちょっと試しに自分サイト名で検索してみよう。

Google先生!僕のサイトは今どんな感じですか?

とりあえず、キーワードサイト名の「動画エロサイト」でお願いしまつっ!!!

(期待に胸をふくらます僕)

すると先生は意外な一言を放った。

分からん

先生またご冗談を。全知全能の先生がそんなはずないじゃないですか

僕のサイトは今エロ動画で何位なんですか?

何位だって驚きませんよ。あんまり気を遣わないでください。

何百位でもかまわないですよ。まだ始めたばっかりですから

それでは、先生、改めて僕のサイト順位のご発表をお願いします!!

ドゥン!ドゥルルルルルルルルルルルルルルルルルルルルルルルルルゥ!!

「載っとらん」

Σ(っ゚Д゚;)っ


検索エンジンサイト関係

検索エンジンは「クローラー」とか「スパイダー」と呼ばれるプログラムを使って、web上に存在するページの情報を集めるらしい。クローラーウェブ上を自動的に巡回して集めたデータデータベースといういわばデータの貯蔵庫のような所に登録する。

この事をインデックスする(される)などと呼ぶらしい。

ロボットデータ収集している…

なんだか僕の知らないところで、とんでもない事が起きている気がしてきた。

とにかく、サイトはこのインデックスというのをされていないと、Googleヤフー(のちにヤフーGoogle検索エンジンを使っている事が判明)Binginfoseekなどから検索する事ができない。

インデックスされない3つの原因

クローラが巡回にくるタイミングはまちまちで、すぐインデックスされる事もあれば、何カ月もされない場合があるらしい。

どうしてもインデックスされないのなら下記の原因を疑ってみた方がいい。

以下、ネット情報

クローラークロールされやすくなっていない

Googleガイドライン違反している

クローラー制御タグ記述がある

クローラークロールされやすくなっていない

クローラー発見されやすサイト構成や、Googleウェブマスターツールへのサイト登録をして、

クローラークロールされやすくする必要があります

クローラー発見されやすサイト構成

クロールされやすい記事、サイトからクロールしてもらいたい記事へのリンクを張っていくことも重要です。

とにかく露出を増やす事が重要であると考えてください。

Googleウェブマスターツールの利用

Googleウェブマスターツールへのサイト登録&サイトマップ送信

などの改善を行なってください。

Googleガイドライン違反している

このガイドラインを見ると、Googleはどのような行為に対して不正とみなすのかを確認することができます

Google提供するガイドライン違反することで、ペナルティを受けてしまった場合には、最悪インデックス削除の可能性もあります

インデックス削除はかなり重いペナルティであり、それが解除されるまでには時間がかかります。最悪の場合、悪質なサイトである認定されてしまい、インデックスされないドメインとなる可能性もあります。ですからGoogleガイドラインはしっかりと読み込んで、気をつけてサイト運営を行ないましょう。

クローラー制御タグ記述がある

この原因に関しては、かなりSEOの知識のある人でないと、そもそもクローラー制御タグ記述を利用する事がないので調べる必要はないと思いますが、一応書いておきます

インデックスさせたい記事のmetaタグに以下の設定が入っていてはインデックスされなくなる。

noindex このページはクロールしても、インデックスはしない

nofollow このページはクロールしても、ページ内リンク先はクロールしない

インデックスさせたい記事へ外部からリンクを送る場合において、nofollowをmetaタグ内に記述しているとインデックスされにくくなる。

以上の点について、改善していきましょう。

まとめ

インデックスクローラークロールされやすサイト作成し、

リンクを用いて露出を増やし、Googleガイドライン違反しないよう気を付ける

クローラー制御タグ記述の有無についても要確認。

う~ん。なるほど。ここら辺はかなり重要だなあ

html勉強したときメタタグの事は調べたので、もう一度確認したらすんなり頭に入った。

あとは、ウェブマスターツールなるものに登録して、「サイトマップ」ていう単語も出てきたか

これも後で調べよう。

クロールされやすサイトをまずは目指してみるか。

よしもう一度僕のサイトを確認してみよう(^-^)p

つづく

関連記事

2013-10-28

スクレイピングサイト作成

削除してしまった為再登録します。

Rails3 とTwitter Bootstrapで、オシャレなエロサイトをつくってみました。

http://anond.hatelabo.jp/20120708161051


に感化されてサイト作ってみた

bootstrap使ってもカッコよくできないよ?

プログラマー向けじゃないの?

http://searchjou.com

デザイナーって好きなサイト作れていいよなー。

デザイン

bootstrap3 の公式サイトを見ながら

CSS,Components,Javascriptタグにあるサンプルを全部作ってみた

デザインわからん。一度諦めた。

クローラー

一番経験のあるPHPを選択。

最初正規表現でガリガリ書いていたのだが

まりの面倒臭さに一度諦めた。

その後色々調べたら「simple_html_dom.php」の存在を知る。

スクレイピング作業が一瞬にして終わった。

サーバー

Root欲しいのでVPSを探す。

GMOアダルトOKっぽい、安いので決定。

postfix + dovecotメールサーバー構築

メールの設定がどうしてもできない。

仕事で何度も設定しているのに意味不明

エラーも出ていない。

一度諦めた。

しかし、サーバー代払ったので再度トライ

info@xxxx.com

メールアドレス作成していたのだが

システムエイリアスで「info」を使用していたため

メール転送出来ずに受信できなかったもよう。

危ない名前は使わないのは基本だよね。

/etc/aliases は確認しましょう。

データベース

Mysqlを使用、一応クエリキャッシュ設定

MyIsamだとインデックスに容量制限があるのでInnoDB使用

表示

php + Smarty

キャッシュSmartyで実装

プログラマーからデザイン出来ないんじゃなくて

自分センスがないのが原因な事が判明。

出来あがったサイト

川崎ソープ嬢を検索 - サーチ嬢

http://searchjou.com


数1000件のデータなのでキャッシュインデックスいらなかったかも。

プログラマデザインやるのと

デザイナープログラムやるのって後者の方が敷居は高いとは思う。

でもプログラム勉強できるけどデザインってセンスがなきゃどうしようもない。

おわり

もう少しデザイン頑張ってみる。

デザインの教本読んでみると

最初に「Adobe」ありき。で話が始まるけど敷居高くない?

Adobeクラウドの月5000円でも高いよー。

2013-08-14

http://anond.hatelabo.jp/20130814000700

クローラーで巡回して「無職乙」とか煽ると楽しそうだな。

 

真昼間にスクリプト相手にイラッとしてると思うとこれはこれは大変なストロガノフ

2013-04-30

Googleさんの感度が、エンジニアとしていじめたいくらい良いのはなぜ?

わずスクショに撮っちゃったんだけど、『はてな匿名ダイアリー』のエントリの題名で

携帯から検索をかけたら、「48 secs ago」という表示が題名の後に表示された。

投稿日が何時間前だったのかを知らせる左下の小文字が、だ。

yahooリアルタイム検索で、自分Twitter投稿内容がどれくらいで反映されるのか

セルフ検索にかけてみたことはあるけど、一分以上はかかっていたと思う。

yahooリアルタイム検索で、専用サーバーだか線だか引っ張ってきて特殊なAPIを叩いてるだろうことを考えると、

上記の一般検索で「48 secs ago」というのはなんか、もう、異次元入ってる。OpenGrokよりわかんない。

クローラーでやっている技術的内容が全く想像できない。論文とか検索したら出てくるのかしら。

たまたまタイミングがあったにせよIFに普通「secs」を用意する?

大学情報系の講義を取っていた時、教授が自信満々に

Twitterリアルタイム性を求めるソーシャルサービスが出てきても

 Googleなどの従来型インデクサーが即時検索を可能にするとは思えない。

 従って技術イノベーションが起きるとすれば、これからレコメンドエンジンだっ!」と

言い放っていたのがちょうど四年前あたりだったと思う。。。四年であの教授は形にできたのかしら。

Googleは多分地味だけど確実に本業進化してるんだと思う。あんまり話は聞かないけど。

はてな匿名ダイアリーエントリタイトルが、特に変わった言葉がなくても

Googleの上位に来やすいのは、「はてな匿名ダイアリー」を一つのブログとしてみたときPV数の多さ、

ぐらいしかSEO対策をしたことがない素人には想像つかない。それを思えば、PVが多いところに

ある程度ウェイトを置いてポーリング監視っぽいことをしてるのかなとも思えたが、

星の数ほどあるウェブサービスをして、それはないと個人的には思う。

はいえ、ここはあんまり上等ではない形態素解析による単語判定、データベース化、シーケンサーごにょごにょプロセス

わずか数十秒でユーザーにまで反映。。。Google技術こえーまじこえー。

2013-02-27

ドラマ動画検索エンジン作ったけど、実名で運営して良いか悩み中

いつも夜遅くまで仕事しているので

見逃した連ドラfc2ブログとかで運用されている動画リンク集で探している。

でも、そういうサイトってリンク切れ多いし、デザイン的にもいけてないんだよね

そこで

ドラマ検索に特化した動画検索エンジンを作った。

主に自分用です。

手前味噌だけどこれはかなり便利。



海外サーバ運用しているし

iframeで動画リンクを貼っているだけだし

動画自体はクローラー自動収集しているので

現行の日本法では合法の範囲内。

だと思ってる


でも

海外サーバ運用していたとしても

海外企業fc2ブログの運営者が訴えられる時代だし

リンクを貼っているだけで

著作権法助罪に該当するという議論もあるし

そもそも

Google検索エンジンですら

最近まで違法だった。


これって実名運用しても大丈夫

教えて偉い人!

アンチ意見が多いようなら

サイト閉鎖しようと思います

ちなみに作ったのはこのサイト

http://drapi.tv

2012-12-26

SmartNewsが叩かれてしまった たった一つの理由

ニュースアプリリーダー「SmartNews」をめぐる議論

http://togetter.com/li/425926

SmartNewsが叩かれる発端となったIT戦士こと岡田有花(@yukatan)さんの発言日時に注目して欲しい。12月20日である。これが何を意味するのか。netwatherならもうおわかりだろうが、一応以下のサイトを見て頂きたい。

IT戦士ゆかたんクリスマスの思い出

http://okadayuka.com/

まりまとめると、今年もロンリークリスマスを過ごす事が決定的となったIT戦士ゆかたんイライラの矛先になってしまったという仮説である著作権とかビジネスの問題とかメディア論とかキャッシュの問題とかクローラー挙動とか全くの無関係だったのだ。

http://anond.hatelabo.jp/20121226010035

2012-12-23

http://anond.hatelabo.jp/20121222014338

お前らニュースサイトPV乞食になって、くだらねー原稿を細切れにしてページ分けするのが鬱陶しいからこんだけsmart newsが落とされるんだろうよ。

タイトルで釣って、感想や憶測だけのオチ原稿とか、まじで時間無駄まりない。

お前らこそPV小銭稼ぎのために人様の貴重な時間を盗むんじゃねーよ。

PV水増しのためにお前らが読者に強いてる読み込み時間による機会損失とか考えたことあるんか?

偉そうにsmart news責める前に自分らのサイトユーザー目線で使いやすいか考えてみろよ。smart newsを使ってるのはお前らの読者様だろうが。

まともに価値ある記事書いてりゃ媒体価値あげろよ。

ざっと原稿みてゴミ記事を判断できるsmart newsは超便利。それは間違いない。

くだらん訴訟でつぶされる前に個々のユーザー自分クローラー設定して、

各自で読みたいメディアオフライン保存できるツールとして訴訟回避してもらいたい。

2012-11-27

http://anond.hatelabo.jp/20121127143934

これの事だろ。

つか、PC版でも「Program Files」フォルダに、専用のフォルダを作らず直下にそのまま実行ファイルやら何やらをぶちまけて、しかもその状態でアンインストールをすると「Program Files」フォルダを丸ごと全消ししようとするという、お前はどこのプログラム初心者なんだというような事やらかしてたし。

NAVERだった頃はGoogleクローラーを詐称してネット巡回してた。

とにかくあの会社関係するものには近寄らないのが一番良い。プライバシー情報の塊みたいなスマートフォンに入れるとか正気の沙汰じゃないよ。

2012-10-26

iphoneで見れて、毎日いっぱい更新されるのエロ動画サイトを作った。【サイト構築詳細メモ

はじめに

なんちゃってプログラマーやってます

「みんなの役に立つサイトを作って、一発大きく儲けたい!」と、

思い続けて、早10年(泣)。。

なかなか画期的アイデアって出てきません。。

とりあえず、エロサイトを作るのってすごく勉強なる?楽しい?らしいので、

誰にも利用されない「へぼツール」作るより必ず誰かの為になるなぁと考え、

エロサイト作りました。(保守不要で完全自動化)

iphoneで見れて、毎日10記事絶対更新

できるだけ、誰でもわかるように、詳細を書いていますので、

これを見るだけで、ノンプログラマーの方でも、

同様のサイトは簡単に立ち上げることができちゃうと思います

つくったサイト

http://iphone-xvideos.info/

サイト名:iphone-xvideos エロ動画H (仮)

デザインデフォルトのまま(そのうち修正しまーす)

作成期間:40時間ぐらい…

iphoneでも見やすくしています

※記事は毎日10更新予定です。つまり毎日このサイトだけ見に行けば困らないってことです。

きっかサイト

http://anond.hatelabo.jp/20101219185436

http://anond.hatelabo.jp/20101203150748

http://d.hatena.ne.jp/inouetakuya/20120331/1333192327

http://anond.hatelabo.jp/20120318122617

http://anond.hatelabo.jp/20120914214121

http://anond.hatelabo.jp/20110804021353

http://anond.hatelabo.jp/20120926165533

レンサバ

saasesのVPS OsukiniサーバーLT メモリ512MB 月450円! アダルトOK

CentOS 64bitを選択。(メモリを食うだけなので、特に用がなければ、32bitにしよう!)

↑一番安いプランしか契約できなかった…

※どこにも書いてないけど、2週間以内なら取り消しできます

契約時、webmin&mysqlの選択は必須にしておいたほうがいいです。私は間違えて、webmin無しにしてしまった。。

から、再インストール(初期化)すれば、再選択することができるようです。。

申し込み後、たったの30分で接続できるようになりました。

ドメイン

iphone-xvideos.info

バリュードメインで取得。280円!安い。

DNSVPSIPに変更。

不要サービスを止める

/sbin/chkconfig auditd off

/sbin/chkconfig autofs off

/sbin/chkconfig avahi-daemon off

/sbin/chkconfig bluetooth off

/sbin/chkconfig cups off

/sbin/chkconfig firstboot off

/sbin/chkconfig gpm off

/sbin/chkconfig haldaemon off

/sbin/chkconfig hidd off

/sbin/chkconfig isdn off

/sbin/chkconfig kudzu off

/sbin/chkconfig lvm2-monitor off

/sbin/chkconfig mcstrans off

/sbin/chkconfig mdmonitor off

/sbin/chkconfig messagebus off

/sbin/chkconfig netfs off

/sbin/chkconfig nfslock off

/sbin/chkconfig pcscd off

/sbin/chkconfig portmap off

/sbin/chkconfig rawdevices off

/sbin/chkconfig restorecond off

/sbin/chkconfig rpcgssd off

/sbin/chkconfig rpcidmapd off

/sbin/chkconfig smartd off

/sbin/chkconfig xfs off

※190MBが150MBぐらいになります

SSHサーバ設定

$ su root

FTP接続できるようにする。

http://support.saases.jp/index.php?action=artikel&cat=63&id=312&artlang=ja

バーチャルホストの設定

# vi /etc/httpd/conf/httpd.conf

NameVirtualHost *:80 ←これを探して、コメントアウトを削除。その下に以下を設定。

<VirtualHost *:80>

DocumentRoot "/home/ユーザーID/iphone-xvideos.info"

ServerName iphone-xvideos.info

<Directory "/home/ユーザーID/iphone-xvideos.info">

order deny,allow

allow from All

Options FollowSymLinks

AllowOverride All

</Directory>

</VirtualHost>

apache再起動

# /etc/rc.d/init.d/httpd restart

httpd: Could not reliably determine the server's fully qualified domain name, using...」

再起動時に上記のエラーがでた。

その時はこちらで解決⇒http://d.hatena.ne.jp/uriyuri/20100511/1273575287

で、このままだとIPアドレスでもアクセスできてしまうので、以下もやっておく。

http://fedorasrv.com/memo/log/29.shtml

mkdir /home/ユーザーID/iphone-xvideos.info

chown ユーザーID /home/ユーザーID/iphone-xvideos.info

/home/ユーザーID/以下はpermission errorとなりアクセスできないので、権限を変える。←いいのかな?

chmod 755 /home/ユーザーID/

CentOSAPCインストール

http://blog.verygoodtown.com/2010/02/centos-apc-install-how-to/

# pecl install apc

↑これを実行した際に、「error: expected specifier-qualifier-list before 'pcre'」なんちゃらっていうエラーがでたので、以下を実行。

yum install pcre-devel

再度実行して、無事インストールできた。

# pecl install apc

# vi /etc/php.ini

extension=apc.so ←これを一番最後に追記

APCの設定】

vi /etc/php.d/apc.ini

extension=apc.so

[APC]

apc.enabled = 1

apc.shm_size = 64 ←適当。。

apc.gc_ttl = 3600 ←適当。。

apc.ttl = 3600 ←適当。。

/etc/init.d/httpd restart

  • viの基礎講座】-----

/ ←検索

n ←次の検索文字へ

i ←編集モード開始

Esc ←編集モード終了

]] ←最後尾に移動

:q! ←保存せずに終了

shift押しながらzz ←保存

--------------------------

apache再起動

# /etc/rc.d/init.d/httpd restart

phpinfoの画面でapcの項目があるか確認

vi /home/ユーザーID/iphone-xvideos.info/index.php

phpinfo();

?>

apacheの負荷対策

http://tanaka.sakura.ad.jp/2011/05/centos-linux-apache-php-perl-mysql-lamp.html

↑これを参考に適当に変更してみた

MaxClients 256 ←これを40に

MaxRequestsPerChild 4000 ←これを1000

このサーバは、512MBしかいかもっと小さくしたほうがいいのかも。。

# ab -c 10 -n 100 http://iphone-xvideos.info/

【変更前】

Requests per second: 40.01 [#/sec] (mean)

【変更後】

Requests per second: 137.57 [#/sec] (mean) ←1発目

Requests per second: 552.79 [#/sec] (mean) ←2発目以降(キャッシュ後)

wordpressがらみ

http://ja.wordpress.org/

最新版をやってみるとエラーが発生。

サーバーPHP バージョンは 5.1.6 ですが WordPress 3.4.2 は 5.2.4 以上のみでご利用になれます。」

phpmysqlバージョンアップはやっかいそうなので、

3.1系を選択する。。

http://ja.wordpress.org/releases/

※↑結局、後日phpmysqlバージョンアップをやりました。

ソースをUP

DBを作る

http://自分サーバIP/phpMyAdmin/

ホームの「新規データベース作成する」と書いてある所の下にある、

DB名⇒wp、照合順序⇒utf8_unicode_ci

wp-config.php

を修正する。

プラグイン

WP-DBManager

WP Super Cache

WP to Twitter ←まだ設定してない

WPtouch ←/wp-content/plugins/wptouch/themes/core/core-header.php をちょこっと変更すればiphoneでxvideo再生ができる。

○人気記事一覧

http://the-fool.me/wordpress/plugins/wordpress-popular-posts.html

テーマデフォルトのまま。。

XML-RPC自動投稿

設定⇒投稿設定⇒Atom 投稿プロトコルXML-RPCにチェック

もう1個負荷確認

https://loadimpact.com/

キャッシュが効いていて問題ないことを確認。

クローラーを作る

wikipediaから取ってきた女優名をカテゴリテーブル(wp_terms)に突っ込む。(5,260人でした。)

↑これは月に2回更新。cronで動かすことにした。

googleブログ検索(24時間以内のもの)に女優名をつっこんで、

出てきたサイト情報を取得すればOK。

(とりあえず、引退した人の動画は少ないだろうと考え、現役2,762人分のxvideosを取得してみた。処理時間8時間、192件取得できた。)

双方とも、スクレイピングを使えば簡単に取得できます

http://www.kaasan.info/archives/1457

念のため、巡回するごとに、sleep10秒してます

動画URLを取得したら、削除されていないか調べて、OKだったら投稿

PHPからRPC投稿するやり方は、

http://www.multiburst.net/sometime-php/2009/04/newpost-with-wordpress-xmlrpc-api/

↑ここらへんを参考に

http://pear.php.net/package/PEAR/download

pear自体はここにあるので、「XMLフォルダのみをUP。

だいたい、30分で10記事取得できることがわかったので、

毎日深夜に10記事取得するようにする。

【cron設定】

$ crontab -e

00 04 * * * /bin/sh /home/ユーザーID/iphone-xvideos.info/insert_X.sh >/dev/null 2>&1

00 03 1,15 * * /bin/sh /home/ユーザーID/iphone-xvideos.info/insert_XXX.sh >/dev/null 2>&1

http://miya0.dyndns.org/pc/settei/crontab.html

----------------------------------------------------

1日何件の更新とするか?10件ぐらい?

↑旬な情報が取れないが、とりあえず。。

前日のterm_idを記録して、

次の日はそれ以降のデータを取得する。

次のterm_id存在しなかったら、1からやる。

----------------------------------------------------

今後の追加機能予定

jqueryお気に入り作成cookieを使う。(PCのみ?)

☆好きな女優を登録しておけば、記事の更新情報メールで通知。

デザイン修正。。

感想

すぐできるかと思いましたが、結構時間かかりました。

実際、なんとなく勉強になった気もするし、楽しく作業できました。

皆さんもぜひ。毎日が少し充実しますよ。

まったくアクセス無くても、自分用にとても良いものができたと思っているので満足です。

もし繋がりにくくなったりしたら、

別のレンサバに変更しますー。

サイトオープン後のあれこれは、

随時こちらに追記していきますね。

最後まで読んで頂いてありがとうございます

2012/11/8 追記

サイトオープンから10日ほど過ぎたので状況をお知らせします。

はてぶは全くだめだった。。

ページビュー1000/日

(日々増加しているが、検索エンジンからくるようになってもまだこんだけ。。)

メモリは問題なし。512MB中ピークでも300MBぐらいしか使ってない。

30分に一回メモリ監視を仕込んだ。

# vi /usr/local/bin/memrep.sh

date >>$1

free >>$1

echo >>$1

# chmod 744 /usr/local/bin/memrep.sh

本日テスト的にDMM広告を張ってみました。。←すぐ消した。。

また、後日お知らせしますね。

2012/12/3 追記

1か月経ったので。。

topスライダー付けてみました。

ページビュー2500/日

自動更新なのに、きっちりアクセスは日々増えて続けていますエロは強い。

アクセス少ないので、負荷は全く問題なし。

Swapも全く使ってない。

忍者AdMax貼ってみたけど、1日20円とかで、まったく駄目。。

レンサバ代にはなりそうだけど。。なんか良い広告いかな。。

2012-07-08

Rails3 とTwitter Bootstrapで、オシャレなエロサイトをつくってみました。

Rails3 と jQuery で、真面目にオシャレなエロサイトをつくってみました。 - h300

http://d.hatena.ne.jp/inouetakuya/20120331/1333192327

に触発されて、オシャレエロサイトを作ってみました。

以下は製作記になります

オシャレエロサイトを作ろうと思ったのはいいのですが、デザインは苦手なので途方に暮れていました。

h300の方はペパボソフトウェアエンジニアらしいのですが、こっちはただの素人プログラマー

オシャレなサイトなんて作れるわけがありません。

そこで何か裏ワザみたいなものはないかとググっていると、Twitter Bootstrapという文字が目にとまりました。

Bootstrapの名前は知っていましたが、深い内容までは知りませんでした。

ですが、紹介記事を読んでみると自分理想に近かったので早速使ってみることにしました。

Twitter Bootstrapとは?

Twitter Bootstrapはある程度有名だと思うんですが知らない方のために説明すると、

CSSフレームワークの一つで、ウェブデザイン作成を手助けしてくれるものです。

色々なCSSフレームワークを見ましたがTwitter Bootstrapが一番完成度が高いと感じました。

ウィキを見ると最初リリース2011年8月なので比較最近のものですね。

CSSフレームワークの説明は難しいんですが、

普段、みなさんがウェブサイトを作る時、HTML + CSSで作られるかなと思うんですよね。

この時、CSSが事前に用意されているとすごく楽じゃないですか?

CSSフレームワークCSSの大部分を前もって用意してくれているんですよ。(フレームワークによりますが)

ですので基本的にCSSに合わせてHTML記述するだけでウェブサイトが出来てしまます

CSSに合わせてHTML記述するとはどういうことでしょうか?

匿名ダイアリーでも似たようなことができるのでやってみます

この文章は薄い青色ハイライトされていますよね?
Bootstrapで似たようなことをする場合
<div class="well">
ハイライトしたい文章
</div>
という感じになります

classにwellと指定しているだけですね。

なぜそうするだけで文章がハイライトされるかというと、

divのclassにwellが付いていたら、いい感じでハイライトしてねっていう指示が

Twitter BootstrapのCSSに書いてあるからです。

BootstrapのCSSには、divのclassにalert alert-errorっていうのがあったら警告文だしてねとか、

button class="btn"ってあったらボタン表示させてねとか色んなことが最初から書いてくれています

もちろん見栄えがよくなるように記述されていますので、classを指定するだけでモダンデザインになるわけですよ。

CSSに合わせてHTML記述するだけでウェブサイトが出来るというのはこういうことです。

でも、最近ウェブサイトHTML + CSS + JQueryという場合も多いですよね。

安心してください。Twitter Bootstrapの場合JQueryの基本的な部分も用意してくれています

ですのでドロップダウンメニューやタブ、スライドショーなどの実装も簡単にできます

それに加えてBootstrapはよく使うアイコン数百種類まで用意してくれています

至れり尽くせりですよ。

神様ですね。

CSSフレームワークを使うメリットはまだまだあります

CSS固定化されていると、HTML自動的に固定化されます

CSSに合わせて記述するので当たり前といえば当たり前ですね。

CSS記述一定HTMLもある程度一定なので、メンテナンスが格段にやりやすくなります

個人プログラマーの方だと、サイトごとにHTMLCSSもグチャグチャという方も多いのではないでしょうか?

フレームワークを使えばそういうこともなくなるということです。

Twitter Bootstrapの凄さはそれだけではありません。

現在ユーザーがどんなデバイスウェブサイトアクセスしてくるか分かりません。

PCスマートフォンiPadTV3dsなど全てのデバイスに合わせてデザインを作るのは時間がかかりすぎます

でもTwitter Bootstrapならbootstrap-responsive.cssというCSSを選ぶだけで、

デバイスの横幅に合わせてデザインが変わるレスポンシブなウェブサイトができます

iPhoneiPad対応もすぐですよ。

もちろんデメリットもありまして、サイトデザインが似てしまうというのが難点です。

ですが基本はBootstrapを使って、ちょっと自分カスタマイズしてオリジナルっぽくすることもできますので、

一度Twitter Bootstrapを使ってみる価値はあると思います

http://twitter.github.com/bootstrap/

Bootstrapの説明が長くなってしまいましたね…。

ここからアダルトサイト作成の説明です。

クローラ作り

1.エロいサイトを巡って、XVIDEOSやFC2動画などのリンク、embedされたものがあれば取得。

2.リンクから動画サイトアクセスしてサムネイルを取得。

3.データベースに登録。

一連の作業をクローラーやらせプログラムRubyで書く。

RailsでBootstrapを使う。

RailsでBootstrapを使うにはtwitter bootstrap railsというgemを使うらしいです。

しかし、使おうと思ったのですが、windowsでは上手くインストールできませんでした。

windowsRubyを使うとバグが多いです。

仕方なく、代わりにsass-rails-bootstrapというものを使いました。

違いはcssにLESSをつかっているかsass(scss)を使用しているかだと思います

http://d.hatena.ne.jp/tkawa/20120219/p1

の記事が参考になりました。

ちなみにLESSとかSassってのはcss効率的に書けるすぐれたものです。

最近webクリエイターボックスさんでも紹介されていました。

http://www.webcreatorbox.com/tech/css-sass/

LESSとかSass(Scss)もお勧めですよ。

railsでは3.1からcoffee scriptと共にsassがデフォルトで使えます

このあたりがRailsの素晴らしさですね。

Bootstrapは画像を綺麗に並べて表示することにも向いているので、

アダルトサイトと相性がいいなと感じました。

タグリスト実装

AV女優名とか女子校生人妻などのジャンルタグがあれば便利ですよね。

Railsではacts-as-taggable-onというgemを使い実装しました。

動画タイトルが事前に用意したAV女優リストジャンルリスト合致すればタグ付けするという感じです。

AV女優リストDMMからジャンルリストは大手アダルトサイトから作成しました。

AV女優タグ名前順でソートしたいと思ったのですが、

漢字ソートできないのでしばらく悩んだ結果、

タグ付けするときに あおいそら-蒼井そら みたいな感じでタグ付けするようにしました。

もっとスマート方法があるはずですが思いつかなかったので仕方ないです。

ア行、カ行…のように行別にわけて、なおかつアイウエオ順で表記してますので

お気に入りAV女優名を探しやすいはずです。

簡易ブックマーク実装

クッキーを使ってログイン不要ブックマーク機能作りました

jquery.cookie.jsを使って、cookie配列に直してごにょごにょしてという感じで実装しました。

削除ボタンを押すと非同期で通信して…などいろいろ面倒でした。

でも、動画の数はかなり増やしていこうと思っていましたので頑張って実装しました。

動画の下のブックマークするボタンを押していただければブックマークできます

ブックマークするボタンの表示などにBootstrapの便利さを感じました。

アダルト動画を大画面で見れるようにする。

実はこれが一番やりたいことでした。

多くのアダルトサイト広告だらけで、肝心の動画がポツンと小さくあるだけというのが多いです。

世の男達は疲弊しています。それは本当に疲弊しています

戦場で疲れた兵士たちに、そんなせせこましい画面でアダルト動画見ろって?

そんな野暮なこと言いませんよ。

PCスクリーンの画面いっぱいに、大画面で、ドカーンエロ動画を楽しんで下さいよ。

動画はできるだけ大きく表示しています。もちろんレスポンシブです。

全画面表示にすりゃいいじゃん…っていうのは違うんですよ。

全画面表示だと逃げれないじゃないですか

不意に誰かが部屋に入ってきたらどうするんですか? 

1クリックと2クリックは大違いですよ。

コンマ一秒で守れる尊厳がある。

そう考えております

スマホ対応

Bootstrapでデザイン面はスマホ対応にはなっているのですが、

加えてjpmobileというh300で紹介されていたgemを使って、

スマホアクセスされたら表示する動画の数を減らしてとか、

広告の種類を変えるなどの微調整をしました。

サーバー選び

osukiniサーバーのGT2プランしました。

初期費用1900円、月940円で

CPU 2.66GHz、メモリ 2.2GB HDD200GBです。

チューニングは正しいかからないですね。

まぁ、アクセス捌けなくなってから考えます

Nginx + Unicornを使おうとして結局やめる。

Railsは遅いので少しでも速くするためにApacheの代わりにNginx使おうと思ったのですが、

PC用のキャッシュスマホ用のキャッシュを別々に保存して使う

ということがどうしてもできませんでした。

PC用のキャッシュがある場合スマホ用のキャッシュがなくてもキャッシュがあると認識されるなど、

もともとNginxrailsのページキャッシュは相性が悪いようです。

Nginx側でキャッシュする、もしくはスマホ用のアドレス別にすればできるかもしれないですが、

http://m.サイト名 みたいにするのが嫌だったので最終的にNginxを使うことをやめました。

Nginxに関するネット上の記述も少ないので運用するのは危険かな、ということもあります

Nginxを少しだけ使ってみた感触はかなり速いというものだったので残念でした。

バージョンが変われば、また挑戦したいですね。

Apache + passengerは遅いんですよ…。

【追記】

キャッシュの問題はRails側の問題だったので

やっぱNginxでもいけるかもしれないですね。

暇なときに試してみます

出来上がったサイト紹介

オシャレのハードルを上げすぎて紹介しづらくなったのですが、

紹介しないと終わらないということで紹介します。

http://nukisen.com  (エロ注意)

サイト名はオシャレに横文字でNukisenにしました。読み方はヌキセンです。

http://bootswatch.com でダウンロードできるBootstrapのテーマそのままですが、

オシャレというかクールデザインです。

Bootstrapを使うと自動的に細部まで凝ったデザインになるので最高ですね。

下にスクロールしていくと背景のグラデーションが変化したりとか、とても一人ではできないですよね。

長々と説明してきましたが、

ぜひNukisenで大画面のアダルト動画体感してほしいです。

動画の数をいきなり大量に増やすグーグル様に怒られるので、

しばらくは一日30本ぐらいの更新でいく予定です。

アダルトサイト同士の相互リンクアクセス増やしてなどはしない方向です。

最後

新しいことに挑戦すると得られるものが多いなと感じました。

ウェブサイトを作る際、無意識のうちに自分のできる範囲の技術で構築しがちだと思うんですが、

そうすると成長はないですね。

新しい技術に柔軟に対応していきたいです。

長文失礼しました。

2012-07-06

他社(主にGoogle)の検索クローラーに偽装してWeb巡回してた会社提供するアプリとかに、みんなよく平気で個人情報とかぶち込めるよな。

それを理由にLINEに誘われたのを断ったんだけど、「何言ってるのこの人」みたいな顔された。

2012-06-15

完全に一致パクリサイト作ってみた

http://www.kanzen21.com/という有名なサイトと似たサイトを作ってみました。

このサイトプログラミング初心者おっさんが四ヶ月で作ったWebサイトとして有名です。

http://anond.hatelabo.jp/20101203150748

なぜ似たサイトををわざわざ作ったのかなんですが、完全に一致は便利なんですが色々不満がありまして

芸能人リストがしょぼすぎる。 - いちいち、芸能人スリーサイズ調べてスライダー動かすのが面倒。

・年齢スライダーがない。- 若い子が好きな人もいれば熟女好きもいるはず。

ベスト作品を除いてほしい。 - AV女優の単体作品だけが見たい。

・横三列じゃなく八列ぐらいにしてほしい。- もっと一瞬で好みのAV女優を見つけたい。

・年齢順とか作品順とかにソートしたい。ア行カ行とか指定できるとなおいい。

というわけで、プログラミング勉強を兼ねて作ってみることにしました。

使用した言語RubyフレームワークRails3です。

プログラミング歴は10か月ぐらいかな?

作成期間は2週間ぐらいです。

以下作成手順です。

1、DMMからAV女優情報、作品情報などをmechanize(Rubyクローラー)を使って取得。

2、Wikiからアイドルモデルスリーサイズなどをmechanizeで取得。

3、chickipediaから海外セレブスリーサイズなどをmechanizeで取得。

4、Railsサイトの骨格を作る。

5、JQueryスライダーを実装

6、デザインを整える。

7, サーバーのセッティングなど

作業ポイント

1、http://actress.dmm.co.jp/-/top/ DMMAV女優情報から情報取得する。

 完全に一致さんみたいにFace.comのAPIを使うのは面倒だったので、

 作品のタイトルAV女優名前がある作品だけをピックアップすることにした。

 そうすることで自動的にAV女優100名出演みたいなベスト作品とかは取り除かれる。

 

2、http://ja.wikipedia.org/wiki/%E3%82%B0%E3%83%A9%E3%83%93%E3%82%A2%E3%82%A2%E3%82%A4%E3%83%89%E3%83%AB%E4%B8%80%E8%A6%A7

 グラビアアイドル一覧から個別ページに行き、必要情報を取得。

 女性モデル一覧でも同様のことをする。

3、英語版のwikiスリーサイズが載っていなかったのでhttp://www.mademan.com/chickipediaから必要情報を取得。

 バストサイズがブラのサイズしかのってなかったが大体合ってればいいかということで、そのままcmに変える。

 身長フィート表示なのでこれもcmに変えてデータベースに突っ込む。

 外人のカップ数がバストに比べて小さいなと思っていたら、外国Aカップ日本Cカップぐらいあるというトリビアを知る。

 

4、サイトの構成はできるだけシンプルにした。

 一応URLAV女優名前がでるようにした。

5、JQueryを使ったことがなかったので、一番苦労した。

 JQueryというよりも非同期通信をするためのAJaxという仕組みをRailsでどう実装するのかが分からなかった。

 具体的にはスライダーの値をRailsコントローラーに渡すにはどうすればいいのかが分からなかった。

 色々検索しているとhttp://eddorre.com/posts/tutorial-filtering-results-with-jquery-ui-slider-and-rails-3-beta-3

 というRails3でUI Sliderを使用するためのチュートリアルというドンピシャサイトが見つかる。

 英語で読み解くのに苦労したが、合わせてhttp://jqueryui.com/demos/slider/スライダーの使い方を見ながら何とか実装していった。

 非同期通信はかっこいいけど実装するのに手間がかかるなと思いました。

 あとPHPにすら挫折した人間なのでjavascript書くのがきつかったです。

 Rubyみたいに書けるらしいCoffeescript勉強したい。


6,デザインはBootstrap

7,サーバーは、とりあえず人が来るかわからないので、一番安いオスキニサーバーVPS月450円プランにした。

 アダルトOKなのは確認ずみ。http://support.saases.jp/index.php?action=artikel&cat=85&id=409&artlang=ja

 何度かやったことがあるのでいつも通りセッティングする。かなり面倒な作業。

 一応、アダルトということで,mod_evasive,KeepAliveなどの設定をする。


できあがったのが3 Size Search(スリーサイズ・サーチ)というサイトです。

 

 URLhttp://3sizesearch.comです。

 スリーサイズスライダー検索するので3SizeSearchです。

完全に一致さんとの一番の違いは有名人リストが充実していることです。

 好きな芸能人と似たスタイルAV女優さんがすぐにわかます

 例えば、西田麻衣に似たスタイルAV女優範田紗々だとすぐにわかます

 検索の幅を緩くすることもできます。+-1から+-2へボタンを押して切り替えると、さらに22名のAV女優名がでてきます

 http://3sizesearch.com/people/%E8%A5%BF%E7%94%B0%E9%BA%BB%E8%A1%A3

 一応、外人も200名ぐらい登録してます

 例えばアヴリル・ラヴィーンに似たスタイルAV女優は、藤咲りさ、本田成美、優木ルナになります

 似たスタイル芸能人も分かりますアヴリル場合浅香友紀 菅野美穂 木内美穂 黒坂真美 小橋めぐみ 佐藤ありさ さとう里香 西原亜希 平田薫 松永京子 蓮舫という感じです。

 http://3sizesearch.com/people/%E3%82%A2%E3%83%B4%E3%83%AA%E3%83%AB%E3%83%BB%E3%83%A9%E3%83%B4%E3%82%A3%E3%83%BC%E3%83%B3

 

 ですのでAV女優さんの個別ページに行けば似たスタイル芸能人も分かります

 例えばRioに似たスタイル芸能人浅倉結希 立花麗美 吉井怜となります

 http://3sizesearch.com/people/rio

 

最後

楽しみながら作れ、JQuery勉強にもなったので良かったです。

今度は完全にオリジナルサイトを作らないとダメですね。

あと色々自分検索して思ったのですが、

アイドルよりAV女優の方が人数も多いし可愛くてスタイルのいい子が多いですね…。

小飼弾さんの「作品から商品へ - 書評 - 職業としてのAV女優」というエントリーが頭に浮かびました。

http://blog.livedoor.jp/dankogai/archives/51804435.html

よろしければ3SizeSearchを使ってみてください。http://3sizesearch.com

2012-03-24

簡単なクローラ作るならPythonだよ!

http://d.hatena.ne.jp/nishiohirokazu/20120323/1332504404

最近Webクローラクライアントを作るお仕事が増えた。WebクローラクライアントというのはHTTP(S)を介して様々なファイルダウンロードして解析し、結果を溜め込むだけのプログラムであるボットともいう。

クローリングの規模が大きくなると、クロール処理部と結果貯蓄部を分離する必要がある。クローラには様々なものがあるが、ものによっては特定のサーバに集中的にクローリングを行うこともある。このとき、1つのIPを使って集中的にクローリングを行うと、攻撃とみなされ一瞬でbanされてしまう。そこで、一見するとまったく関係なさそうなIPを複数確保し、それぞれにクローラーを仕掛けて走らせるのである

結果貯蓄部は、要するにデータベースサーバであり、何を使用しても良い。クロール処理部とのやりとりに使用するプロトコルRDB依存プロトコル(MySQL Socketとか)でもHTTPでもなんでもいいが、とにかくクロール処理部が解析した結果を随時溜め込めるようにしなければいけない。逆に言うと、まぁ、口さえできるのであれば何を使用しても良い。

問題は、クロール処理部に何を使用するかである。おおまかな要件は次の通りである

これらの要件を満たそうとすると、ぶっちゃけJavaPythonくらいしか選択肢が無い。

JavaPython
HTTP(S)HttpURLConnectionかApache HTTP Clienturllibかurllib2
環境依存Write once, run anywhere (VM最初からインストールされてるのはSolarisくらいのものだが、どんなOSでも大体はすぐインストールできる)UNIXであればほぼ標準で入ってる、Windowsインストーラも用意されている
キャッシュ機能JDK6にDerby標準搭載Python 2.5からsqlite3標準搭載

JavaPythonの違いは山ほどあるが、簡単なことをやらせるだけならPythonJavaよりも使用メモリが少なくなりがちなので、そういう場面であればPythonは(現時点においては)最強の座に君臨すると考えられる。

余談であるが、私が本当に好きなのはPerlであり、

という条件下であれば何の迷いもなくPerlを使っていたであろう。畜生

2012-03-20

http://anond.hatelabo.jp/20120320162053

特定スレッドの問題については

キーワードの所に、"キーワード site:スレURL"で大丈夫じゃない?

アラートタイミング

アラートの頻度を"その都度"に設定することで、ある程度調整できるけど

クローラー更新頻度にもよると思うからまり使えないかもしれないね

2011-10-02

民間刑務所としての日本語ネット社会

はい笑って! 監視カメラ撮影です

facebookが全地球上の利用者の行動データを黙々と集め続けているというブログ記事が多くの注目を集めて、ガクブルする人のうめき声や罵詈雑言が飛び交ったことは、これを見ている人はまだ記憶に新しいと思う。


さて、日本語圏の、だいたい日本国と重なるネット社会はどうだと思う?

2ちゃんねる有名人の殺害予告を書き込んだ奴の家に警察がやってくるというニュースはそんなに珍しくなくなっている。ヤバげな書き込みがあれば、奴らはあっというまにきみの発信者情報を特定してドアをノックするというわけだ。

そういう意味で、すでにぼくたちは「公権力に」よってネット上での行動を監視されているわけだ。

パノプティコン

これもよくいわれるんだけど、こういう状況は、ミシェル・フーコーというフランス人が「パノプティコン」と呼んだ状況に似ているかもしれない。

パノプティコンというのは、ベンサムというイギリス人が考えだした刑務所モデルのこと。監獄がドーナッツ型になっていて、中央の穴の部分に看守の建物がある。囚人たちは、四六時中看守に見られているような気がする。たとえ看守の建物にだれもいなくてもそうなんだ。いつのまにか、囚人は看守の視線自分の中に取り込んでしまから、下手なことをしようという気を起こさなくなるというわけ。ようするに、その監獄にいる囚人はどんどん自主規制するような、監視者に都合のいいシステムパノプティコンだ。

2ちゃんとか自分ブログに何か書こうとしているとき自分の心の動きを思い出してみて、どうだい?

アイドルを殺すとか、新宿駅を爆破するとか、そういうことを書き込んだら、たとえ冗談でも警官が家に来るらしいってことは漠然と「知って」いるだろ? だからめったなことではやらないだろ? そもそもやろうと思わないだろ?

なぜなら、きみは自分監視されていることを「知って」いるから。

でもさ、きみはほんとに、どっかの地下司令室みたいな所で、日本中の掲示板ブログの内容を膨大な数の監視員がチェックしているところを見たのかい? SF漫画の中で見ただけじゃないのかい

たとえそんなところが本当にあったとしても、そこで働いている奴はい夜食ビッグマックを頬張るのに夢中になっていて、きみの書き込みなんか見ちゃいないかもしれないんだよ?

でもきみは心のどこかで自主規制するよな。だって、ヤバいことを書き込んだら、奴らが来るって「知って」いるから。

傭兵たち

ところで、そういうネット上のパノプティコンみたいなものは、べつに「公権力」じゃなくてもこの国では勝手にどんどん作れることは知ってたかな。

ほかでもない、ネット上の風評被害対策とか、「ソーシャルメディアマーケティング」をやっている民間企業だ。こいつらはネット上の自警団というよりは、傭兵だ。金で雇われれば誰でも手にかけるから

たとえば、きみが2ちゃん自分ブログである企業の批判をしたとする。傭兵たちは独自のクローラー毎日ネット上に走らせているので、君の言葉はすぐに見つける。そしたらすぐに2ちゃんの運営ボランティアブログプロバイダ削除依頼をかけるか、訴訟をちらつかせながら発信者情報の開示を始める。

だって、どこの馬の骨とも知らないやつに自分の居場所を突き止められたくない。弁護士対応なんてしたくない。

から自主規制する。


まあ、きみがただ単に相手を傷つけようとして、根拠のない誹謗中傷を垂れ流そうとしてそういう目に合うのなら、自業自得というものだろうね。

でもさ、他人のでたらめを見かけてそれを指摘しようとしたときに、ナイフをちらつかせられたらどう思う?

とくに、企業に雇われた傭兵たちが嘘八百をいい散らしているのを指摘しようとしたときに、訴訟を恐れて自主規制しようとしたら?

そもそも、指摘する声を出せないように傭兵たちが街中の広場をすでに封鎖してしまっていたとしたら?

「民間刑務所」の誕生

なんのことはない。きみは気がついたら彼らが勝手に作った「民間刑務所」のなかで監視を恐れながら粛々と労役に励んで、傭兵たちが大声でおすすめする臭い飯を、きみ自身の苦役で稼いだ労賃で買いつづけるわけだ。日本語圏のネット社会は、気がついたらそういうプライベートな監獄で何重にも囲まれていたという話。


たまたまそういった「民間刑務所」の看守見習いがヘマをしでかして、刑務所オペレーションに関する書類を落としてしまったとする。それを拾った奴が広場で騒ぎ出し、市場ゴミ拾いが日課で壁新聞の好きな奴がその書類を市場の外に、街のいたるところに見えるようにして貼り出してしまった。でもそのゴミ拾い人は傭兵たちの訴訟攻撃にぶるってしまって早速自主規制したまま黙っている。その間に市場での騒ぎは手際よく鎮圧されてしまった。傭兵たちは普段からそれで飯を食っているので、自分たちのこととなると作業は早い。


市場の住人たちも、その外で壁新聞を読んでいた人たちも、なにかおかしなことが起こっていることをばくぜんと感じ取っている。たとえ騒ぎが収まった後でも、そのおかしな感じは消えるだろうか。自分たちが「民間刑務所」の中で暮らしていたことに気づいた後で。

2011-03-10

nanapiやっているけんすうです全然いますよ!

http://anond.hatelabo.jp/20110310015855

元記事が消されてたんで魚拓です

(cache) どうしても延焼したいらしいnanapiスパム戦略について。。

http://megalodon.jp/2011-0310-0542-29/anond.hatelabo.jp/20110310015855

こんにちはnanapiというサイトをやっている、ロケットスタート古川健介といいます。ちまたではけんすうと名乗っていたりします。

これを見て、ああ全然違うなあ、と思ったので説明します!

読みづらいのでトピック

トピックスとしては

です

とりあえずインラインで説明

非モテタイムズ亡き後再びnanapiはてブスパムを再開したたいですよっと。

これはやっていないんですよねえ。

あたしはnanapiを立ち上げるときにも、あれこれ間接的にお手伝いしたから、

ほんとこれ言いたくないのよ。でも、あっさり再開したからなあ・・・・

おお、誰だろう。再開というか、やったことないのですが、、

ここにいろいろ★がついてるIDがあるんだけど、ここについてるのは

まあ非モテタイムズですら5個くらいしかつかってないような捨て垢、サブ垢で、

ざっと数えた限りでも20個くらい稼働してるのね。

kensuuやasami81あたりに関してはメンバーですね。捨て垢とかサブ垢は僕の知る限り、使っていないのです。あと一応スタッフidは把握しているのですが、心当たりあるしたらそのくらいかなあ、と。

これは通称「サテライト」って言われてる特定ドメインを含むURLブクマして

アカウントにつき最大100個くらいしたら廃棄するライフサイクルになってる。

これは知りませんでした!他でやっているんですかねえ。

誰がつくったのかしらないけど見て取れる限りだいたい7~8ヶ月くらい前から

この機構は動いてるのね。まあいわゆる「ボットサクラ」で、nanapiブクマされているように

同じ既得権益を持ってるサイトを順番にブクマして、それなりに人力でつけているように

ごまかすとともに、ローラー式に広告仲間サイトアクセスアップ貢献してる。

そうなんですか?広告仲間が誰かわからないんですが、僕が友達のブログとかをはてブしているくらいしか覚えがないのです。7〜8ヶ月前というのも何があった時期かちょっとわからないのです

まあじっさいここの巡回先に入れてもらうのは効果絶大で、その結果

去年の「はてなブックマーク年間ランキング」に5件もランクインするという結果(笑)

巡回先にいれてもらうとかをしていないんでわからないんですが(勝手に入れられているならともかく)、はてなブックマークで上位をとったところで、トラフィックたいして変化はないわけです。あと、5userついたらホットエントリに入るほど、はてなユーザーさんはバカじゃないので、たいした効果はないかと。

投資系の話について

ここんところの会社ベンチャーキャピタルから3.3億もの出資を受けるための事業計画として

年末ギリギリ未達だった「1000万PV」をこの1年で10倍の1億、記事数は15倍の

15万本に増やすと宣言してるんだよね。

ですが、投資先にたいしていっている目標はないです。事業計画全然別にあるのすよ。

PVでの事業計画は一切だしていませんでしたし(記事数はだしていました)。スパムをやって達成できたとしても、そんなの見抜かれるでしょうし、ベンチャーキャピタルさんは僕なんかよりすごく賢い人が多いので、意味いかなあ、と。

プレスリリース出すときテンションあげるためとして記載していたくらいのPVですね。

『ああ、きっとどんな手段をつかってでもやるんだな。はてブを使うだけじゃなく・・・』

使える手段であればするんでしょうけど、実際に一番合理的なPVの上げ方って「支持されるコンテンツを作る」だと思うのですよね。

いまもう3月でしょ?一年の四分の一消化しちゃってるわけよなの。でも、PVはまだ1.5倍の

1500万PV、(瞬間風速では2200万くらいだっけ?)まとめ数については2.3倍の2万3千本しか増えて

ないわけ。このままだと目標達成もできなくて次の増資もパー。だからこそ、炎上から3日も

経たずにこのかわいそうなスパムロボットたちを再起動しなくてはならなくなったってわけ。

いやあ、がんばります。月次目標がいつもぎりぎりなので、ドキドキしています。記事数は質が下がったという認識があるので、今はかなり抑えてじっくりとコンテンツを作るほうに集中していますね。

ちなみに次の増資は計画していないです。また、アーリーに資本入れるベンチャーキャピタルさんが、こんな短期の数字だけを見て判断するってことはあんまりしないです。

まあ、あなたはこのネットワークについては「知らないこと」になってるのかもしれないけど・・・

いやあ、知らないんですよねえ。実際、、というか周りでも聞いたことないのですが、実際、はてなブックマークをお互いbotでやりまくるみたいなことやっている人、今いるんですかねえ。大手サイト同士でリンク張り合うとかはよく聞くんですが。

私は、いつも中身で勝負すればいいと思っている。

同意です

3user以上がないのは不自然!?

で、これってnanapiにも全く同じ見かたができて、nanapiについたブックマーク

見ると炎上期間中の3/4~3/8の間、nanapiで3usersを獲得したレシピ

一件もないの。一件もよw

いままでのブックマーク数を見ていただくとわかるとおもうんですが、3userがない日が3日続くとかはそんなに珍しくないサイトですスタッフ気合いれてかけばホットエントリ入りしやすいので、それを書いたら比較的乗るんですが、上記はそんなに珍しくない現象かなあ、と。

本当に面白いサイトだったら、面白いレシピ

ブックマークがつくのは一日も止めようがないと思うのよね。なのに

炎上期間だけぴったり止まっているのは、不自然しかいいようがない。

nanapi毎日見に来ている人ってあんまりいないんですよね。で、ブックマークをする人っていうのの多くは、おそらく僕がブックマークする or Tweetする or facebookページに流す、くらいだと思うのですどこかのサイトリンクを見る、他の人から紹介される、などだと思うのです。特にその中で、僕はnanapiに関して投稿しまくってるので、僕のTweetブクマなどを見てする人というのが結構な割合を占めている気がするのですね。

で、たしかにこの時期ってあんまりTweetしていないのですよ。

kensuu けんすう(ロケスタ社長/nanapi)

かわいいなあ! デコおにぎりトトロの作り方 | nanapi[ナナピ] r.nanapi.jp/24521/ via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

友人の行動が広告に反映される!Facebookスポンサー記事」広告の概要 | nanapi[ナナピ] r.nanapi.jp/24515/ via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

友人にめっちゃ勧められたから使ってみる - 旅行好き必見!Facebookアプリ「trip advisor」で旅を楽しむ方法 | nanapi[ナナピ] r.nanapi.jp/23919/ via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

Facebookmixiブログ連携させる方法 | nanapi[ナナピ] r.nanapi.jp/24360/ via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

これをしよう - Twitterつぶやきを、Evernote自動で取り込み、日記にしてしまおう | nanapi[ナナピ] r.nanapi.jp/1720/ via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

今、Evernoteを再整理しているけど手前味噌ながら役に立つ - Evernote上級者のためのレシピnanapi.jp/site/Evernote via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

かわいい - デコおにぎり!みんな大好きアンパンマンの作り方 | nanapi[ナナピ] r.nanapi.jp/24172/ via @nanapi

というのも土日にあまり仕事していなかったのでパソコンの前にいなかったので、数少ないんでしょうね。

なのに、francesco3が収束宣言をした3/9かから、いきなり100ブクマ超。

中身はタオルのたたみ方で、どこの伊藤家の食卓かしら、という感じ。

いや、私はすきだけどね・・・ならスパムクローラー稼働させなくても

20~30usersで我慢しておけばいいじゃない。それくらいの内容よ。

それ以上を求めようってのは酷なものよ。

いや、タオルネタは素敵!と思ったから僕はブックマークしましたが、それくらいかなあ、と。スパムクローラーやるとトラフィックあがるんですかねえ、、

コンテンツの中身のはな

なんとなーく、ほら、次はどのへんに飛び火しそうか、ちらほら雰囲気出てたじゃない。

2ちゃんねるではそのものズバリ名指しされてたし、今動くのは大人としてキケン

せめてそれくらいは分かって欲しかった・・・・・もっとコンテンツ面白くすることに

たまをはたらかせることに、この春休みを使って欲しかった。。

もちろんそこばっかり頭働かせていますよ!

からこそ、最後まで「必要悪」なんてものを自分のなかに抱え込まずに、

中身一本で勝負してほしいと思ってる。

必要悪っていうのがあるのかもしれないですが、ブックマーク数を機械で増やすのって必要なんですかねえ、、

というのも、ここ1ヶ月で見たときに、はてなブックマーク経由のトラフィックって

44,627

くらいなんですよ。(内部データから検証しようもないけれど、内部データをあげると)1セッションあたりの平均PVが、はてな経由だと1.7くらいなので、PVでいうと75000くらいですね。

1500万pvあって、ロボットブックマークしてもらって75000しかあがらないところに工数さくのって、あんまり意味ない思うんですよね。それよりかは伸びているFacebookをうまく活用して、ファンを増やしていくことに注力したほうがよほど合理的なのです波及効果があるかもしれないじゃないか!と言われるかもしれないですが、それこそいいコンテンツじゃないと波及しないのです

SEO効果あるじゃないか!という人もいましたが、たぶんさほど効果ないんじゃないかと思っています。0ではないんでしょうけど、そこに力を入れるくらいだったら、検索されやすいコンテンツを増やしたりするほうが効果高いですし、それこそサテライトサイトつくったりリンク買ったほうが効果あるんじゃないですかねえ。どちらもGoogleさんに規制されそうな気がするので僕たちはやっていないですが。

もちろんPVはあげたいなあ、と思うので、nanapiについて言及しているTweetをRTしたり、いいなと思ったコンテンツブックマークしたしますが、不当な手段を使ってやったところで効果ないと思うのです

僕も純粋な善人でもないので、想いとして

と思う一方で

というのもあるわけです

ただ、それをする一番合理的な方法って、「いいコンテンツサービスをつくって、ユーザーに支持される」ということしかないんですよね。これは綺麗ごとを言っているわけではなくて、単なる王道です。で、コンテンツサービスに近道はないと思っているので、ひたすらそれをやるしかないのですスパムやって数万PVあげたところで、何の意味もない。

というわけで、そこばっかりやっているので、無駄なことをしないで、中身ばっかりみているこの頃なのわけです

人に書かせる以上、クオリティコントロールが一番難しくて、いい記事を大量に効率よく生み出す仕組みを作りたいですが、ここが難しく、まだまだ「nanapiの記事って素晴らしい」となるレベルではありません。ここは認識していて、一番の課題としておいています。一方で、量がないと役に立たないので、これを両立させるにはどうしたらいいのかなあ、と悩んでいるところです

といいつつ、誤解をさせてしまったのは説明不足かなあ、という気もするので、ご不明な点があったらもっと説明します!よろしくお願いいたします。

2010-12-06

http://anond.hatelabo.jp/20101203150748

完全に一致を作るための勉強法

たくさんのアクセスありがとうございました

コメントもたくさん頂いてまして、それにお答えするのに「ブログでもつくろうかいな」とのぼせましたが、そんなテーマで続くわけもないので、やはりアノニマスダイアリーしました





製作期間について】

まず、皆さん仕事しながらたった4ヶ月で!と褒めて頂いてますが、たったじゃないですよ。4ヶ月って。

仕事が終わって、毎日2~3時間。土日関係無くやると、多分300時間くらいになります

専門学校の2年間の授業時間がこのくらいだったりするんじゃないですかね。結構長いです。


モチベーションの維持について】

モチベーションを保つのがすごいというのも褒めてもらいましたが、私は一回やり始めると、意外に長く続きます

コツがあるんです

毎年、日々の単純作業が続かない新入社員が入ってきますが、そんな新人に言います。

「息をするように続けるんだよ。」

毎日やるんです。土日関係無く。毎日。


勉強したという言葉の誤り】

前回の日記で「勉強した」と何度も使ってしまった為、誤解をされている方が多くいらっしゃいます。

正確には、「調べ」ました

職業柄「調べる」という事が多い為、WEBサービスを作るという事に関してはそれが訳に立ちました

追記でも書いているのですが今回のシステムほとんどが、先人達が作った既存システムベースになっています。

ぱくりと言われてしまえばそれまでなんですけど、丸ごとはやってないですよ。というか、丸ごと合うモノがなくて、いろんな所からソースコードを拝借させてもらいました

なので、中身はぐちゃぐちゃです。けど、検索システムはそれでも200行くらいしかありません。クローラーは80行くらいでしょうか。


HTMLについて】

基本をやったのは、恐らくHTMLCSSだけです

というか、それすら途中で挫折してAdobe社のDreamWeaverというソフトを使いました

適当に書けばソースは綺麗にしてくれるし、CSSの体裁はプロパティを設定しながら見た目のまま調整すれば良いし、一番助かったのはテンプレート機能でした

最初は全部のHTMLファイルコピーしながら作っていたのですが、ヘルプを見るとテンプレートライブラリという機能があるのをしってライブラリいまいち分らなかったのでテンプレートを使いました

Dreamweaver便利

テンプレート便利


Javascriptとの出会い】

最初に本やで立ち読みした本に、「プログラムをやってみよう」ということでJavascriptの事が書いてありました

なので、自然プログラム最初さわりがコレになっただけなんですね。

でも、アラートを出したりとかばっかりで、面白くありませんでした

インターネット黎明期からのネットユーザーなのですが、「最近よく見るページが移動しないのにページの中身が切り替わるやつかっこいいよな」と思って「ページ遷移しない 読み込み」で検索をすると、Ajaxという文字を見つけ、「ajax 入門」で検索してトップに出たサイトAjaxの概要だけ調べて、「ajax 簡単」でprototype.jsjQueryの文字を見つけて「ああ、jQueryってよく見るな」というのがjQueryとの出会いでした

最近よく見るページが移動しないのにページの中身が切り替わるやつ」は、非同期通信という名前した

jQueryを使うと、下記のように1行コピペするだけで外部のHTMLを読み込む事ができました

--------------------------------------------------------------------------

var http = $.get("abc.html",null, function(data) {$("#main").html(data);});

--------------------------------------------------------------------------

すごい簡単。最初意味は分りませんでしたが、目的の事ができればそれで良いので次に進みました

jQueryすごい

■非同期通信かっこいい

プラグインいっぱいあって楽しい


Perlとの出会い】

jQueryがちょこっと書くとダイナミックに色々変わってくれるので、日々いろんなプラグインを探して遊んでいました

でも、作りたかったのは検索システムだったのを思い出し、また近くの大きな本屋に。

検索するパソコンで”プログラム 検索”で探しだした棚に行くと、「CGI/Perl」の本棚した

大量にありすぎてどれをかって良いか分らなかったので、いくつか立ち読みして家に帰り、「CGI/Perl 入門」で検索すると

http://www.kent-web.com/perl/

このページにたどり着きました

Windowsだった為、ActivePerlを入れていくつかプログラムをやりましたが、これがまた面白くないんですね。

すごい地味で。このPerlをさわった最初の1日は正直かなり苦痛した

その後、”AV女優検索システムって不動産検索システムに似てるな”って思って「CGI/Perl 不動産検索 無料」で検索したら、http://www.yumemaboroshi.net/ってサイトが引っかかって、ここのおかげでかなり進みました

先人が作った大量のプログラムダウンロード出来るサイトなんですね。

Perl面白くない

フリーソフトを集めたサイトソースがいっぱい見れる


PHPとの出会い】

いくつもダウンロードしては、サンプルと中身を見てを繰り返してたら、Perl/CGI以外にPHPがたくさんありました

どう違うのかと思い検索したら、PHPはすごい叩かれてて、Perlがえらいみたいに書いてあったのですが、叩かれてる理由がいまいち理解できませんでした

結果PHPを使う事になったのですが、その大きな理由は、DreamweaverPHPが開ける。なおかつHTMLファイルをそのまま使うテンプレート機能のプラグインがあったという事でした

PHPテンプレートを使うには、Smartyというプラグインを使えば良いということが分って、「Smarty 入門」で調べて、いくつかのタグを覚えました

実際にSmartyで使ったタグは、{$変数}と{if}{/if}と{foreach}{/foreach}の3つだけだと思います。

色々高機能らしいですが、まあ目的は達成できたのでいいか。と。

PHP検索プログラムは、HTMLファイルボタンを押すと、テキストファイルに書いてある内容を、表示してくれる簡単なものを作って、そこに肉付けしました

(最終的にテキストファイルSQLサーバーになりましたが。)


PHPDreamweaverと相性がいい

Smartyでやると見た目が壊れない


Rubyとの出会い】

簡単にPHPで動くプログラムが出来たので、実際に女優データを登録しようと思い、DMMに行きました

DMMサイトを見ていると、いったい何人いるんだってくらいAV女優が登録されています。

数人集めてみて「こりゃぁ。無理だな。」と途方にくれて1日を過ごしました(笑)

次の日、「ホームページ 自動 巡回 プログラム」とかで検索して、ボットクローラーという存在を知りました

自動巡回で拾ってくるのは、どちらかというとクローラーと呼ばれるそうで、「クローラー 作り方」で調べたホームページに、Perl+LWPモジュールで似たことができるということで、とりあえずペタペタとソースを貼ってうごかしてみたら、まあなんと簡単に取れました

しかし、取ってきた後に気がついたのが、HTMLファイルをそのまま取ってきても結局手動でコピペの必要があり、あんまり意味がない。と。

で、もう少し調べると、「WWW::Mechanize」を使うといいよって書いてあって、Mechanizeで調べたサイトをみるとrubyを使ったサイトが出てきました

rubyのサンプルがすっごい短くてわかりやすかったので、Perl苦痛だったのでRubyにしようと、このときRubyを始めました

設定が大変だったんですが、まあ面白くないので割愛。


Rubyきれい

■Mechanize簡単


デザインは・・・】

はてなブックマークコメントで、DoCoMoサイト元ネタと書いてありましたが、ハズレです

デザイナーの友人が居て世間話でどうやって作るの?って聞いたら、「まあ、パk、じゃない。参考にするよ。他社のを。」っていうもんでどうやって見つけるか聞いたら、あるんですね、綺麗なデザイン集めたサイトが。http://www.ikesai.com/ここでたくさん見ました

それからスライダーインターフェースは、「selectToUISlider」jQueryプラグインそのまま使ってます


■世の中のデザイン全てぱk(略

■selectToUISliderかっこいい


という感じで、ほんとにちょっとずつ進みました

しかったですね。Perl以外は。なんであんなに読みづらいんでしょう。


と、またもや長くなりすぎたのでこの辺で。





あ、ちなみに、アクセス数収益をご報告します。

金、土、日、月と約4日間爆発的にアクセスを頂きました

アクセス数は、4日間で約200アクセスほどありました

DMMクリック10クリックほどあり、その結果、購入された金額が、なんと!









700円でした

報酬額が245円。

ありがとうございました

http://www.kanzen21.com/


----------------------

12/8 12:00追記

アクセス過多でまたもやサーバーがダウンしました

今回のサーバーダウンは結構深刻でなかなか復旧が出来ていません。。。

申し訳ないです。


----------------------

12/8 12:10追記

全然起動しません。なんなんだこれは。

サーバー会社に問い合わせ中です

状況は、Twitterでお知らせします。

http://twitter.com/#!/kanzen21_com


----------------------

12/8 13:00追記

サーバー復活しました

サーバー会社の方、ありがとうございました

2010-12-04

http://anond.hatelabo.jp/20101203150748

ショックだね。超高速道路というか、そういう以前の問題だよこれは。

やろうとすることを普通の人が身につけるのに3年は掛かるだろうに、しかも、ここまでのクオリティはでない。

唸ってしまう。

HTML+CSS

意図したものを意図したように表示させるのは困難。

だが自分意図で作れる場合は、できないことは回避できる。

回避できるのであれば使うHTMLCSSは限られる。覚えるのは最小限。

Dreamweaverつこーてるのかな?

ツールが解決してくれるのならコードを書く必要すらない。

JavaScript

jQueryでやられていることを自前実装するには技術力が必要。

逆に言うとjQueryが利用できるならそれですむ。

中で何をやっているかなんて詳しく知る必要などない。

世界中のもっと詳しい人がチェックをいれてくれている。jQueryを利用したライブラリやサンプルコードも転がっている。jQueryでできないことがでてきたらどうするか? prototype.jsでも使えばいいじゃない。

ともかく回避方法はいくらでもある。

Perl

扱いがかわいそう。

自分に必要がないもの目的に合致するのに遠回りなものを切り捨てる能力がないと何時まで経っても勉強だけして終わる。

php

PHPで何かしようとしたのではなく、単なるテンプレートエンジンとして割りきって利用したようだ。

表示したいところに表示させたいものを埋め込むだけなら、それはHTMLとほぼ同等の何かでしかなくなる。

LL学習目的はないので寄り道をする必要などない。

クローラー

どの言語でも実装できる。phpを使っていて、なぜRuby

どの言語でやっても一緒なら、できるだけ自分がつくる部分が少ないほうがよい。

phpではクローラーをつくるのにいいライブラリがあるというのを聞いたことがない。

コマンドラインベースで動かす人は皆無だからね。

RubyならPerlたい正規表現に悩まされることもない。なるほど。

素人Ruby環境を例えばLinux上に構築しようとしたらかなり躓くところがあると思う。Railsを使わずにRubyで済ませたというところか。ここらへんから何か恐ろしい

逆算するとクローラーをつくるまで学習を初めてから2ヶ月も掛かっていないことになる。

Apache

クローラーをつくってからApacheを知ったというのがリアルで笑えるのだけど、恐ろしい

Ruby環境PHP環境をどうやって同居させたのかとかそういう苦労が見えない。ということ苦労しなかったのかもしれない。やはりRailsはなくてRubyなのか。

技術者を名乗る人でもRuby環境構築ができない人も多いのにこの人は素直にすごい。

何もないところからLinux環境PHPやらmySQLやらRubyやらの環境構築は熟練した人でも半日かかるめんどくさい作業なのでそれをやれてしまうというところで、3年生ぐらいのエンジニアスキルがあると俺は認める。

それは言い直すと普通に仕事として身につけたとしても一般的には3年はかかるということだ。

MySQL

はてさて、SQLまでかけるようになったというのだろうか。

DB設計は? 確かにこの内容であれば設計を要するほどの複雑さはない。1テーブルで十分。

インデックスとか貼ってないだろうなとは思わせるが、5GBのデータでもこれだけのレスポンスが出てしまう時代だ。

チューニングするぐらならいいハードにのっけなよということか。

デザイン

デザイナーとしても食っていけるだけのスキルがあるんじゃなかろうかとおもってしまう。

GIMPボタンひとつ作るのでもしんどいよ。

Face.com

もう、なんていうか調査能力もすごい。

というか調査能力がすごいんだろうな。

2010-12-03

自分WEBサービスを作りたいと思っている人へ

もう、いいおっさんの年齢なんですが、先日、とあるWEBサービス公開しました

5年ほど前からぼーっと考えていたんですが、如何せん、事務職の自分には”創る技術”が無かった。

優れた若い技術者id:amachangとかうらやましい)や、チャレンジ精神あふれる経営者id:hiroyukiegamiとか)が出てくる中うつうつとしている自分に嫌気がさし、4か月前の7月からHTMLプログラム勉強を始めた。


本屋立ち読みしたら、まずはHTML勉強する必要があると、書いてあった。同時にCSSを学んだ。

プログラムを作りたかったので、次にJavascriptをやった。

jQueryがすごい。「プログラムって誰でもできるんだ。」この時そう思った。

検索システムを作りたかったので、本屋に行ったらCGI/Perlの本がいっぱいあったので、Perl勉強した

しかし、HTMLテンプレートが使いたかったのでPHP+Smarty勉強した

作りたかったWEBサービス大手サイトデータ検索サイトだったので、自動データを集める必要があった。

クローラーというらしい

PerlのLWPを勉強したが、データを集めた後に加工する必要があった。簡単そうだったRubyとMechanizeを勉強した

Rubyはものすごくきれいにプログラムがかけることを知った。話し言葉に近い気がする。

プログラムを作っている時、最初自分パソコンの中でやっていて気付かなかったが、実際に公開するときレンタルサーバーを使うというのを知って調べると、Linuxサーバーが多いということを知った。

から、今度は自宅のあいているパソコンLinuxを入れた。

Linuxを入れたはいいものの、全く使い方が分から四苦八苦してRubyのインストールした

世界中メインで動いているWEBサーバーApacheということも3か月前に知った。

Apacheの設定がテキストファイルなのも驚いた。cd,ls,vi,mv,cp,chmod等、基本的なUNIXコマンドを覚えた。

例の図書館の事件があったので、クローラーを動かすのをためらったが定期的にちょっとずつなら怒られないんじゃないかと、Crontabを勉強した

自宅のサーバーが壊れてしまい、構築が大変だったので今度はVPSサーバーを借りた。

同じように構築はしたがかなり苦労した。このとき、始めてmakeというコマンドを使った。コンパイルというらしい

クローラー自動的にデータを集めていたが、動かし始めて2カ月目でデータファイルが1GBを超えていることに気がついた。

このときテキストファイルデータを扱おうと思っていたが大きすぎて動かない。

SQLサーバーというものを触り始めた。

最終的にデータ量は5GBを超えた。


11月も後半、本稼働用のサーバーを探していたら、丁度カゴヤVPSサーバーベータ版を募集していた。

ここぞとばかりに申し込みボタンクリックして申し込んだ。

すごく、快適です。まだベータですが、本番稼動でも、50GBで900円という激安プランです

http://www.kagoya.jp/cloud/vps/

さくらさんの2.5倍の容量でさくらさんよりちょっと安い。

ベータ版では、3つまでOSインストールができます。もちろんそれぞれにIPアドレスが振られます

このVPSサーバー管理システムインストールし、もろもろの環境も作って、11月末についに、公開。

AV女優スリーサイズから検索できるシステム、「完全に一致です

 【完全に一致AV女優類似検索システム

 http://www.kanzen21.com/

類似検索機能付きで、2次元3次元をつなげる夢のシステムですはい

「なんだエロかよ」とか言わないでください。

真剣に作ったんだ。仕事をしながらよく頑張ったと自分をほめてあげたい





このシステムは、下記のような構成になっています。

----------------------------------------------

サーバー:カゴヤVPSサーバーベータ版)

WEBサーバーApache

SQLサーバーMySQL

HTMLXHTML+CSS

インターフェースjQuery+selectToUISlider

検索プログラムPHP

テンプレートエンジンSmarty

クローラーRuby+Mechanize+Cron

-----------------------------------------------

サーバー上にある静的なHTMLは1ページもなく、mod_rewriteですべてPHPが処理しています。

ボタン等の画像は、GIMP作りました


一番大変だった事は、、、

このサイトデータDMM社のデータを使わせてもらったのですが、AV女優顔写真をそのまま使うのは、肖像権的にNGらしく、AV女優の作品の中からその女優の顔が一番大きく写っているパッケージを使うことにしました

しかし、女優データは約5万件。作品データ12万件。とても手作業でやるわけにもいきませんでした

結局どうしたかというと、Face.com(http://face.com/)という、画像の顔認識ができるAPI無料提供しているサービスを利用しました

同様のことができる、OpenCVというソフトがあるのですが、最初から付いているパターンデータでは人の正面の写真しか顔として認識しませんでした

それに比べて、Face.comの認識精度は驚くほど高く、横だろうが斜めだろうがかなりの精度で顔を認識してくれました

データJSON形式で返してくれる(JSONもこのとき初めて知った)為、取得したデータを後で加工しやすかったです

1.このAPIを使い12万件の作品データをすべてスキャンするプログラムを書く※1

2.顔の縦の長さと横の長さを取得

3.縦×横で顔の面積を計算

4.作品テーブルの中に3で計算した顔の面積を追加

5.SQL女優テーブルと作品テーブルを結合

6.その女優の作品の中で顔面積が一番大きなパッケージ写真をその女優顔写真として代用しました。※2

※1 APIの制限が1時間1000リクエスト迄だったので、これまたCronで・・・

※2 実際には女優テーブルと作品テーブルを繋ぐ中間テーブルのフラグONした。若干の間違いはあるものの、かなり正確に出ました



長々と書きましたが、ズブの素人から約4ヵ月でここまで出来ました

勉強する前、SEをやっている友人に話したら、「3年はかかるんじゃないか?」と言われましたが、できたものを見せたら褒めてくれました

WEBサービスを作りたいと思っていて、技術がないからとあきらめている人は、とりあえずやってみてください。意外に簡単にできますよ。

あと、クローラーが動いていると、全能感を味わえるので楽しいです




あ、あと、椎名舞さんのファンです

-----------------------------------------

19:30追記

サーバーソフトからアラートが上がって、見てみてたらなんかすごいアクセス貰ってまして。

ありがとうございます


>カゴヤ中の人乙wwww VPSといったらさくらServersManくらいし選択肢が無いのは現状当然の認識であるはずなのに!

ゴヤ人間じゃないですよー。広告してるつもりもないんですが、ベータ版だからかもしれませんけど、すごい快適ですよ。今は。

何よりタダなので。

本当に月額900円のまま本公開になったら、環境構築もめんどくさいのでそのまま契約しちゃうかもです


>カゴヤはOpenVZだからなあ。俺としてはより自由度の高いさくらVPSお薦めしたい。

そうなんですか。2週間のお試し期間はつかったのですが、正直どっちがいいとかわかりません。

どんな風に自由度が高いんですかね?あと、アダルトOKなんですっけ?


>組み立てるプログラミングは本当に簡単だよ。 みんなで入り口を隠しているだけだよ。 #組み立てるだけじゃなくて、アルゴリズムを練ることが真のプログラミングかもしれない

そう思います。感覚的にはジグソーパズルに似てました

ただ、ピースを探すのに時間がかかりましたけど。

私の場合は、アルゴリズムとかその辺はできなそうですね-。

サンプルプログラムの組み合わせで作ったようなサービスですので、プログラムソースとかぐっちゃぐちゃです

一応、公開前に見える所はきれいにしたつもりですが・・・




もともと、作ろうと思ったきっかけなんですけど、

椎名舞さんがですね、すでに引退しちゃってるんですよ。ずいぶん前に。

で、彼女プロポーションが大好きなんですね。私。

それで、検索エンジン検索したです。でも、なかなか出ないんですね。

欲望のままにやってたら、次から次に壁にぶち当たって、そしたらいつの間にかできました

結果、このシステム使って椎名舞さんのプロポーションに似たAV女優を探すと、

雛乃つばめさんとか、果梨さんとか、佐伯さきさんとか既にDVD持っている女優さんばっかりヒットしちゃうんですね。確かに似てるんですスタイル

当たっててうれしいやら、既に持っていて悲しいやら。


あと、スタイルが似てる女優って顔も似てる気がする。

とくに最近の細い子は。



あ。デザインは、某企業をパk、じゃないリスペクトさせてもらいました


-------------------------------------

23:55追記

アクセス過多でサーバーが落ちました

寝てたらサーバーからアラートメール携帯に飛んできておこされました

こんな瞬発的なアクセスを考えていなかったので、とりあえず再起動しました

が、また重くなってます。。。どうしたらいいんだろう。

しい方居たらアドバイスいただけるとうれしいです


-------------------------------------

12/4 01:45追記

何度再起動してもサーバーが反応しなくなるので、うぎゃーってなってたのですが、

親切な方が「MySQLサーバーが原因じゃね?デフォルトだろ?query_cache_sizeを設定したらいいよ。」とわざわざお問い合わせからアドバイスくれました

設定してみたら驚くほどつながりやすくなりました

同じSQLクエリーを保持してくれるらしく、実際にデータ検索を行わないので高速になるそうです。こんなの知らなかった。ありがとうごいました

プログラムはサンプルがあるからどうにかなるんですが、サーバー周りの事が全然わかりません。。。。ぐうぅぅ。。。。

おやすみなさい。

-------------------------------------

12/6 23:30追記

ブックマークコメントもらっていた事を別の日記で説明しました

http://anond.hatelabo.jp/20101206224349

-------------------------------------

1/12 10:00追記

最終報告を書きました想定外ばかり。

http://anond.hatelabo.jp/20110112095450

2010-11-25

http://anond.hatelabo.jp/20101124234216

なんかスリーサイズが似てる女って、顔も似てるような気がする。

北斗の拳ユリアクリックしたんだがみんな同じ女優かと思った。

というか、最近AV女優ってみんな顔が似てるのか。

ニコ・ロビンに一致する女優は居ないらしい

http://kanzen21.com/ruiji/

元増田への解答だが、WEBクローラーって作れるんだぜ。

2010-09-21

http://anond.hatelabo.jp/20100920234933

おいすー。クソコテ起きてきたよ。

* インターネットには、そういうアクセス方法を規定したルールは無いのですか?

インターネットに関する技術の標準を定める団体であるIETFが正式に発行するRFCと呼ばれる文書があります。

ただし、これには罰則規定があるわけでもなく、守らなければならないというものでもありません。

これそのまんま採用で。さんきう。

* Librahack氏のクローラーは、そのRFCというルールは守っていたのですか?

公開されていないのでわかりません。現時点ではルール違反があったという情報はどこからも出ていません。

また、RFC法律ではないので違反したことが即罪になるわけではありません。

ソース公開されてないけど分析結果は教えてもらったのでその内容で書くよ!

ルール違反はなかった,ってことでした。もっと突っ込めば「トラブったのはサーバ側が原因と考えるのが妥当」みたいな結果でした。昨日貼った http://www26.atwiki.jp/librahack/pages/24.html#id_632dd0a1 あたり見てもらえれば衝撃の新事実って感じです。

つことで情報さんきうです。

でも,いつもココ見てるとは限らないのでできたらメールかなんかで頼むww

2010-09-20

http://anond.hatelabo.jp/20100920114629

インターネットに関する技術の標準を定める団体であるIETFが正式に発行するRFCと呼ばれる文書があります。

ただし、これには罰則規定があるわけでもなく、守らなければならないというものでもありません。

公開されていないのでわかりません。現時点ではルール違反があったという情報はどこからも出ていません。

また、RFC法律ではないので違反したことが即罪になるわけではありません。

みたいなQ&A項目をおもいついたよ

Re: たしかに #Librahack で @Vipper_The_NEET 氏はマイナス効果だと思う

中身や理屈考慮しないで、好ましいかどうか

好きか嫌いかで逮捕を判断するの?

どっかの妻プログラマー

クローラーなんてキモイから逮捕されても仕方がない

と言ったのと同じだね

あれでは、警察逮捕したのも妥当だと思われてしまう。

せっかく興味を持ち始めた人を、優位性ゲームに巻き込んで痛みつけていては対立者が増える一方だ。

せめて不要に嫌われない態度が取れないものか。

2010-09-02

http://anond.hatelabo.jp/20100902155129

このくらいの負荷ならOKでしょって主張する人はなぜかみんな自分1人がそういうアクセスをするならという前提で話してるようだけど、みんながそういう高負荷かけたらどうなるかって発想はないの?

都合のいい時だけ万人に開かれてるシステムなんだからと言うくせに、かける負荷の妥当性については自分ひとりが帯域使った場合の前提で話すとかダブスタじゃないの?

そもそも今回のクローラーもそうだけど、一括取得して負荷かけるようなそれに見合うような使い方を本当にしてるの?

ある程度の負荷に対応するシステムを作るにはコストかかるんだよ。ただじゃないんだよ。

サーチエンジンクローラーは通常1分数回レベルで抑えてる上に、捕捉されることで多数の人にアクセスされやすくなるといういわばwin-winの関係だけど、個人が作ったクローラーに、相手に対して与えられるメリットってあるの?

今回の状況って、個人用に図書館目録作りたいんですとかいって図書館の全部の棚の前にびっしり大量の人がはりついて他の人が棚使えなくなってるような状況と一緒でしょう。

ご自由におとりくださいと書いてある店のチラシを1人で無意味にごっそり全部持っていくようなもんだよね。

そりゃ技術的には可能だろう。でも可能なら何でもやっていいの?

何度も何度もシステム落としてるんだから空気読めって話じゃん。

そんだけ負荷をかけたいなら対応コスト費用分ぐらい寄付しなよ。

ログイン ユーザー登録
ようこそ ゲスト さん