「クローラー」を含む日記 RSS

はてなキーワード: クローラーとは

2012-07-08

Rails3 とTwitter Bootstrapで、オシャレなエロサイトをつくってみました。

Rails3 と jQuery で、真面目にオシャレなエロサイトをつくってみました。 - h300

http://d.hatena.ne.jp/inouetakuya/20120331/1333192327

に触発されて、オシャレエロサイトを作ってみました。

以下は製作記になります

オシャレエロサイトを作ろうと思ったのはいいのですが、デザインは苦手なので途方に暮れていました。

h300の方はペパボソフトウェアエンジニアらしいのですが、こっちはただの素人プログラマー

オシャレなサイトなんて作れるわけがありません。

そこで何か裏ワザみたいなものはないかとググっていると、Twitter Bootstrapという文字が目にとまりました。

Bootstrapの名前は知っていましたが、深い内容までは知りませんでした。

ですが、紹介記事を読んでみると自分理想に近かったので早速使ってみることにしました。

Twitter Bootstrapとは?

Twitter Bootstrapはある程度有名だと思うんですが知らない方のために説明すると、

CSSフレームワークの一つで、ウェブデザイン作成を手助けしてくれるものです。

色々なCSSフレームワークを見ましたがTwitter Bootstrapが一番完成度が高いと感じました。

ウィキを見ると最初リリース2011年8月なので比較最近のものですね。

CSSフレームワークの説明は難しいんですが、

普段、みなさんがウェブサイトを作る時、HTML + CSSで作られるかなと思うんですよね。

この時、CSSが事前に用意されているとすごく楽じゃないですか?

CSSフレームワークCSSの大部分を前もって用意してくれているんですよ。(フレームワークによりますが)

ですので基本的にCSSに合わせてHTML記述するだけでウェブサイトが出来てしまます

CSSに合わせてHTML記述するとはどういうことでしょうか?

匿名ダイアリーでも似たようなことができるのでやってみます

この文章は薄い青色ハイライトされていますよね?
Bootstrapで似たようなことをする場合
<div class="well">
ハイライトしたい文章
</div>
という感じになります

classにwellと指定しているだけですね。

なぜそうするだけで文章がハイライトされるかというと、

divのclassにwellが付いていたら、いい感じでハイライトしてねっていう指示が

Twitter BootstrapのCSSに書いてあるからです。

BootstrapのCSSには、divのclassにalert alert-errorっていうのがあったら警告文だしてねとか、

button class="btn"ってあったらボタン表示させてねとか色んなことが最初から書いてくれています

もちろん見栄えがよくなるように記述されていますので、classを指定するだけでモダンデザインになるわけですよ。

CSSに合わせてHTML記述するだけでウェブサイトが出来るというのはこういうことです。

でも、最近ウェブサイトHTML + CSS + JQueryという場合も多いですよね。

安心してください。Twitter Bootstrapの場合JQueryの基本的な部分も用意してくれています

ですのでドロップダウンメニューやタブ、スライドショーなどの実装も簡単にできます

それに加えてBootstrapはよく使うアイコン数百種類まで用意してくれています

至れり尽くせりですよ。

神様ですね。

CSSフレームワークを使うメリットはまだまだあります

CSS固定化されていると、HTML自動的に固定化されます

CSSに合わせて記述するので当たり前といえば当たり前ですね。

CSS記述一定HTMLもある程度一定なので、メンテナンスが格段にやりやすくなります

個人プログラマーの方だと、サイトごとにHTMLCSSもグチャグチャという方も多いのではないでしょうか?

フレームワークを使えばそういうこともなくなるということです。

Twitter Bootstrapの凄さはそれだけではありません。

現在ユーザーがどんなデバイスウェブサイトアクセスしてくるか分かりません。

PCスマートフォンiPadTV3dsなど全てのデバイスに合わせてデザインを作るのは時間がかかりすぎます

でもTwitter Bootstrapならbootstrap-responsive.cssというCSSを選ぶだけで、

デバイスの横幅に合わせてデザインが変わるレスポンシブなウェブサイトができます

iPhoneiPad対応もすぐですよ。

もちろんデメリットもありまして、サイトデザインが似てしまうというのが難点です。

ですが基本はBootstrapを使って、ちょっと自分カスタマイズしてオリジナルっぽくすることもできますので、

一度Twitter Bootstrapを使ってみる価値はあると思います

http://twitter.github.com/bootstrap/

Bootstrapの説明が長くなってしまいましたね…。

ここからアダルトサイト作成の説明です。

クローラ作り

1.エロいサイトを巡って、XVIDEOSやFC2動画などのリンク、embedされたものがあれば取得。

2.リンクから動画サイトアクセスしてサムネイルを取得。

3.データベースに登録。

一連の作業をクローラーやらせプログラムRubyで書く。

RailsでBootstrapを使う。

RailsでBootstrapを使うにはtwitter bootstrap railsというgemを使うらしいです。

しかし、使おうと思ったのですが、windowsでは上手くインストールできませんでした。

windowsRubyを使うとバグが多いです。

仕方なく、代わりにsass-rails-bootstrapというものを使いました。

違いはcssにLESSをつかっているかsass(scss)を使用しているかだと思います

http://d.hatena.ne.jp/tkawa/20120219/p1

の記事が参考になりました。

ちなみにLESSとかSassってのはcss効率的に書けるすぐれたものです。

最近webクリエイターボックスさんでも紹介されていました。

http://www.webcreatorbox.com/tech/css-sass/

LESSとかSass(Scss)もお勧めですよ。

railsでは3.1からcoffee scriptと共にsassがデフォルトで使えます

このあたりがRailsの素晴らしさですね。

Bootstrapは画像を綺麗に並べて表示することにも向いているので、

アダルトサイトと相性がいいなと感じました。

タグリスト実装

AV女優名とか女子校生人妻などのジャンルタグがあれば便利ですよね。

Railsではacts-as-taggable-onというgemを使い実装しました。

動画タイトルが事前に用意したAV女優リストジャンルリスト合致すればタグ付けするという感じです。

AV女優リストDMMからジャンルリストは大手アダルトサイトから作成しました。

AV女優タグ名前順でソートしたいと思ったのですが、

漢字ソートできないのでしばらく悩んだ結果、

タグ付けするときに あおいそら-蒼井そら みたいな感じでタグ付けするようにしました。

もっとスマート方法があるはずですが思いつかなかったので仕方ないです。

ア行、カ行…のように行別にわけて、なおかつアイウエオ順で表記してますので

お気に入りAV女優名を探しやすいはずです。

簡易ブックマーク実装

クッキーを使ってログイン不要ブックマーク機能作りました

jquery.cookie.jsを使って、cookie配列に直してごにょごにょしてという感じで実装しました。

削除ボタンを押すと非同期で通信して…などいろいろ面倒でした。

でも、動画の数はかなり増やしていこうと思っていましたので頑張って実装しました。

動画の下のブックマークするボタンを押していただければブックマークできます

ブックマークするボタンの表示などにBootstrapの便利さを感じました。

アダルト動画を大画面で見れるようにする。

実はこれが一番やりたいことでした。

多くのアダルトサイト広告だらけで、肝心の動画がポツンと小さくあるだけというのが多いです。

世の男達は疲弊しています。それは本当に疲弊しています

戦場で疲れた兵士たちに、そんなせせこましい画面でアダルト動画見ろって?

そんな野暮なこと言いませんよ。

PCスクリーンの画面いっぱいに、大画面で、ドカーンエロ動画を楽しんで下さいよ。

動画はできるだけ大きく表示しています。もちろんレスポンシブです。

全画面表示にすりゃいいじゃん…っていうのは違うんですよ。

全画面表示だと逃げれないじゃないですか

不意に誰かが部屋に入ってきたらどうするんですか? 

1クリックと2クリックは大違いですよ。

コンマ一秒で守れる尊厳がある。

そう考えております

スマホ対応

Bootstrapでデザイン面はスマホ対応にはなっているのですが、

加えてjpmobileというh300で紹介されていたgemを使って、

スマホアクセスされたら表示する動画の数を減らしてとか、

広告の種類を変えるなどの微調整をしました。

サーバー選び

osukiniサーバーのGT2プランしました。

初期費用1900円、月940円で

CPU 2.66GHz、メモリ 2.2GB HDD200GBです。

チューニングは正しいかからないですね。

まぁ、アクセス捌けなくなってから考えます

Nginx + Unicornを使おうとして結局やめる。

Railsは遅いので少しでも速くするためにApacheの代わりにNginx使おうと思ったのですが、

PC用のキャッシュスマホ用のキャッシュを別々に保存して使う

ということがどうしてもできませんでした。

PC用のキャッシュがある場合スマホ用のキャッシュがなくてもキャッシュがあると認識されるなど、

もともとNginxrailsのページキャッシュは相性が悪いようです。

Nginx側でキャッシュする、もしくはスマホ用のアドレス別にすればできるかもしれないですが、

http://m.サイト名 みたいにするのが嫌だったので最終的にNginxを使うことをやめました。

Nginxに関するネット上の記述も少ないので運用するのは危険かな、ということもあります

Nginxを少しだけ使ってみた感触はかなり速いというものだったので残念でした。

バージョンが変われば、また挑戦したいですね。

Apache + passengerは遅いんですよ…。

【追記】

キャッシュの問題はRails側の問題だったので

やっぱNginxでもいけるかもしれないですね。

暇なときに試してみます

出来上がったサイト紹介

オシャレのハードルを上げすぎて紹介しづらくなったのですが、

紹介しないと終わらないということで紹介します。

http://nukisen.com  (エロ注意)

サイト名はオシャレに横文字でNukisenにしました。読み方はヌキセンです。

http://bootswatch.com でダウンロードできるBootstrapのテーマそのままですが、

オシャレというかクールデザインです。

Bootstrapを使うと自動的に細部まで凝ったデザインになるので最高ですね。

下にスクロールしていくと背景のグラデーションが変化したりとか、とても一人ではできないですよね。

長々と説明してきましたが、

ぜひNukisenで大画面のアダルト動画体感してほしいです。

動画の数をいきなり大量に増やすグーグル様に怒られるので、

しばらくは一日30本ぐらいの更新でいく予定です。

アダルトサイト同士の相互リンクアクセス増やしてなどはしない方向です。

最後

新しいことに挑戦すると得られるものが多いなと感じました。

ウェブサイトを作る際、無意識のうちに自分のできる範囲の技術で構築しがちだと思うんですが、

そうすると成長はないですね。

新しい技術に柔軟に対応していきたいです。

長文失礼しました。

2012-07-06

他社(主にGoogle)の検索クローラーに偽装してWeb巡回してた会社提供するアプリとかに、みんなよく平気で個人情報とかぶち込めるよな。

それを理由にLINEに誘われたのを断ったんだけど、「何言ってるのこの人」みたいな顔された。

2012-06-15

完全に一致パクリサイト作ってみた

http://www.kanzen21.com/という有名なサイトと似たサイトを作ってみました。

このサイトプログラミング初心者おっさんが四ヶ月で作ったWebサイトとして有名です。

http://anond.hatelabo.jp/20101203150748

なぜ似たサイトををわざわざ作ったのかなんですが、完全に一致は便利なんですが色々不満がありまして

芸能人リストがしょぼすぎる。 - いちいち、芸能人スリーサイズ調べてスライダー動かすのが面倒。

・年齢スライダーがない。- 若い子が好きな人もいれば熟女好きもいるはず。

ベスト作品を除いてほしい。 - AV女優の単体作品だけが見たい。

・横三列じゃなく八列ぐらいにしてほしい。- もっと一瞬で好みのAV女優を見つけたい。

・年齢順とか作品順とかにソートしたい。ア行カ行とか指定できるとなおいい。

というわけで、プログラミング勉強を兼ねて作ってみることにしました。

使用した言語RubyフレームワークRails3です。

プログラミング歴は10か月ぐらいかな?

作成期間は2週間ぐらいです。

以下作成手順です。

1、DMMからAV女優情報、作品情報などをmechanize(Rubyクローラー)を使って取得。

2、Wikiからアイドルモデルスリーサイズなどをmechanizeで取得。

3、chickipediaから海外セレブスリーサイズなどをmechanizeで取得。

4、Railsサイトの骨格を作る。

5、JQueryスライダーを実装

6、デザインを整える。

7, サーバーのセッティングなど

作業ポイント

1、http://actress.dmm.co.jp/-/top/ DMMAV女優情報から情報取得する。

 完全に一致さんみたいにFace.comのAPIを使うのは面倒だったので、

 作品のタイトルAV女優名前がある作品だけをピックアップすることにした。

 そうすることで自動的にAV女優100名出演みたいなベスト作品とかは取り除かれる。

 

2、http://ja.wikipedia.org/wiki/%E3%82%B0%E3%83%A9%E3%83%93%E3%82%A2%E3%82%A2%E3%82%A4%E3%83%89%E3%83%AB%E4%B8%80%E8%A6%A7

 グラビアアイドル一覧から個別ページに行き、必要情報を取得。

 女性モデル一覧でも同様のことをする。

3、英語版のwikiスリーサイズが載っていなかったのでhttp://www.mademan.com/chickipediaから必要情報を取得。

 バストサイズがブラのサイズしかのってなかったが大体合ってればいいかということで、そのままcmに変える。

 身長フィート表示なのでこれもcmに変えてデータベースに突っ込む。

 外人のカップ数がバストに比べて小さいなと思っていたら、外国Aカップ日本Cカップぐらいあるというトリビアを知る。

 

4、サイトの構成はできるだけシンプルにした。

 一応URLAV女優名前がでるようにした。

5、JQueryを使ったことがなかったので、一番苦労した。

 JQueryというよりも非同期通信をするためのAJaxという仕組みをRailsでどう実装するのかが分からなかった。

 具体的にはスライダーの値をRailsコントローラーに渡すにはどうすればいいのかが分からなかった。

 色々検索しているとhttp://eddorre.com/posts/tutorial-filtering-results-with-jquery-ui-slider-and-rails-3-beta-3

 というRails3でUI Sliderを使用するためのチュートリアルというドンピシャサイトが見つかる。

 英語で読み解くのに苦労したが、合わせてhttp://jqueryui.com/demos/slider/スライダーの使い方を見ながら何とか実装していった。

 非同期通信はかっこいいけど実装するのに手間がかかるなと思いました。

 あとPHPにすら挫折した人間なのでjavascript書くのがきつかったです。

 Rubyみたいに書けるらしいCoffeescript勉強したい。


6,デザインはBootstrap

7,サーバーは、とりあえず人が来るかわからないので、一番安いオスキニサーバーVPS月450円プランにした。

 アダルトOKなのは確認ずみ。http://support.saases.jp/index.php?action=artikel&cat=85&id=409&artlang=ja

 何度かやったことがあるのでいつも通りセッティングする。かなり面倒な作業。

 一応、アダルトということで,mod_evasive,KeepAliveなどの設定をする。


できあがったのが3 Size Search(スリーサイズ・サーチ)というサイトです。

 

 URLhttp://3sizesearch.comです。

 スリーサイズスライダー検索するので3SizeSearchです。

完全に一致さんとの一番の違いは有名人リストが充実していることです。

 好きな芸能人と似たスタイルAV女優さんがすぐにわかます

 例えば、西田麻衣に似たスタイルAV女優範田紗々だとすぐにわかます

 検索の幅を緩くすることもできます。+-1から+-2へボタンを押して切り替えると、さらに22名のAV女優名がでてきます

 http://3sizesearch.com/people/%E8%A5%BF%E7%94%B0%E9%BA%BB%E8%A1%A3

 一応、外人も200名ぐらい登録してます

 例えばアヴリル・ラヴィーンに似たスタイルAV女優は、藤咲りさ、本田成美、優木ルナになります

 似たスタイル芸能人も分かりますアヴリル場合浅香友紀 菅野美穂 木内美穂 黒坂真美 小橋めぐみ 佐藤ありさ さとう里香 西原亜希 平田薫 松永京子 蓮舫という感じです。

 http://3sizesearch.com/people/%E3%82%A2%E3%83%B4%E3%83%AA%E3%83%AB%E3%83%BB%E3%83%A9%E3%83%B4%E3%82%A3%E3%83%BC%E3%83%B3

 

 ですのでAV女優さんの個別ページに行けば似たスタイル芸能人も分かります

 例えばRioに似たスタイル芸能人浅倉結希 立花麗美 吉井怜となります

 http://3sizesearch.com/people/rio

 

最後

楽しみながら作れ、JQuery勉強にもなったので良かったです。

今度は完全にオリジナルサイトを作らないとダメですね。

あと色々自分検索して思ったのですが、

アイドルよりAV女優の方が人数も多いし可愛くてスタイルのいい子が多いですね…。

小飼弾さんの「作品から商品へ - 書評 - 職業としてのAV女優」というエントリーが頭に浮かびました。

http://blog.livedoor.jp/dankogai/archives/51804435.html

よろしければ3SizeSearchを使ってみてください。http://3sizesearch.com

2012-03-24

簡単なクローラ作るならPythonだよ!

http://d.hatena.ne.jp/nishiohirokazu/20120323/1332504404

最近Webクローラクライアントを作るお仕事が増えた。WebクローラクライアントというのはHTTP(S)を介して様々なファイルダウンロードして解析し、結果を溜め込むだけのプログラムであるボットともいう。

クローリングの規模が大きくなると、クロール処理部と結果貯蓄部を分離する必要がある。クローラには様々なものがあるが、ものによっては特定のサーバに集中的にクローリングを行うこともある。このとき、1つのIPを使って集中的にクローリングを行うと、攻撃とみなされ一瞬でbanされてしまう。そこで、一見するとまったく関係なさそうなIPを複数確保し、それぞれにクローラーを仕掛けて走らせるのである

結果貯蓄部は、要するにデータベースサーバであり、何を使用しても良い。クロール処理部とのやりとりに使用するプロトコルRDB依存プロトコル(MySQL Socketとか)でもHTTPでもなんでもいいが、とにかくクロール処理部が解析した結果を随時溜め込めるようにしなければいけない。逆に言うと、まぁ、口さえできるのであれば何を使用しても良い。

問題は、クロール処理部に何を使用するかである。おおまかな要件は次の通りである

これらの要件を満たそうとすると、ぶっちゃけJavaPythonくらいしか選択肢が無い。

JavaPython
HTTP(S)HttpURLConnectionかApache HTTP Clienturllibかurllib2
環境依存Write once, run anywhere (VM最初からインストールされてるのはSolarisくらいのものだが、どんなOSでも大体はすぐインストールできる)UNIXであればほぼ標準で入ってる、Windowsインストーラも用意されている
キャッシュ機能JDK6にDerby標準搭載Python 2.5からsqlite3標準搭載

JavaPythonの違いは山ほどあるが、簡単なことをやらせるだけならPythonJavaよりも使用メモリが少なくなりがちなので、そういう場面であればPythonは(現時点においては)最強の座に君臨すると考えられる。

余談であるが、私が本当に好きなのはPerlであり、

という条件下であれば何の迷いもなくPerlを使っていたであろう。畜生

2012-03-20

http://anond.hatelabo.jp/20120320162053

特定スレッドの問題については

キーワードの所に、"キーワード site:スレURL"で大丈夫じゃない?

アラートタイミング

アラートの頻度を"その都度"に設定することで、ある程度調整できるけど

クローラー更新頻度にもよると思うからまり使えないかもしれないね

2011-10-02

民間刑務所としての日本語ネット社会

はい笑って! 監視カメラ撮影です

facebookが全地球上の利用者の行動データを黙々と集め続けているというブログ記事が多くの注目を集めて、ガクブルする人のうめき声や罵詈雑言が飛び交ったことは、これを見ている人はまだ記憶に新しいと思う。


さて、日本語圏の、だいたい日本国と重なるネット社会はどうだと思う?

2ちゃんねる有名人の殺害予告を書き込んだ奴の家に警察がやってくるというニュースはそんなに珍しくなくなっている。ヤバげな書き込みがあれば、奴らはあっというまにきみの発信者情報を特定してドアをノックするというわけだ。

そういう意味で、すでにぼくたちは「公権力に」よってネット上での行動を監視されているわけだ。

パノプティコン

これもよくいわれるんだけど、こういう状況は、ミシェル・フーコーというフランス人が「パノプティコン」と呼んだ状況に似ているかもしれない。

パノプティコンというのは、ベンサムというイギリス人が考えだした刑務所モデルのこと。監獄がドーナッツ型になっていて、中央の穴の部分に看守の建物がある。囚人たちは、四六時中看守に見られているような気がする。たとえ看守の建物にだれもいなくてもそうなんだ。いつのまにか、囚人は看守の視線自分の中に取り込んでしまから、下手なことをしようという気を起こさなくなるというわけ。ようするに、その監獄にいる囚人はどんどん自主規制するような、監視者に都合のいいシステムパノプティコンだ。

2ちゃんとか自分ブログに何か書こうとしているとき自分の心の動きを思い出してみて、どうだい?

アイドルを殺すとか、新宿駅を爆破するとか、そういうことを書き込んだら、たとえ冗談でも警官が家に来るらしいってことは漠然と「知って」いるだろ? だからめったなことではやらないだろ? そもそもやろうと思わないだろ?

なぜなら、きみは自分監視されていることを「知って」いるから。

でもさ、きみはほんとに、どっかの地下司令室みたいな所で、日本中の掲示板ブログの内容を膨大な数の監視員がチェックしているところを見たのかい? SF漫画の中で見ただけじゃないのかい

たとえそんなところが本当にあったとしても、そこで働いている奴はい夜食ビッグマックを頬張るのに夢中になっていて、きみの書き込みなんか見ちゃいないかもしれないんだよ?

でもきみは心のどこかで自主規制するよな。だって、ヤバいことを書き込んだら、奴らが来るって「知って」いるから。

傭兵たち

ところで、そういうネット上のパノプティコンみたいなものは、べつに「公権力」じゃなくてもこの国では勝手にどんどん作れることは知ってたかな。

ほかでもない、ネット上の風評被害対策とか、「ソーシャルメディアマーケティング」をやっている民間企業だ。こいつらはネット上の自警団というよりは、傭兵だ。金で雇われれば誰でも手にかけるから

たとえば、きみが2ちゃん自分ブログである企業の批判をしたとする。傭兵たちは独自のクローラー毎日ネット上に走らせているので、君の言葉はすぐに見つける。そしたらすぐに2ちゃんの運営ボランティアブログプロバイダ削除依頼をかけるか、訴訟をちらつかせながら発信者情報の開示を始める。

だって、どこの馬の骨とも知らないやつに自分の居場所を突き止められたくない。弁護士対応なんてしたくない。

から自主規制する。


まあ、きみがただ単に相手を傷つけようとして、根拠のない誹謗中傷を垂れ流そうとしてそういう目に合うのなら、自業自得というものだろうね。

でもさ、他人のでたらめを見かけてそれを指摘しようとしたときに、ナイフをちらつかせられたらどう思う?

とくに、企業に雇われた傭兵たちが嘘八百をいい散らしているのを指摘しようとしたときに、訴訟を恐れて自主規制しようとしたら?

そもそも、指摘する声を出せないように傭兵たちが街中の広場をすでに封鎖してしまっていたとしたら?

「民間刑務所」の誕生

なんのことはない。きみは気がついたら彼らが勝手に作った「民間刑務所」のなかで監視を恐れながら粛々と労役に励んで、傭兵たちが大声でおすすめする臭い飯を、きみ自身の苦役で稼いだ労賃で買いつづけるわけだ。日本語圏のネット社会は、気がついたらそういうプライベートな監獄で何重にも囲まれていたという話。


たまたまそういった「民間刑務所」の看守見習いがヘマをしでかして、刑務所オペレーションに関する書類を落としてしまったとする。それを拾った奴が広場で騒ぎ出し、市場ゴミ拾いが日課で壁新聞の好きな奴がその書類を市場の外に、街のいたるところに見えるようにして貼り出してしまった。でもそのゴミ拾い人は傭兵たちの訴訟攻撃にぶるってしまって早速自主規制したまま黙っている。その間に市場での騒ぎは手際よく鎮圧されてしまった。傭兵たちは普段からそれで飯を食っているので、自分たちのこととなると作業は早い。


市場の住人たちも、その外で壁新聞を読んでいた人たちも、なにかおかしなことが起こっていることをばくぜんと感じ取っている。たとえ騒ぎが収まった後でも、そのおかしな感じは消えるだろうか。自分たちが「民間刑務所」の中で暮らしていたことに気づいた後で。

2011-03-10

nanapiやっているけんすうです全然いますよ!

http://anond.hatelabo.jp/20110310015855

元記事が消されてたんで魚拓です

(cache) どうしても延焼したいらしいnanapiスパム戦略について。。

http://megalodon.jp/2011-0310-0542-29/anond.hatelabo.jp/20110310015855

こんにちはnanapiというサイトをやっている、ロケットスタート古川健介といいます。ちまたではけんすうと名乗っていたりします。

これを見て、ああ全然違うなあ、と思ったので説明します!

読みづらいのでトピック

トピックスとしては

です

とりあえずインラインで説明

非モテタイムズ亡き後再びnanapiはてブスパムを再開したたいですよっと。

これはやっていないんですよねえ。

あたしはnanapiを立ち上げるときにも、あれこれ間接的にお手伝いしたから、

ほんとこれ言いたくないのよ。でも、あっさり再開したからなあ・・・・

おお、誰だろう。再開というか、やったことないのですが、、

ここにいろいろ★がついてるIDがあるんだけど、ここについてるのは

まあ非モテタイムズですら5個くらいしかつかってないような捨て垢、サブ垢で、

ざっと数えた限りでも20個くらい稼働してるのね。

kensuuやasami81あたりに関してはメンバーですね。捨て垢とかサブ垢は僕の知る限り、使っていないのです。あと一応スタッフidは把握しているのですが、心当たりあるしたらそのくらいかなあ、と。

これは通称「サテライト」って言われてる特定ドメインを含むURLブクマして

アカウントにつき最大100個くらいしたら廃棄するライフサイクルになってる。

これは知りませんでした!他でやっているんですかねえ。

誰がつくったのかしらないけど見て取れる限りだいたい7~8ヶ月くらい前から

この機構は動いてるのね。まあいわゆる「ボットサクラ」で、nanapiブクマされているように

同じ既得権益を持ってるサイトを順番にブクマして、それなりに人力でつけているように

ごまかすとともに、ローラー式に広告仲間サイトアクセスアップ貢献してる。

そうなんですか?広告仲間が誰かわからないんですが、僕が友達のブログとかをはてブしているくらいしか覚えがないのです。7〜8ヶ月前というのも何があった時期かちょっとわからないのです

まあじっさいここの巡回先に入れてもらうのは効果絶大で、その結果

去年の「はてなブックマーク年間ランキング」に5件もランクインするという結果(笑)

巡回先にいれてもらうとかをしていないんでわからないんですが(勝手に入れられているならともかく)、はてなブックマークで上位をとったところで、トラフィックたいして変化はないわけです。あと、5userついたらホットエントリに入るほど、はてなユーザーさんはバカじゃないので、たいした効果はないかと。

投資系の話について

ここんところの会社ベンチャーキャピタルから3.3億もの出資を受けるための事業計画として

年末ギリギリ未達だった「1000万PV」をこの1年で10倍の1億、記事数は15倍の

15万本に増やすと宣言してるんだよね。

ですが、投資先にたいしていっている目標はないです。事業計画全然別にあるのすよ。

PVでの事業計画は一切だしていませんでしたし(記事数はだしていました)。スパムをやって達成できたとしても、そんなの見抜かれるでしょうし、ベンチャーキャピタルさんは僕なんかよりすごく賢い人が多いので、意味いかなあ、と。

プレスリリース出すときテンションあげるためとして記載していたくらいのPVですね。

『ああ、きっとどんな手段をつかってでもやるんだな。はてブを使うだけじゃなく・・・』

使える手段であればするんでしょうけど、実際に一番合理的なPVの上げ方って「支持されるコンテンツを作る」だと思うのですよね。

いまもう3月でしょ?一年の四分の一消化しちゃってるわけよなの。でも、PVはまだ1.5倍の

1500万PV、(瞬間風速では2200万くらいだっけ?)まとめ数については2.3倍の2万3千本しか増えて

ないわけ。このままだと目標達成もできなくて次の増資もパー。だからこそ、炎上から3日も

経たずにこのかわいそうなスパムロボットたちを再起動しなくてはならなくなったってわけ。

いやあ、がんばります。月次目標がいつもぎりぎりなので、ドキドキしています。記事数は質が下がったという認識があるので、今はかなり抑えてじっくりとコンテンツを作るほうに集中していますね。

ちなみに次の増資は計画していないです。また、アーリーに資本入れるベンチャーキャピタルさんが、こんな短期の数字だけを見て判断するってことはあんまりしないです。

まあ、あなたはこのネットワークについては「知らないこと」になってるのかもしれないけど・・・

いやあ、知らないんですよねえ。実際、、というか周りでも聞いたことないのですが、実際、はてなブックマークをお互いbotでやりまくるみたいなことやっている人、今いるんですかねえ。大手サイト同士でリンク張り合うとかはよく聞くんですが。

私は、いつも中身で勝負すればいいと思っている。

同意です

3user以上がないのは不自然!?

で、これってnanapiにも全く同じ見かたができて、nanapiについたブックマーク

見ると炎上期間中の3/4~3/8の間、nanapiで3usersを獲得したレシピ

一件もないの。一件もよw

いままでのブックマーク数を見ていただくとわかるとおもうんですが、3userがない日が3日続くとかはそんなに珍しくないサイトですスタッフ気合いれてかけばホットエントリ入りしやすいので、それを書いたら比較的乗るんですが、上記はそんなに珍しくない現象かなあ、と。

本当に面白いサイトだったら、面白いレシピ

ブックマークがつくのは一日も止めようがないと思うのよね。なのに

炎上期間だけぴったり止まっているのは、不自然しかいいようがない。

nanapi毎日見に来ている人ってあんまりいないんですよね。で、ブックマークをする人っていうのの多くは、おそらく僕がブックマークする or Tweetする or facebookページに流す、くらいだと思うのですどこかのサイトリンクを見る、他の人から紹介される、などだと思うのです。特にその中で、僕はnanapiに関して投稿しまくってるので、僕のTweetブクマなどを見てする人というのが結構な割合を占めている気がするのですね。

で、たしかにこの時期ってあんまりTweetしていないのですよ。

kensuu けんすう(ロケスタ社長/nanapi)

かわいいなあ! デコおにぎりトトロの作り方 | nanapi[ナナピ] r.nanapi.jp/24521/ via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

友人の行動が広告に反映される!Facebookスポンサー記事」広告の概要 | nanapi[ナナピ] r.nanapi.jp/24515/ via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

友人にめっちゃ勧められたから使ってみる - 旅行好き必見!Facebookアプリ「trip advisor」で旅を楽しむ方法 | nanapi[ナナピ] r.nanapi.jp/23919/ via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

Facebookmixiブログ連携させる方法 | nanapi[ナナピ] r.nanapi.jp/24360/ via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

これをしよう - Twitterつぶやきを、Evernote自動で取り込み、日記にしてしまおう | nanapi[ナナピ] r.nanapi.jp/1720/ via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

今、Evernoteを再整理しているけど手前味噌ながら役に立つ - Evernote上級者のためのレシピnanapi.jp/site/Evernote via @nanapi

kensuu けんすう(ロケスタ社長/nanapi)

かわいい - デコおにぎり!みんな大好きアンパンマンの作り方 | nanapi[ナナピ] r.nanapi.jp/24172/ via @nanapi

というのも土日にあまり仕事していなかったのでパソコンの前にいなかったので、数少ないんでしょうね。

なのに、francesco3が収束宣言をした3/9かから、いきなり100ブクマ超。

中身はタオルのたたみ方で、どこの伊藤家の食卓かしら、という感じ。

いや、私はすきだけどね・・・ならスパムクローラー稼働させなくても

20~30usersで我慢しておけばいいじゃない。それくらいの内容よ。

それ以上を求めようってのは酷なものよ。

いや、タオルネタは素敵!と思ったから僕はブックマークしましたが、それくらいかなあ、と。スパムクローラーやるとトラフィックあがるんですかねえ、、

コンテンツの中身のはな

なんとなーく、ほら、次はどのへんに飛び火しそうか、ちらほら雰囲気出てたじゃない。

2ちゃんねるではそのものズバリ名指しされてたし、今動くのは大人としてキケン

せめてそれくらいは分かって欲しかった・・・・・もっとコンテンツ面白くすることに

たまをはたらかせることに、この春休みを使って欲しかった。。

もちろんそこばっかり頭働かせていますよ!

からこそ、最後まで「必要悪」なんてものを自分のなかに抱え込まずに、

中身一本で勝負してほしいと思ってる。

必要悪っていうのがあるのかもしれないですが、ブックマーク数を機械で増やすのって必要なんですかねえ、、

というのも、ここ1ヶ月で見たときに、はてなブックマーク経由のトラフィックって

44,627

くらいなんですよ。(内部データから検証しようもないけれど、内部データをあげると)1セッションあたりの平均PVが、はてな経由だと1.7くらいなので、PVでいうと75000くらいですね。

1500万pvあって、ロボットブックマークしてもらって75000しかあがらないところに工数さくのって、あんまり意味ない思うんですよね。それよりかは伸びているFacebookをうまく活用して、ファンを増やしていくことに注力したほうがよほど合理的なのです波及効果があるかもしれないじゃないか!と言われるかもしれないですが、それこそいいコンテンツじゃないと波及しないのです

SEO効果あるじゃないか!という人もいましたが、たぶんさほど効果ないんじゃないかと思っています。0ではないんでしょうけど、そこに力を入れるくらいだったら、検索されやすいコンテンツを増やしたりするほうが効果高いですし、それこそサテライトサイトつくったりリンク買ったほうが効果あるんじゃないですかねえ。どちらもGoogleさんに規制されそうな気がするので僕たちはやっていないですが。

もちろんPVはあげたいなあ、と思うので、nanapiについて言及しているTweetをRTしたり、いいなと思ったコンテンツブックマークしたしますが、不当な手段を使ってやったところで効果ないと思うのです

僕も純粋な善人でもないので、想いとして

と思う一方で

というのもあるわけです

ただ、それをする一番合理的な方法って、「いいコンテンツサービスをつくって、ユーザーに支持される」ということしかないんですよね。これは綺麗ごとを言っているわけではなくて、単なる王道です。で、コンテンツサービスに近道はないと思っているので、ひたすらそれをやるしかないのですスパムやって数万PVあげたところで、何の意味もない。

というわけで、そこばっかりやっているので、無駄なことをしないで、中身ばっかりみているこの頃なのわけです

人に書かせる以上、クオリティコントロールが一番難しくて、いい記事を大量に効率よく生み出す仕組みを作りたいですが、ここが難しく、まだまだ「nanapiの記事って素晴らしい」となるレベルではありません。ここは認識していて、一番の課題としておいています。一方で、量がないと役に立たないので、これを両立させるにはどうしたらいいのかなあ、と悩んでいるところです

といいつつ、誤解をさせてしまったのは説明不足かなあ、という気もするので、ご不明な点があったらもっと説明します!よろしくお願いいたします。

2010-12-06

http://anond.hatelabo.jp/20101203150748

完全に一致を作るための勉強法

たくさんのアクセスありがとうございました

コメントもたくさん頂いてまして、それにお答えするのに「ブログでもつくろうかいな」とのぼせましたが、そんなテーマで続くわけもないので、やはりアノニマスダイアリーしました





製作期間について】

まず、皆さん仕事しながらたった4ヶ月で!と褒めて頂いてますが、たったじゃないですよ。4ヶ月って。

仕事が終わって、毎日2~3時間。土日関係無くやると、多分300時間くらいになります

専門学校の2年間の授業時間がこのくらいだったりするんじゃないですかね。結構長いです。


モチベーションの維持について】

モチベーションを保つのがすごいというのも褒めてもらいましたが、私は一回やり始めると、意外に長く続きます

コツがあるんです

毎年、日々の単純作業が続かない新入社員が入ってきますが、そんな新人に言います。

「息をするように続けるんだよ。」

毎日やるんです。土日関係無く。毎日。


勉強したという言葉の誤り】

前回の日記で「勉強した」と何度も使ってしまった為、誤解をされている方が多くいらっしゃいます。

正確には、「調べ」ました

職業柄「調べる」という事が多い為、WEBサービスを作るという事に関してはそれが訳に立ちました

追記でも書いているのですが今回のシステムほとんどが、先人達が作った既存システムベースになっています。

ぱくりと言われてしまえばそれまでなんですけど、丸ごとはやってないですよ。というか、丸ごと合うモノがなくて、いろんな所からソースコードを拝借させてもらいました

なので、中身はぐちゃぐちゃです。けど、検索システムはそれでも200行くらいしかありません。クローラーは80行くらいでしょうか。


HTMLについて】

基本をやったのは、恐らくHTMLCSSだけです

というか、それすら途中で挫折してAdobe社のDreamWeaverというソフトを使いました

適当に書けばソースは綺麗にしてくれるし、CSSの体裁はプロパティを設定しながら見た目のまま調整すれば良いし、一番助かったのはテンプレート機能でした

最初は全部のHTMLファイルコピーしながら作っていたのですが、ヘルプを見るとテンプレートライブラリという機能があるのをしってライブラリいまいち分らなかったのでテンプレートを使いました

Dreamweaver便利

テンプレート便利


Javascriptとの出会い】

最初に本やで立ち読みした本に、「プログラムをやってみよう」ということでJavascriptの事が書いてありました

なので、自然プログラム最初さわりがコレになっただけなんですね。

でも、アラートを出したりとかばっかりで、面白くありませんでした

インターネット黎明期からのネットユーザーなのですが、「最近よく見るページが移動しないのにページの中身が切り替わるやつかっこいいよな」と思って「ページ遷移しない 読み込み」で検索をすると、Ajaxという文字を見つけ、「ajax 入門」で検索してトップに出たサイトAjaxの概要だけ調べて、「ajax 簡単」でprototype.jsjQueryの文字を見つけて「ああ、jQueryってよく見るな」というのがjQueryとの出会いでした

最近よく見るページが移動しないのにページの中身が切り替わるやつ」は、非同期通信という名前した

jQueryを使うと、下記のように1行コピペするだけで外部のHTMLを読み込む事ができました

--------------------------------------------------------------------------

var http = $.get("abc.html",null, function(data) {$("#main").html(data);});

--------------------------------------------------------------------------

すごい簡単。最初意味は分りませんでしたが、目的の事ができればそれで良いので次に進みました

jQueryすごい

■非同期通信かっこいい

プラグインいっぱいあって楽しい


Perlとの出会い】

jQueryがちょこっと書くとダイナミックに色々変わってくれるので、日々いろんなプラグインを探して遊んでいました

でも、作りたかったのは検索システムだったのを思い出し、また近くの大きな本屋に。

検索するパソコンで”プログラム 検索”で探しだした棚に行くと、「CGI/Perl」の本棚した

大量にありすぎてどれをかって良いか分らなかったので、いくつか立ち読みして家に帰り、「CGI/Perl 入門」で検索すると

http://www.kent-web.com/perl/

このページにたどり着きました

Windowsだった為、ActivePerlを入れていくつかプログラムをやりましたが、これがまた面白くないんですね。

すごい地味で。このPerlをさわった最初の1日は正直かなり苦痛した

その後、”AV女優検索システムって不動産検索システムに似てるな”って思って「CGI/Perl 不動産検索 無料」で検索したら、http://www.yumemaboroshi.net/ってサイトが引っかかって、ここのおかげでかなり進みました

先人が作った大量のプログラムダウンロード出来るサイトなんですね。

Perl面白くない

フリーソフトを集めたサイトソースがいっぱい見れる


PHPとの出会い】

いくつもダウンロードしては、サンプルと中身を見てを繰り返してたら、Perl/CGI以外にPHPがたくさんありました

どう違うのかと思い検索したら、PHPはすごい叩かれてて、Perlがえらいみたいに書いてあったのですが、叩かれてる理由がいまいち理解できませんでした

結果PHPを使う事になったのですが、その大きな理由は、DreamweaverPHPが開ける。なおかつHTMLファイルをそのまま使うテンプレート機能のプラグインがあったという事でした

PHPテンプレートを使うには、Smartyというプラグインを使えば良いということが分って、「Smarty 入門」で調べて、いくつかのタグを覚えました

実際にSmartyで使ったタグは、{$変数}と{if}{/if}と{foreach}{/foreach}の3つだけだと思います。

色々高機能らしいですが、まあ目的は達成できたのでいいか。と。

PHP検索プログラムは、HTMLファイルボタンを押すと、テキストファイルに書いてある内容を、表示してくれる簡単なものを作って、そこに肉付けしました

(最終的にテキストファイルSQLサーバーになりましたが。)


PHPDreamweaverと相性がいい

Smartyでやると見た目が壊れない


Rubyとの出会い】

簡単にPHPで動くプログラムが出来たので、実際に女優データを登録しようと思い、DMMに行きました

DMMサイトを見ていると、いったい何人いるんだってくらいAV女優が登録されています。

数人集めてみて「こりゃぁ。無理だな。」と途方にくれて1日を過ごしました(笑)

次の日、「ホームページ 自動 巡回 プログラム」とかで検索して、ボットクローラーという存在を知りました

自動巡回で拾ってくるのは、どちらかというとクローラーと呼ばれるそうで、「クローラー 作り方」で調べたホームページに、Perl+LWPモジュールで似たことができるということで、とりあえずペタペタとソースを貼ってうごかしてみたら、まあなんと簡単に取れました

しかし、取ってきた後に気がついたのが、HTMLファイルをそのまま取ってきても結局手動でコピペの必要があり、あんまり意味がない。と。

で、もう少し調べると、「WWW::Mechanize」を使うといいよって書いてあって、Mechanizeで調べたサイトをみるとrubyを使ったサイトが出てきました

rubyのサンプルがすっごい短くてわかりやすかったので、Perl苦痛だったのでRubyにしようと、このときRubyを始めました

設定が大変だったんですが、まあ面白くないので割愛。


Rubyきれい

■Mechanize簡単


デザインは・・・】

はてなブックマークコメントで、DoCoMoサイト元ネタと書いてありましたが、ハズレです

デザイナーの友人が居て世間話でどうやって作るの?って聞いたら、「まあ、パk、じゃない。参考にするよ。他社のを。」っていうもんでどうやって見つけるか聞いたら、あるんですね、綺麗なデザイン集めたサイトが。http://www.ikesai.com/ここでたくさん見ました

それからスライダーインターフェースは、「selectToUISlider」jQueryプラグインそのまま使ってます


■世の中のデザイン全てぱk(略

■selectToUISliderかっこいい


という感じで、ほんとにちょっとずつ進みました

しかったですね。Perl以外は。なんであんなに読みづらいんでしょう。


と、またもや長くなりすぎたのでこの辺で。





あ、ちなみに、アクセス数収益をご報告します。

金、土、日、月と約4日間爆発的にアクセスを頂きました

アクセス数は、4日間で約200アクセスほどありました

DMMクリック10クリックほどあり、その結果、購入された金額が、なんと!









700円でした

報酬額が245円。

ありがとうございました

http://www.kanzen21.com/


----------------------

12/8 12:00追記

アクセス過多でまたもやサーバーがダウンしました

今回のサーバーダウンは結構深刻でなかなか復旧が出来ていません。。。

申し訳ないです。


----------------------

12/8 12:10追記

全然起動しません。なんなんだこれは。

サーバー会社に問い合わせ中です

状況は、Twitterでお知らせします。

http://twitter.com/#!/kanzen21_com


----------------------

12/8 13:00追記

サーバー復活しました

サーバー会社の方、ありがとうございました

2010-12-04

http://anond.hatelabo.jp/20101203150748

ショックだね。超高速道路というか、そういう以前の問題だよこれは。

やろうとすることを普通の人が身につけるのに3年は掛かるだろうに、しかも、ここまでのクオリティはでない。

唸ってしまう。

HTML+CSS

意図したものを意図したように表示させるのは困難。

だが自分意図で作れる場合は、できないことは回避できる。

回避できるのであれば使うHTMLCSSは限られる。覚えるのは最小限。

Dreamweaverつこーてるのかな?

ツールが解決してくれるのならコードを書く必要すらない。

JavaScript

jQueryでやられていることを自前実装するには技術力が必要。

逆に言うとjQueryが利用できるならそれですむ。

中で何をやっているかなんて詳しく知る必要などない。

世界中のもっと詳しい人がチェックをいれてくれている。jQueryを利用したライブラリやサンプルコードも転がっている。jQueryでできないことがでてきたらどうするか? prototype.jsでも使えばいいじゃない。

ともかく回避方法はいくらでもある。

Perl

扱いがかわいそう。

自分に必要がないもの目的に合致するのに遠回りなものを切り捨てる能力がないと何時まで経っても勉強だけして終わる。

php

PHPで何かしようとしたのではなく、単なるテンプレートエンジンとして割りきって利用したようだ。

表示したいところに表示させたいものを埋め込むだけなら、それはHTMLとほぼ同等の何かでしかなくなる。

LL学習目的はないので寄り道をする必要などない。

クローラー

どの言語でも実装できる。phpを使っていて、なぜRuby

どの言語でやっても一緒なら、できるだけ自分がつくる部分が少ないほうがよい。

phpではクローラーをつくるのにいいライブラリがあるというのを聞いたことがない。

コマンドラインベースで動かす人は皆無だからね。

RubyならPerlたい正規表現に悩まされることもない。なるほど。

素人Ruby環境を例えばLinux上に構築しようとしたらかなり躓くところがあると思う。Railsを使わずにRubyで済ませたというところか。ここらへんから何か恐ろしい

逆算するとクローラーをつくるまで学習を初めてから2ヶ月も掛かっていないことになる。

Apache

クローラーをつくってからApacheを知ったというのがリアルで笑えるのだけど、恐ろしい

Ruby環境PHP環境をどうやって同居させたのかとかそういう苦労が見えない。ということ苦労しなかったのかもしれない。やはりRailsはなくてRubyなのか。

技術者を名乗る人でもRuby環境構築ができない人も多いのにこの人は素直にすごい。

何もないところからLinux環境PHPやらmySQLやらRubyやらの環境構築は熟練した人でも半日かかるめんどくさい作業なのでそれをやれてしまうというところで、3年生ぐらいのエンジニアスキルがあると俺は認める。

それは言い直すと普通に仕事として身につけたとしても一般的には3年はかかるということだ。

MySQL

はてさて、SQLまでかけるようになったというのだろうか。

DB設計は? 確かにこの内容であれば設計を要するほどの複雑さはない。1テーブルで十分。

インデックスとか貼ってないだろうなとは思わせるが、5GBのデータでもこれだけのレスポンスが出てしまう時代だ。

チューニングするぐらならいいハードにのっけなよということか。

デザイン

デザイナーとしても食っていけるだけのスキルがあるんじゃなかろうかとおもってしまう。

GIMPボタンひとつ作るのでもしんどいよ。

Face.com

もう、なんていうか調査能力もすごい。

というか調査能力がすごいんだろうな。

2010-12-03

自分WEBサービスを作りたいと思っている人へ

もう、いいおっさんの年齢なんですが、先日、とあるWEBサービス公開しました

5年ほど前からぼーっと考えていたんですが、如何せん、事務職の自分には”創る技術”が無かった。

優れた若い技術者id:amachangとかうらやましい)や、チャレンジ精神あふれる経営者id:hiroyukiegamiとか)が出てくる中うつうつとしている自分に嫌気がさし、4か月前の7月からHTMLプログラム勉強を始めた。


本屋立ち読みしたら、まずはHTML勉強する必要があると、書いてあった。同時にCSSを学んだ。

プログラムを作りたかったので、次にJavascriptをやった。

jQueryがすごい。「プログラムって誰でもできるんだ。」この時そう思った。

検索システムを作りたかったので、本屋に行ったらCGI/Perlの本がいっぱいあったので、Perl勉強した

しかし、HTMLテンプレートが使いたかったのでPHP+Smarty勉強した

作りたかったWEBサービス大手サイトデータ検索サイトだったので、自動データを集める必要があった。

クローラーというらしい

PerlのLWPを勉強したが、データを集めた後に加工する必要があった。簡単そうだったRubyとMechanizeを勉強した

Rubyはものすごくきれいにプログラムがかけることを知った。話し言葉に近い気がする。

プログラムを作っている時、最初自分パソコンの中でやっていて気付かなかったが、実際に公開するときレンタルサーバーを使うというのを知って調べると、Linuxサーバーが多いということを知った。

から、今度は自宅のあいているパソコンLinuxを入れた。

Linuxを入れたはいいものの、全く使い方が分から四苦八苦してRubyのインストールした

世界中メインで動いているWEBサーバーApacheということも3か月前に知った。

Apacheの設定がテキストファイルなのも驚いた。cd,ls,vi,mv,cp,chmod等、基本的なUNIXコマンドを覚えた。

例の図書館の事件があったので、クローラーを動かすのをためらったが定期的にちょっとずつなら怒られないんじゃないかと、Crontabを勉強した

自宅のサーバーが壊れてしまい、構築が大変だったので今度はVPSサーバーを借りた。

同じように構築はしたがかなり苦労した。このとき、始めてmakeというコマンドを使った。コンパイルというらしい

クローラー自動的にデータを集めていたが、動かし始めて2カ月目でデータファイルが1GBを超えていることに気がついた。

このときテキストファイルデータを扱おうと思っていたが大きすぎて動かない。

SQLサーバーというものを触り始めた。

最終的にデータ量は5GBを超えた。


11月も後半、本稼働用のサーバーを探していたら、丁度カゴヤVPSサーバーベータ版を募集していた。

ここぞとばかりに申し込みボタンクリックして申し込んだ。

すごく、快適です。まだベータですが、本番稼動でも、50GBで900円という激安プランです

http://www.kagoya.jp/cloud/vps/

さくらさんの2.5倍の容量でさくらさんよりちょっと安い。

ベータ版では、3つまでOSインストールができます。もちろんそれぞれにIPアドレスが振られます

このVPSサーバー管理システムインストールし、もろもろの環境も作って、11月末についに、公開。

AV女優スリーサイズから検索できるシステム、「完全に一致です

 【完全に一致AV女優類似検索システム

 http://www.kanzen21.com/

類似検索機能付きで、2次元3次元をつなげる夢のシステムですはい

「なんだエロかよ」とか言わないでください。

真剣に作ったんだ。仕事をしながらよく頑張ったと自分をほめてあげたい





このシステムは、下記のような構成になっています。

----------------------------------------------

サーバー:カゴヤVPSサーバーベータ版)

WEBサーバーApache

SQLサーバーMySQL

HTMLXHTML+CSS

インターフェースjQuery+selectToUISlider

検索プログラムPHP

テンプレートエンジンSmarty

クローラーRuby+Mechanize+Cron

-----------------------------------------------

サーバー上にある静的なHTMLは1ページもなく、mod_rewriteですべてPHPが処理しています。

ボタン等の画像は、GIMP作りました


一番大変だった事は、、、

このサイトデータDMM社のデータを使わせてもらったのですが、AV女優顔写真をそのまま使うのは、肖像権的にNGらしく、AV女優の作品の中からその女優の顔が一番大きく写っているパッケージを使うことにしました

しかし、女優データは約5万件。作品データ12万件。とても手作業でやるわけにもいきませんでした

結局どうしたかというと、Face.com(http://face.com/)という、画像の顔認識ができるAPI無料提供しているサービスを利用しました

同様のことができる、OpenCVというソフトがあるのですが、最初から付いているパターンデータでは人の正面の写真しか顔として認識しませんでした

それに比べて、Face.comの認識精度は驚くほど高く、横だろうが斜めだろうがかなりの精度で顔を認識してくれました

データJSON形式で返してくれる(JSONもこのとき初めて知った)為、取得したデータを後で加工しやすかったです

1.このAPIを使い12万件の作品データをすべてスキャンするプログラムを書く※1

2.顔の縦の長さと横の長さを取得

3.縦×横で顔の面積を計算

4.作品テーブルの中に3で計算した顔の面積を追加

5.SQL女優テーブルと作品テーブルを結合

6.その女優の作品の中で顔面積が一番大きなパッケージ写真をその女優顔写真として代用しました。※2

※1 APIの制限が1時間1000リクエスト迄だったので、これまたCronで・・・

※2 実際には女優テーブルと作品テーブルを繋ぐ中間テーブルのフラグONした。若干の間違いはあるものの、かなり正確に出ました



長々と書きましたが、ズブの素人から約4ヵ月でここまで出来ました

勉強する前、SEをやっている友人に話したら、「3年はかかるんじゃないか?」と言われましたが、できたものを見せたら褒めてくれました

WEBサービスを作りたいと思っていて、技術がないからとあきらめている人は、とりあえずやってみてください。意外に簡単にできますよ。

あと、クローラーが動いていると、全能感を味わえるので楽しいです




あ、あと、椎名舞さんのファンです

-----------------------------------------

19:30追記

サーバーソフトからアラートが上がって、見てみてたらなんかすごいアクセス貰ってまして。

ありがとうございます


>カゴヤ中の人乙wwww VPSといったらさくらServersManくらいし選択肢が無いのは現状当然の認識であるはずなのに!

ゴヤ人間じゃないですよー。広告してるつもりもないんですが、ベータ版だからかもしれませんけど、すごい快適ですよ。今は。

何よりタダなので。

本当に月額900円のまま本公開になったら、環境構築もめんどくさいのでそのまま契約しちゃうかもです


>カゴヤはOpenVZだからなあ。俺としてはより自由度の高いさくらVPSお薦めしたい。

そうなんですか。2週間のお試し期間はつかったのですが、正直どっちがいいとかわかりません。

どんな風に自由度が高いんですかね?あと、アダルトOKなんですっけ?


>組み立てるプログラミングは本当に簡単だよ。 みんなで入り口を隠しているだけだよ。 #組み立てるだけじゃなくて、アルゴリズムを練ることが真のプログラミングかもしれない

そう思います。感覚的にはジグソーパズルに似てました

ただ、ピースを探すのに時間がかかりましたけど。

私の場合は、アルゴリズムとかその辺はできなそうですね-。

サンプルプログラムの組み合わせで作ったようなサービスですので、プログラムソースとかぐっちゃぐちゃです

一応、公開前に見える所はきれいにしたつもりですが・・・




もともと、作ろうと思ったきっかけなんですけど、

椎名舞さんがですね、すでに引退しちゃってるんですよ。ずいぶん前に。

で、彼女プロポーションが大好きなんですね。私。

それで、検索エンジン検索したです。でも、なかなか出ないんですね。

欲望のままにやってたら、次から次に壁にぶち当たって、そしたらいつの間にかできました

結果、このシステム使って椎名舞さんのプロポーションに似たAV女優を探すと、

雛乃つばめさんとか、果梨さんとか、佐伯さきさんとか既にDVD持っている女優さんばっかりヒットしちゃうんですね。確かに似てるんですスタイル

当たっててうれしいやら、既に持っていて悲しいやら。


あと、スタイルが似てる女優って顔も似てる気がする。

とくに最近の細い子は。



あ。デザインは、某企業をパk、じゃないリスペクトさせてもらいました


-------------------------------------

23:55追記

アクセス過多でサーバーが落ちました

寝てたらサーバーからアラートメール携帯に飛んできておこされました

こんな瞬発的なアクセスを考えていなかったので、とりあえず再起動しました

が、また重くなってます。。。どうしたらいいんだろう。

しい方居たらアドバイスいただけるとうれしいです


-------------------------------------

12/4 01:45追記

何度再起動してもサーバーが反応しなくなるので、うぎゃーってなってたのですが、

親切な方が「MySQLサーバーが原因じゃね?デフォルトだろ?query_cache_sizeを設定したらいいよ。」とわざわざお問い合わせからアドバイスくれました

設定してみたら驚くほどつながりやすくなりました

同じSQLクエリーを保持してくれるらしく、実際にデータ検索を行わないので高速になるそうです。こんなの知らなかった。ありがとうごいました

プログラムはサンプルがあるからどうにかなるんですが、サーバー周りの事が全然わかりません。。。。ぐうぅぅ。。。。

おやすみなさい。

-------------------------------------

12/6 23:30追記

ブックマークコメントもらっていた事を別の日記で説明しました

http://anond.hatelabo.jp/20101206224349

-------------------------------------

1/12 10:00追記

最終報告を書きました想定外ばかり。

http://anond.hatelabo.jp/20110112095450

2010-11-25

http://anond.hatelabo.jp/20101124234216

なんかスリーサイズが似てる女って、顔も似てるような気がする。

北斗の拳ユリアクリックしたんだがみんな同じ女優かと思った。

というか、最近AV女優ってみんな顔が似てるのか。

ニコ・ロビンに一致する女優は居ないらしい

http://kanzen21.com/ruiji/

元増田への解答だが、WEBクローラーって作れるんだぜ。

2010-09-21

http://anond.hatelabo.jp/20100920234933

おいすー。クソコテ起きてきたよ。

* インターネットには、そういうアクセス方法を規定したルールは無いのですか?

インターネットに関する技術の標準を定める団体であるIETFが正式に発行するRFCと呼ばれる文書があります。

ただし、これには罰則規定があるわけでもなく、守らなければならないというものでもありません。

これそのまんま採用で。さんきう。

* Librahack氏のクローラーは、そのRFCというルールは守っていたのですか?

公開されていないのでわかりません。現時点ではルール違反があったという情報はどこからも出ていません。

また、RFC法律ではないので違反したことが即罪になるわけではありません。

ソース公開されてないけど分析結果は教えてもらったのでその内容で書くよ!

ルール違反はなかった,ってことでした。もっと突っ込めば「トラブったのはサーバ側が原因と考えるのが妥当」みたいな結果でした。昨日貼った http://www26.atwiki.jp/librahack/pages/24.html#id_632dd0a1 あたり見てもらえれば衝撃の新事実って感じです。

つことで情報さんきうです。

でも,いつもココ見てるとは限らないのでできたらメールかなんかで頼むww

2010-09-20

http://anond.hatelabo.jp/20100920114629

インターネットに関する技術の標準を定める団体であるIETFが正式に発行するRFCと呼ばれる文書があります。

ただし、これには罰則規定があるわけでもなく、守らなければならないというものでもありません。

公開されていないのでわかりません。現時点ではルール違反があったという情報はどこからも出ていません。

また、RFC法律ではないので違反したことが即罪になるわけではありません。

みたいなQ&A項目をおもいついたよ

Re: たしかに #Librahack で @Vipper_The_NEET 氏はマイナス効果だと思う

中身や理屈考慮しないで、好ましいかどうか

好きか嫌いかで逮捕を判断するの?

どっかの妻プログラマー

クローラーなんてキモイから逮捕されても仕方がない

と言ったのと同じだね

あれでは、警察逮捕したのも妥当だと思われてしまう。

せっかく興味を持ち始めた人を、優位性ゲームに巻き込んで痛みつけていては対立者が増える一方だ。

せめて不要に嫌われない態度が取れないものか。

2010-09-02

http://anond.hatelabo.jp/20100902155129

このくらいの負荷ならOKでしょって主張する人はなぜかみんな自分1人がそういうアクセスをするならという前提で話してるようだけど、みんながそういう高負荷かけたらどうなるかって発想はないの?

都合のいい時だけ万人に開かれてるシステムなんだからと言うくせに、かける負荷の妥当性については自分ひとりが帯域使った場合の前提で話すとかダブスタじゃないの?

そもそも今回のクローラーもそうだけど、一括取得して負荷かけるようなそれに見合うような使い方を本当にしてるの?

ある程度の負荷に対応するシステムを作るにはコストかかるんだよ。ただじゃないんだよ。

サーチエンジンクローラーは通常1分数回レベルで抑えてる上に、捕捉されることで多数の人にアクセスされやすくなるといういわばwin-winの関係だけど、個人が作ったクローラーに、相手に対して与えられるメリットってあるの?

今回の状況って、個人用に図書館目録作りたいんですとかいって図書館の全部の棚の前にびっしり大量の人がはりついて他の人が棚使えなくなってるような状況と一緒でしょう。

ご自由におとりくださいと書いてある店のチラシを1人で無意味にごっそり全部持っていくようなもんだよね。

そりゃ技術的には可能だろう。でも可能なら何でもやっていいの?

何度も何度もシステム落としてるんだから空気読めって話じゃん。

そんだけ負荷をかけたいなら対応コスト費用分ぐらい寄付しなよ。

2010-08-12

サイト登録やサイトマップ登録について【2010年8月時点】

ウェブサイトを公開したら、まずはみんなに見てもらうために検索エンジン無料登録。

日本の主要な検索エンジンに、自分サイトを登録するためのページや方法について簡単にまとめたので以下共有。

ウェブマスター ツール

http://www.google.com/webmasters/tools/

Googleだけは、メタタグ認証ファイルアップロード所有権確認方法以外にも、DNSレコード追加による認証方法が用意されている。

サイトマップも登録しておく。


サイトエクスプローラーサイト管理者向けツール) - Yahoo!検索

http://siteexplorer.search.yahoo.co.jp/

認証ファイルダウンロードして、サーバーにアップする場合は、GoogleBingと違って、認証ファイルサイトごとに異なるので注意が必要。


Webmaster Tools - Toolbox

http://www.bing.com/toolbox/webmasters/

一部英文だが、簡単なので問題ない。URLサイトマップの登録だけなら、アカウントは不要。

サイトURL登録は画像認証のみでOK。

サイトマップ登録は、ブラウザアドレスバーに、“www.YourWebAddress.com”の箇所を自分サイトのものに変えて、以下のように入力するだけ。

http://www.bing.com/webmaster/ping.aspx?sitemap=www.YourWebAddress.com/sitemap.xml

Thanks for submitting your sitemap.という文が出力されたら成功。

また、Webmaster Center - Bingは、Googleウェブマスター ツールと同じように、アカウント(Windows Live ID)やサイト認証が必要。

サイト登録するサイト認証クローラーの動きなどを見ることができる。


モバイルgoo検索へのサイト登録申請

http://addurl.goo.ne.jp/mobile/

docomo公式検索goo採用しているので、モバイルサイトがあるならば、gooにも登録しておきたい。

アカウント不要で、URL入力して、画像認証ボタンを押すだけの簡単登録方式。


サイトURLの登録申請 - Baiduバイドゥウェブマスターサポート

http://www.baidu.jp/info/help/webmaster/site/01.html

gooと同じく、アカウント不要で画像認証があるだけだが、暗証番号が変わらないので連続登録がラクにできるw

2010-07-19

生まれて初めて父の死因を知った。

 なんか色々と混乱してて何から整理していいのかわからないから、書き出してみることにした。

私は1992年生まれの17歳(大学受験生)で、父が死んだのが1996年で3歳の時。今は2010年だから、14年経ってる。

父に関する記憶は、ほとんど無い。あるとしても、棺が焼却炉に入っていく場面しかもう覚えていない。

17年間生きてきて、母から父については何も教えてくれなかった。「3歳の時に事故で死んだ」くらい。

だから私は周囲の人が「父はこういう人だったんだよ」と言ってくれるのを頼りに、自分なりの父親像を描いていた。

きっと父がいたら、こうしているだろうな、とか。父さえいれば、とか思ってた。

 そんなこんなで今日2010年7月、私が家の掃除をしていたら、いつも閉まっているはずの金庫が開いていた。

母が書類を持ってどこかへ急ぎ足へ行ったことから、急いでいて鍵を閉めるのを忘れていたんだと思う。

私は興味本位でその金庫を覗いた。するとそこには、家の契約書?とか保険?の書類とか、そういうのがいっぱいあった。

なんだつまんないと思いながら見ていくと、埃がかぶっている分厚い真っ黒のファイルを見つけた。

すると、父に関する書類がたくさん出てきた。遺産相続和解契約書、戸籍新聞の切り抜き、資格の何か免許書?、献血賞状、弔辞…

見るのが怖いと思いつつ、開けちゃったから見ちゃおうという好奇心から、全部読んだ。

それが間違いだったのかもしれないと今思ってる。

 父は××運輸で働いていたらしい。色々な資格証明書があった。どんだけだよ。

父の昔の写真も出てきた。女装とかどんだけだよ。

父は献血が好きだったようだった。表彰状があった。126回ってどんだけだよ。

父は学生時代から行動派だったようだ。毎週キャンプとかどんだけだよ。

そこには私が教えてもらった父と、知らない父とがいて、とても面白かった。

生きていればよかったのにって思った。

 父の死因が明確に記載されていた書類を見つけた。

平成8年×月×日、××町にて、ブームを倒して駐車中の40tクローラークレーンオペレーターが、10tトラックで入荷してきた止水矢板を卸すため、ブームを約33度に上げたうえで、40tクローラークレーンを約7m前進し停車したところ、その反動で主巻ボットブロックフットピン部に固定してあった台付ワイヤーが切断し、ボットブロックが前方にふられて、荷姿の写真撮影中の故 父の名前 氏に当たり、同氏は午前8時10分頃死亡した。」

はっきり言って、これの意味が全く理解できなかった。でも、次の新聞記事で少し理解した。

「作業を始める前に、クレーンの重さ約三百五十㌔のフックが、近くにいた父の後頭部を直撃、父は脳挫傷即死した。警察の調べによると、クレーンの運転手が、フックを固定していたワイヤを外さずにアームを上げようとしたため、ワイヤが切れ、反動でフックが振り子のように動いて、約五㍍離れたところで作業報告用の写真撮影をしていた父に当たった。父はヘルメットを着用していたが、フックがぶつかった際、はね飛ばされたという。」

この時昔の記憶が一気に戻ってきた。そういえば小さい頃おばさんが、

病院に運ばれたけど、目が開いたままで植物状態だったんだって。もう植物状態でもいいから生きてほしいってあの時は思ったよ。朝の5時に出勤して8時に死んだんだって、気の毒にね。」

みたいなことを私に話してくれたのを思い出した。

なんかもう、今まで父のことをそんなに考えていなかったのに、これ読んだ瞬間涙が止まらなかった。よくわからない感情が頭の中を動き回ってた。

少しだけ、クレーンの運転手を憎んだ。あんたさえいなければ父は生きていたのにって、その時は思った。今は思わないようにしてるけど。

 戸籍を見つけた。父のものだった。私の名前、母の名前が載っていた。でもそれとは別に、違う人の名前も載っていた。

戸籍によれば、父はバツイチだった。しかも私の5歳年上の長男もいるようだ。

私が想像している父と違って、本当すごくがっかりした。

自業自得自分勝手だと言われれば否定はできないけれど、小さいころから信じていたものが一気に崩れていった気がした。

しかも、年金手帳を見ると、母の名字も今と旧姓とは異なるものが書かれてあった。母の戸籍はなかったけれど、母もバツイチなのかもしれない。

遺産相続の書類には、私の名前と母の名前、長男の名前とその母の名前、そして住所が書かれてあった。

父が働いていた会社のお偉いさんの名前も沢山書いてあった。住所も。

 金庫の隅にA4の黄色い紙が、綺麗に折られてた。開いてみたら、赤いペンで絵が描いてあった。

私はすぐにわかった。これは3歳だった私が、人から「父は頭を怪我して死んだんだよ」と伝えられた言葉を頼りに描いた父の絵だった。

あの頃の私は、何を思ってこれを描いたんだろう。

頭から血が流れている父の姿は、どうやって想像したのだろう。

 なんかもう、よくわからなくなった。

何をしていいのかわからなくなった。

何をすればいいのかわからなくなった。

私はこれから、どうすればいいですか。


7月21日トラバ

 この記事を書いた増田です。

いきなりですが長文すみません

 この間吐き出すだけ吐き出してからずっと椅子に座って、ぼーっとしてました。

ブクマ見たら凄いことなってて驚きました。ありがとうございます

色々なことを考えました。殺した相手を復讐するか、血のつながる兄に会いにいくか、もっとたくさんの情報を仕入れるか、

家族とは何か、父とは何か、一番良い死に方とは何か、片親であることは悪いことか、などなど。

自分の中で答えが見えないものを、ただひたすら探し回ってました。答えなんか出る訳なく、殆ど眠らぬまま今を迎えました。

でもブコメを見て考えていくうちに、ほんの少しだけ理解できるようになりました。

一方的に受け取るのは申し訳ないと思ったので、少しですが答えさせて下さい。

■何で増田に書いたのか■

 恋人や友達にいきなりこんな話したってどうしていいのかわからなくなるだろうし、

母や親族に直接聞ける話題でも無いし、そうなると人間で話を聞いてくれる人は私の周囲にいません。

Twitterだと連投は嫌がられるし、元々そのようなツールではないし、ブログなんて持ってないし、mixiやってないし、

一番の理由は、身元を知られずに誰かに聞いてほしかったからです。匿名性があるから、私が誰かわからないと思います、多分。

■「普通に」生きればいい■

 逆に普通って何ですか?

だってごく一般的な、両親が揃った家庭を普通とするならば、私は3歳から異常なわけで、

異常な私がすることって普通とは言い難いのではないかと思います。

今回の件を水に流して忘れて生きるというのが普通ならば、そもそも水に流そうと思っている時点で人とは違います。

普通に生きることって簡単なようですごく難しいです、今の私にはさっぱりわからない。

多分、世の中から父の存在を消せば、普通になるのかもしれませんが、それは無理なので一生普通には生きられません。

■何故父に不満を持つのかわからない■

 私は小さい頃から父の人柄や評判を積み上げてきました。

それはみんないいことばかりだったので、私にとって完璧な父が頭の中にいました。

だから今回離婚歴があると知って、ショックでした。

私の思っていた父とは違う、と思いました。まあ、私が勝手妄想していただけの自業自得ですが。

 そして、家族についても考えました。家族って何だろうと。

街中で父母子が手を繋いで歩いているのを見て、ああいうのが本来の家族であって、父さえいれば私もああだったと思ったこともありました。

でも今回の件で気づいたことは、愛が移動することで、笑顔の場所が変わるということです。

だって離婚する前は、違う人たちにその笑顔を振りまいていた訳です。

そう考えると、なんか、納得いかないというか、すみません上手く表現できないです。

母親相談するor仲良くすべき■

 母とはあまり話しません。性格が180度違うのに自己主張が強い為、話す度にぶつかり合います。

私が遅れてきた反抗期というのも少し関係しているかもしれませんが。母の口から父の話を聞いたことはありません。

母は父が死んでから高血圧になり、ちょっとしたことで倒れるようになったそうです。

だからもし私が父の話をしたら、母は具合を悪くするかもしれません。

もうこの話題はタブーなのかなと思って、父に関することは他の人に聞くようになりました。

これ以上仲良くしようとも思わないし、仲悪くしようとも思いません。

■また悩んだら増田に書けばよい■

 もう増田に書きません。なぜならここは悩み相談をする場所では無いからです。

なので今回私が一方的に思ったことを吐き出したことに罪悪感を感じています。

不快に感じられた方もいるようで、本当にごめんなさい。

ですがブコメを読んでいくにあたり、少しずつ整理していこうと思うようになりました。

おそらく多くの人はこれを見ないと思いますが、私はどうしてもお礼を伝えたかったのです。

こんな風にしか伝えられませんがお許し下さい。

 本当にありがとうございました

2009-07-07

はまちちゃんの「はてなブックマーク詳細ページがGoogleペナルティ…?」というエントリーに反論

はまちちゃんの「はてなブックマーク詳細ページがGoogleペナルティ…?」というエントリーhttp://d.hatena.ne.jp/Hamachiya2/20090707/google)に反論なんてしてみようと思います。

スーパーハカーはまちちゃんに表立って楯突くなんて恐ろしいことをしたら、あっというまに個人情報抜かれて表社会で生きていけなくなるので増田でごめんなさい><

ペナルティではないという理由

「site:b.hatena.ne.jp ちょっと知識と勇気があれば誰でも職質は断れます!」と、Yahooでも検索してみると、同じく、エントリーページは表示されませんね。

Baiduでも同じです。

Bingでも・・・ってこっちはインデックスすらされてない。今話題のNaver・・・はsite:に対応してない。

GoogleYahoo、Baiduの3つとも、エントリーページを表示しません。3つともにそのページを評価するべきではない、と判断しているということじゃないでしょうか。3つとも同時にペナルティよりも納得できる理由だと思います。

◆entry以下が表示されないで、タグページが表示される理由

検索エンジンアルゴリズムがそうなっているから」としか言えません。

検索エンジンがページの評価をするにあたって、ページの中でどのようにキーワード記述しているかという評価と、ページの外からどうリンクを張られているかという2つがあるということはご存知のとおりと思います。

それで圧倒的に強いのは、ページの外からのリンクの力です。

そして、タグのページは大量にリンクを受けています。ためしに、被リンク数を比較的しっかり出してくれるYahoo!で調べますと

100件=タグページ→link:http://b.hatena.ne.jp/t/%E8%81%B7%E8%B3%AA

55件=エントリーページ→link:http://b.hatena.ne.jp/entry/www.rll.jp/hood/text/left/20090703001819.php

このように、タグページのほうがしっかりリンクをうけているんです。エントリーページは700以上のブクマをされていても、まだ認識されていませんでしたり、ブックマークページからのリンクですので評価されていないのかと思います。

上は新しい記事なので特例かも、ということで少し時間がたった記事「はてなブックマークのやりすぎちゃったかもしれないSEO」でしらべますと

16件=エントリーページ→link:http://b.hatena.ne.jp/entry/d.hatena.ne.jp/Hamachiya2/20090609/cloaking

217件=タグページ→link:http://b.hatena.ne.jp/t/%E3%82%AF%E3%83%AD%E3%83%BC%E3%82%AD%E3%83%B3%E3%82%B0

このとおり、やはりentryではなくてtのページにリンクが集まっています。

特にGoogleはこのような場合ですとタグページを評価するアルゴリズムを持っていますので、site:で調べても、検索結果がタグで埋め尽くされるのは当然です。titleにテキストがあるといいましても、リンクの力には勝てません。

これが一番の理由と思いますが、もともとエントリーのページは、ページ内部の評価としても、エントリータイトルで評価されづらいマークアップになっていることも原因と思います。他にも上のページは生成されてすぐで評価が乗りきっていないとかの理由もあります。

◆6/9のキャプチャは?

これはわかりません。

6月下旬にGoogleアルゴリズムが変わったせいかな?なんか6/9直前にこのページになにかあったのかな?とかとかおもいましたけど、今では調べることができません。

どうしてなんでしょう?SEOの偉い人教えて!

クローキングによるペナルティではないという理由

上で書きましたことがなにか誤りとしまして、SEOの偉い人も間違いとしまして。

それでもクローキングによるペナルティではないとおもいます。

クローキングの発覚によるペナルティというのは過去にも大量の例がありますが、このような「ちょっと順位をさげちゃおう」みたいな生易しいものじゃないです。インデックスから消されちゃっています。

GoogleはわざわざUserAgentを普通ブラウザに、IPGoogleと知られていないIPクローラーもまわして、普通GoogleBOTの見た内容と違うかをチェックして、クローキングの有無を調べている、とGoogle中の人インタビューで話していました。そして、自動ペナルティをかけないで、人の目で確認しているようです。その位クローキングはしっかり確認して、厳しく処罰しています。

ですので/entry/以下を少し不利にしちゃおうかな?というものはクローキングペナルティではないと思います。

以前ためしに自分クローキングやってみて、自分を通報してみたら2週位で消されちゃいました。もしも、Googleがこのことを問題視しているなら、もうきえちゃってるんじゃないかな?とおもいます。

~~~~~~~

ごめんなさい、はまちちゃんの書き込みはいつもストーカーのように追いかけては愛とブクマを送っているほど好きなんですが、今回は誤りとおもいます。どうか怒らないで;;

2008-09-27

http://anond.hatelabo.jp/20080927155546

プレビューツールつかたけどアカウント抹消のエラーは出ずに、Googleクローラーアクセスできない状態にあるか、禁止ワードかなにかに反応してるって出てた。

前回のクロール時にFC2が重くてクロールできなかったか、記事や広告に禁止ワードが出てたかのどちらかだと思われる。

2008-08-01

グーグルさんは違法ゴミ収集しないでくださいっ!

グーグルさん、なんであなたは勝手ゴミを収集するんですかっ!?

私がいくらゴミをばらまいても、すぐにゴミ集めのクローラーが収集していきます。

しかも私が出したゴミだけではありません。

周りがくだらないゴミWeb放出すると、すぐに違法収集していきます。

なぜですか?

勝手ゴミ集めをしないでください。

とくに、はてダはてブゴミだらけです。

こんなはてなゴミを収集して、偉そうに陳列するのはやめてください。

はてなの9割はゴミでできています。

ゴミを収集しないでください。

お願いします。

もちろん今から捨てる生ゴミも収集しないでください。

お願いします。

グーグルさんは違法ゴミ収集しないでくださいっ!

2008-07-11

7/11 11:30時点のgoogleyahooの検索結果の差

ニコニコgoogleyahooで検索してみる

Google

http://www.google.co.jp/search?q=%83j%83R%83j%83R

ニコニコ動画(夏)

ニコニコ動画は、音楽お笑いアニメゲームグラビアなどの動画再生中にリアルタイムコメントを付けられる「動画コミュニティサイト」です.


Yahoo

http://search.yahoo.co.jp/search?p=%A5%CB%A5%B3%A5%CB%A5%B3

ニコニコ動画(SP1)

動画再生中にリアルタイムコメントを付けられるサービスランキングランダム動画検索等。


ヤフー検索エンジンってちゃんとクローラー動いているのかな?

グーグルは7/5夜の時点ですぐに変わってたけど・・・

かしここまで技術力に差がついてしまうとyahooが哀れでならない。

2008-05-30

http://anond.hatelabo.jp/20080530190308

http://pr.yahoo.co.jp/release/2006/0425a.html

2006年段階で1日1000万件突破だって。

aucfanの詳細検索で目的は果たせそうな感じ。

いいところを教えてくれてありがとう

こういうサイトがあることを、クローラープログラムを作り終えてから初めて気付くあたりが自分の駄目なトコロなんだよな。

そりゃ貧乏にもなるわ。

プチワーキングプア(あるいは働き損のくたびれもうけ)

使用期限が迫った10個以上の在庫プリンタインクをYahoo!オークションにまとめて出品してみたら、1円で落札されてしまった。

希望落札価格最低落札価格も設定せずに1円スタートした自分が悪いのだが、がっかりするという以前に驚いた。Yahoo!オークションって利用者が多い分、ある程度有用な物は必ず競り合いになると思っていたから。

で、逆に考えてみた。

自分のような初心者が1円で出品してしまい、しかも競り合いにもなっていない、ある程度価値のある商品ってYahoo!オークション上にたくさんあるのではないか。

世に初心者の種は尽きまじ。

仕入れ値が1円なら、転売でも利益を出せるのではないか。

送料とか振り込み手数料を考えても利益を出せる、商品の仕入先としてYahoo!オークション活用できないだろうか。

そんなことを考えて、なんとか「価値より割安な商品」をヤフオク上から抽出できないか、考えてみた。

つまり、「終了時間が迫っているのに安値商品」を探して、定価と比べればいいのかな、と。

残念ながらヤフオク公式としてはそういう検索の仕方はできない(残り時間とか現在価格は検索の対象にならない)。

でも、Yahoo!オークションにはRSSがある。

ヤフオク上の全RSSを監視して、条件にある商品だけを抽出すれば、今回の目的は達せないだろうか。

実際にはもちろん中古品もある(というかむしろ中古品が主)だろうし、情報商材などのスパム出品もあると思うが、そのあたりは抽出時にキーワードフィルタリングすればなんとか除外できるだろう。

とりあえずヤフオク上の全RSSを洗い出すことにした。

簡単なクローラープログラムを作り、ヤフオクカテゴリhtmlを片っ端から取り寄せ、中のRSSURLを抽出する。

あとはこれを元にして


……と、ここまでやったところで飽きた。

ヤフオクRSSって一体何個あるんだよこれ。

パソコンジャンルだけで軽く1000以上あるぞ(これを書いてる現在、まだクロールが終わってない)。

いくらこの後フィルタリングしたって、こんな膨大な量、うちの回線的にも逐一チェック仕切れないし。

ていうか、手動でいくつかヤフオク内を見て回ったけど、普通価値に応じた値段がちゃんとついてるし。

プリンタインク?もういいよ。

あんな物、どうせホントにハナから1円の価値しかなかったんだろうさ。

けっ。

ログイン ユーザー登録
ようこそ ゲスト さん