「クローラ」を含む日記 RSS

はてなキーワード: クローラとは

2017-04-28

今気付いたんだけど

自分Webサイト高速化しようと思って色々試行錯誤してたんだけど、

この高速化って結局一番メリットを被るのはGoogleだよね

データクロールする時に最適化されているデータクローラで取ってこれれば実行時間の短縮にも繋がるし

多くのサイトクロールするクローラー使ってるGoogleが一番メリットあるよね

大体、サイト圧縮とか人間じゃそこまで対して変わらんし、気付けばページ測定にGoogleツール使ってるし

なんでこんな事に気付かなかったんだろう

2016-08-11

いまだにadsense審査が終わらない

なんでこんなすっとろいの?

さっさとしてくれよ

そもそも事前にそんなにネチネチ審査する意味がどこにある?

adsense使ってるサイトなのにアダルトなとことか自分とこのクローラ発見して摘発して止めればいいじゃねえか

最初に長々待たせて人力審査して誰が得するんだ

そんなんしたって大したことわかりゃしねーだろ頭わりーな

http://anond.hatelabo.jp/20160807213341

2016-03-12

http://anond.hatelabo.jp/20160311232640

元増田だよ。

昨晩はまったく反応がなくて自演しようかヒヤヒヤした。けど寝た。

サイバーメガネさん拡散ありがとうございますもっと頑張ってくれ。

Twitterでmentionが発生した瞬間に該当アカウントに鍵が掛かったのでおふとんの上でニヤニヤしてる。

もう片方のアカウントはそれでも元気に活動してるのでええ根性しとるな。

あ、魚拓のある場所を書き忘れたので追記しに来たんだけど、

http://archive.is/

というサイトを使ってるよ。

先日「Web魚拓」が過去アーカイブ検索する機能を「忘れられる権利」のために無効化するって言ってたけど増田微妙だと思う。

増田特定個人の悪行を未来永劫残すことを目的としてないので、各魚拓URLを直接書いてクローラに教える気はない。

知りたい人が調べればいいだけの話なので。

調べたい人が調べられるが普通には気付かないまま残っている、というのが正しい姿なんじゃないかなー、と思った。

いろんな意見があると思うけど。

2016-01-26

カリビアンコムに入会して動画を全部ダウンロードした

ちょっと前に超VIP会員(25,000円)に入会した。

ちまちまと新着を確認して気に入ったのをダウンロードするのがめんどくさいから

クローラ自作して2001年から2016年までの約3900本を全部ローカルに落とした。

1日のDL制限に引っかからないように自宅鯖を使ってネチネチとやった。

3900本の動画のうち1割も観ないのだろうけど、ダウンロードした達成感でいっぱいだ。

さて次は自宅鯖をwebサーバ化して、自分専用のストリーミングサイトにしよう。

動画コンテンツの中身を素早く把握するために、

サンプル動画ギャラリー画像動画説明文も追加で落とさないと。。。

2014-02-03

http://anond.hatelabo.jp/20140203185938

ゴミじゃねーか。

俺だったら一旦全削除だな。

せめてサイト別にフォルダ分けるようにクローラ書き換えてやり直す。

それでも駄目そうなら、画像の他にページキーワードを拾って、索引にして逆引きできるようにDBに突っ込むとか、本格的に考える。

2013-12-19

エロサイトを立ち上げた引きこもり~魂の物語エピソード6

---------------------------------------------------------------------------

動画 エロサイト←これが僕の作ったサイトです

---------------------------------------------------------------------------

前回の続き

html学習に加え、サイトを作りながらCSS勉強中。

苦労の甲斐があってエロサイトのおおまかな枠組みはできてきた。

ここまできて僕は、どうやったらwebサイトとして機能するのだろう(ヤフーとかグーグルとかに載るんだろう)?

という疑問を持った。とゆうか最初にその疑問を持てという話でもあるが、とにかく僕は急にそう思い始めた。

ちょっと試しに自分サイト名で検索してみよう。

Google先生!僕のサイトは今どんな感じですか?

とりあえず、キーワードサイト名の「動画エロサイト」でお願いしまつっ!!!

(期待に胸をふくらます僕)

すると先生は意外な一言を放った。

分からん

先生またご冗談を。全知全能の先生がそんなはずないじゃないですか

僕のサイトは今エロ動画で何位なんですか?

何位だって驚きませんよ。あんまり気を遣わないでください。

何百位でもかまわないですよ。まだ始めたばっかりですから

それでは、先生、改めて僕のサイト順位のご発表をお願いします!!

ドゥン!ドゥルルルルルルルルルルルルルルルルルルルルルルルルルゥ!!

「載っとらん」

Σ(っ゚Д゚;)っ


検索エンジンサイト関係

検索エンジンは「クローラー」とか「スパイダー」と呼ばれるプログラムを使って、web上に存在するページの情報を集めるらしい。クローラーウェブ上を自動的に巡回して集めたデータデータベースといういわばデータの貯蔵庫のような所に登録する。

この事をインデックスする(される)などと呼ぶらしい。

ロボットデータ収集している…

なんだか僕の知らないところで、とんでもない事が起きている気がしてきた。

とにかく、サイトはこのインデックスというのをされていないと、Googleヤフー(のちにヤフーGoogle検索エンジンを使っている事が判明)Binginfoseekなどから検索する事ができない。

インデックスされない3つの原因

クローラが巡回にくるタイミングはまちまちで、すぐインデックスされる事もあれば、何カ月もされない場合があるらしい。

どうしてもインデックスされないのなら下記の原因を疑ってみた方がいい。

以下、ネット情報

クローラークロールされやすくなっていない

Googleガイドライン違反している

クローラー制御タグ記述がある

クローラークロールされやすくなっていない

クローラー発見されやすサイト構成や、Googleウェブマスターツールへのサイト登録をして、

クローラークロールされやすくする必要があります

クローラー発見されやすサイト構成

クロールされやすい記事、サイトからクロールしてもらいたい記事へのリンクを張っていくことも重要です。

とにかく露出を増やす事が重要であると考えてください。

Googleウェブマスターツールの利用

Googleウェブマスターツールへのサイト登録&サイトマップ送信

などの改善を行なってください。

Googleガイドライン違反している

このガイドラインを見ると、Googleはどのような行為に対して不正とみなすのかを確認することができます

Google提供するガイドライン違反することで、ペナルティを受けてしまった場合には、最悪インデックス削除の可能性もあります

インデックス削除はかなり重いペナルティであり、それが解除されるまでには時間がかかります。最悪の場合、悪質なサイトである認定されてしまい、インデックスされないドメインとなる可能性もあります。ですからGoogleガイドラインはしっかりと読み込んで、気をつけてサイト運営を行ないましょう。

クローラー制御タグ記述がある

この原因に関しては、かなりSEOの知識のある人でないと、そもそもクローラー制御タグ記述を利用する事がないので調べる必要はないと思いますが、一応書いておきます

インデックスさせたい記事のmetaタグに以下の設定が入っていてはインデックスされなくなる。

noindex このページはクロールしても、インデックスはしない

nofollow このページはクロールしても、ページ内リンク先はクロールしない

インデックスさせたい記事へ外部からリンクを送る場合において、nofollowをmetaタグ内に記述しているとインデックスされにくくなる。

以上の点について、改善していきましょう。

まとめ

インデックスクローラークロールされやすサイト作成し、

リンクを用いて露出を増やし、Googleガイドライン違反しないよう気を付ける

クローラー制御タグ記述の有無についても要確認。

う~ん。なるほど。ここら辺はかなり重要だなあ

html勉強したときメタタグの事は調べたので、もう一度確認したらすんなり頭に入った。

あとは、ウェブマスターツールなるものに登録して、「サイトマップ」ていう単語も出てきたか

これも後で調べよう。

クロールされやすサイトをまずは目指してみるか。

よしもう一度僕のサイトを確認してみよう(^-^)p

つづく

関連記事

2013-03-14

http://anond.hatelabo.jp/20130314164638

目立つところだと、いわゆる"まとめサイト"って相互リンクみたいなの表示されてるでしょ?邪魔なところに。うん、これは俺の主観。普段見ることがあるかどうか知らないけど。

あいうのがRSSを介して実現されてる。

そもそもRSS人間が読むかどうかなんてどうでもよくて、今一番RSSを利用してるのは各種プログラムな訳ですよ。検索エンジンクローラRSSを読んでる(場合もある)。

2012-07-08

Rails3 とTwitter Bootstrapで、オシャレなエロサイトをつくってみました。

Rails3 と jQuery で、真面目にオシャレなエロサイトをつくってみました。 - h300

http://d.hatena.ne.jp/inouetakuya/20120331/1333192327

に触発されて、オシャレエロサイトを作ってみました。

以下は製作記になります

オシャレエロサイトを作ろうと思ったのはいいのですが、デザインは苦手なので途方に暮れていました。

h300の方はペパボソフトウェアエンジニアらしいのですが、こっちはただの素人プログラマー

オシャレなサイトなんて作れるわけがありません。

そこで何か裏ワザみたいなものはないかとググっていると、Twitter Bootstrapという文字が目にとまりました。

Bootstrapの名前は知っていましたが、深い内容までは知りませんでした。

ですが、紹介記事を読んでみると自分理想に近かったので早速使ってみることにしました。

Twitter Bootstrapとは?

Twitter Bootstrapはある程度有名だと思うんですが知らない方のために説明すると、

CSSフレームワークの一つで、ウェブデザイン作成を手助けしてくれるものです。

色々なCSSフレームワークを見ましたがTwitter Bootstrapが一番完成度が高いと感じました。

ウィキを見ると最初リリース2011年8月なので比較最近のものですね。

CSSフレームワークの説明は難しいんですが、

普段、みなさんがウェブサイトを作る時、HTML + CSSで作られるかなと思うんですよね。

この時、CSSが事前に用意されているとすごく楽じゃないですか?

CSSフレームワークCSSの大部分を前もって用意してくれているんですよ。(フレームワークによりますが)

ですので基本的にCSSに合わせてHTML記述するだけでウェブサイトが出来てしまます

CSSに合わせてHTML記述するとはどういうことでしょうか?

匿名ダイアリーでも似たようなことができるのでやってみます

この文章は薄い青色ハイライトされていますよね?
Bootstrapで似たようなことをする場合
<div class="well">
ハイライトしたい文章
</div>
という感じになります

classにwellと指定しているだけですね。

なぜそうするだけで文章がハイライトされるかというと、

divのclassにwellが付いていたら、いい感じでハイライトしてねっていう指示が

Twitter BootstrapのCSSに書いてあるからです。

BootstrapのCSSには、divのclassにalert alert-errorっていうのがあったら警告文だしてねとか、

button class="btn"ってあったらボタン表示させてねとか色んなことが最初から書いてくれています

もちろん見栄えがよくなるように記述されていますので、classを指定するだけでモダンデザインになるわけですよ。

CSSに合わせてHTML記述するだけでウェブサイトが出来るというのはこういうことです。

でも、最近ウェブサイトHTML + CSS + JQueryという場合も多いですよね。

安心してください。Twitter Bootstrapの場合JQueryの基本的な部分も用意してくれています

ですのでドロップダウンメニューやタブ、スライドショーなどの実装も簡単にできます

それに加えてBootstrapはよく使うアイコン数百種類まで用意してくれています

至れり尽くせりですよ。

神様ですね。

CSSフレームワークを使うメリットはまだまだあります

CSS固定化されていると、HTML自動的に固定化されます

CSSに合わせて記述するので当たり前といえば当たり前ですね。

CSS記述一定HTMLもある程度一定なので、メンテナンスが格段にやりやすくなります

個人プログラマーの方だと、サイトごとにHTMLCSSもグチャグチャという方も多いのではないでしょうか?

フレームワークを使えばそういうこともなくなるということです。

Twitter Bootstrapの凄さはそれだけではありません。

現在ユーザーがどんなデバイスウェブサイトアクセスしてくるか分かりません。

PCスマートフォンiPadTV3dsなど全てのデバイスに合わせてデザインを作るのは時間がかかりすぎます

でもTwitter Bootstrapならbootstrap-responsive.cssというCSSを選ぶだけで、

デバイスの横幅に合わせてデザインが変わるレスポンシブなウェブサイトができます

iPhoneiPad対応もすぐですよ。

もちろんデメリットもありまして、サイトデザインが似てしまうというのが難点です。

ですが基本はBootstrapを使って、ちょっと自分カスタマイズしてオリジナルっぽくすることもできますので、

一度Twitter Bootstrapを使ってみる価値はあると思います

http://twitter.github.com/bootstrap/

Bootstrapの説明が長くなってしまいましたね…。

ここからアダルトサイト作成の説明です。

クローラ作り

1.エロいサイトを巡って、XVIDEOSやFC2動画などのリンク、embedされたものがあれば取得。

2.リンクから動画サイトアクセスしてサムネイルを取得。

3.データベースに登録。

一連の作業をクローラーやらせプログラムRubyで書く。

RailsでBootstrapを使う。

RailsでBootstrapを使うにはtwitter bootstrap railsというgemを使うらしいです。

しかし、使おうと思ったのですが、windowsでは上手くインストールできませんでした。

windowsRubyを使うとバグが多いです。

仕方なく、代わりにsass-rails-bootstrapというものを使いました。

違いはcssにLESSをつかっているかsass(scss)を使用しているかだと思います

http://d.hatena.ne.jp/tkawa/20120219/p1

の記事が参考になりました。

ちなみにLESSとかSassってのはcss効率的に書けるすぐれたものです。

最近webクリエイターボックスさんでも紹介されていました。

http://www.webcreatorbox.com/tech/css-sass/

LESSとかSass(Scss)もお勧めですよ。

railsでは3.1からcoffee scriptと共にsassがデフォルトで使えます

このあたりがRailsの素晴らしさですね。

Bootstrapは画像を綺麗に並べて表示することにも向いているので、

アダルトサイトと相性がいいなと感じました。

タグリスト実装

AV女優名とか女子校生人妻などのジャンルタグがあれば便利ですよね。

Railsではacts-as-taggable-onというgemを使い実装しました。

動画タイトルが事前に用意したAV女優リストジャンルリスト合致すればタグ付けするという感じです。

AV女優リストDMMからジャンルリストは大手アダルトサイトから作成しました。

AV女優タグ名前順でソートしたいと思ったのですが、

漢字ソートできないのでしばらく悩んだ結果、

タグ付けするときに あおいそら-蒼井そら みたいな感じでタグ付けするようにしました。

もっとスマート方法があるはずですが思いつかなかったので仕方ないです。

ア行、カ行…のように行別にわけて、なおかつアイウエオ順で表記してますので

お気に入りAV女優名を探しやすいはずです。

簡易ブックマーク実装

クッキーを使ってログイン不要ブックマーク機能作りました

jquery.cookie.jsを使って、cookie配列に直してごにょごにょしてという感じで実装しました。

削除ボタンを押すと非同期で通信して…などいろいろ面倒でした。

でも、動画の数はかなり増やしていこうと思っていましたので頑張って実装しました。

動画の下のブックマークするボタンを押していただければブックマークできます

ブックマークするボタンの表示などにBootstrapの便利さを感じました。

アダルト動画を大画面で見れるようにする。

実はこれが一番やりたいことでした。

多くのアダルトサイト広告だらけで、肝心の動画がポツンと小さくあるだけというのが多いです。

世の男達は疲弊しています。それは本当に疲弊しています

戦場で疲れた兵士たちに、そんなせせこましい画面でアダルト動画見ろって?

そんな野暮なこと言いませんよ。

PCスクリーンの画面いっぱいに、大画面で、ドカーンエロ動画を楽しんで下さいよ。

動画はできるだけ大きく表示しています。もちろんレスポンシブです。

全画面表示にすりゃいいじゃん…っていうのは違うんですよ。

全画面表示だと逃げれないじゃないですか

不意に誰かが部屋に入ってきたらどうするんですか? 

1クリックと2クリックは大違いですよ。

コンマ一秒で守れる尊厳がある。

そう考えております

スマホ対応

Bootstrapでデザイン面はスマホ対応にはなっているのですが、

加えてjpmobileというh300で紹介されていたgemを使って、

スマホアクセスされたら表示する動画の数を減らしてとか、

広告の種類を変えるなどの微調整をしました。

サーバー選び

osukiniサーバーのGT2プランしました。

初期費用1900円、月940円で

CPU 2.66GHz、メモリ 2.2GB HDD200GBです。

チューニングは正しいかからないですね。

まぁ、アクセス捌けなくなってから考えます

Nginx + Unicornを使おうとして結局やめる。

Railsは遅いので少しでも速くするためにApacheの代わりにNginx使おうと思ったのですが、

PC用のキャッシュスマホ用のキャッシュを別々に保存して使う

ということがどうしてもできませんでした。

PC用のキャッシュがある場合スマホ用のキャッシュがなくてもキャッシュがあると認識されるなど、

もともとNginxrailsのページキャッシュは相性が悪いようです。

Nginx側でキャッシュする、もしくはスマホ用のアドレス別にすればできるかもしれないですが、

http://m.サイト名 みたいにするのが嫌だったので最終的にNginxを使うことをやめました。

Nginxに関するネット上の記述も少ないので運用するのは危険かな、ということもあります

Nginxを少しだけ使ってみた感触はかなり速いというものだったので残念でした。

バージョンが変われば、また挑戦したいですね。

Apache + passengerは遅いんですよ…。

【追記】

キャッシュの問題はRails側の問題だったので

やっぱNginxでもいけるかもしれないですね。

暇なときに試してみます

出来上がったサイト紹介

オシャレのハードルを上げすぎて紹介しづらくなったのですが、

紹介しないと終わらないということで紹介します。

http://nukisen.com  (エロ注意)

サイト名はオシャレに横文字でNukisenにしました。読み方はヌキセンです。

http://bootswatch.com でダウンロードできるBootstrapのテーマそのままですが、

オシャレというかクールデザインです。

Bootstrapを使うと自動的に細部まで凝ったデザインになるので最高ですね。

下にスクロールしていくと背景のグラデーションが変化したりとか、とても一人ではできないですよね。

長々と説明してきましたが、

ぜひNukisenで大画面のアダルト動画体感してほしいです。

動画の数をいきなり大量に増やすグーグル様に怒られるので、

しばらくは一日30本ぐらいの更新でいく予定です。

アダルトサイト同士の相互リンクアクセス増やしてなどはしない方向です。

最後

新しいことに挑戦すると得られるものが多いなと感じました。

ウェブサイトを作る際、無意識のうちに自分のできる範囲の技術で構築しがちだと思うんですが、

そうすると成長はないですね。

新しい技術に柔軟に対応していきたいです。

長文失礼しました。

2012-03-24

簡単なクローラ作るならPythonだよ!

http://d.hatena.ne.jp/nishiohirokazu/20120323/1332504404

最近Webクローラクライアントを作るお仕事が増えた。WebクローラクライアントというのはHTTP(S)を介して様々なファイルダウンロードして解析し、結果を溜め込むだけのプログラムであるボットともいう。

クローリングの規模が大きくなると、クロール処理部と結果貯蓄部を分離する必要がある。クローラには様々なものがあるが、ものによっては特定のサーバに集中的にクローリングを行うこともある。このとき、1つのIPを使って集中的にクローリングを行うと、攻撃とみなされ一瞬でbanされてしまう。そこで、一見するとまったく関係なさそうなIPを複数確保し、それぞれにクローラーを仕掛けて走らせるのである

結果貯蓄部は、要するにデータベースサーバであり、何を使用しても良い。クロール処理部とのやりとりに使用するプロトコルRDB依存プロトコル(MySQL Socketとか)でもHTTPでもなんでもいいが、とにかくクロール処理部が解析した結果を随時溜め込めるようにしなければいけない。逆に言うと、まぁ、口さえできるのであれば何を使用しても良い。

問題は、クロール処理部に何を使用するかである。おおまかな要件は次の通りである

これらの要件を満たそうとすると、ぶっちゃけJavaPythonくらいしか選択肢が無い。

JavaPython
HTTP(S)HttpURLConnectionかApache HTTP Clienturllibかurllib2
環境依存Write once, run anywhere (VM最初からインストールされてるのはSolarisくらいのものだが、どんなOSでも大体はすぐインストールできる)UNIXであればほぼ標準で入ってる、Windowsインストーラも用意されている
キャッシュ機能JDK6にDerby標準搭載Python 2.5からsqlite3標準搭載

JavaPythonの違いは山ほどあるが、簡単なことをやらせるだけならPythonJavaよりも使用メモリが少なくなりがちなので、そういう場面であればPythonは(現時点においては)最強の座に君臨すると考えられる。

余談であるが、私が本当に好きなのはPerlであり、

という条件下であれば何の迷いもなくPerlを使っていたであろう。畜生

2012-01-19

食べログの「ステマ」批判そらす目的で「ステログ」開発?




ステログ」って、今回問題になったPR会社による火消しステマなんじゃないだろうか。

というのは、ステログは、「レビュー数が少なくて、高得点をつけてる人」をあぶり出してるんだけど、食べログもさすがにそんな作戦にはとっくに対処していて、そういう場合は点数が上がらないように、もともと作られてるんだよね。つまりステログ」であぶりだせるのは、素人による「自作自演」だけなんだ。プロモーション会社が有料で引き受けて、巧妙に点数を上げてるような事例、つまりレビューを数多く投稿していて点数に大きな影響を持つユーザを事前にじっくり作っておいて、そのユーザに高得点をつけさせるような作戦は、華麗にスルーされてしまうんだ。

もちろん、そこまで悪意なくておもしろ半分にやってるだけかもしれないけど、一番注意した方がいいのは「ガチヤラセ??」って赤文字だけ見て喜んでる人ね。それ、ステマに騙されてる可能性は高いと思います

そもそも。

食べログ」って、レビューを書き込んだユーザーの「レビュー書き込み数」とかを単純に返すAPIとかないので、「ステログ」の会社は、自社製のクローラデータ収集してるんだろう。ま、それは別に悪いことじゃないんだけど、そんなクローラまで作ってる会社が、食べログの採点の仕組みの基本を知らないってのは腑に落ちない。

2012-01-07

事務職リーマンwebサービス作ってみた

Webシステムとは縁遠い事務職のリーマンが、ある日思い立って、ニッチな用途の検索エンジンサービス作ってみたので、ちょっと書いてみようと思います

ちなみに、検索エンジンといっても、googleカスタム検索とかのお茶濁し系じゃなくて、apache Solrというオープンソース検索エンジンを、VPS上で動かしているという、それなりに本

気度の高いものです。

なんで素人がそんな物騒なものを動かす羽目になったかは、後述。

アイデアときっかけ

やりたい構想みたいなことを思いついたのは、もう6、7年前ほど前のこと。初めて独り暮らしを始めたときに、ひどく不便を感じたことがあり、こんなサービスがあったら便利だなあ、

と、ぼんやり妄想していました。

ちなみにその妄想をふと高校の同期に話したとき、そのサービスはどこにあるのか?!と、えらくがっつかれたのを、覚えてます。まあ、俺と同じく偏執狂の奴だったからだと思います

が。

ただ、しがない事務職リーマンということもあり、当然、技術も無く、そのときは、やるならこんな名前サービス名だろうなあ、とか、そんな妄想レベルで、話は終わっていました。

そんな感じで、5年ほど月日は経ち、なんとなくリーマン人生の流れも見えてきたところで、以前、妄想していたことを、ふと思い出しました。

5年も経ったら、さすがに自分が考えたようなこと、誰かがやっているだろうと調べてみたところ、意外なことに、競合になるようなサービス存在せず。ちょうど異動があって、少し時

間が出来たこともあり、じゃあ、着手してみようかと思い立ちました。

やりたいことは非常に面倒だった

やりたいことは、大手サイト情報検索。ただ、商品ページ内の特定情報、それも、商品ごとに正規化されていない表記を、正規化して抽出する必要があったので、大手サイトの既設API

だけではとても実現不可能でした。

まあ、だからこそ、5年間、誰もやろうとしなかったんでしょうが

ということで、とても一発では解決できなさそうな内容だったので、自分でなんとか実現できそうな機能に細分化して、各個撃破していくことにしました。

面倒なサービスをどう実現するか

随分と考えた結果、

以上に区分できると考えて、これらを各個撃破していくこととしました。

また、技術もなく、プログラミングも出来ず、ましてやlinuxサーバのお守りをしたことなんて当然ないので、インターネット上に置くサーバですべての処理を完結させるのではなく、イ

ンターネット上に置くリソースは最小限に留め、できる限り、勝手がわかる自宅のwindowsパソコンで処理を行うことにしました。

ちなみにさらっと結論だけ書いてますが、ここまで至るまでに、いろいろと調べ続たり、考え込んだりしていたので、思い立ってから3ヵ月は掛かってます。。。

検索エンジン周りの開発

さて、やる方針を決めたあと、はじめに着手したのは、要の検索エンジンサーバです。

いろいろとググって調べて、mySQLというやつか、apache Solrというやつかに絞りましたが、結局、Solrを使うことにしました。

MySQLのほうが実績は多そうだったのですが、Solrのほうが検索専門で、滅茶苦茶動作が速いらしいということ、MySQLでも出来るが特に速度が遅いらしい全文検索機能も使いたかったこ

と、あとファセット機能ジャンル絞りこみに便利に使えそうだったので、というのが理由です。

ちょうどSolr本が発売されていたこともあり、それを参考に、自分が使うように設定ファイルを変更していきました。

しかし、初めは設定ファイルの内容も意味不明な上に、私の書き方も雑なのか、少しいじっただけでまったく動かなくなる。結局、設定ファイルを一文字ずつ変更しては動作検証、とい

った始末で、進捗は地を這うよう。ある程度思い通りにSolrを扱えるようになるまで、3ヵ月以上掛かったでしょうか。。。

さらに、検索エンジンフロントエンドSolr検索結果を、htmlに変換するプログラム)も書かなければならない。プログラミングが出来ない人間には、これが本当に辛かった。

Solr本に、いろんなプログラミング言語でサンプルがあったのですが、迷った末に、わずか数行なら書いた(≒コピペした)経験があるという理由で、javascriptを苦渋の選択。

しかし、選択はしてみたが、基礎が本当に無いから内容がサッパリ頭に入ってこない。こちらも、わかるところから本当に1文字ずつ変えていくといった手探り状態。

プログラミングについては、今回のためだけだから、といった理由で、一切基礎をやらずに着手したのが裏目に出たのか、サンプルのソースをモノにして、書き上げるのに、ゆうに半年

以上。本当に時間が掛かりました。

kanzen21.comに衝撃を受ける

さらに、Solr周りで計9ヶ月間ハマっていた頃、忘れもしない、kanzen21のおっさん彗星のように現れて、衝撃を受けることになります

大手サイトのページをクロールして検索エンジンを作る手法は、私と考えていた構想の枠組みとまさに「完全に一致」な訳で。。。

図書館事件に注目していたのも同じで、あまりの一致具合に衝撃を受けっぱなしでした。

その後の成り行き等も含めて、興味深く観察させて頂き、本当に参考になりました。

クローラ周りとかの開発

そんな感じで紆余曲折もありましたが、ようやく難題だった、プログラミング関連に目処が立ってきたので、あとはクローラと肝心のデータ処理です。ここからは、勝手知ったるwindows

の領域なので、多少の安心感があります

まず、クローラですが、専用のクローラwindows用に探してきたり、それを設定するのも大変なので、今回はテレホーダイ時代に使っていたような、フリーweb巡回ソフトを利用する

こととしました。指定のhtmlダウンロードしてくるだけなので、別に変に新しいものに手を出す必要もないので。

また、ダウンロードしてきたhtmlファイルについては、これまたフリー日本語処理ツールでcsv方式に加工することにして、処理ルール部分を相当に作り込みました。

このあたりは、全体を通して見てもキモの部分なんですが、ある意味ちょっとしたパズル感覚だったので、プログラミング言語の部分と違って、かなり楽しかったです。

あとは、msdosバッチファイル(これは前から知っていた)で、これらの処理を繋ぎcygwincurlかいうツールで、連続して検索エンジンサーバcsvファイルアップロードする

仕組みを作りました

検索エンジンサーバには、容量は少ないが、安くて高性能という、今回の用途にピッタリだった、さくらVPSを借りて設定。CentOSサーバ構築ホームページを見ながら、サーバとか

Solr管理URLとかにセキュリティを掛けて、こちらも素人ながら、意外とすんなり設定。

ホームページは、vpsサーバ相乗りさせるのではなく、別にさくらレンタルサーバを借りました。apacheの設定方法等を習得する必要がありませんし、vpsリソースapacheと分け

合う必要が無くなるので。ホームページhtmlファイルcssファイル等も調べながら設定し、画像も準備しました。

あと、構想を思いついたとき妄想していたサービス名の.comドメインは、すでに他者に取得されていたのですが、どうも使っている風にも見えなかったので、whoisで出てきたメール

ドレスに連絡して交渉し、幾ばくか払って買い取りました。

ようやく完成

結局、足かけ18か月。ようやく完成。

楽天市場家具を、幅x奥行x高さ(家具サイズ)で検索できる、楽天市場家具カテゴリ専門の検索エンジン

カグサイズ検索

http://kagusize.com

この商品数規模(データ収録約30万アイテム)で、1センチ単位家具サイズ指定検索が可能な手段は、商用サービスも含めて、ほかには存在しないと思います

kanzen21と違って、エロじゃないから華はないけどね。。。


カグサイズ検索提供する価値について

ちなみに冒頭で少し書いたきっかけですが、就職して独り暮らしを開始したときに、新しい家にピッタリサイズ家具が欲しかったのですが、これが楽天で探すのは至難の技でして。

楽天家具を探してみようと思った人には判っていただけると思うのですが、楽天では、価格では範囲指定やソートができても、サイズでは検索出来ないんです。

これは、楽天では、商品のサイズ情報は商品の自由記述欄に記載することになっているためで、商品ごとにサイズの記載方法がバラバラのため、検索事実上、不能となっています

家電製品とかに関しては、種類が少ないこともあり、メーカーホームページとかでサイズを確認した上で、商品型番で検索すればいいので、それほど問題にはならないのですが、家具

って、種類が非常に多く、型番もあったり無かったりで、家電のようにサイズを調べることができません。

しかも、サイズが非常に重要な商品です。なんて不便な!

・・・ということで、カグサイズでは、楽天の商品ページにいろいろな書式で書かれているサイズ情報を拾って解析して正規化し、範囲指定やソートして検索ができるようにしています

また、単に寸法サイズを拾うだけでは、梱包サイズとか引き出し内寸とかも引っ掛かってしまうので、それらは出来るだけ排除して、商品の外寸が優先して引っ掛かるよう、アルゴリズ

ムを調整しています

単位センチミリ)に関しても、商品ごとにバラバラ(単に単位だけでなく、商品説明のどこに"センチ"とか"ミリ"と記載しているかについてもバラバラです。)なので、サイズ表記

前後の状況をみて、正しいと思われる単位で拾うようにしています


その他

あと、変わった使い方としては、欲しい家具価格比較みたいなこともできます

家具は、同じ商品でも、店ごとに型番が違ったりすることがよくあり、簡単には価格比較が行いづらいジャンルの商品です。

しかし、型番は違っても、同じ商品なら原則、サイズは同じですから、欲しい商品とまったく同じサイズ検索をかけると、同等商品があるのかどうか比較しやすい・・・といった使い

方もできます

おわりに

と、そんな感じで、しがない事務職リーマン作ってみたニッチな用途の検索webサービスを、サービスインさせて頂きました。

一般に公開されていて、誰でもアクセスできる情報でも、ニーズが有りそうな切り口の条件で検索性を高めれば、新しい価値創造できるんじゃないかという実験です。

もしよろしければ、ぜひ、使ってみてくださいー。それでは!

----------

カグサイズ検索

http://kagusize.com

追記

アップ直前の変更により、最大サイズの指定がうまく働かなくなっていたため、修正をしました。ご指摘有難うございました。

2011-11-16

Google Location ServerからWi-Fi情報削除とかのまとめ

Google が公表したオプトアウトの方式は「アクセスポイントの所有者に対して、名称 (SSID) を末尾が " _nomap " で終わるように変更することを求める」もの。たとえば SSID が " Jitaku_AP " だった場合無線LAN機器の設定から " Jitaku_AP_nomap " に変更することになります

ブコメには「Google勝手に盗んだのにこっちがオプトアウトしなきゃいかんとは何事だ」というものが多いが、それらは問題を根本的に誤解している。

(もしかすると総務省、ストリートビュー車の無線LAN傍受でGoogleに指導。再発防止策と日本語で周知を要求 -- Engadget Japaneseの件と混同している人がいるのかもしれない。これはビーコン信号ではなく通信内容そのものを傍受していたという話で、基本的には別件である――但し、法解釈によっては同じ問題ともなり得るし、根底に共通している部分はある。これは論点がズレるので、ここでは完全に別件として扱う)

Googleだけの問題ではない

そもそもの問題は、Wi-Fi仕様において、Wi-Fi機器MACアドレスが強制タレ流しになっていることにある。これは例えばSSIDステルスの設定でも止めることはできない。

まり、あくまでGoogleは垂れ流されている情報を集めたに過ぎないということである。垂れ流されているものなら勝手に集めてもいいのかという論点はあり得るが、その点についてはGoogleだけを責めても全く意味がない。誰であれ収集は可能だからだ。「しかし、他の誰がそんなことをするのか?」との反駁には「はいPlaceEngineがしています」が答えになる。仕組みは全く同じだ。PlaceEngineは、Googleのような巨大企業でなくてもこの技術を商用レベルにまで持って行けるということを既に証明している。

まり、この問題は「GoogleDBから削除してもらう」だけでは全く解決しない。

(追記: どうもこの節の表現は誤解を招いたようだ。「できるからやってもいい、Googleは悪くない」という意味ではない。その議論があること、今後も必要なことは承知の上で、そもそも「できる」こと自体が根本的な問題であり、しかも各国の現行法において確実に違法行為ではないということが重要だ。何度でも言うが、Googleを憎んでも問題は全く解決しない。あくまでここでは問題の本質を理解することと、現実的で効果的な解決方法について考えたい――もちろん、GoogleAppleMSなどを相手取って世界中訴訟を起こす、というのも一つの手だろう。今のところ強制力を持ちたいなら勝訴の判例を作るしかないし、勝訴すれば抑止力を備えた最強の解決手段になる。どうぞ。)

考え得る対応

ひろみちゅ先生のご意見(2007年版)より。

(a) 「申し出のあったMACアドレスは削除し、今後も登録しないようにする」という対応

技術的にはすぐにでも対応可能。ただし、本人以外の手によって無差別に大量のアクセスポイントを削除するという妨害行為を防止できないかもしれない。

PlaceEngineを利用していない人(PlaceEngine存在さえ知らない人を含む)に対して、そのような手段が用意されていることを周知しなくては問題は解決したといえず、十分な周知は困難と思われる。

新たなアクセスポイントを購入するごとに削除手続きをする必要があることについて納得しない者が、「私のものは登録するな」という主張で争ってきたら対応できない。


(b) 「SSIDステルス設定にしているアクセスポイントは、登録拒否の意思があるとみなして、登録しない仕組みとし、また、既に登録されているものは次回検出時に自動的に削除されるようにする」という対応

技術的には容易に可能。しかし、そのような仕様であることを周知しなくてはならない。PlaceEngineを利用していない人(PlaceEngine存在さえ知らない人を含む)に対して周知しなくては問題は解決したといえない。

このようなルールが万人に受け入れられるものかどうか不明。


(c) 「暗号化設定されているアクセスポイントは登録せず、他は削除する」という対応

暗号化していないアクセスポイントは特定の相手方に対してのものではないとみなすことで、電波法59条の問題をクリアできるかもしれない。

しかし、これを採用すると登録アクセスポイント数が減ってしまい、位置の測定制度が低下する。


(d) 所有者の同意を得たアクセスポイントしか登録せず、他は削除する」という対応

法的には最も安全対応技術的にも、MACアドレスリストを提出してもらうことで対応可能。

実質的には公衆無線LANだけしか登録できなくなり、登録数はごくわずかとなってしまう。

まず、ブコメで要求されているような「オプトイン」の仕組みは(d)だが、これは実現性に乏しいと考えられる。どうやってオプトインするんだという問題もあるわけだが、そもそも「誰でも収集できる」のだから、個別にオプトインなど根本的に不可能であるし、無意味でもある。例えGoogleが独自にオプトイン方法を用意したとしても本質的な問題は全く解決しないばかりか、ユーザに「Googleオプトインしなければ安心」という誤解を与えかねないという懸念もある。

(b)や(c)についてはサービスプロバイダ側の設計の問題であり、ユーザは関与することができない。

今回Googleが提案した方法は、(a)の改良型(あるいは(a)~(c)のハイブリッド)というべきものである。再掲。

Google が公表したオプトアウトの方式は「アクセスポイントの所有者に対して、名称 (SSID) を末尾が " _nomap " で終わるように変更することを求める」もの。たとえば SSID が " Jitaku_AP " だった場合無線LAN機器の設定から " Jitaku_AP_nomap " に変更することになります

オプトアウトという意味では、(b)のSSIDステルス法も同様である。それよりも_nomapが優れているのは、これが「うちのAPマッピングしないでくれ」という明確な意思表示となるからだ。

SSIDステルス暗号化をオプトアウトフラグとして扱うかどうかは単に実装に期待するしかないが、_nomapデファクトになれば、万一オプトアウトが実装されずにマッピングされた際「俺は一般的に合意されている方法マッピング拒否の意思表示をしていたぞ!」と法的に主張できる可能性がある。Wi-Fiの規格に変更を加えるものでもなく、この用途以外に意味を持たないことからデファクトとして広まりやすいだろう。確かにSSID変更が困難なケースは考え得るが、しかしこれ以上に簡単な代案は私には考えられない。

これで解決?

解決しない。

ここに挙げたどの方法を採ろうとも、原理的に「サービスプロバイダマナー」程度にしかなりようがないからだ。オプトインですら、であるrobots.txtを無視するクローラを根絶することができないことにも似ている。そしてそれは、Google責任ではないし、Googleに責を負わせても全く意味がない。

最初に述べた通り、そもそもの問題は「Wi-Fi機器MACアドレスをタレ流しにしている」ことであり、これはWi-Fi仕様改訂で対応しないとどうしようもない。また、対応したとして、新方式へ完全に置き換わるまでには気が遠くなるほどの長い時間が必要だろう。WEPすら未だに根絶できないというのに。

また、Wi-FiMACアドレスをタレ流しているぞ、これは防げないぞ、という啓蒙もっと必要だろう。一般ユーザには何のことやらさっぱりわからないと思うが、それでも啓蒙しないよりはマシである

一つ付け加えるなら、個人的には、デファクトとなり得るオプトアウト方法を提示したGoogleさんはもうちょっと褒められてもいいと思う。これはApplePlaceEngineが今までしてこなかったことだ。

おまけ

ちなみに、Google Location Serverでは既に「2つ以上のMACアドレスがDBとマッチしないと位置情報を返さない」などの様々な対策実施済のようである。これにより、もしMACアドレスSSID漏れたとしても、その所在地こんな方法で正確に掴むことは困難になっている。PlaceEngineは知らない。

もう一つ。この問題は、Wi-Fiだけに起こりうる問題ではない。ひろみちゅ先生は本来この問題をRFIDの普及によって起こりうる問題として予測していたそうである。この辺りもっと知りたい方はgoogle:高木浩光 PlaceEngineとかして勝手に読んでください。

追記

PlaceEngineより、Google提唱する_nomap方式のオプトアウトに準拠する旨のリリースが出た。

PlaceEngineデータベースにおける無線LANアクセスポイント(AP)情報の取り扱いについて

GoogleからGoogle Location Service のWi-Fi位置情報データベースから無線LANアクセスポイント情報を削除するためのオプトアウト方法SSIDに"_nomap"文字列を追記する方法)が公開されました。

PlaceEngine サービスにおいても、Google社のオプトアウト方法に準拠する形でPlaceEngine位置推定データベースから該当するAP情報を削除する運用実施する予定です。具体的な実施時期や運用方法については、別途お知らせします。

また、PlaceEngineサービスにおいては、以前より、主にモバイルルーターなどに対応するため、オプトアウト(削除)したいMACアドレスサポート窓口へ送付して頂く方法などをとっておりましたが、こちらについても引き続き運用していきます。(「位置推定の改善」をご参照ください)

これこそがまさにGoogleの狙った効果だ。素早くデファクトになり得る。すると次の段階として、Wi-Fi機器の製造者が設定画面に「☑位置情報サービスからオプトアウトする(SSID末尾に_nomapを付加する)」のような項目を用意することが標準化する、などといった流れに進むことも期待できそうだ。これには一層の啓蒙活動が必要になるが、十分に現実的な範囲だ。

そして、「Wi-Fiだけの問題ではない」と書いた通り、あっさり同種の別問題が持ち上がってきた。今後、この手の問題はゴロゴロ出てくるだろう。そもそもどこまでが許される範囲でどこからが許されないのかといった大枠の議論も含め、どんどん問題にして世界中合意ルールを形成してゆく必要がある。先は長い。

2011-10-22

Twitterの書き込みを2ch自動転載するシステムが構築中

隠居ボケ防止を手伝おう

http://dso.2ch.net/test/read.cgi/sakhalin/1319173391/

2 : ◆G3E3Ee8IMBFg-隠居♪ (WiMAX):2011/10/21(金) 14:26:26.78 発信元:49.134.166.55 0

まずは、こんなのを作ってみようと思う。

1. スレ立てる。 スレタイに #abcd と入れると、 「 #abcd を暖かく見守る」

2. Twitter をリッスンして、#abcd がなんかつぶやいたら、自動的にそのスレに書き込む。

3. あとは普通スレ。(スレに書き込むだけで#abcdへのtwitになんてできる?)

40 : ◆G3E3Ee8IMBFg-隠居♪ (WiMAX):2011/10/21(金) 17:48:05.69 発信元:49.134.166.55 0

できた

自分の作ったアカウント ehenfox

これで nida_run をフォローした。

そしたら nida_run が何かつぶやく

ehenfoxにnida_runのつぶやきがでてくるようになった。

と同時に 私の geteew.cgi にも流れてくるようになった。

ここまで大成功。ノハズ

55 : ◆G3E3Ee8IMBFg-隠居♪ (WiMAX):2011/10/21(金) 19:21:29.22 発信元:49.134.166.55 0

ツイッター観察@2ch掲示板 ボケ防止(1)

http://raicho.2ch.net/twwatch/

こんなのを作るらしい。

#abcdってあるけどハッシュタグを追跡するんじゃなくて、@abcdというユーザーツイート転載するようにするらしい。

今の段階ではとりあえず@ehenfoxブロックしておけば転載されないと思う。

Twitterはバカ発見機として活躍中だけど、発見後はせいぜいRTやTogetterはてブで弄られるくらいで大して盛り上がらなかった。2chネットウォッチ板にもTwitterヲチ総合スレはあるけど、あまりに対象が多すぎて拡散気味になり盛り上がることはあんまない。注目案件で個別スレが立つこともあるけどたまにだし、大物(大馬鹿?)案件だとニュー速まとめブログ料理してもらえることもあるけど。

これからTwitter発見されたバカが、2chで個別にカジュアルに祭られるようになるのかなぁと思います

ところでこれわざわざ対象をフォローしてhome timelineを取得してるみたいだけど、リスト使えばいいのにね。フォローだと上限とか制限きついし。

クローラアカウント書いちゃってるけど隠して作り直してプライベートアカウントにして、リストも鍵かけておけば、ステルス転載システムが作れるなんて入れ知恵しちゃ駄目だよ。

2011-06-02

[][]ブラック企業 株式会社マイスタンダード

馬渕教室新生ホームサービス株式会社日本eリモデルなどのSEO担当していると思われる株式会社マイスタンダード代表取締役 武智建樹)は、ブラック企業しいです

日本ブラックハットSEO会社一覧に株式会社マイスタンダードが掲載されています。

インデックス削除URLタイトルサービス名称会社代表者名住所備考
http://www.seo-rankup.com/otameshi.html業界最安値!関連検索ワード削除1キーワード1万円関連検索ワード削除 お試しプラン株式会社マイスタンダード武智建樹大阪府大阪市淀川区西中島7-7-3-702 

http://xn--seo-zj4bydb9a4c4c4k.com/?p=48

ブラックハットSEOとは

ブラックハットSEOとは、SEO検索エンジン最適化)における用語で、悪質な(非倫理的な)手法を駆使して検索結果ページ(SERP)の上位に表示させる技術または施策のことである

ブラックハットSEO典型的な手法としては、ユーザーに気づかれないようにWebページ内にSEO目的キーワードを大量に埋め込んだり、ユーザーアクセスしてきた際にWebクローラが巡回したWebページとは異なるWebページを表示させるような仕組みを埋め込んだり、コメントスパムなどの強引な手法で大量のバックリンクを獲得しようとしたりする方法がある。検索エンジンの多くはこうした手法はポリシーに反するものとしており、通常は何らかのペナルティが課されるが、悪質なWebサイトと判断されず検索結果ページの上位に表示される場合がある。

http://www.sophia-it.com/content/%E3%83%96%E3%83%A9%E3%83%83%E3%82%AF%E3%83%8F%E3%83%83%E3%83%88SEO

http://anond.hatelabo.jp/20110527113513

2011-01-27

どうもよくわからない

岡崎図書館の件の議論。

議論をリードしている人の意見で理解出来ない点がある。

疑問の一つ目、「MDIS不具合を認めるかどうかが大問題である」。これの根拠となっている点はいくつかあったかと思うのだけれども、

しかに、MDIS自身「不具合」という表現で(できれば図書館も、多分無理だけど警察検察も)認めてくれた方が社会への説明は楽だと思うけど、どの程度そうなのか?

(まともな技術者からは)「こんな実装は異常である」というのはいい。しかし…カーリルとNECの間でも類似の問題が起きている。そっちの実装は不明だが、今回の観点でいえばそれも「不具合」であった可能性が十分ある。MDISけが不具合であることの表明を要求されてNECは問われない、というのはそれで本当に解決するのだろうか。NECでも見つかったのではという疑いがある、というのは、言い換えれば「実装のバリエーションはともかく、技術的に貧弱なサーバがある程度権威のある機関でも平気で公開されているような世の中である(他にもあるんじゃね?)」という話になりかねず、議論として「MELIL方式は例外中の例外だからそんなのを基準にクローラを考えるのはおかしい」という議論にたいして、少なくともその説得力を減じている気はするのだが。なぜNEC批判はこうも目立たないのか。いや、NECを批判したところで、「一定数貧弱サーバ存在する(と仮定すると)」現実は変わらない。この現実を肯定すると、技術者なら影響がわかるはずだ、未必の故意云々という理屈の後押しをしてしまわないのか(その理屈が正しい、と言う意味はなく、少なくともそういう意見の説得力がまして支持者増えるのでは、と)、この点は「クローラ技術の萎縮」と関係ないのか、それに対してどうアクションすべきなのか、どうも向かう方向性が見えない。

疑問の二つ目、「警察はなサーバ不具合を調べなかったのか」。不具合という表現はともあれ、「(未必の故意なのではなく)本当にlibrahack氏がサーバの異常に気づいていたかどうか」を本人談を鵜呑みにせず(技術者なら今まで流れてきている情報だけで多分気づいていなかったのだろうと推測がつくが、警察としてはそれだけでは不十分という議論は成り立つ)、検証するためには、「サーバで何が起きていたのか」を調べてそのメカニズムを理解--理解することが必須だったとは言わないまでも、理解していれば「やっぱりlibrahack氏が気づいていなかったのでは」という一定の状況証拠になるであろうことは理解できる。

しかし、「クローラアクセス非常識ならサーバ不具合がなくても業務妨害」なのだから、(本音か建前かは別として)未必の故意も含めて主張している相手(警察検察)に「なぜサーバの異常を調べなかったのか」と質問しても「必要ない」と言われるのは当然だ(圧力として質問する意味がないと断言はしない)。それも含めて、警察に「なぜサーバの異常を調べなかったか」と質問して失敗した人は、そもそもそれを聞くことの意味を理解していたのだろうか、という疑問がそもそもあって、単に聞き方が悪かったという問題という風には思われないのだが

どうも「警察はなサーバ不具合を調べなかったのか」と問うことにどのような意味があるのかについて、第三者を説得する目的という意味で十分な説明がなされていると思えるものを見かけないのだが、皆は疑問を感じないのだろうか?

私の疑問について分かりやすい説明をしてくれる人がいるなら、それは意味があるとおもうのだがどうだろう(お前が馬鹿だ、と批判するのは勝手だが、この問題の解決にはそんな煽りは多分役に立たない)。

2011-01-18

http://anond.hatelabo.jp/20110118092312

これ、Twitterの話題の多さに対して触れてる人の少なさが際だってるよな。何か陰謀めいたものすら感じる。この件に触れた奴は何者かによって密かに抹殺されているんじゃないかとすら。

実際はそういうわけはな、こういう事らしい

http://d.hatena.ne.jp/kazuhooku/20101012/1286901973

[メモ]TwitterFacebookURLには、なぜ#!が含まれるのか (SEOAjaxおいしい関係)

そこで Google は、#! が含まれる URL を hash を含まないものに読み替える仕組みを提唱している。例えば「www.example.com/ajax.html#!key=value」のサーチエンジンURLは「www.example.com/ajax.html?_escaped_fragment_=key=value」になる。

TwitterFacebookはこの仕様に従うことで、AjaxUISEO を同時に実現している、というわけ。ということを調べたなう

参照: Getting Started - Making AJAX Applications Crawlable - Google Code

アドレスの変更」という最も目に見えるポイントなのに、上記以外にまともにその理由を考察しているサイト全然見あたらないってのが、情けないというかむかつくというか。

2010-12-06

http://anond.hatelabo.jp/20101206143020

高木氏が「異常」と言っているのは、一番目の選択肢が変なURLだけになっていること。

でも決して「検索サイトが変な結果を意図的に表示させた」わけではない。

検索サイトがちゃんと決め事を守っているからこうなった。

技術的にはやろうと思えばrobots.txt記述を無視して収集できるし、

そうしたサーバ側を変更しなくてもアフターの状態にできる。

でもしない。robots.txtで「しないでください」と書いてあるから。

(昔は無視して収集する検索サイトたまにあった。今は知らないけど)

収集するなというところには入っていかない、礼儀しいクローラじゃないですか。

http://anond.hatelabo.jp/20101206130526

これ見て ? と思いました

http://takagi-hiromitsu.jp/diary/20101024.html#p01

高木氏はrobots.txtが修正されることにより、「検索サイトで正常に閲覧できる」ようになった、

と書いています。また、「/robots.txt によってすべてのクローラを排除していたため、図1の「ビフォー」のように異常な検索結果になっていた。 」とも。

検索サイトってそんなに偉いんでしょうかねぇ、と思っただけ。

2010-11-20

コンテンツの丸パクリがどこまでゆるされるのか?という疑問

性的内容を含んでるのでお嫌いな方は読まないでください


アダルトサイトを巡回するのはまぁ一般的な成人男性なら経験はするだろうとは思うが、中にはプログラマ?なんだろうけど、岡崎図書館の時みたい自分クローラ作って

DBに登録して、あろうことかWeb上に公開、みたいなことをしちゃう人って結構いるんだな、と思う。


○気になったサイト

http://shane01.yakan.net/


○多分パクられてるサイト

http://shane01.blog80.fc2.com/


後者はいわずと知れた「えろつべ」さん。キングコング西野さんも御用達なんだっけ?で、気になったサイト。見てみると、なんというか・・・動画URLはもちろんのこと、「掲載日付」「サムネイル画像」「ジャンルタグ」全部一緒。


リスク回避のためなのか自分用とか書いちゃってるけど、サイトの一番上に輝くソーシャルブックマークロゴ。。。

そりゃさ、確かに広告が多いと見づらいさ?まとめて一気に片付けりゃ楽だろうさ?けど、ブログ運営してる人はそれなりに努力をして毎日更新してるんじゃねぇの?

うい人達努力を、どんくらい時間かけて作ったプログラムかわかんないけどさ、広告取っ払っちゃうんじゃゼロにしちゃうでしょうよ。


「これからも対応ブログ増やしていきまっす!」なんてゆっちゃってるこの人、早速2chでも宣伝してるし・・・

自分用じゃねぇのか!!!とか思っちゃいますよ。


ま、もっと悪質なブログだのなんだのもいっぱい居ることはわかってるんだけどさー・・・

2010-11-03

http://anond.hatelabo.jp/20101103010216

無断リンク禁止はいくらでも主張していいし

最低限、metaタグなりrobots.txtなりでクローラ対策して、

リファラリンク元からのアクセス弾いてんのなら、主張していいよ。

主張するのは自由だから。

 

ただし、人が決めたルールに乗っかった上で、俺様ルールを通すのは無理だろ。

エスカレーター設計理念じゃなくて、安全上言ってんだろ。

 

モンペ臭がする。。。

 

思い出したけど、東京駅エスカレーターで一人で大きい荷物持って両サイド占領してたら、

後ろから来たサラリーマンに舌打ちされた。

じーっと見てたら目をそらした。

 

自分のペースで進みたいなら、人がいないとこ歩けよ、ばーか

2010-09-20

http://anond.hatelabo.jp/20100920104332

世論や人の心情は、あまり正しい判断に基づかないですからね。

事実逮捕されてしまった。

企業であれば逮捕しなかったそうなので、個人でコンピュータクローラつくるような奴という印象が働いているわけですね。

理不尽ですね。正しくないです。

でも、心情を悪くするのはやはり得策ではないでしょう。

ログイン ユーザー登録
ようこそ ゲスト さん