「クローラ」を含む日記

はてなキーワード: クローラとは

Googleのクローラが来てくれました！

アクセス数は300%の増加になりました！つまり4！

大昔はてなダイアリーがあったころはダイアリートップに「新着更新一覧」があって、ボットでもタイトル誤読の勘違いでもなんでも一応の水増しアクセスがあったもんだけど

クローラーとかそういうの排除してだいたい人力のアクセスだけきちんとカウントするようになってると現実の風がなかなかに冷たいな

……いや、いまのとこ特段有用なコンテンツもないんで、逆にこんなんでたくさん来てもらってもんああああああってなるんだけども

どこだかのブログサービスの「画像でもなんでもアカウント名のコンテンツへのアクセスがあったらとにかく1と数えるカウンター」あたりは嘘だらけだけど優しいのかもしれん

Permalink | 記事への反応(0) | 11:50

2017-10-15

■anond:20171015014103

http://oreero.x.fc2.com/

まず、自分はweb 製作会社に勤めてる身なので、一通りの制作手順は知ってる。

で、なんでこのサイトを作ったかというと、

まあ、副収入がほしかったんだ。

そして、アダルトアフィリエイトサイトなるものを教えてもらった。

ちょうどその頃、仕事以外で勉強しているものがあったが

なんせ金にならん。（※web クリエイターは金など気にせずシコシコ勉強するのが大事）

で、まずはアダルトサイトを作るにはサーバを借りねばならん。

といっても、お金はかけたくない。

できれば無料で。

そして、色々調べた結果、

やはり、アダルトサイト okなFC2が一番しっくりきた。

いい評判はあんまり聞かないが割と普通に動いてる。

まあ、無料なだけあって、色々縛りはつくんだよね。

最初はスクレイピングで、ほぼ自動化したサイト作ればいいんじゃね！

的なことを考えていたけど、FC2の無料サーバだと致命的なことに、DBやサーバサイド言語が使えない。

なんだろ、webも知らない人に伝えやすく言うと、

飛車角抜きで将棋しろとか、コンバイン使わずに田植えしろとか言われてるようなもんかな。

なので、フロントエンドの技術(html / css/ js)だけで、RSSとかの情報取得したりしてねー的なことをしないといけなくなった。

うーん、要はドラクエで言うなら、簡単な呪文は使えるけど、ほぼ素手でたたかえって言われてるようなもんかな。

とりあえず、サイトの体裁を整えるためにまずは、bootstrapのサンプルを改変してベースを作った。

bootstrap便利。http://getbootstrap.com/

あとは、幾つかのアフィリエイトのサイトに登録してパーツを配置。

動画も著作権やアダルト動画を載せる際の調査をして、一通りの知識を得る。

あとは、どんなサイトにするか。

ぱっと思いついたのは、普通のエロサイトよりもページ遷移を無くして、

どんどん動画を見やすいようにすれば、いろんなページから探し出す手間を省けるのではと思った。

なので、構成としては、クリックしてモーダルウィンドウの中で、動画が再生する形に統一。

動画の採取場所はDMMの無料サンプルとXVIDEOSでおｋ。

サイトのベースは一通り完成した。

で、１ヶ月運用してみると、シングルページの弱点を身を持って体験した。

SEOにクソ弱すぎる。

どうしよう流行りのシングルページ（なんちゃって）にしたのに・・・どんどん検索順位が下る。

そこで起用したのがpushState。

jsでURLを書き換える技術。ただ書き換えるだけじゃなく、履歴そのものを作成してくれる。

これをすると、グーグルさんのクローラがシングルページのサイトでもうまいこと動いて順位があがった。

（若干iframeとの挙動で問題はあるが、ないよりまし。まあいける・・・。うん。）

てな感じです。

収益化はまだ全然できてないけど、仕事でサイト作るよりも自由だし、

変更もその場で思いついたこと試せるから面白い。

後半眠くて、技術よりの話になった・・・。

Web エンジニアはだまって、アフィリエイトしてみるのも面白いかもね。

という感じでした。。おそまつおそまつ。

最近は収益どうこうより、自分が作ったサイトに人が訪問してくれるだけで嬉しくて、

淡々と息を潜めるように更新してやす。

↓まあ抜いていってくだせえ。

http://oreero.x.fc2.com/

Permalink | 記事への反応(0) | 02:18

2017-10-12

■anond:20171012023346

そのスレッドをここに晒してはてなーがこぞってブクマすれば、Googleのクローラの優先度が上がるんじゃね？

はてブにどれくらい威力があるのか知らないけど

Permalink | 記事への反応(0) | 03:15

2017-10-03

■anond:20171003110121

諦めるのはまだ早いぞ。

探したい増田のURL（元増田なら【 https://anond.hatelabo.jp/20171003110121 】）で Google または Bing で検索。
検索結果に出てきた【増田の記事タイトル下のURL右端の三角印】をクリック、さらに【キャッシュ】をクリック。
- （詳しくは画像を参照。【 https://i.imgur.com/M2gsBIk.png 】 ※ 画像は Google だが、Bing でも要領はおなじ）
検索エンジンに残ってるキャッシュが表示される。
- ただ、これはしばらく時間が経つと削除されてしまうので、ずっと残したいのであればキャッシュのURLで archive.is に登録する
  - 元増田でやってみた例【 Google キャッシュ：https://archive.is/lyJbC 】（Bingはまだキャッシュされてなかった）
  - キャッシュページは web.archive.org や megalodon.jp（gyo.tc）では保存できない。

ただ、投稿後すぐ（数分以内とか）に投稿者が増田を削除してしまった場合は、クローラが間に合わなくてキャッシュを保存できていない可能性が高い。

この場合は本当にどうしようもない。

Permalink | 記事への反応(1) | 11:58

2017-04-28

■今気付いたんだけど

自分のWebサイトを高速化しようと思って色々試行錯誤してたんだけど、

この高速化って結局一番メリットを被るのはGoogleだよね

データをクロールする時に最適化されているデータをクローラで取ってこれれば実行時間の短縮にも繋がるし

多くのサイトのクロールするクローラー使ってるGoogleが一番メリットあるよね

大体、サイトの圧縮とか人間じゃそこまで対して変わらんし、気付けばページ測定にGoogleのツール使ってるし

なんでこんな事に気付かなかったんだろう

Permalink | 記事への反応(1) | 06:24

2017-04-07

■http://anond.hatelabo.jp/20170407111315

おっさんはbashとPHPでクローラ作る作業に戻るんだ

Permalink | 記事への反応(0) | 11:16

2017-03-27

■http://anond.hatelabo.jp/20170327161801

おっさんはbashとPHPとJavaでクローラ作る作業に戻るんだ

Permalink | 記事への反応(0) | 16:24

2016-08-11

■いまだにadsenseの審査が終わらない

なんでこんなすっとろいの？

さっさとしてくれよ

そもそも事前にそんなにネチネチ審査する意味がどこにある？

adsense使ってるサイトなのにアダルトなとことか自分とこのクローラで発見して摘発して止めればいいじゃねえか

最初に長々待たせて人力審査して誰が得するんだ

そんなんしたって大したことわかりゃしねーだろ頭わりーな

http://anond.hatelabo.jp/20160807213341

Permalink | 記事への反応(0) | 18:05

2016-07-26

■http://anond.hatelabo.jp/20160726121854

老害はbashとPHPでクローラ書く作業に戻るんだ

Permalink | 記事への反応(0) | 12:21

2016-03-12

■http://anond.hatelabo.jp/20160311232640

元増田だよ。

昨晩はまったく反応がなくて自演しようかヒヤヒヤした。けど寝た。

サイバーメガネさん拡散ありがとうございます。もっと頑張ってくれ。

Twitterでmentionが発生した瞬間に該当アカウントに鍵が掛かったのでおふとんの上でニヤニヤしてる。

もう片方のアカウントはそれでも元気に活動してるのでええ根性しとるな。

あ、魚拓のある場所を書き忘れたので追記しに来たんだけど、

http://archive.is/

というサイトを使ってるよ。

先日「Web 魚拓」が過去のアーカイブを検索する機能を「忘れられる権利」のために無効化するって言ってたけど増田は微妙だと思う。

増田は特定個人の悪行を未来永劫残すことを目的としてないので、各魚拓のURLを直接書いてクローラに教える気はない。

知りたい人が調べればいいだけの話なので。

調べたい人が調べられるが普通には気付かないまま残っている、というのが正しい姿なんじゃないかなー、と思った。

いろんな意見があると思うけど。

Permalink | 記事への反応(1) | 10:11

2016-01-26

■カリビアン コムに入会して動画を全部ダウンロードした

ちょっと前に超VIP会員(25,000円)に入会した。

ちまちまと新着を確認して気に入ったのをダウンロードするのがめんどくさいから、

クローラを自作して2001年から 2016年までの約3900本を全部ローカルに落とした。

1日のDL 制限に引っかからないように自宅鯖を使ってネチネチとやった。

3900本の動画のうち1割も観ないのだろうけど､ダウンロードした達成感でいっぱいだ。

さて次は自宅鯖をweb サーバ化して､自分専用のストリーミングサイトにしよう。

動画コンテンツの中身を素早く把握するために､

サンプル動画・ギャラリー画像・動画説明文も追加で落とさないと。。。

Permalink | 記事への反応(2) | 17:58

2015-03-21

■http://anond.hatelabo.jp/20150321203337

おっ月間300PVの俺のブログとかどうなんの？

たぶん半分以上自分か検索エンジンのクローラ

Permalink | 記事への反応(2) | 20:36

2014-02-03

■http://anond.hatelabo.jp/20140203185938

ゴミじゃねーか。

俺だったら一旦全削除だな。

せめてサイト別にフォルダ分けるようにクローラ書き換えてやり直す。

それでも駄目そうなら、画像の他にページキーワードを拾って、索引にして逆引きできるようにDBに突っ込むとか、本格的に考える。

Permalink | 記事への反応(1) | 19:07

2013-12-19

■エロサイトを立ち上げた引きこもり～魂の物語～エピソード6

---------------------------------------------------------------------------

動画エロサイト←これが僕の作ったサイトです

---------------------------------------------------------------------------

前回の続き

htmlの学習に加え、サイトを作りながらCSSを勉強中。

苦労の甲斐があってエロサイトのおおまかな枠組みはできてきた。

ここまできて僕は、どうやったらwebサイトとして機能するのだろう（ヤフーとかグーグルとかに載るんだろう）？

という疑問を持った。とゆうか最初にその疑問を持てという話でもあるが、とにかく僕は急にそう思い始めた。

ちょっと試しに自分のサイト名で検索してみよう。

Google先生！僕のサイトは今どんな感じですか？

とりあえず、キーワードはサイト名の「動画エロサイト」でお願いしまつっ！！！！

（期待に胸をふくらます僕）

すると先生は意外な一言を放った。

「分からん」

先生またご冗談を。全知全能の先生がそんなはずないじゃないですか。

僕のサイトは今エロ動画で何位なんですか？

何位だって驚きませんよ。あんまり気を遣わないでください。

何百位でもかまわないですよ。まだ始めたばっかりですから。

それでは、先生、改めて僕のサイトの順位のご発表をお願いします！！

ドゥン！ドゥルルルルルルルルルルルルルルルルルルルルルルルルルゥ！！

「載っとらん」

Σ(っﾟДﾟ；)っ

検索エンジンとサイトの関係

検索エンジンは「クローラー」とか「スパイダー」と呼ばれるプログラムを使って、web上に存在するページの情報を集めるらしい。クローラーがウェブ上を自動的に巡回して集めたデータをデータベースといういわばデータの貯蔵庫のような所に登録する。

この事をインデックスする（される）などと呼ぶらしい。

ロボットがデータを収集している…

なんだか僕の知らないところで、とんでもない事が起きている気がしてきた。

とにかく、サイトはこのインデックスというのをされていないと、Googleやヤフー（のちにヤフーはGoogleの検索エンジンを使っている事が判明）Bing、infoseekなどから検索する事ができない。

インデックスされない3つの原因

クローラが巡回にくるタイミングはまちまちで、すぐインデックスされる事もあれば、何カ月もされない場合があるらしい。

どうしてもインデックスされないのなら下記の原因を疑ってみた方がいい。

以下、ネット情報

・クローラーにクロールされやすくなっていない

・Googleのガイドラインに違反している

・クローラー制御タグや記述がある

クローラーにクロールされやすくなっていない

クローラーに発見されやすいサイト構成や、Google ウェブマスターツールへのサイト登録をして、

クローラーにクロールされやすくする必要があります。

クローラーに発見されやすいサイト構成

クロールされやすい記事、サイトから、クロールしてもらいたい記事へのリンクを張っていくことも重要です。

とにかく露出を増やす事が重要であると考えてください。

Google ウェブマスターツールの利用

Google ウェブマスターツールへのサイト登録＆サイトマップ送信

などの改善を行なってください。

Googleのガイドラインに違反している

このガイドラインを見ると、Googleはどのような行為に対して不正とみなすのかを確認することができます。

Googleが提供するガイドラインに違反することで、ペナルティを受けてしまった場合には、最悪インデックス削除の可能性もあります。

インデックス削除はかなり重いペナルティであり、それが解除されるまでには時間がかかります。最悪の場合、悪質なサイトであると認定されてしまい、インデックスされないドメインとなる可能性もあります。ですから、Googleのガイドラインはしっかりと読み込んで、気をつけてサイト運営を行ないましょう。

クローラー 制御 タグや記述がある

この原因に関しては、かなりSEOの知識のある人でないと、そもそもクローラー制御タグや記述を利用する事がないので調べる必要はないと思いますが、一応書いておきます。

インデックスさせたい記事のmetaタグに以下の設定が入っていてはインデックスされなくなる。

noindex　このページはクロールしても、インデックスはしない

nofollow　このページはクロールしても、ページ内リンク先はクロールしない

インデックスさせたい記事へ外部からリンクを送る場合において、nofollowをmetaタグ内に記述しているとインデックスされにくくなる。

以上の点について、改善していきましょう。

まとめ

インデックスはクローラーにクロールされやすいサイトを作成し、

リンクを用いて露出を増やし、Googleのガイドラインに違反しないよう気を付ける

クローラー制御タグ・記述の有無についても要確認。

う～ん。なるほど。ここら辺はかなり重要だなあ

htmlを勉強したときにメタタグの事は調べたので、もう一度確認したらすんなり頭に入った。

あとは、ウェブマスターツールなるものに登録して、「サイトマップ」ていう単語も出てきたから

これも後で調べよう。

クロールされやすいサイトをまずは目指してみるか。

よしもう一度僕のサイトを確認してみよう(^-^)p

つづく

Permalink | 記事への反応(15) | 12:08

2013-03-14

■

http://anond.hatelabo.jp/20130314164638

目立つところだと、いわゆる"まとめサイト"って相互リンクみたいなの表示されてるでしょ？邪魔なところに。うん、これは俺の主観。普段見ることがあるかどうか知らないけど。

ああいうのがRSSを介して実現されてる。

そもそもRSSを人間が読むかどうかなんてどうでもよくて、今一番RSSを利用してるのは各種プログラムな訳ですよ。検索エンジンのクローラもRSSを読んでる(場合もある)。

Permalink | 記事への反応(2) | 17:42

2012-07-08

■Rails3 とTwitter Bootstrapで、オシャレなエロサイトをつくってみました。

Rails3 と jQuery で、真面目にオシャレなエロサイトをつくってみました。 - h300

http://d.hatena.ne.jp/inouetakuya/20120331/1333192327

に触発されて、オシャレエロサイトを作ってみました。

以下は製作記になります。

オシャレエロサイトを作ろうと思ったのはいいのですが、デザインは苦手なので途方に暮れていました。

h300の方はペパボのソフトウェアエンジニアらしいのですが、こっちはただの素人プログラマー。

オシャレなサイトなんて作れるわけがありません。

そこで何か裏ワザみたいなものはないかとググっていると、Twitter Bootstrapという文字が目にとまりました。

Bootstrapの名前は知っていましたが、深い内容までは知りませんでした。

ですが、紹介記事を読んでみると自分の理想に近かったので早速使ってみることにしました。

Twitter Bootstrapとは？

Twitter Bootstrapはある程度有名だと思うんですが知らない方のために説明すると、

CSS フレームワークの一つで、ウェブデザインの作成を手助けしてくれるものです。

色々なCSS フレームワークを見ましたがTwitter Bootstrapが一番完成度が高いと感じました。

ウィキを見ると最初のリリースが2011年 8月なので比較的最近のものですね。

CSS フレームワークの説明は難しいんですが、

普段、みなさんがウェブサイトを作る時、HTML + CSSで作られるかなと思うんですよね。

この時、CSSが事前に用意されているとすごく楽じゃないですか？

CSS フレームワークはCSSの大部分を前もって用意してくれているんですよ。（フレームワークによりますが）

ですので基本的にCSSに合わせてHTMLを記述するだけでウェブサイトが出来てしまいます。

CSSに合わせてHTMLを記述するとはどういうことでしょうか？

匿名ダイアリーでも似たようなことができるのでやってみます。

この文章は薄い青色でハイライトされていますよね？
Bootstrapで似たようなことをする場合
＜div class="well"＞
ハイライトしたい文章
＜/div＞
という感じになります。

classにwellと指定しているだけですね。

なぜそうするだけで文章がハイライトされるかというと、

divのclassにwellが付いていたら、いい感じでハイライトしてねっていう指示が

Twitter BootstrapのCSSに書いてあるからです。

BootstrapのCSSには、divのclassにalert alert-errorっていうのがあったら警告文だしてねとか、

button class="btn"ってあったらボタン表示させてねとか色んなことが最初から書いてくれています。

もちろん見栄えがよくなるように記述されていますので、classを指定するだけでモダンなデザインになるわけですよ。

CSSに合わせてHTMLを記述するだけでウェブサイトが出来るというのはこういうことです。

でも、最近のウェブサイトは HTML + CSS + JQueryという場合も多いですよね。

安心してください。Twitter Bootstrapの場合はJQueryの基本的な部分も用意してくれています。

ですのでドロップダウンメニューやタブ、スライドショーなどの実装も簡単にできます。

それに加えてBootstrapはよく使うアイコン数百種類まで用意してくれています。

至れり尽くせりですよ。

神様ですね。

CSS フレームワークを使うメリットはまだまだあります。

CSSが固定化されていると、HTMLも自動的に固定化されます。

CSSに合わせて記述するので当たり前といえば当たり前ですね。

CSSの記述は一定、HTMLもある程度一定なので、メンテナンスが格段にやりやすくなります。

個人プログラマーの方だと、サイトごとにHTMLもCSSもグチャグチャという方も多いのではないでしょうか？

フレームワークを使えばそういうこともなくなるということです。

Twitter Bootstrapの凄さはそれだけではありません。

現在、ユーザーがどんなデバイスでウェブサイトにアクセスしてくるか分かりません。

PC、スマートフォン、iPad、TV、3dsなど全てのデバイスに合わせてデザインを作るのは時間がかかりすぎます。

でもTwitter Bootstrapならbootstrap-responsive.cssというCSSを選ぶだけで、

デバイスの横幅に合わせてデザインが変わるレスポンシブなウェブサイトができます。

iPhone、iPad 対応もすぐですよ。

もちろんデメリットもありまして、サイトのデザインが似てしまうというのが難点です。

ですが基本はBootstrapを使って、ちょっと自分でカスタマイズしてオリジナルっぽくすることもできますので、

一度Twitter Bootstrapを使ってみる価値はあると思います。

http://twitter.github.com/bootstrap/

Bootstrapの説明が長くなってしまいましたね…。

ここからはアダルトサイト作成の説明です。

クローラ作り

1.エロいサイトを巡って、XVIDEOSやFC2動画などのリンク、embedされたものがあれば取得。

2.リンクから動画のサイトへアクセスしてサムネイルを取得。

3.データベースに登録。

一連の作業をクローラーにやらせるプログラムをRubyで書く。

RailsでBootstrapを使う。

RailsでBootstrapを使うにはtwitter bootstrap railsというgemを使うらしいです。

しかし、使おうと思ったのですが、windowsでは上手くインストールできませんでした。

windowsでRubyを使うとバグが多いです。

仕方なく、代わりにsass-rails-bootstrapというものを使いました。

違いはcssにLESSをつかっているかsass（scss）を使用しているかだと思います。

http://d.hatena.ne.jp/tkawa/20120219/p1

の記事が参考になりました。

ちなみにLESSとかSassってのはcssを効率的に書けるすぐれたものです。

最近、web クリエイターボックスさんでも紹介されていました。

http://www.webcreatorbox.com/tech/css-sass/

LESSとかSass（Scss）もお勧めですよ。

railsでは3.1からcoffee scriptと共にsassがデフォルトで使えます。

このあたりがRailsの素晴らしさですね。

Bootstrapは画像を綺麗に並べて表示することにも向いているので、

アダルトサイトと相性がいいなと感じました。

タグ リスト実装

AV女優名とか女子校生、人妻などのジャンルのタグがあれば便利ですよね。

Railsではacts-as-taggable-onというgemを使い実装しました。

動画のタイトルが事前に用意したAV女優名リスト、ジャンルリストと合致すればタグ付けするという感じです。

AV女優リストはDMM から、ジャンルリストは大手アダルトサイトから作成しました。

AV女優のタグを名前順でソートしたいと思ったのですが、

漢字はソートできないのでしばらく悩んだ結果、

タグ付けするときに　あおいそら-蒼井そら　みたいな感じでタグ付けするようにしました。

もっとスマートな方法があるはずですが思いつかなかったので仕方ないです。

ア行、カ行…のように行別にわけて、なおかつアイウエオ順で表記してますので

お気に入りのAV女優名を探しやすいはずです。

簡易ブックマーク実装

クッキーを使ってログイン不要のブックマーク機能を作りました。

jquery.cookie.jsを使って、cookieを配列に直してごにょごにょしてという感じで実装しました。

削除ボタンを押すと非同期で通信して…などいろいろ面倒でした。

でも、動画の数はかなり増やしていこうと思っていましたので頑張って実装しました。

動画の下のブックマークするボタンを押していただければブックマークできます。

ブックマークするボタンの表示などにBootstrapの便利さを感じました。

アダルト 動画を大画面で見れるようにする。

実はこれが一番やりたいことでした。

多くのアダルトサイトは広告だらけで、肝心の動画がポツンと小さくあるだけというのが多いです。

世の男達は疲弊しています。それは本当に疲弊しています。

戦場で疲れた兵士たちに、そんなせせこましい画面でアダルト動画見ろって？

そんな野暮なこと言いませんよ。

PC スクリーンの画面いっぱいに、大画面で、ドカーンとエロ動画を楽しんで下さいよ。

動画はできるだけ大きく表示しています。もちろんレスポンシブです。

全画面表示にすりゃいいじゃん…っていうのは違うんですよ。

全画面表示だと逃げれないじゃないですか！

不意に誰かが部屋に入ってきたらどうするんですか？　

1クリックと2クリックは大違いですよ。

コンマ一秒で守れる尊厳がある。

そう考えております。

スマホ 対応

Bootstrapでデザイン面はスマホ対応にはなっているのですが、

加えてjpmobileというh300で紹介されていたgemを使って、

スマホでアクセスされたら表示する動画の数を減らしてとか、

広告の種類を変えるなどの微調整をしました。

サーバー選び

osukiniサーバーのGT2プランにしました。

初期費用 1900円、月940円で

CPU　2.66GHz、メモリ　2.2GB　HDD200GBです。

チューニングは正しいかわからないですね。

まぁ、アクセス捌けなくなってから考えます。

Nginx + Unicornを使おうとして結局やめる。

Railsは遅いので少しでも速くするためにApacheの代わりにNginx使おうと思ったのですが、

PC用のキャッシュとスマホ用のキャッシュを別々に保存して使う

ということがどうしてもできませんでした。

PC用のキャッシュがある場合、スマホ用のキャッシュがなくてもキャッシュがあると認識されるなど、

もともとNginxとrailsのページキャッシュは相性が悪いようです。

Nginx側でキャッシュする、もしくはスマホ用のアドレスを別にすればできるかもしれないですが、

http://m.サイト名　みたいにするのが嫌だったので最終的にNginxを使うことをやめました。

Nginxに関するネット上の記述も少ないので運用するのは危険かな、ということもあります。

Nginxを少しだけ使ってみた感触はかなり速いというものだったので残念でした。

バージョンが変われば、また挑戦したいですね。

Apache　+ passengerは遅いんですよ…。

【追記】

キャッシュの問題はRails側の問題だったので

やっぱNginxでもいけるかもしれないですね。

暇なときに試してみます。

出来上がったサイト紹介

オシャレのハードルを上げすぎて紹介しづらくなったのですが、

紹介しないと終わらないということで紹介します。

http://nukisen.com 　（エロ注意）

サイト名はオシャレに横文字でNukisenにしました。読み方はヌキセンです。

http://bootswatch.com　でダウンロードできるBootstrapのテーマそのままですが、

オシャレというかクールなデザインです。

Bootstrapを使うと自動的に細部まで凝ったデザインになるので最高ですね。

下にスクロールしていくと背景のグラデーションが変化したりとか、とても一人ではできないですよね。

長々と説明してきましたが、

ぜひNukisenで大画面のアダルト動画を体感してほしいです。

動画の数をいきなり大量に増やすとグーグル様に怒られるので、

しばらくは一日30本ぐらいの更新でいく予定です。

アダルトサイト同士の相互リンクでアクセス増やしてなどはしない方向です。

最後に

新しいことに挑戦すると得られるものが多いなと感じました。

ウェブサイトを作る際、無意識のうちに自分のできる範囲の技術で構築しがちだと思うんですが、

そうすると成長はないですね。

新しい技術に柔軟に対応していきたいです。

長文失礼しました。

Permalink | 記事への反応(5) | 16:10

2012-03-24

■簡単なクローラ作るならPythonだよ！

http://d.hatena.ne.jp/nishiohirokazu/20120323/1332504404

最近、Web クローラクライアントを作るお仕事が増えた。Web クローラクライアントというのはHTTP(S)を介して様々なファイルをダウンロードして解析し、結果を溜め込むだけのプログラムである。ボットともいう。

クローリングの規模が大きくなると、クロール処理部と結果貯蓄部を分離する必要がある。クローラには様々なものがあるが、ものによっては特定のサーバに集中的にクローリングを行うこともある。このとき、1つの IPを使って集中的にクローリングを行うと、攻撃とみなされ一瞬でbanされてしまう。そこで、一見するとまったく関係なさそうなIPを複数確保し、それぞれにクローラーを仕掛けて走らせるのである。

結果貯蓄部は、要するにデータベースサーバであり、何を使用しても良い。クロール処理部とのやりとりに使用するプロトコルはRDB 依存プロトコル(MySQL Socketとか)でもHTTPでもなんでもいいが、とにかくクロール処理部が解析した結果を随時溜め込めるようにしなければいけない。逆に言うと、まぁ、口さえできるのであれば何を使用しても良い。

問題は、クロール処理部に何を使用するかである。おおまかな要件は次の通りである。

HTTP(S)でやりとりしたい
様々な環境で動作させたい (使用できるIPはバラバラ、それぞれの計算機のOSは指定できる、などという虫のいい話はまず無い)
クロール処理部自身がRDBによるキャッシュ機能を備えていてほしい。インデックス程度は使えてほしい (クロール処理部と結果貯蓄部は常につながっているとは限らないので)

これらの要件を満たそうとすると、ぶっちゃけ JavaかPythonくらいしか選択肢が無い。

	Java	Python
HTTP(S)	HttpURLConnectionかApache HTTP Client	urllibかurllib2
環境依存性	Write once, run anywhere (VMが最初からインストールされてるのはSolarisくらいのものだが、どんなOSでも大体はすぐインストールできる)	UNIXであればほぼ標準で入ってる、Windows用インストーラも用意されている
キャッシュ機能	JDK6にDerby標準搭載	Python 2.5からsqlite3標準搭載

JavaとPythonの違いは山ほどあるが、簡単なことをやらせるだけならPythonはJavaよりも使用メモリが少なくなりがちなので、そういう場面であればPythonは(現時点においては)最強の座に君臨すると考えられる。

余談であるが、私が本当に好きなのは Perlであり、

Perlに標準でsqlite3ライブラリがついている
Windows用のPerl インストーラがもうちょっとまともである

という条件下であれば何の迷いもなくPerlを使っていたであろう。畜生！

Permalink | 記事への反応(3) | 18:16

2012-01-19

■食べログの「ステマ」批判そらす目的で「ステログ」開発?

「ステログ」って、今回問題になったＰＲ会社による火消しステマなんじゃないだろうか。

というのは、ステログは、「レビュー数が少なくて、高得点をつけてる人」をあぶり出してるんだけど、食べログもさすがにそんな作戦にはとっくに対処していて、そういう場合は点数が上がらないように、もともと作られてるんだよね。つまり「ステログ」であぶりだせるのは、素人による「自作自演」だけなんだ。プロモーション会社が有料で引き受けて、巧妙に点数を上げてるような事例、つまりレビューを数多く投稿していて点数に大きな影響を持つユーザを事前にじっくり作っておいて、そのユーザに高得点をつけさせるような作戦は、華麗にスルーされてしまうんだ。

もちろん、そこまで悪意なくておもしろ半分にやってるだけかもしれないけど、一番注意した方がいいのは「ガチヤラセ？？」って赤文字だけ見て喜んでる人ね。それ、ステマに騙されてる可能性は高いと思います。

そもそも。

「食べログ」って、レビューを書き込んだユーザーの「レビュー書き込み数」とかを単純に返すAPIとかないので、「ステログ」の会社は、自社製のクローラでデータ収集してるんだろう。ま、それは別に悪いことじゃないんだけど、そんなクローラまで作ってる会社が、食べログの採点の仕組みの基本を知らないってのは腑に落ちない。

Permalink | 記事への反応(0) | 00:28

2012-01-07

■事務職リーマンがwebサービスを作ってみた話

Web システムとは縁遠い事務職のリーマンが、ある日思い立って、ニッチな用途の検索エンジンサービスを作ってみたので、ちょっと書いてみようと思います。

ちなみに、検索エンジンといっても、google カスタム検索とかのお茶濁し系じゃなくて、apache Solrというオープンソース検索エンジンを、VPS上で動かしているという、それなりに本

気度の高いものです。

なんで素人がそんな物騒なものを動かす羽目になったかは、後述。

アイデア ときっかけ

やりたい構想みたいなことを思いついたのは、もう6、7年前ほど前のこと。初めて独り暮らしを始めたときに、ひどく不便を感じたことがあり、こんなサービスがあったら便利だなあ、

と、ぼんやりと妄想していました。

ちなみにその妄想をふと高校の同期に話したとき、そのサービスはどこにあるのか？！と、えらくがっつかれたのを、覚えてます。まあ、俺と同じく偏執狂の奴だったからだと思います

が。

ただ、しがない事務職リーマンということもあり、当然、技術も無く、そのときは、やるならこんな名前のサービス名だろうなあ、とか、そんな妄想レベルで、話は終わっていました。

そんな感じで、5年ほど月日は経ち、なんとなくリーマン人生の流れも見えてきたところで、以前、妄想していたことを、ふと思い出しました。

5年も経ったら、さすがに自分が考えたようなこと、誰かがやっているだろうと調べてみたところ、意外なことに、競合になるようなサービスは存在せず。ちょうど異動があって、少し時

間が出来たこともあり、じゃあ、着手してみようかと思い立ちました。

やりたいことは非常に面倒だった

やりたいことは、大手サイトの情報検索。ただ、商品ページ内の特定情報、それも、商品ごとに正規化されていない表記を、正規化して抽出する必要があったので、大手サイトの既設API

だけではとても実現不可能でした。

まあ、だからこそ、5年間、誰もやろうとしなかったんでしょうが。

ということで、とても一発では解決できなさそうな内容だったので、自分でなんとか実現できそうな機能に細分化して、各個撃破していくことにしました。

面倒なサービスをどう実現するか

随分と考えた結果、

ホームページをクロールしてhtmlを収集する機能
クロールしたhtml から特定情報を抽出する機能
検索エンジンサーバ
検索エンジンのフロントエンドプログラム
ホームページ自体
さらに、これらの処理を自動化する仕組み（特にクローラから検索エンジンにアップロードする部分まで）

以上に区分できると考えて、これらを各個撃破していくこととしました。

また、技術もなく、プログラミングも出来ず、ましてやlinux サーバのお守りをしたことなんて当然ないので、インターネット上に置くサーバですべての処理を完結させるのではなく、イ

ンターネット上に置くリソースは最小限に留め、できる限り、勝手がわかる自宅のwindows パソコンで処理を行うことにしました。

ちなみにさらっと結論だけ書いてますが、ここまで至るまでに、いろいろと調べ続たり、考え込んだりしていたので、思い立ってから3ヵ月は掛かってます。。。

検索エンジン周りの開発

さて、やる方針を決めたあと、はじめに着手したのは、要の検索エンジンサーバです。

いろいろとググって調べて、mySQLというやつか、apache Solrというやつかに絞りましたが、結局、Solrを使うことにしました。

MySQLのほうが実績は多そうだったのですが、Solrのほうが検索専門で、滅茶苦茶動作が速いらしいということ、MySQLでも出来るが特に速度が遅いらしい全文検索機能も使いたかったこ

と、あとファセット機能がジャンル絞りこみに便利に使えそうだったので、というのが理由です。

ちょうどSolr本が発売されていたこともあり、それを参考に、自分が使うように設定ファイルを変更していきました。

しかし、初めは設定ファイルの内容も意味不明な上に、私の書き方も雑なのか、少しいじっただけでまったく動かなくなる。結局、設定ファイルを一文字ずつ変更しては動作検証、とい

った始末で、進捗は地を這うよう。ある程度思い通りにSolrを扱えるようになるまで、3ヵ月以上掛かったでしょうか。。。

さらに、検索エンジンのフロントエンド（Solrの検索結果を、htmlに変換するプログラム）も書かなければならない。プログラミングが出来ない人間には、これが本当に辛かった。

Solr本に、いろんなプログラミング言語でサンプルがあったのですが、迷った末に、わずか数行なら書いた（≒コピペした）経験があるという理由で、javascriptを苦渋の選択。

しかし、選択はしてみたが、基礎が本当に無いから内容がサッパリ頭に入ってこない。こちらも、わかるところから本当に1文字ずつ変えていくといった手探り状態。

プログラミングについては、今回のためだけだから、といった理由で、一切基礎をやらずに着手したのが裏目に出たのか、サンプルのソースをモノにして、書き上げるのに、ゆうに半年

以上。本当に時間が掛かりました。

kanzen21.comに衝撃を受ける

さらに、Solr周りで計9ヶ月間ハマっていた頃、忘れもしない、kanzen21のおっさんが彗星のように現れて、衝撃を受けることになります。

大手サイトのページをクロールして検索エンジンを作る手法は、私と考えていた構想の枠組みとまさに「完全に一致」な訳で。。。

図書館事件に注目していたのも同じで、あまりの一致具合に衝撃を受けっぱなしでした。

その後の成り行き等も含めて、興味深く観察させて頂き、本当に参考になりました。

クローラ周りとかの開発

そんな感じで紆余曲折もありましたが、ようやく難題だった、プログラミング関連に目処が立ってきたので、あとはクローラと肝心のデータ処理です。ここからは、勝手知ったるwindows

の領域なので、多少の安心感があります。

まず、クローラですが、専用のクローラをwindows用に探してきたり、それを設定するのも大変なので、今回はテレホーダイ時代に使っていたような、フリーのweb巡回ソフトを利用する

こととしました。指定のhtmlをダウンロードしてくるだけなので、別に変に新しいものに手を出す必要もないので。

また、ダウンロードしてきたhtml ファイルについては、これまたフリーの日本語処理ツールでcsv方式に加工することにして、処理ルール部分を相当に作り込みました。

このあたりは、全体を通して見てもキモの部分なんですが、ある意味、ちょっとしたパズル感覚だったので、プログラミング言語の部分と違って、かなり楽しかったです。

あとは、msdosのバッチファイル（これは前から知っていた）で、これらの処理を繋ぎ、cygwinのcurlとかいうツールで、連続して検索エンジンサーバにcsv ファイルをアップロードする

仕組みを作りました。

検索エンジンサーバには、容量は少ないが、安くて高性能という、今回の用途にピッタリだった、さくらのVPSを借りて設定。CentOSのサーバ構築ホームページを見ながら、サーバとか

Solr 管理 URLとかにセキュリティを掛けて、こちらも素人ながら、意外とすんなり設定。

ホームページは、vps サーバに相乗りさせるのではなく、別にさくらのレンタルサーバを借りました。apacheの設定方法等を習得する必要がありませんし、vpsのリソースをapacheと分け

合う必要が無くなるので。ホームページのhtml ファイル、css ファイル等も調べながら設定し、画像も準備しました。

あと、構想を思いついたときに妄想していたサービス名の.comドメインは、すでに他者に取得されていたのですが、どうも使っている風にも見えなかったので、whoisで出てきたメールア

ドレスに連絡して交渉し、幾ばくか払って買い取りました。

ようやく完成

結局、足かけ18か月。ようやく完成。

楽天市場の家具を、幅x奥行x高さ(家具サイズ)で検索できる、楽天市場・家具カテゴリ専門の検索エンジン

カグサイズ検索

http://kagusize.com

この商品数規模（データ収録約30万アイテム）で、1センチ単位で家具のサイズ指定検索が可能な手段は、商用サービスも含めて、ほかには存在しないと思います。

kanzen21と違って、エロじゃないから華はないけどね。。。

カグサイズ 検索が提供する価値について

ちなみに冒頭で少し書いたきっかけですが、就職して独り暮らしを開始したときに、新しい家にピッタリサイズの家具が欲しかったのですが、これが楽天で探すのは至難の技でして。

楽天で家具を探してみようと思った人には判っていただけると思うのですが、楽天では、価格では範囲指定やソートができても、サイズでは検索出来ないんです。

これは、楽天では、商品のサイズ情報は商品の自由記述欄に記載することになっているためで、商品ごとにサイズの記載方法がバラバラのため、検索が事実上、不能となっています。

家電製品とかに関しては、種類が少ないこともあり、メーカーのホームページとかでサイズを確認した上で、商品型番で検索すればいいので、それほど問題にはならないのですが、家具

って、種類が非常に多く、型番もあったり無かったりで、家電のようにサイズを調べることができません。

しかも、サイズが非常に重要な商品です。なんて不便な！

・・・ということで、カグサイズでは、楽天の商品ページにいろいろな書式で書かれているサイズ情報を拾って解析して正規化し、範囲指定やソートして検索ができるようにしています

。

また、単に寸法サイズを拾うだけでは、梱包サイズとか引き出し内寸とかも引っ掛かってしまうので、それらは出来るだけ排除して、商品の外寸が優先して引っ掛かるよう、アルゴリズ

ムを調整しています。

単位（センチとミリ）に関しても、商品ごとにバラバラ（単に単位だけでなく、商品説明のどこに"センチ"とか"ミリ"と記載しているかについてもバラバラです。）なので、サイズ表記

の前後の状況をみて、正しいと思われる単位で拾うようにしています。

その他

あと、変わった使い方としては、欲しい家具の価格比較みたいなこともできます。

家具は、同じ商品でも、店ごとに型番が違ったりすることがよくあり、簡単には価格の比較が行いづらいジャンルの商品です。

しかし、型番は違っても、同じ商品なら原則、サイズは同じですから、欲しい商品とまったく同じサイズで検索をかけると、同等商品があるのかどうか比較しやすい・・・といった使い

方もできます。

おわりに

と、そんな感じで、しがない事務職リーマンが作ってみた、ニッチな用途の検索 webサービスを、サービスインさせて頂きました。

一般に公開されていて、誰でもアクセスできる情報でも、ニーズが有りそうな切り口の条件で検索性を高めれば、新しい価値を創造できるんじゃないかという実験です。

もしよろしければ、ぜひ、使ってみてくださいー。それでは！

----------

カグサイズ検索

http://kagusize.com

追記

アップ直前の変更により、最大サイズの指定がうまく働かなくなっていたため、修正をしました。ご指摘有難うございました。

Permalink | 記事への反応(3) | 18:34

2011-11-16

■Google Location ServerからのWi-Fi 情報削除とかのまとめ

Google、WiFi AP位置情報データベースからのオプトアウト方法を公表。SSIDの改名を求める -- Engadget Japanese

Google が公表したオプトアウトの方式は「アクセスポイントの所有者に対して、名称 (SSID) を末尾が " _nomap " で終わるように変更することを求める」もの。たとえば SSID が " Jitaku_AP " だった場合、無線LAN 機器の設定から " Jitaku_AP_nomap " に変更することになります。

ブコメには「Googleが勝手に盗んだのにこっちがオプトアウトしなきゃいかんとは何事だ」というものが多いが、それらは問題を根本的に誤解している。

(もしかすると総務省、ストリートビュー車の無線LAN傍受でGoogleに指導。再発防止策と日本語で周知を要求 -- Engadget Japaneseの件と混同している人がいるのかもしれない。これはビーコン信号ではなく通信内容そのものを傍受していたという話で、基本的には別件である――但し、法解釈によっては同じ問題ともなり得るし、根底に共通している部分はある。これは論点がズレるので、ここでは完全に別件として扱う)

Googleだけの問題ではない

そもそもの問題は、Wi-Fiの仕様において、Wi-Fi 機器のMACアドレスが強制タレ流しになっていることにある。これは例えばSSID ステルスの設定でも止めることはできない。

高木浩光＠自宅の日記 - 無線LANのステルス機能ではPlaceEngineに登録されるのを阻止できない (※同記事脚注4も必読)

つまり、あくまでGoogleは垂れ流されている情報を集めたに過ぎないということである。垂れ流されているものなら勝手に集めてもいいのかという論点はあり得るが、その点についてはGoogleだけを責めても全く意味がない。誰であれ収集は可能だからだ。「しかし、他の誰がそんなことをするのか？」との反駁には「はい、PlaceEngineがしています」が答えになる。仕組みは全く同じだ。PlaceEngineは、Googleのような巨大企業でなくてもこの技術を商用レベルにまで持って行けるということを既に証明している。

つまり、この問題は「GoogleのDB から削除してもらう」だけでは全く解決しない。

(追記: どうもこの節の表現は誤解を招いたようだ。「できるからやってもいい、Googleは悪くない」という意味ではない。その議論があること、今後も必要なことは承知の上で、そもそも「できる」こと自体が根本的な問題であり、しかも各国の現行法において確実に違法な行為ではないということが重要だ。何度でも言うが、Googleを憎んでも問題は全く解決しない。あくまでここでは問題の本質を理解することと、現実的で効果的な解決方法について考えたい――もちろん、GoogleやAppleやMSなどを相手取って世界中で訴訟を起こす、というのも一つの手だろう。今のところ強制力を持ちたいなら勝訴の判例を作るしかないし、勝訴すれば抑止力を備えた最強の解決手段になる。どうぞ。)

考え得る対応策

ひろみちゅ先生のご意見(2007年版)より。

高木浩光＠自宅の日記 - PlaceEngineの落とし所について考えてみる

(a) 「申し出のあったMACアドレスは削除し、今後も登録しないようにする」という対応
技術的にはすぐにでも対応可能。ただし、本人以外の手によって無差別に大量のアクセスポイントを削除するという妨害行為を防止できないかもしれない。
PlaceEngineを利用していない人（PlaceEngineの存在さえ知らない人を含む）に対して、そのような手段が用意されていることを周知しなくては問題は解決したといえず、十分な周知は困難と思われる。
新たなアクセスポイントを購入するごとに削除手続きをする必要があることについて納得しない者が、「私のものは登録するな」という主張で争ってきたら対応できない。

(b) 「SSID ステルス設定にしているアクセスポイントは、登録拒否の意思があるとみなして、登録しない仕組みとし、また、既に登録されているものは次回検出時に自動的に削除されるようにする」という対応
技術的には容易に可能。しかし、そのような仕様であることを周知しなくてはならない。PlaceEngineを利用していない人（PlaceEngineの存在さえ知らない人を含む）に対して周知しなくては問題は解決したといえない。
このようなルールが万人に受け入れられるものかどうか不明。

(c) 「暗号化設定されているアクセスポイントは登録せず、他は削除する」という対応
暗号化していないアクセスポイントは特定の相手方に対してのものではないとみなすことで、電波法59条の問題をクリアできるかもしれない。
しかし、これを採用すると登録アクセスポイント数が減ってしまい、位置の測定制度が低下する。

(d) 所有者の同意を得たアクセスポイントしか登録せず、他は削除する」という対応
法的には最も安全な対応。技術的にも、MACアドレスリストを提出してもらうことで対応可能。
実質的には公衆無線LANだけしか登録できなくなり、登録数はごくわずかとなってしまう。

まず、ブコメで要求されているような「オプトイン」の仕組みは(d)だが、これは実現性に乏しいと考えられる。どうやってオプトインするんだという問題もあるわけだが、そもそも「誰でも収集できる」のだから、個別にオプトインなど根本的に不可能であるし、無意味でもある。例えGoogleが独自にオプトイン方法を用意したとしても本質的な問題は全く解決しないばかりか、ユーザに「Googleでオプトインしなければ安心」という誤解を与えかねないという懸念もある。

(b)や(c)についてはサービスプロバイダ側の設計の問題であり、ユーザは関与することができない。

今回Googleが提案した方法は、(a)の改良型(あるいは(a)～(c)のハイブリッド)というべきものである。再掲。

Google が公表したオプトアウトの方式は「アクセスポイントの所有者に対して、名称 (SSID) を末尾が " _nomap " で終わるように変更することを求める」もの。たとえば SSID が " Jitaku_AP " だった場合、無線LAN 機器の設定から " Jitaku_AP_nomap " に変更することになります。

オプトアウトという意味では、(b)のSSID ステルス法も同様である。それよりも_nomapが優れているのは、これが「うちのAPをマッピングしないでくれ」という明確な意思表示となるからだ。

SSID ステルスや暗号化をオプトアウトフラグとして扱うかどうかは単に実装に期待するしかないが、_nomapがデファクトになれば、万一オプトアウトが実装されずにマッピングされた際「俺は一般的に合意されている方法でマッピング拒否の意思表示をしていたぞ！」と法的に主張できる可能性がある。Wi-Fiの規格に変更を加えるものでもなく、この用途以外に意味を持たないことから、デファクトとして広まりやすいだろう。確かにSSID変更が困難なケースは考え得るが、しかしこれ以上に簡単な代案は私には考えられない。

これで解決？

解決しない。

ここに挙げたどの方法を採ろうとも、原理的に「サービスプロバイダのマナー」程度にしかなりようがないからだ。オプトインですら、である。robots.txtを無視するクローラを根絶することができないことにも似ている。そしてそれは、Googleの責任ではないし、Googleに責を負わせても全く意味がない。

最初に述べた通り、そもそもの問題は「Wi-Fi 機器がMACアドレスをタレ流しにしている」ことであり、これはWi-Fiの仕様改訂で対応しないとどうしようもない。また、対応したとして、新方式へ完全に置き換わるまでには気が遠くなるほどの長い時間が必要だろう。WEPすら未だに根絶できないというのに。

また、Wi-FiはMACアドレスをタレ流しているぞ、これは防げないぞ、という啓蒙ももっと必要だろう。一般ユーザには何のことやらさっぱりわからないと思うが、それでも啓蒙しないよりはマシである。

一つ付け加えるなら、個人的には、デファクトとなり得るオプトアウト方法を提示したGoogleさんはもうちょっと褒められてもいいと思う。これはAppleやPlaceEngineが今までしてこなかったことだ。

おまけ

ちなみに、Google Location Serverでは既に「2つ以上のMACアドレスがDBとマッチしないと位置情報を返さない」などの様々な対策を実施済のようである。これにより、もしMACアドレスやSSIDが漏れたとしても、その所在地をこんな方法で正確に掴むことは困難になっている。PlaceEngineは知らない。

もう一つ。この問題は、Wi-Fiだけに起こりうる問題ではない。ひろみちゅ先生は本来この問題をRFIDの普及によって起こりうる問題として予測していたそうである。この辺りもっと知りたい方はgoogle:高木浩光 PlaceEngineとかして勝手に読んでください。

追記

PlaceEngineより、Googleの提唱する_nomap方式のオプトアウトに準拠する旨のリリースが出た。

http://www.placeengine.com/

PlaceEngine データベースにおける無線LAN アクセスポイント(AP)情報の取り扱いについて
Google社から、Google Location Service のWi-Fi 位置情報データベースから無線LAN アクセスポイント情報を削除するためのオプトアウト方法（SSIDに"_nomap"文字列を追記する方法）が公開されました。
PlaceEngine サービスにおいても、Google社のオプトアウト方法に準拠する形でPlaceEngine位置推定データベースから該当するAP 情報を削除する運用を実施する予定です。具体的な実施時期や運用方法については、別途お知らせします。
また、PlaceEngine サービスにおいては、以前より、主にモバイルルーターなどに対応するため、オプトアウト(削除)したいMACアドレスをサポート窓口へ送付して頂く方法などをとっておりましたが、こちらについても引き続き運用していきます。（「位置推定の改善」をご参照ください）

これこそがまさにGoogleの狙った効果だ。素早くデファクトになり得る。すると次の段階として、Wi-Fi 機器の製造者が設定画面に「☑位置情報サービスからオプトアウトする(SSID末尾に_nomapを付加する)」のような項目を用意することが標準化する、などといった流れに進むことも期待できそうだ。これには一層の啓蒙活動が必要になるが、十分に現実的な範囲だ。

そして、「Wi-Fiだけの問題ではない」と書いた通り、あっさり同種の別問題が持ち上がってきた。今後、この手の問題はゴロゴロ出てくるだろう。そもそもどこまでが許される範囲でどこからが許されないのかといった大枠の議論も含め、どんどん問題にして世界中で合意やルールを形成してゆく必要がある。先は長い。

Permalink | 記事への反応(0) | 14:12

2011-10-22

■Twitterの書き込みを2chに自動 転載するシステムが構築中

隠居のボケ防止を手伝おう

http://dso.2ch.net/test/read.cgi/sakhalin/1319173391/

2 ： ◆G3E3Ee8IMBFg-隠居♪ (WiMAX)：2011/10/21(金) 14:26:26.78 発信元:49.134.166.55 0
まずは、こんなのを作ってみようと思う。
1. スレ立てる。　スレタイに #abcd と入れると、　「 #abcd を暖かく見守る」
2. Twitter をリッスンして、#abcd がなんかつぶやいたら、自動的にそのスレに書き込む。
3. あとは普通のスレ。(スレに書き込むだけで#abcdへのtwitになんてできる?)
40 ： ◆G3E3Ee8IMBFg-隠居♪ (WiMAX)：2011/10/21(金) 17:48:05.69 発信元:49.134.166.55 0
できた
自分の作ったアカウント ehenfox
これで nida_run をフォローした。
そしたら nida_run が何かつぶやくと
ehenfoxにnida_runのつぶやきがでてくるようになった。
と同時に私の geteew.cgi にも流れてくるようになった。
ここまで大成功。ﾉﾊｽﾞ
55 ： ◆G3E3Ee8IMBFg-隠居♪ (WiMAX)：2011/10/21(金) 19:21:29.22 発信元:49.134.166.55 0
ツイッター観察＠2ch 掲示板ボケ防止(1)
http://raicho.2ch.net/twwatch/

こんなのを作るらしい。

#abcdってあるけどハッシュタグを追跡するんじゃなくて、@abcdというユーザーのツイートを転載するようにするらしい。

今の段階ではとりあえず@ehenfoxをブロックしておけば転載されないと思う。

Twitterはバカ発見機として活躍中だけど、発見後はせいぜいRTやTogetterやはてブで弄られるくらいで大して盛り上がらなかった。2chのネットウォッチ板にもTwitter ヲチ総合スレはあるけど、あまりに対象が多すぎて拡散気味になり盛り上がることはあんまない。注目案件で個別スレが立つこともあるけどたまにだし、大物（大馬鹿？）案件だとニュー速→まとめブログで料理してもらえることもあるけど。

これからはTwitterで発見されたバカが、2chで個別にカジュアルに祭られるようになるのかなぁと思います。

ところでこれわざわざ対象をフォローしてhome timelineを取得してるみたいだけど、リスト使えばいいのにね。フォローだと上限とか制限きついし。

クローラのアカウント書いちゃってるけど隠して作り直してプライベートアカウントにして、リストも鍵かけておけば、ステルス転載システムが作れるなんて入れ知恵しちゃ駄目だよ。

Permalink | 記事への反応(2) | 01:34

2011-06-02

■[spam][seo]ブラック企業　 株式会社マイスタンダード

馬渕教室、新生ホームサービス株式会社、日本eリモデルなどのSEOを担当していると思われる株式会社マイスタンダード（代表取締役　武智建樹）は、ブラックな企業らしいです。

日本のブラックハットSEO 会社一覧に株式会社マイスタンダードが掲載されています。

インデックス削除URL タイトルサービス名称会社名代表者名住所備考
http://www.seo-rankup.com/otameshi.html 業界最安値！関連検索ワード削除１キーワード１万円関連検索ワード削除お試しプラン株式会社マイスタンダード武智建樹大阪府大阪市淀川区西中島7-7-3-702 　
http://xn--seo-zj4bydb9a4c4c4k.com/?p=48

インデックス削除URL	タイトル	サービス名称	会社名	代表者名	住所	備考
http://www.seo-rankup.com/otameshi.html	業界最安値！関連検索ワード削除１キーワード１万円	関連検索ワード削除お試しプラン	株式会社マイスタンダード	武智建樹	大阪府大阪市淀川区西中島7-7-3-702

ブラックハットSEOとは

ブラックハットSEOとは、SEO（検索エンジン最適化）における用語で、悪質な（非倫理的な）手法を駆使して検索結果ページ（SERP）の上位に表示させる技術または施策のことである。
ブラックハットSEOの典型的な手法としては、ユーザーに気づかれないようにWebページ内にSEO 目的のキーワードを大量に埋め込んだり、ユーザーがアクセスしてきた際にWeb クローラが巡回した Webページとは異なるWebページを表示させるような仕組みを埋め込んだり、コメントスパムなどの強引な手法で大量のバックリンクを獲得しようとしたりする方法がある。検索エンジンの多くはこうした手法はポリシーに反するものとしており、通常は何らかのペナルティが課されるが、悪質なWebサイトと判断されず検索結果ページの上位に表示される場合がある。
http://www.sophia-it.com/content/%E3%83%96%E3%83%A9%E3%83%83%E3%82%AF%E3%83%8F%E3%83%83%E3%83%88SEO

http://anond.hatelabo.jp/20110527113513

Permalink | 記事への反応(0) | 03:08

2011-01-27

■どうもよくわからない

岡崎の図書館の件の議論。

議論をリードしている人の意見で理解出来ない点がある。

疑問の一つ目、「MDISは不具合を認めるかどうかが大問題である」。これの根拠となっている点はいくつかあったかと思うのだけれども、

たしかに、MDIS自身「不具合」という表現で（できれば図書館も、多分無理だけど警察・検察も）認めてくれた方が社会への説明は楽だと思うけど、どの程度そうなのか？

（まともな技術者からは）「こんな実装は異常である」というのはいい。しかし…カーリルとNECの間でも類似の問題が起きている。そっちの実装は不明だが、今回の観点でいえばそれも「不具合」であった可能性が十分ある。MDISだけが「不具合」であることの表明を要求されてNECは問われない、というのはそれで本当に解決するのだろうか。NECでも見つかったのではという疑いがある、というのは、言い換えれば「実装のバリエーションはともかく、技術的に貧弱なサーバがある程度権威のある機関でも平気で公開されているような世の中である（他にもあるんじゃね？）」という話になりかねず、議論として「MELIL方式は例外中の例外だからそんなのを基準にクローラを考えるのはおかしい」という議論にたいして、少なくともその説得力を減じている気はするのだが。なぜNEC批判はこうも目立たないのか。いや、NECを批判したところで、「一定数貧弱サーバの存在する（と仮定すると）」現実は変わらない。この現実を肯定すると、技術者なら影響がわかるはずだ、未必の故意云々という理屈の後押しをしてしまわないのか（その理屈が正しい、と言う意味ではなく、少なくともそういう意見の説得力がまして支持者増えるのでは、と）、この点は「クローラ技術の萎縮」と関係ないのか、それに対してどうアクションすべきなのか、どうも向かう方向性が見えない。

疑問の二つ目、「警察はなぜサーバの不具合を調べなかったのか」。不具合という表現はともあれ、「（未必の故意なのではなく）本当にlibrahack氏がサーバの異常に気づいていたかどうか」を本人談を鵜呑みにせず（技術者なら今まで流れてきている情報だけで多分気づいていなかったのだろうと推測がつくが、警察としてはそれだけでは不十分という議論は成り立つ）、検証するためには、「サーバで何が起きていたのか」を調べてそのメカニズムを理解－－理解することが必須だったとは言わないまでも、理解していれば「やっぱりlibrahack氏が気づいていなかったのでは」という一定の状況証拠になるであろうことは理解できる。

しかし、「クローラのアクセスが非常識ならサーバに不具合がなくても業務妨害」なのだから、（本音か建前かは別として）未必の故意も含めて主張している相手（警察・検察）に「なぜサーバの異常を調べなかったのか」と質問しても「必要ない」と言われるのは当然だ（圧力として質問する意味がないと断言はしない）。それも含めて、警察に「なぜサーバの異常を調べなかったか」と質問して失敗した人は、そもそもそれを聞くことの意味を理解していたのだろうか、という疑問がそもそもあって、単に聞き方が悪かったという問題という風には思われないのだが。

どうも「警察はなぜサーバの不具合を調べなかったのか」と問うことにどのような意味があるのかについて、第三者を説得する目的という意味で十分な説明がなされていると思えるものを見かけないのだが、皆は疑問を感じないのだろうか？

私の疑問について分かりやすい説明をしてくれる人がいるなら、それは意味があるとおもうのだがどうだろう（お前が馬鹿だ、と批判するのは勝手だが、この問題の解決にはそんな煽りは多分役に立たない）。

Permalink | 記事への反応(0) | 12:02

2011-01-18

■http://anond.hatelabo.jp/20110118092312

これ、Twitterの話題の多さに対して触れてる人の少なさが際だってるよな。何か陰謀めいたものすら感じる。この件に触れた奴は何者かによって密かに抹殺されているんじゃないかとすら。

実際はそういうわけではなく、こういう事らしい。

http://d.hatena.ne.jp/kazuhooku/20101012/1286901973

[メモ]TwitterやFacebookのURLには、なぜ#!が含まれるのか (SEOとAjaxのおいしい関係)
Ajaxを使うためにはページ内リンク (hash fragment=URLの#以降) を使うのが一般的*1
hash fragmentはサーバに送信されないから、JavaScript非対応のブラウザだと動作しない
特にサーチエンジンのクローラ等で問題になる*2
そこで Google は、#! が含まれる URL を hash を含まないものに読み替える仕組みを提唱している。例えば「www.example.com/ajax.html#!key=value」のサーチエンジン用URLは「www.example.com/ajax.html?_escaped_fragment_=key=value」になる。
TwitterやFacebookはこの仕様に従うことで、Ajax な UI と SEO を同時に実現している、というわけ。ということを調べたなう。
参照: Getting Started - Making AJAX Applications Crawlable - Google Code

「アドレスの変更」という最も目に見えるポイントなのに、上記以外にまともにその理由を考察しているサイトが全然見あたらないってのが、情けないというかむかつくというか。

Permalink | 記事への反応(1) | 10:29

「クローラ」を含む日記

■今気付いたんだけど

■いまだにadsenseの審査が終わらない

■カリビアンコムに入会して動画を全部ダウンロードした

■エロサイトを立ち上げた引きこもり～魂の物語～エピソード6

検索エンジンとサイトの関係

インデックスされない3つの原因

クローラーにクロールされやすくなっていない

Googleのガイドラインに違反している

クローラー制御タグや記述がある

まとめ

関連記事

■Rails3 とTwitter Bootstrapで、オシャレなエロサイトをつくってみました。

Twitter Bootstrapとは？

クローラ作り

RailsでBootstrapを使う。

タグリスト実装

簡易ブックマーク実装

アダルト動画を大画面で見れるようにする。

サーバー選び

Nginx + Unicornを使おうとして結局やめる。

出来上がったサイト紹介

最後に

■簡単なクローラ作るならPythonだよ！

■食べログの「ステマ」批判そらす目的で「ステログ」開発?

■事務職リーマンがwebサービスを作ってみた話

アイデアときっかけ

やりたいことは非常に面倒だった

面倒なサービスをどう実現するか

検索エンジン周りの開発

kanzen21.comに衝撃を受ける

クローラ周りとかの開発

ようやく完成

カグサイズ検索が提供する価値について

その他

おわりに

追記

■Google Location ServerからのWi-Fi情報削除とかのまとめ

Googleだけの問題ではない

考え得る対応策

(a) 「申し出のあったMACアドレスは削除し、今後も登録しないようにする」という対応

(b) 「SSIDステルス設定にしているアクセスポイントは、登録拒否の意思があるとみなして、登録しない仕組みとし、また、既に登録されているものは次回検出時に自動的に削除されるようにする」という対応

(c) 「暗号化設定されているアクセスポイントは登録せず、他は削除する」という対応

(d) 所有者の同意を得たアクセスポイントしか登録せず、他は削除する」という対応

これで解決？

おまけ

追記

PlaceEngineデータベースにおける無線LANアクセスポイント(AP)情報の取り扱いについて

■Twitterの書き込みを2chに自動転載するシステムが構築中

■[spam][seo]ブラック企業 株式会社マイスタンダード

ブラックハットSEOとは

■どうもよくわからない

[メモ]TwitterやFacebookのURLには、なぜ#!が含まれるのか (SEOとAjaxのおいしい関係)

■Google Location ServerからのWi-Fi 情報削除とかのまとめ

(b) 「SSID ステルス設定にしているアクセスポイントは、登録拒否の意思があるとみなして、登録しない仕組みとし、また、既に登録されているものは次回検出時に自動的に削除されるようにする」という対応

PlaceEngine データベースにおける無線LAN アクセスポイント(AP)情報の取り扱いについて

■[spam][seo]ブラック企業　株式会社マイスタンダード