はてなキーワード: クローラーとは
「よろしい、ならば戦争だ」
デコイ(英語: decoy、Military dummy、囮とも)は、敵を欺瞞して本物の目標と誤認させる目的で展開する装備の総称。
Matt Cutts氏が指摘するように、順位を下げるために付けたリンクが、期待とは正反対に順位を上げる手助けをしてしまうこともあり得なくはありませんね。
リンクされているサイトではなく、リンク元のサイトがスパムかどうか判断していることをGoogleのゲイリー・イリェーシュ氏がMarketing Land のポッドキャストで明らかにしています。
この説明にもネガティブSEOの具体例をあげて解説していることから、ペンギンアップデートがネガティブSEO対策に力を入れていることがうかがえます。
目的は「はてな次郎」の文字列を自分で管理して、インターネット上に増やすこと。
セルフプロデュースでセルフブランディングするのがポジティブSEOの王道です。
現在、「はてな次郎」をGoogle検索したら1万件ヒットする場合、セルフブランディングした情報が3万件ヒットするぐらいを目指してください。
「はてな次郎」に関する誤情報が、検索結果の10ページ以下に沈めばとりあえず成功です。
「はてな次郎」という文字列をインターネット上で増殖させる作業を、手動ではなく自動で行うことも可能です。
(例)有名人を応援するファンサイトを作り、各ページのタイトルやヘッダーに「はてな次郎」の文字列を入れる。
このような方法で、100万ページ程度のWebサイトは自動的に作れます。
元データや加工方法を変えて、さらにWebサイトを作れば「はてな次郎」の文字列をインターネット上に1億個以上投下することも可能です。
アメリカ大統領選挙でロシアが情報操作を行っていたと言われている「ロシアゲート事件」を参考にして、SNSにデコイをばらまくことも可能です。
やりたい放題のGoogleをブッ飛ばすには、プログラミングが有効です。
頑張ってください。
元記事の仮名が変更されたので本記事の仮名も変更しました。(はてな次郎)
補足:
https://anond.hatelabo.jp/20171012023346
私の場合は情報商材屋に実績貸し(名義貸し)をしてしまい、怪しい情報商材の関係者として名前が出てしまった。
一応今はほとんど削除できたので、私が行った方法をざっと書いてみる。
自分も同じような対処をしたんだけど、Googleのクローラーがはやく回るサイトだとすぐに消えた
3年ぐらいずっと消えないページもあったんだけど、Googleボットに巡回してもらうために、そのページをはてブしたり、リンクを送ってあげたら1ヶ月ほどで消えた
■本名で色々なサービスに登録して検索結果1ページ目から追い出す
Twitter、Youtube、インスタ、About.me、ツイプロ、Google+など本名で登録できるSNSのアカウントを作り、それぞれのURLをはてブするなりしてGoogleに認識させると大体上位表示されると思う。
うまく消えるといいね
「無関係な他人の炎上に巻き込まれて誹謗中傷された挙句、元ページを削除しても永遠にGoogleの検索結果から消えない」
ということがありました。
最悪です。
Googleは全く対応してくれる気なさそうなので、万に一つでも増田で話題になってくれれば何か違うかもしれないと思って書いてます。
あと単純にWEBに詳しいはてな村の人たちの知恵を貸してほしい、マジで…。
経緯
同じ職場の似たような名前の別人(仮にはてな太郎とする)が悪事を働く
→これってはてな次郎(これも仮名だけど俺の本名と思って読んで)じゃね?という感じで、俺が犯人ということにされる
2)スレッドが過去ログ倉庫に行くのを待つ(変に燃料追加したくなかったので)
3)無事過去ログ倉庫に送られたが、「はてな次郎」の検索結果にスレッドがヒットしてしまう
スレッドタイトルはこれも仮で悪いけど
4)弁護士に依頼して、該当スレッドから俺の本名(はてな次郎)を削除してもらう
※※ここ重要なところ※※
6)まだページタイトルだけは検索結果に出るが、しばらく待てば消えるだろうと思って放置
7)一年待つ
8)……消えねえええええええ(しかも検索結果に1p目に表示される…)
何が困るって、該当スレッドからは「はてな次郎」っていう本名こそ消えてるんだけど、
知人が読んだら「これってはてな次郎じゃん」ってわかる内容なんだよね
「このレイプ犯ってやつ、企画課の一番背高いやつじゃね?」みたいな感じで
「一部上場企業に連続レイプ犯がまぎれていた件www」って出てくることを…
つらすぎ…
原因はおそらく、該当スレッドが、
Googleのクローラーにとってめちゃくちゃ優先度が低いため、
何年待ってもクロールされず、インデックス更新が行われないこと。
平たく言うと、クローラーってロボットがいろんなページをくまなく探して、
それを「インデックス」って読んで、検索結果に出るようにしてるっぽいんだけど、
「このページには はてな次郎 って情報がある」って誤ったインデックスが、
(か、そもそもGoogleのインデックス更新システムがバグってる)
だから今俺にできるのは
(2ch側に
「このページがクロールされるよう
って頼むことも考えたけど弁護士に「明らかに無理」って言われた)
以下、試してみたこと。
※※状況が複雑なのと、
「まさかGoogleの検索がそんなバカなはずがない」という正常化バイアスがあるせいで、
どれも効果なかったので一読してみてほしい
・ページ内に本名が実は残っていないか検索したら?ソースコードも
→CTRL+Fでくまなく探したけど残っていない
・どっかのページから「はてな次郎」ってリンク張られてるんじゃないの?
→そういう場合は「リンク貼られてます」って表示が出るらしいけどない
https://www.google.com/webmasters/tools/removals
→キャッシュとスニペットはもう消えてる。もう消えてる(二度目)
→何十回と試したけど効果なし
https://www.google.com/webmasters/tools/submit-url
→何十回と試したけど効果なし
ていうかこのページがまともに機能してくれれば全部解決じゃんかよなんとかしろよGoogle
・Googleに名誉棄損だから消してくれっていいよ ここからできるよ
https://support.google.com/legal/contact/lr_legalother?product=websearch&uraw=
→ここに最後の望みを託して依頼したんだけど、
結果からいうとマジで不誠実な対応しかしてもらえませんでした。
どれくらい不誠実かというと返信が全部コピペの上に、会話が噛み合わないの。
↓
返信(長いので一部抜粋)
このサイトに対して法的措置を講じられ、結果として問題の素材が削除された場合、
その変更が Google の検索結果に反映されるのはサイトの次回クロール後です。
ウェブマスターによる変更後、早急にキャッシュの削除をご希望の場合は、
ウェブページ削除リクエスト ツール(http://www.google.co.jp/webmasters/tools/removals)から
↓
俺、「だからそれはもうやってるって。
クロールしてくれ」
↓
返信(一部抜粋)
対象の URL がご指摘のキーワードの検索結果に表示されないようにすることはありません。
Google では、ご要望のあったような形で特定のキーワードに対する検索結果を変更することはしない方針です。
お名前を検索したときに表示されるサイトは、検索キーワードの中の単語の組み合わせ、
文書の内容、その他の数多くの要素に基づき、Google の検索アルゴリズムによって関連性のある結果として選定されたものです。
ときには、検索キーワードとの関連性が最も高い結果であっても、検索キーワード内の単語そのものを含まないこともあります。
↓
俺、「検索結果を恣意的に変更してくれって言ってるんじゃない、
↓
返信(一部抜粋)
検索結果の情報がサードパーティのウェブページにはもう表示されていない場合は、
Google のキャッシュが徐々に更新され、最新のコンテンツが検索結果に反映されるようになります。
↓
という流れです。
検索結果をいじったりできないっていうのはわかるよ!
上のメッセージでは省いているけど、
「必要であれば顔写真付き身分証明書などの書類も提出できます」
おそらく、
という反応があると思うんだけど、
Google検索フォーラムというところで過去事例を探したところ、
同じような苦しみ方をしている人がたくさんおり、
三年以上待っても消えないという人もいました
一例
https://productforums.google.com/forum/#!topic/websearch-ja/jR3-1mfWciA;context-place=starred
https://productforums.google.com/forum/#!topic/websearch-ja/42c3-xqvgn4;context-place=starred
https://productforums.google.com/forum/#!topic/webmaster-ja/Q5qv_7d8skw;context-place=starred
わかりやすいのだけ…
これだけ定期的に同じような苦しみ方をしている人間がいるので
上記フォーラムで一番参考になったのはこれ↓
https://productforums.google.com/forum/#!topic/websearch-ja/ORA9iVvsa2g;context-place=starred
> 「2010年の7月なので、既に3年以上経過してい」ようと、そのクソ中のクソサイト/ページがグーグル検索システムにとって1/9999京の価値もなければ、10年でも50年でも、1度も再クロールされず、したがってその不都合な文言は検索に出続けるでしょう — いま現在まさにそうであるように。
とのことです。
10年後も50年後もわけのわからない汚名を着続けるわけですね ははっワロス
人力検索はてなでは思ってた百倍くらい親身になって考えてくれてマジで感謝だった
お前らがいなかったらやばかった、本当ありがとう
http://q.hatena.ne.jp/1507301385
口調全然違うけど俺だ
2chには何も期待してなかったけど、
もしくはGoogle社員の目に届いてGoogle社員が猛省してくれますように
だから頼む!!!!!みんなブクマしてくれ!!!!!!ください!!!!!!お願い!!!!!!!!
以下余談
・厳密にいうと、ページの中にはてな次郎の「はてな」だけは残ってるんだけど、
それって、「はてなって食べると美味しいの?」みたいな、俺の名前とは無関係な文脈で、
そんな珍しい苗字じゃないしそこだけで検索1p目にヒットするのはおかしいと思う…
ページの中に「観光」っていう言葉はないけど当然連想されるよね~みたいなことだったら
まだ諦めもつくんだけど、そういうんじゃない
っていうか俺の名前で検索して俺本人(いや俺は犯人じゃないんだけど)がヒットするのそのページだけだし
・だんだん「Googleそんな悪くないのかも?俺の被害妄想かも?」って気もしてきた
でも今マジでへこんでるのでブコメであんまり厳しく言われたら悲しすぎるのでそういう場合はやんわり注意してください…
でも俺かわいそうじゃない…?
※※追記
みんな本当にありがとう…
忍術の攻撃力は120、タイタンの攻撃力は110なので、魔力の差はあるが同等。
しかも無効化されることもほとんどなく、先制で2人で投げれば一瞬で敵を殲滅できる。
忍術を大量に買っておけば、タイタンと違ってMP切れの心配もない。
そのためボタン押しっぱなしで戦闘がサクサク進み、ギルも経験値もABPも稼げる。
投げるを覚えたら召喚士に変えると威力が上がるが、後衛も忍者にして高い素早さから全員で投げまくるという手もある。
暗闇・カエル・麻痺・MP切れ・レベルダウン・老化・睡眠・小人が該当。
これに匹敵するのは調合だけだが、調合はギルの消費が激しいので、第2世界後半にならないと多用できない。
融合中は安全性のために敵を無力化しなければならないが、青魔法には敵を無力化する技がいくつかあるので、何かしら効く。
威力不足感が出てきた頃に投げるを覚えるので、召喚士に変えて属性強化忍術でタイタン以上のダメージを与えられる。
第3世界のピラミッドまでは、銭投げ以外の全体攻撃では最高威力を誇る。
その上で高い素早さ+アビリティ枠があるので、そこらの前衛よりも強い。
ツインランサー二刀流はエクスカリバー両手持ちに匹敵するほど。
中盤以降はツインランサー二刀流で殴るか忍術を投げるかになるだろう。
モンクで進行して格闘を覚えた後に、青魔法を覚えるまで青魔道士に格闘を付けて進行する。
1人だけでは忍術で殲滅できないので、バッツとファリスを育成すること。
火力船あたりではナイトの両手持ちの方が2倍ほど威力が上なので威力不足感があるが、カルナック城と古代図書館はファイラ無双(※)なので、苦しいのは火力船だけである。
※…エンカウントは全逃げ、宝箱は2人で属性強化ファイラが手っ取り早い。シヴァも黒魔道士で倒せば、古代図書館までの道中で黒魔法L3を覚える。
まだ古代図書館時点では忍術も買えないのでそれほど活躍しない。
忍術威力上昇・後列ゴブリンパンチ・高い素早さからの補助と、相乗効果で強くなるのが忍者だけ。
100ABPだけで全魔法が使えるようになるという点でも、青魔法が優れている。
後列に下げられるので、忍者の打たれ弱さを解消できる。
必中・隊列無視・無属性・武器特殊効果なし・二刀流時防御力半減という特徴があるので、どんな敵にも針千本の如くダメージが通る。
スマホ版以外ではチキンナイフの攻撃力が0扱いになってしまう点に注意。
ジャコールの洞窟のナッツイーター×3とムーアの大森林のガジェラガジェリに使う。
敵を無力化する系の技。
戦闘が長期化しそうな時に使うと良い。
自分の現在HPの1/2を吸収する。(GBA版に限りフル回復になるまで吸収)
後半になると当たらなくなってくる。
敵を無力化する系の技。
強力すぎるためか、耐性持ちが多いように思える。
必中ではないし、自身は瀕死だし、リスクの割に低威力なので使いづらい。
利便性は前述の通り。
弱点を突いても忍術の方が強いので使わない。
いくつかのボスに効きやすいので、先制で掛けて殴って瞬殺できる。
後半だと無耐性でも効きにくくなってくる。
サンドウォームも一撃。
第二世界ではサンドクローラーに有用だが、一撃では倒せないのでブレイクの方が手っ取り早い。
最初から効くのは蘇生後アルケオエイビス・アダマンタイタイ・石像くらい。
アトモスは黒の衝撃、エクスデスはレベル2オールドも組み合わせる。
防御力を半分にする。
普通に殴った方が手っ取り早いので使わない。
敵を無力化する系の技。
MPを半減させる。
敵を無力化する系の技。
レベルを半分にする。
デスクローより当たりやすいので、ギルガメッシュ1回目に使う。
火遁の術の方が強いので使わない。
炎の指輪で自己回復という手もあるが、わざわざそれをすることもないだろう。
自分のHP分の全体回復ができ、リフレクも貫通し、青魔法なのでミュートでも使える。
白魔法が不要とまではいかないが、高い素早さの忍者が使えるのはかなり便利。
自己融合でMPも簡単に回復できるので、ケアルラのごとくガンガン使える。
2回目のギルガメッシュ戦でミュートをかけた時の全体回復に便利。
期間限定ではあるが、手裏剣や属性強化忍術を除いて最高威力を誇る。
アルケオエイビス・ギルガメッシュ・アントリオンもこれ連発で倒せる。
レベル系な上に即死でもなく耐性無視でもないので、ほとんど役に立たない。
敵を無力化する系の技。
黒の衝撃を使えば必ず効く。
アポカリョープスやエクスデスにも有効だが、もっと手っ取り早い倒し方がある。
敵を無力化する系の技。
スリプルは殴らない限り永続するので、ゴブリンパンチや忍術で倒せる。
エアナイフを持って使えばそこそこの威力は出るが、忍術やツインランサー二刀流の方が強いので使わない。
敵を無力化する系の技。
実質的には打撃を無力化するだけ。
敵を無力化する系の技。
融合時の敵の無力化に使えるが、ダメージで敵が死んでしまうので最終手段にすること。
麻痺は一部ボスにも効くが、麻痺が効くボスは他に瞬殺手段があるので今更ボス戦で使うことはない。
味方全員がプロテス+シェルで、ほとんどの攻撃に対してダメージ半減。
ネオエクスデス戦やクリア後ボスあたりではとりあえず使っておく。
エフェクトが長い・対象ランダム・耐性で効かない・味方も死ぬ。
いいことがまったくない。
ここを読む人はみんな知っているかもしれないけどWeb企業の闇を書いておくね。
Web企業が運営するサイトは基本的に広告収入で成り立っている。
広告収入を増やすためにはPV, UUをあの手この手で増やす必要がある。
基本的にはこれ。
PV、UUを増やしお金にするために一番コスパが良い手段を選ぶのが資本主義。
何かを実現したくてWebサービスを開始したはずなのに、気付いたらSEO対策を行っている。
タグなどの調整はまだしもおすすめというリンク集を作ってグーグルのクローラーにとって都合の良いものを作っていく。他にも盛り沢山。
そうなってくると特定のワードでの検索順位を気にするよういなり、メインのコンテンツを増やすことよりもSEOにリソースが割り当てられるようになってくる。
バナー広告は良い。
ネイティブ広告が厄介。ほとんどユーザーを騙しているに近い。気付いたら広告読んでいた経験とかあるでしょ。
一般ユーザーは気付かないからね。ここまでくると行動操られている感じにならない?
みなさんご存知のキュレーション。本当に闇。
上記をまとめて出来上がったサイトといっても過言ではない。
キュレーションサイトを運営している人たちは運営しているサイトのコンテンツには詳しくない。
それなのに金をかけてそれっぽく見せているのがたちが悪い。
安いライターにSEO対策マニュアルなどを読ませてSEO対策バッチリな記事を書かせる。
記事といっても他のWebサイトから「引用」という自己主張のもと記事の内容や写真を「引用」して、それっぽく記事を見せている。
これで集まった人をカネに変える。アプリへ誘導してネイティブ広告への誘導も忘れない。
DeNAの問題があったけど他のサイトはしれっと運営継続しているからね。
キュレーションについてはユーザーがこの事を知っているのであろうか。
ユーザーのリテラシーの低さを狙ってSEO対策を行うことでユーザーの流入に繋げることで、本当に良質なコンテンツが発見されにくくなっているのではないか。
Googleさんにはキュレーションサイトは一括で一気に評価を落としてもらいたい。
インターネットでの広告がお金になると分かってからインターネットは変わった。
昔のインターネットを返して欲しい。
Welqの問題でウェブの著作権関連が盛り上がってるので、IT素人が考える欲しい技術を書いてみた。技術に詳しい人から見るとどうなんだろ?難しいかな?
できれば掲載した瞬間から料金が発生し、掲載期間が長いほど上乗せされていくシステムがいい
(訪問者が多い新着期間だけ荒稼ぎして怒られたら削除するだけのアフィサイト多いから)
たとえば、あらかじめGoogleとかに著作権者情報を登録しておく。
よそのサイトに無断転載されて、掲載されてる画像のファイル名や含有データが変更されてても
登録情報から元の著作権者情報を呼び出してマウスオーバーとかで表示してくれる。
Googleのクローラーをはじいてるサイト(httpsのサイトとかだっけ?)だと効果ないのかも。
Tumblr、Pinterest、Facebook、Twitter(RTじゃないツイート)など、違法に共有される可能性が高いサービスには特に欲しい機能。
これらのサービスで画像を転載すると元ファイルの情報(著作権者名とかサイトURL)が画像の下部あたりに表示される。
いずれにしても多分サーバー単位で管理しなきゃならないから難しいのかな。
自分のサイトやツイッター等にアップされた場合だけ除外して、他サイトに転載されたら料金が発生したり情報強制表示になる、というのが理想なんだけど。
ただ公式サイトに提供した画像でも別の販促サイトに使われたりするし、電子書籍になったりとか考えると現実的じゃないのかね……。
スキャンされたりスクショ取られたりテレビ画面を撮影したりした無断転載であっても、現在の技術であれば「画像Aと無断転載画像Bは同じ画像」だと自動で認識できるらしいよね
(Youtubeとかでテレビ番組が消されるのに使われてる技術とか)
画像の一部だけ切り取ったり反転・色変更等を行っても元画像として認識する技術もあるとはどっかで読んだ。
いち著作権者としては、画像の拡散自体を止めたいわけじゃないんだよね。宣伝になる場合があるのはその通りだし。
問題は、多くの場合で著作権者や作品の情報と切り離されて画像だけが使われてしまうのと、アダルト系や2ちゃんまとめ、詐欺など違法だったり印象の悪いサイトで使われること。
そして、どれだけ拡散されて宣伝になったとしても、実際に宣伝効果がどれだけあったのか計測する方法がないのでビジネスに活かせない。
なんとかならないじゃろか。
サバイバル部の同好会への格下げを阻止するため、縦ロールのお嬢様は生徒会本部に乗り込んだ。
生徒会室に待ち受けていたのはディーゼル排気音に聞こえた生徒会三人衆。すなわち、
「リフトの書記!」
「そして、ユニックの副会長!!」
乗り物ごと待ちかまえていた三人に、お嬢様は肩をすくめた。
「自己紹介ご苦労様ですわ。でも、きちんとフォークリフトや高所作業車と言わないと一部でしか通用しませんわ」
「おだまり!!」
「ひだまり」スヤァ
「あと、ユニックはインシュロックさんと同じく商h」
重量級の作業機械を前にしても、つとめて優雅に縦ロールのお嬢様はかぶりを振った。
「いいえ。でも、ここでは貴方たちの乗り物にそぐいませんから、
さわりがなければ、それぞれわたくしの指定した場所に来ていただきたいですわ」
「姑息な手段を弄しても、結果は変わりありませんが……いいでしょう。
あえて受けて立つことで格の違いを見せつけてさしあげます!」
書記のフォークリフトは砂場で待ちかまえる縦ロールお嬢様に突進した直後、思いっきりスタックした。
「フォークリフトの接地圧は意外と高いのですわ。
十分に転圧していない地面での走行は要注意ですわ。おーほっほっほ」
「なぜです!ちゃんと入構申請はだしてあるはずです!!」
「すまんのう。垂直に伸び縮みするタイプの高所作業車だと思っておったもんで
副会長のユニックはコンクリート敷きのピロティに進入して先生に怒られた。
黒タイヤじゃコンクリートに跡が残るでしょう。消えるまでお掃除よ!!」
副会長「ひーん」
「ブルーシートがなければ絨毯を敷けばよろしくてよ。おーほっほっほ」
「これで残すは生徒会長のみですわね」
「壮絶な戦いだった」
「貴方、ずっと生徒会室のミニクローラークレーンに目を輝かせていただけでなくって?」
生徒会長室のドアが内側から開いた。ボーイッシュで浮き名をはせた生徒会長(アフロ+螺髪)が飛び出してくる。
「その話、まぜてもらおうか!!」
「つれない!?ならば、自慢の100トンクレーンで吊ってやる。増田だけに!!!」
「お待ちなさいっ!!戦う前にひとつ言っておくことがありますわ。
わたくしたちお嬢サバイバル部の正式名称はお嬢様DIY部のような気がしていましたけど、
「私もひとつ言っておくことがある。殴り込みを掛けてきたお嬢サバイバル部員は君たちで三組目だ!
もう勘弁してくれ!!」
「ならば格下げを撤回するヨロシ(すでに部員って言っているし)」
ポニテの提案に生徒会長(アフロ+螺髪)は身震いのように首を振り、クレーンの操縦室に飛び乗った。
「いいや、仏の顔も三度目の正直だ。
まずは私がこの10トンクレーンで100トンクレーンを組み立てるのを見守っているがいいっ!!!」
うぃいいいいいいいいい……
青ランプがくるくるくる。
「そんなの待てと言われて待っているお間抜けさんはいませんわーーっ!!!」
粘性の高いスラリーも干渉しないように同調して回転するスクリュー同士の働きで搬送されるっ!!
生徒会長は錐揉みしながら美しく上衣の破片を待ち散らし、クレーンのフロントにスタイリッシュなポーズで仰向けに倒れた。
「革命をするお嬢様とはなんであるのか。それは誰も知らない。めでたし…めでたし…たし」
本編1話
http://anond.hatelabo.jp/20160407225815
実は前回
去年の今頃は「今年こそはすごいWebサービス作るぞ!!!!!!!!!!!」って意気込んでたのに
なんかもう今日が最終日。
ということでこの12月頭から何か作ろうと考えていて、丁度年末だからということで作った。
前にAmazonの購入金額合計を出すブックマークレットが流行ったけど、それとほぼ同じ。
Amazonの今までの合計金額と、書籍とかPCとかカテゴリごとの合計金額出してグラフにする。
年末だしTwitterで「2014年のKindle購入金額内訳は...でした」とか投稿すれば
みんなつられてアクセスするはず!宣伝しなくても勝手に大ブーム間違いなし!!!!!!!!
って思ってたけど
投稿してもだれもアクセスしてくれない。待っても待ってもアクセス0。
e?嘘でしょ???って思ったら
のはずだったけど今度はrobots.txt見に来るクソbotしかアクセスしてくれない。
虚しさ半端ない。
というかTwitterでURLつぶやくと即効でどこぞやのクローラー巡回してくるんですね。
構成自体はクライアント・サーバサイド共にjs。EC2上でnode.js。
D3.jsのグラフ画像がsvgだからどうにかしてpngにしないとTwitter投稿出来ないのが微妙に面倒だった
投稿時にクライアント側でbase64→canvas→pngにしても良かったけど
商品のカテゴリ取得するためにはProduct Advertising API使うしかなくて
redis上にキャッシュしておいたりwebsocketで適当に進捗伝えたりした。
今回得た経験値としては
あたり。
今年は残念ながら目標不達成だったけど、いい最終日の過ごし方になったと思う。
お疲れ様でした。
skrsvideo
今回プログラミング言語はRubyを選択したため、基本的にはVPS・クラウド的なサーバーでLinuxが動作する環境を探しました。
エロサイトを運営するにあたって問題になるのがサーバー選びです。
基本的に日本のレンタルサーバーではアダルトサイトの運用を禁止しています。
普段使っているさくらのVPSが利用できず、AWSもなんだかグレーな感じ(東京リージョン以外なら・・・?)
そんなわけで探し、GMOグループのWebkeepersを使いました。
使っても良いよ〜というお墨付き、
そして価格も手頃だったためここに決定。
DB | MariaDB |
---|---|
Webサーバ | Nginx |
フレームワーク | Ruby on Rails |
MariaDBを選んだ理由はなんとなく、MySQLとの違いはほぼありません。利用するGEMもmysql2でいけます。
ちなみにJavaScriptは使わずすべてCSSで作る方針にしました。
スマホ・PC両対応のためにMedia Queryでレスポンシブにしています。
↓
↓
↓
という流れです
gem 'nokogiri'
フロントはhamlとsassで、難しいことはしていないのでcompassはいれませんでした。
あとはデバッグ用にrails_config、pry系が入っています。
skrsvideoでは動画のURLを取得するためにクローラーもどきでスケジューリングして収集しています。
コマンドはこんな感じ
Rakeタスクはnokogiriでxvideosへのリンクを集めています。
doc = Nokogiri::XML( open(URI.parse(url)).read )
urls = []
urls.push link[:href] if link[:href] =~ /xvideos.com\/video(\d+)/
end
Nokogiriのスクレイピングでaタグのリンクを取得し、URLがxvideosのものかチェックして保存って感じです。
動画を探し終えるとaタグからランダムでピックアップし次のページに進んでいきます・
動画が見つかったページはドメインをDBに記録して、しばらくしたら再びクローリングをするようにし、収集の効率化。
30分以上の表示はちょっと頑張ったところ
これはタイトルの文字列から部分一致で引っかかったものを表示しています。
AV女優の名前を表示するためにWikipediaからとってきたら、ちょっと膨大な数になってしまったため断念。
DMMのランキングに載っていた方だけをとりあえず入れています。
「人工知能が人間の職を奪うについて」と日記をはじめると非常にSF的ではあるんだが、思考実験として一つやってみる。
実を言うとこんな人工知能、すでにある。適当なところからコピペして自分のblogに記事を転載するbotなんて、ちょっとプログラムをかじればすぐ作れる。
そしてこれはちょっと本腰を入れて研究すれば、すぐにかなり高性能になるだろう。
「どんなふうな記事がより注目(=ブックマークとかアクセスとか)を集められるか?」というのは評価関数を作るのがとても簡単なので、ベースとなるデータの巨大さと機械学習で順調に成長させられる。記事のまるパクリ問題も、何も真っ正直に「人工知能として本当に文脈を理解して人間的な意味で記事を書く」必要なんてない。
http://graphics.cs.cmu.edu/projects/scene-completion/scene-completion.pdf
この論文みたいなアプローチで記事を一つの画像だと見立てれば部分を差し替えることは可能だろうし、語尾や語彙の置きかけは、それこそ巨大置換でどうとでもなる。
人間が日ごろ、ほう、ふむふむなんて巡回できるblogの数なんてたかが知れているし、機械がクロールで回収できる記事の数は莫大だ。年末年始の記事やどこそこの店に行って何々がうまかったなんて記事は毎年のようにループしている(学習ネタとして最適だ)。
この種の(人工知能と呼べるほどに高度になった)botはそのべらぼうな処理能力にあかせて、アホみたいな数のサイトを運営できる。登校時間やバナーの位置やサイトデザイン、コピーの文章もリアルタイムで評価関数をぶんぶん回すbotは阿呆みたいな速度で自己進化できる。もちろんプロバイダやらが何らかの対処をする可能性もゼロではないけれど、しかしそれもほとんど意味がないだろう。回線の向こう側からは規制する根拠に乏しい。もちろんコピペもととなった記事を書いた人間からすればパクリであり著作権違反だが、それを証明するのは手間だし、照明をあきらめるほど飽和攻撃を行う処理速度がbotにはある。また、人工知能的な記事合成、変換、結論変更、文章アレンジは、しばらくすればパクリをパクリだと証明するのさえ難しくしてしまうだろう。何せblogの記事というのは画像と比べて10%とか5%以下の情報量しかないのだ。
まあ、とにかく、こういうbotはすぐ開発できるだろう。現在の技術でもほとんど可能だし、数年以内には実用化できる。
で本題なのだが、こういうbotができたらどうなるか? そりゃ、投入するでしょう。ちょっぴり初期投資をしてあとは寝てるだけで、阿呆みたいな数のアフィサイトを運営できるようになる。なんらかのステマサイトも似たような手法で運営できるようになる。ちょっとの技術でネオニート生活! 投入されないわけがない。
そしてひとたび投入されれば、それは加速度的に高性能になっていくだろう。機械学習の結果出力っていうのはだいたいサンプルにする学習母体データの大きさや質に左右される。Webに解き放たれたクローラーはありとあらゆる泡沫Blogまで咀嚼を始めるので、その出力の制度はどんどん上がっていくだろう。
PVを金に換えるビジネスというのは一時的に大好景気になって、次の瞬間に価格破壊されるだろう。人件費が限りなくゼロに近づいてゆき過当競争になるからだ。
その世界では「人間がblogの記事を書く」という行為の価値が果てしなく低くなるだろう。そこでははてなスター獲得競争の相手がbotになってしまうからだ。相手はたしかに人間よりも記事を書く技術が低いかもしれないが、無尽蔵の体力を持ってるし、blog記事なんてそもそも10本書いて1つが注目集めればそれでいいような世界なのだ。1万本書いて9999本はずれでも構わないやつが出てきたら、体力勝負で勝てやしない。
この状況が長引けば、アフィリエイトというビジネスモデルそのものも破壊されるだろう。いやそもそも、アマチュアが公開の場所で記事を書くという文化そのものが破壊される可能性もある。
Webの世界は会員制のFacebookやGoogle+みたいなもので分断され、今度はその内側から個人の記事をビッグデータにぬいていくBotが蔓延するだろう。
こういうBotは廉価なサーバーマシンで動かすことができる。実際作ってみないとはっきりとは言えないが、それこそ数百体動かせる可能性もある。性能が十分に周知されれば、「日本語のBlog記事を書く人」よりも「日本語のコピー合成記事を作成するBot」のほうが多くなることは、けっしてありえない状況ではない。
事ここに至って、人工知能は「あるジャンルの職を奪う」ことに成功する。奪われるのはアフィリエイトで暮らしていた人間のBlog書きだけではない。それを端緒に広報を生業にしている多くの人も職を奪われる可能性がある。状況はおそらく大混乱にちかくなるので、今の時点では、この種のムーブメントにおいて電通博報堂のような広告代理店が大きく成長する可能性もあるし、致命的な打撃を受ける可能性もある。成長するにした所で、今のような体育会系的営業の会社で居続けることはできないだろう。開発や分析の理系部署が今の10倍以上の大きさになるだろう。グループインタビューなんかやるよりも、匿名掲示板のログから消費行動の傾向を出したほうがよほど精度が高い企画が作れてしまう。
人間の職を奪う、というのはこういう光景を雇用面から減少を表現した言葉であって、実際に起きることは雇用の減少だけではない。文化や消費行動の破壊ともいえる変化だ。
広告のクリック率考えるとPCの方がおまけになってしまうかもしれない。
詳細ページに回遊率を上げる仕組みが必要、逆にTOPページとかはアクセスないしどうでもいいっぽい。
もうあきらめた。
Bootstrap使っても自分では無理なのでフリーのテンプレートを使用。
「simple_html_dom.php」最高だと思う。
Librahack事件を忘れないように相手のサーバーを思いやる設定(時間と頻度)にする
無修正サイトなど国内法に触れるもの以外のアダルトサイトはGMO一択だと思う。
前回はDTIを使用していた。
前回は誰にも買われなかった。放置サイトはPPCがよいのかな。
Webデザインには
「はじめにAdobeありき。」
である。
全てのサイト合わせて月5000円以上儲かったら(道のり遠い)買ってみる。
広告のクリック率考えるとPCの方がおまけになってしまうかもしれない。
詳細ページに回遊率を上げる仕組みを作って、逆にTOPページとかアクセスないしどうでもいいっぽい。
Rails3 とTwitter Bootstrapで、オシャレなエロサイトをつくってみました。
http://anond.hatelabo.jp/20120708161051
bootstrap使ってもカッコよくできないよ?
プログラマー向けじゃないの?
CSS,Components,Javascript のタグにあるサンプルを全部作ってみた。
あまりの面倒臭さに一度諦めた。
その後色々調べたら「simple_html_dom.php」の存在を知る。
スクレイピング作業が一瞬にして終わった。
メールの設定がどうしてもできない。
エラーも出ていない。
一度諦めた。
info@xxxx.com
危ない名前は使わないのは基本だよね。
MyIsamだとインデックスに容量制限があるのでInnoDB使用
表示
出来あがったサイト
数1000件のデータなのでキャッシュやインデックスいらなかったかも。
デザイナーがプログラムやるのって後者の方が敷居は高いとは思う。
でもプログラムは勉強できるけどデザインってセンスがなきゃどうしようもない。
おわり
もう少しデザイン頑張ってみる。
デザインの教本読んでみると
今年に入ってからプログラミングを勉強し始めて、php、javascript、pythonでとりあえず動くものを作れるようになった。各言語のメジャーなwebフレームワークも使えるようになったし、過去の株価ダウンロードしてmysqlに突っ込んでta-libでシストレのバックテストして遊んだり、ニコ動のタグ検索結果のクローラー作って新着があればメールで知らせてくれたりするの作ったり、websocketためしてみたりbackbonejsで遊んだりもしてる。ニートだから時間が無限なのもあるけど、5か月弱でずいぶんできることが増えてきたなと思う。そろそろ何か作って公開してアフィで稼ぎたいなと思い始めた。でも何も出てこない。今月入ってからずっと考えてるのに作りたいものが浮かばない。いくら勉強してもアイデアがなければ無意味なんだと気付いた。誰かアイデアちょうだい
---------------------------------------------------------------------------
---------------------------------------------------------------------------
前回の続き
苦労して作ったサイトがGoogleの検索エンジンにインデックスされていないという衝撃の事実を知り、
なんとか持ち前のポジティブさで、持ちこたえた僕。
とりあえず、Google先生の指示通り、ウェブマスターツールに登録後、サイトマップを作ってみました。
それから、僕はひたすらhtmlを見直したり、デザインを変えてみたり、自分が知っている事と
出来る事だけを着々と進めた。
2週間が経った昼下がり、何気なくサイトのURLを検索してみた。
キタキタキタキタ━━━(゚∀゚≡(゚∀゚≡゚∀゚)≡゚∀゚)━━━━!!
キタ━━━━━━━━m9( ゚∀゚)━━━━━━━━!!
インデックスされてる!!
☆-ヽ(*´∀`)八(´∀`*)ノイエーイ
ただクローラー様が到達してなかっただけだったのね
「ど圏外」
Σ(っ゚Д゚;)っ
これがかなり重要というか、これ無しでは、もはやサイトを作る意味すら無いようなもの。
だって誰も見る事ができないサイトは存在してないも同じだよなあ。
さて、何の知識も金もない僕がどうやって学べばいいのか。
待て待て、そもそもネットでSEOを教えるサイトってどうなんだろう?
そこで僕は無い脳みそ絞って考えた。
もしかして「SEO」というキーワードで、トップに表示されてるサイトって
とりあえず「SEO」検索してトップに出てきたサイトがコレ↓でした。
http://www.searchengineoptimization.jp/
30分後、激しい頭痛が僕を襲ってきた。
全くわからん…
それはおいおいやるとして、一つ気になった記事があったので、以下抜粋。
その情報を本当に求めている人であれば、検索を繰り返して必ずその情報にたどり着いてくれます。検索からの流入を増やすことは簡単です。その情報を必要とする誰かに向けて情報を発信するだけす。情報を求める人々は検索エンジンを繰り返し使って、その情報を探し当ててくれます。
・人々は検索エンジンを使って情報を探しています。その情報を公開すれば、それは人々に届きます
・公開する情報がより有益で高品質なものなら、それは検索され、再共有され、リンクされ、検索結果のランキングも上昇し、さらに
・自画自賛、売り込み、売上げ自慢や能力自慢の類いは情報ではありません。コンテンツでもありません。役に立つ情報の発信に努めましょう
・あなたの情報が役に立ったというその事実の積み重ねによって、ユーザーとの間に信頼関係が生まれます。その信頼関係が明日の売上げを作ります。これはオフラインでの接客や営業と何ら変わりません
最終的にコンバージョンが欲しいというのはわかります。しかしコンバージョンを獲得したいのであれば、その前に信頼を獲得しなければなりません。信頼を獲得したいのであれば、その前に接点を獲得しなければなりません。接点や信頼の獲得のためにウェブ上でできることは、ユーザーの役に立つ情報の発信です。
SEOは簡単です。きちんと取り組めば必ず結果はついてきます。しかし時間と手間がかかります。様々な邪悪な誘惑もあります。お客様を想い、お客様に貢献したいと望む強い気持ちが必要です。誠意と熱意、そしてそれを継続する根気が必要です。しかしそれらは日々の取り組みを通じてウェブ上に立ち現れ、お客様の心を動かします。
なるほど。
当たり前だけど検索エンジンを使って検索するわけだから、まず検索する相手がいるわけだ。
そしてその検索者はもっとも自分が欲しい情報を手に入れたいわけで、検索エンジンは彼に対して
最適な検索結果を目指す。
この基本的な構造の流れを汲んでサイトを修正したり、時には技術を駆使して適切なサイトに作り変えてゆけばいいのかもしれない。
なんだか少しだけやる気出てきた(^-^)p
つづく