はてなキーワード: クローラーとは
サバイバル部の同好会への格下げを阻止するため、縦ロールのお嬢様は生徒会本部に乗り込んだ。
生徒会室に待ち受けていたのはディーゼル排気音に聞こえた生徒会三人衆。すなわち、
「リフトの書記!」
「そして、ユニックの副会長!!」
乗り物ごと待ちかまえていた三人に、お嬢様は肩をすくめた。
「自己紹介ご苦労様ですわ。でも、きちんとフォークリフトや高所作業車と言わないと一部でしか通用しませんわ」
「おだまり!!」
「ひだまり」スヤァ
「あと、ユニックはインシュロックさんと同じく商h」
重量級の作業機械を前にしても、つとめて優雅に縦ロールのお嬢様はかぶりを振った。
「いいえ。でも、ここでは貴方たちの乗り物にそぐいませんから、
さわりがなければ、それぞれわたくしの指定した場所に来ていただきたいですわ」
「姑息な手段を弄しても、結果は変わりありませんが……いいでしょう。
あえて受けて立つことで格の違いを見せつけてさしあげます!」
書記のフォークリフトは砂場で待ちかまえる縦ロールお嬢様に突進した直後、思いっきりスタックした。
「フォークリフトの接地圧は意外と高いのですわ。
十分に転圧していない地面での走行は要注意ですわ。おーほっほっほ」
「なぜです!ちゃんと入構申請はだしてあるはずです!!」
「すまんのう。垂直に伸び縮みするタイプの高所作業車だと思っておったもんで
副会長のユニックはコンクリート敷きのピロティに進入して先生に怒られた。
黒タイヤじゃコンクリートに跡が残るでしょう。消えるまでお掃除よ!!」
副会長「ひーん」
「ブルーシートがなければ絨毯を敷けばよろしくてよ。おーほっほっほ」
「これで残すは生徒会長のみですわね」
「壮絶な戦いだった」
「貴方、ずっと生徒会室のミニクローラークレーンに目を輝かせていただけでなくって?」
生徒会長室のドアが内側から開いた。ボーイッシュで浮き名をはせた生徒会長(アフロ+螺髪)が飛び出してくる。
「その話、まぜてもらおうか!!」
「つれない!?ならば、自慢の100トンクレーンで吊ってやる。増田だけに!!!」
「お待ちなさいっ!!戦う前にひとつ言っておくことがありますわ。
わたくしたちお嬢サバイバル部の正式名称はお嬢様DIY部のような気がしていましたけど、
「私もひとつ言っておくことがある。殴り込みを掛けてきたお嬢サバイバル部員は君たちで三組目だ!
もう勘弁してくれ!!」
「ならば格下げを撤回するヨロシ(すでに部員って言っているし)」
ポニテの提案に生徒会長(アフロ+螺髪)は身震いのように首を振り、クレーンの操縦室に飛び乗った。
「いいや、仏の顔も三度目の正直だ。
まずは私がこの10トンクレーンで100トンクレーンを組み立てるのを見守っているがいいっ!!!」
うぃいいいいいいいいい……
青ランプがくるくるくる。
「そんなの待てと言われて待っているお間抜けさんはいませんわーーっ!!!」
粘性の高いスラリーも干渉しないように同調して回転するスクリュー同士の働きで搬送されるっ!!
生徒会長は錐揉みしながら美しく上衣の破片を待ち散らし、クレーンのフロントにスタイリッシュなポーズで仰向けに倒れた。
「革命をするお嬢様とはなんであるのか。それは誰も知らない。めでたし…めでたし…たし」
本編1話
http://anond.hatelabo.jp/20160407225815
実は前回
去年の今頃は「今年こそはすごいWebサービス作るぞ!!!!!!!!!!!」って意気込んでたのに
なんかもう今日が最終日。
ということでこの12月頭から何か作ろうと考えていて、丁度年末だからということで作った。
前にAmazonの購入金額合計を出すブックマークレットが流行ったけど、それとほぼ同じ。
Amazonの今までの合計金額と、書籍とかPCとかカテゴリごとの合計金額出してグラフにする。
年末だしTwitterで「2014年のKindle購入金額内訳は...でした」とか投稿すれば
みんなつられてアクセスするはず!宣伝しなくても勝手に大ブーム間違いなし!!!!!!!!
って思ってたけど
投稿してもだれもアクセスしてくれない。待っても待ってもアクセス0。
e?嘘でしょ???って思ったら
のはずだったけど今度はrobots.txt見に来るクソbotしかアクセスしてくれない。
虚しさ半端ない。
というかTwitterでURLつぶやくと即効でどこぞやのクローラー巡回してくるんですね。
構成自体はクライアント・サーバサイド共にjs。EC2上でnode.js。
D3.jsのグラフ画像がsvgだからどうにかしてpngにしないとTwitter投稿出来ないのが微妙に面倒だった
投稿時にクライアント側でbase64→canvas→pngにしても良かったけど
商品のカテゴリ取得するためにはProduct Advertising API使うしかなくて
redis上にキャッシュしておいたりwebsocketで適当に進捗伝えたりした。
今回得た経験値としては
あたり。
今年は残念ながら目標不達成だったけど、いい最終日の過ごし方になったと思う。
お疲れ様でした。
skrsvideo
今回プログラミング言語はRubyを選択したため、基本的にはVPS・クラウド的なサーバーでLinuxが動作する環境を探しました。
エロサイトを運営するにあたって問題になるのがサーバー選びです。
基本的に日本のレンタルサーバーではアダルトサイトの運用を禁止しています。
普段使っているさくらのVPSが利用できず、AWSもなんだかグレーな感じ(東京リージョン以外なら・・・?)
そんなわけで探し、GMOグループのWebkeepersを使いました。
使っても良いよ〜というお墨付き、
そして価格も手頃だったためここに決定。
DB | MariaDB |
---|---|
Webサーバ | Nginx |
フレームワーク | Ruby on Rails |
MariaDBを選んだ理由はなんとなく、MySQLとの違いはほぼありません。利用するGEMもmysql2でいけます。
ちなみにJavaScriptは使わずすべてCSSで作る方針にしました。
スマホ・PC両対応のためにMedia Queryでレスポンシブにしています。
↓
↓
↓
という流れです
gem 'nokogiri'
フロントはhamlとsassで、難しいことはしていないのでcompassはいれませんでした。
あとはデバッグ用にrails_config、pry系が入っています。
skrsvideoでは動画のURLを取得するためにクローラーもどきでスケジューリングして収集しています。
コマンドはこんな感じ
Rakeタスクはnokogiriでxvideosへのリンクを集めています。
doc = Nokogiri::XML( open(URI.parse(url)).read )
urls = []
urls.push link[:href] if link[:href] =~ /xvideos.com\/video(\d+)/
end
Nokogiriのスクレイピングでaタグのリンクを取得し、URLがxvideosのものかチェックして保存って感じです。
動画を探し終えるとaタグからランダムでピックアップし次のページに進んでいきます・
動画が見つかったページはドメインをDBに記録して、しばらくしたら再びクローリングをするようにし、収集の効率化。
30分以上の表示はちょっと頑張ったところ
これはタイトルの文字列から部分一致で引っかかったものを表示しています。
AV女優の名前を表示するためにWikipediaからとってきたら、ちょっと膨大な数になってしまったため断念。
DMMのランキングに載っていた方だけをとりあえず入れています。
「人工知能が人間の職を奪うについて」と日記をはじめると非常にSF的ではあるんだが、思考実験として一つやってみる。
実を言うとこんな人工知能、すでにある。適当なところからコピペして自分のblogに記事を転載するbotなんて、ちょっとプログラムをかじればすぐ作れる。
そしてこれはちょっと本腰を入れて研究すれば、すぐにかなり高性能になるだろう。
「どんなふうな記事がより注目(=ブックマークとかアクセスとか)を集められるか?」というのは評価関数を作るのがとても簡単なので、ベースとなるデータの巨大さと機械学習で順調に成長させられる。記事のまるパクリ問題も、何も真っ正直に「人工知能として本当に文脈を理解して人間的な意味で記事を書く」必要なんてない。
http://graphics.cs.cmu.edu/projects/scene-completion/scene-completion.pdf
この論文みたいなアプローチで記事を一つの画像だと見立てれば部分を差し替えることは可能だろうし、語尾や語彙の置きかけは、それこそ巨大置換でどうとでもなる。
人間が日ごろ、ほう、ふむふむなんて巡回できるblogの数なんてたかが知れているし、機械がクロールで回収できる記事の数は莫大だ。年末年始の記事やどこそこの店に行って何々がうまかったなんて記事は毎年のようにループしている(学習ネタとして最適だ)。
この種の(人工知能と呼べるほどに高度になった)botはそのべらぼうな処理能力にあかせて、アホみたいな数のサイトを運営できる。登校時間やバナーの位置やサイトデザイン、コピーの文章もリアルタイムで評価関数をぶんぶん回すbotは阿呆みたいな速度で自己進化できる。もちろんプロバイダやらが何らかの対処をする可能性もゼロではないけれど、しかしそれもほとんど意味がないだろう。回線の向こう側からは規制する根拠に乏しい。もちろんコピペもととなった記事を書いた人間からすればパクリであり著作権違反だが、それを証明するのは手間だし、照明をあきらめるほど飽和攻撃を行う処理速度がbotにはある。また、人工知能的な記事合成、変換、結論変更、文章アレンジは、しばらくすればパクリをパクリだと証明するのさえ難しくしてしまうだろう。何せblogの記事というのは画像と比べて10%とか5%以下の情報量しかないのだ。
まあ、とにかく、こういうbotはすぐ開発できるだろう。現在の技術でもほとんど可能だし、数年以内には実用化できる。
で本題なのだが、こういうbotができたらどうなるか? そりゃ、投入するでしょう。ちょっぴり初期投資をしてあとは寝てるだけで、阿呆みたいな数のアフィサイトを運営できるようになる。なんらかのステマサイトも似たような手法で運営できるようになる。ちょっとの技術でネオニート生活! 投入されないわけがない。
そしてひとたび投入されれば、それは加速度的に高性能になっていくだろう。機械学習の結果出力っていうのはだいたいサンプルにする学習母体データの大きさや質に左右される。Webに解き放たれたクローラーはありとあらゆる泡沫Blogまで咀嚼を始めるので、その出力の制度はどんどん上がっていくだろう。
PVを金に換えるビジネスというのは一時的に大好景気になって、次の瞬間に価格破壊されるだろう。人件費が限りなくゼロに近づいてゆき過当競争になるからだ。
その世界では「人間がblogの記事を書く」という行為の価値が果てしなく低くなるだろう。そこでははてなスター獲得競争の相手がbotになってしまうからだ。相手はたしかに人間よりも記事を書く技術が低いかもしれないが、無尽蔵の体力を持ってるし、blog記事なんてそもそも10本書いて1つが注目集めればそれでいいような世界なのだ。1万本書いて9999本はずれでも構わないやつが出てきたら、体力勝負で勝てやしない。
この状況が長引けば、アフィリエイトというビジネスモデルそのものも破壊されるだろう。いやそもそも、アマチュアが公開の場所で記事を書くという文化そのものが破壊される可能性もある。
Webの世界は会員制のFacebookやGoogle+みたいなもので分断され、今度はその内側から個人の記事をビッグデータにぬいていくBotが蔓延するだろう。
こういうBotは廉価なサーバーマシンで動かすことができる。実際作ってみないとはっきりとは言えないが、それこそ数百体動かせる可能性もある。性能が十分に周知されれば、「日本語のBlog記事を書く人」よりも「日本語のコピー合成記事を作成するBot」のほうが多くなることは、けっしてありえない状況ではない。
事ここに至って、人工知能は「あるジャンルの職を奪う」ことに成功する。奪われるのはアフィリエイトで暮らしていた人間のBlog書きだけではない。それを端緒に広報を生業にしている多くの人も職を奪われる可能性がある。状況はおそらく大混乱にちかくなるので、今の時点では、この種のムーブメントにおいて電通博報堂のような広告代理店が大きく成長する可能性もあるし、致命的な打撃を受ける可能性もある。成長するにした所で、今のような体育会系的営業の会社で居続けることはできないだろう。開発や分析の理系部署が今の10倍以上の大きさになるだろう。グループインタビューなんかやるよりも、匿名掲示板のログから消費行動の傾向を出したほうがよほど精度が高い企画が作れてしまう。
人間の職を奪う、というのはこういう光景を雇用面から減少を表現した言葉であって、実際に起きることは雇用の減少だけではない。文化や消費行動の破壊ともいえる変化だ。
広告のクリック率考えるとPCの方がおまけになってしまうかもしれない。
詳細ページに回遊率を上げる仕組みが必要、逆にTOPページとかはアクセスないしどうでもいいっぽい。
もうあきらめた。
Bootstrap使っても自分では無理なのでフリーのテンプレートを使用。
「simple_html_dom.php」最高だと思う。
Librahack事件を忘れないように相手のサーバーを思いやる設定(時間と頻度)にする
無修正サイトなど国内法に触れるもの以外のアダルトサイトはGMO一択だと思う。
前回はDTIを使用していた。
前回は誰にも買われなかった。放置サイトはPPCがよいのかな。
Webデザインには
「はじめにAdobeありき。」
である。
全てのサイト合わせて月5000円以上儲かったら(道のり遠い)買ってみる。
広告のクリック率考えるとPCの方がおまけになってしまうかもしれない。
詳細ページに回遊率を上げる仕組みを作って、逆にTOPページとかアクセスないしどうでもいいっぽい。
Rails3 とTwitter Bootstrapで、オシャレなエロサイトをつくってみました。
http://anond.hatelabo.jp/20120708161051
bootstrap使ってもカッコよくできないよ?
プログラマー向けじゃないの?
CSS,Components,Javascript のタグにあるサンプルを全部作ってみた。
あまりの面倒臭さに一度諦めた。
その後色々調べたら「simple_html_dom.php」の存在を知る。
スクレイピング作業が一瞬にして終わった。
メールの設定がどうしてもできない。
エラーも出ていない。
一度諦めた。
info@xxxx.com
危ない名前は使わないのは基本だよね。
MyIsamだとインデックスに容量制限があるのでInnoDB使用
表示
出来あがったサイト
数1000件のデータなのでキャッシュやインデックスいらなかったかも。
デザイナーがプログラムやるのって後者の方が敷居は高いとは思う。
でもプログラムは勉強できるけどデザインってセンスがなきゃどうしようもない。
おわり
もう少しデザイン頑張ってみる。
デザインの教本読んでみると
今年に入ってからプログラミングを勉強し始めて、php、javascript、pythonでとりあえず動くものを作れるようになった。各言語のメジャーなwebフレームワークも使えるようになったし、過去の株価ダウンロードしてmysqlに突っ込んでta-libでシストレのバックテストして遊んだり、ニコ動のタグ検索結果のクローラー作って新着があればメールで知らせてくれたりするの作ったり、websocketためしてみたりbackbonejsで遊んだりもしてる。ニートだから時間が無限なのもあるけど、5か月弱でずいぶんできることが増えてきたなと思う。そろそろ何か作って公開してアフィで稼ぎたいなと思い始めた。でも何も出てこない。今月入ってからずっと考えてるのに作りたいものが浮かばない。いくら勉強してもアイデアがなければ無意味なんだと気付いた。誰かアイデアちょうだい
---------------------------------------------------------------------------
---------------------------------------------------------------------------
前回の続き
苦労して作ったサイトがGoogleの検索エンジンにインデックスされていないという衝撃の事実を知り、
なんとか持ち前のポジティブさで、持ちこたえた僕。
とりあえず、Google先生の指示通り、ウェブマスターツールに登録後、サイトマップを作ってみました。
それから、僕はひたすらhtmlを見直したり、デザインを変えてみたり、自分が知っている事と
出来る事だけを着々と進めた。
2週間が経った昼下がり、何気なくサイトのURLを検索してみた。
キタキタキタキタ━━━(゚∀゚≡(゚∀゚≡゚∀゚)≡゚∀゚)━━━━!!
キタ━━━━━━━━m9( ゚∀゚)━━━━━━━━!!
インデックスされてる!!
☆-ヽ(*´∀`)八(´∀`*)ノイエーイ
ただクローラー様が到達してなかっただけだったのね
「ど圏外」
Σ(っ゚Д゚;)っ
これがかなり重要というか、これ無しでは、もはやサイトを作る意味すら無いようなもの。
だって誰も見る事ができないサイトは存在してないも同じだよなあ。
さて、何の知識も金もない僕がどうやって学べばいいのか。
待て待て、そもそもネットでSEOを教えるサイトってどうなんだろう?
そこで僕は無い脳みそ絞って考えた。
もしかして「SEO」というキーワードで、トップに表示されてるサイトって
とりあえず「SEO」検索してトップに出てきたサイトがコレ↓でした。
http://www.searchengineoptimization.jp/
30分後、激しい頭痛が僕を襲ってきた。
全くわからん…
それはおいおいやるとして、一つ気になった記事があったので、以下抜粋。
その情報を本当に求めている人であれば、検索を繰り返して必ずその情報にたどり着いてくれます。検索からの流入を増やすことは簡単です。その情報を必要とする誰かに向けて情報を発信するだけす。情報を求める人々は検索エンジンを繰り返し使って、その情報を探し当ててくれます。
・人々は検索エンジンを使って情報を探しています。その情報を公開すれば、それは人々に届きます
・公開する情報がより有益で高品質なものなら、それは検索され、再共有され、リンクされ、検索結果のランキングも上昇し、さらに
・自画自賛、売り込み、売上げ自慢や能力自慢の類いは情報ではありません。コンテンツでもありません。役に立つ情報の発信に努めましょう
・あなたの情報が役に立ったというその事実の積み重ねによって、ユーザーとの間に信頼関係が生まれます。その信頼関係が明日の売上げを作ります。これはオフラインでの接客や営業と何ら変わりません
最終的にコンバージョンが欲しいというのはわかります。しかしコンバージョンを獲得したいのであれば、その前に信頼を獲得しなければなりません。信頼を獲得したいのであれば、その前に接点を獲得しなければなりません。接点や信頼の獲得のためにウェブ上でできることは、ユーザーの役に立つ情報の発信です。
SEOは簡単です。きちんと取り組めば必ず結果はついてきます。しかし時間と手間がかかります。様々な邪悪な誘惑もあります。お客様を想い、お客様に貢献したいと望む強い気持ちが必要です。誠意と熱意、そしてそれを継続する根気が必要です。しかしそれらは日々の取り組みを通じてウェブ上に立ち現れ、お客様の心を動かします。
なるほど。
当たり前だけど検索エンジンを使って検索するわけだから、まず検索する相手がいるわけだ。
そしてその検索者はもっとも自分が欲しい情報を手に入れたいわけで、検索エンジンは彼に対して
最適な検索結果を目指す。
この基本的な構造の流れを汲んでサイトを修正したり、時には技術を駆使して適切なサイトに作り変えてゆけばいいのかもしれない。
なんだか少しだけやる気出てきた(^-^)p
つづく
---------------------------------------------------------------------------
---------------------------------------------------------------------------
前回の続き
苦労の甲斐があってエロサイトのおおまかな枠組みはできてきた。
ここまできて僕は、どうやったらwebサイトとして機能するのだろう(ヤフーとかグーグルとかに載るんだろう)?
という疑問を持った。とゆうか最初にその疑問を持てという話でもあるが、とにかく僕は急にそう思い始めた。
とりあえず、キーワードはサイト名の「動画エロサイト」でお願いしまつっ!!!!
(期待に胸をふくらます僕)
「分からん」
先生またご冗談を。全知全能の先生がそんなはずないじゃないですか。
何百位でもかまわないですよ。まだ始めたばっかりですから。
それでは、先生、改めて僕のサイトの順位のご発表をお願いします!!
ドゥン!ドゥルルルルルルルルルルルルルルルルルルルルルルルルルゥ!!
「載っとらん」
Σ(っ゚Д゚;)っ
検索エンジンは「クローラー」とか「スパイダー」と呼ばれるプログラムを使って、web上に存在するページの情報を集めるらしい。クローラーがウェブ上を自動的に巡回して集めたデータをデータベースといういわばデータの貯蔵庫のような所に登録する。
この事をインデックスする(される)などと呼ぶらしい。
なんだか僕の知らないところで、とんでもない事が起きている気がしてきた。
とにかく、サイトはこのインデックスというのをされていないと、Googleやヤフー(のちにヤフーはGoogleの検索エンジンを使っている事が判明)Bing、infoseekなどから検索する事ができない。
クローラが巡回にくるタイミングはまちまちで、すぐインデックスされる事もあれば、何カ月もされない場合があるらしい。
どうしてもインデックスされないのなら下記の原因を疑ってみた方がいい。
クローラーに発見されやすいサイト構成や、Googleウェブマスターツールへのサイト登録をして、
クロールされやすい記事、サイトから、クロールしてもらいたい記事へのリンクを張っていくことも重要です。
Googleウェブマスターツールへのサイト登録&サイトマップ送信
などの改善を行なってください。
このガイドラインを見ると、Googleはどのような行為に対して不正とみなすのかを確認することができます。
Googleが提供するガイドラインに違反することで、ペナルティを受けてしまった場合には、最悪インデックス削除の可能性もあります。
インデックス削除はかなり重いペナルティであり、それが解除されるまでには時間がかかります。最悪の場合、悪質なサイトであると認定されてしまい、インデックスされないドメインとなる可能性もあります。ですから、Googleのガイドラインはしっかりと読み込んで、気をつけてサイト運営を行ないましょう。
この原因に関しては、かなりSEOの知識のある人でないと、そもそもクローラー制御タグや記述を利用する事がないので調べる必要はないと思いますが、一応書いておきます。
インデックスさせたい記事のmetaタグに以下の設定が入っていてはインデックスされなくなる。
noindex このページはクロールしても、インデックスはしない
nofollow このページはクロールしても、ページ内リンク先はクロールしない
インデックスさせたい記事へ外部からリンクを送る場合において、nofollowをmetaタグ内に記述しているとインデックスされにくくなる。
以上の点について、改善していきましょう。
インデックスはクローラーにクロールされやすいサイトを作成し、
リンクを用いて露出を増やし、Googleのガイドラインに違反しないよう気を付ける
う~ん。なるほど。ここら辺はかなり重要だなあ
htmlを勉強したときにメタタグの事は調べたので、もう一度確認したらすんなり頭に入った。
あとは、ウェブマスターツールなるものに登録して、「サイトマップ」ていう単語も出てきたから
これも後で調べよう。
よしもう一度僕のサイトを確認してみよう(^-^)p
つづく
bootstrap使ってもカッコよくできないよ?
プログラマー向けじゃないの?
bootstrap3 の公式サイトを見ながら
CSS,Components,Javascript のタグにあるサンプルを全部作ってみた。
あまりの面倒臭さに一度諦めた。
その後色々調べたら「simple_html_dom.php」の存在を知る。
スクレイピング作業が一瞬にして終わった。
メールの設定がどうしてもできない。
エラーも出ていない。
一度諦めた。
info@xxxx.com
危ない名前は使わないのは基本だよね。
MyIsamだとインデックスに容量制限があるのでInnoDB使用
数1000件のデータなのでキャッシュやインデックスいらなかったかも。
デザイナーがプログラムやるのって後者の方が敷居は高いとは思う。
でもプログラムは勉強できるけどデザインってセンスがなきゃどうしようもない。
もう少しデザイン頑張ってみる。
デザインの教本読んでみると
思わずスクショに撮っちゃったんだけど、『はてな匿名ダイアリー』のエントリの題名で
携帯から検索をかけたら、「48 secs ago」という表示が題名の後に表示された。
yahooのリアルタイム検索で、自分のTwitterの投稿内容がどれくらいで反映されるのか
セルフ検索にかけてみたことはあるけど、一分以上はかかっていたと思う。
yahooのリアルタイム検索で、専用サーバーだか線だか引っ張ってきて特殊なAPIを叩いてるだろうことを考えると、
上記の一般検索で「48 secs ago」というのはなんか、もう、異次元入ってる。OpenGrokよりわかんない。
クローラーでやっている技術的内容が全く想像できない。論文とか検索したら出てくるのかしら。
たまたま、タイミングがあったにせよIFに普通「secs」を用意する?
「Twitter等リアルタイム性を求めるソーシャルサービスが出てきても
Googleなどの従来型インデクサーが即時検索を可能にするとは思えない。
従って技術的イノベーションが起きるとすれば、これからはレコメンドエンジンだっ!」と
言い放っていたのがちょうど四年前あたりだったと思う。。。四年であの教授は形にできたのかしら。
Googleは多分地味だけど確実に本業も進化してるんだと思う。あんまり話は聞かないけど。
はてな匿名ダイアリーのエントリタイトルが、特に変わった言葉がなくても
Googleの上位に来やすいのは、「はてな匿名ダイアリー」を一つのブログとしてみたときのPV数の多さ、
ぐらいしかSEO対策をしたことがない素人には想像つかない。それを思えば、PVが多いところに
ある程度ウェイトを置いてポーリング監視っぽいことをしてるのかなとも思えたが、
星の数ほどあるウェブサービスをして、それはないと個人的には思う。
お前らニュースサイトがPV乞食になって、くだらねー原稿を細切れにしてページ分けするのが鬱陶しいからこんだけsmart newsが落とされるんだろうよ。
タイトルで釣って、感想や憶測だけのオチ原稿とか、まじで時間の無駄極まりない。
お前らこそPV小銭稼ぎのために人様の貴重な時間を盗むんじゃねーよ。
PV水増しのためにお前らが読者に強いてる読み込み時間による機会損失とか考えたことあるんか?
偉そうにsmart news責める前に自分らのサイトがユーザー目線で使いやすいか考えてみろよ。smart newsを使ってるのはお前らの読者様だろうが。
ざっと原稿みてゴミ記事を判断できるsmart newsは超便利。それは間違いない。
これの事だろ。
つか、PC版でも「Program Files」フォルダに、専用のフォルダを作らず直下にそのまま実行ファイルやら何やらをぶちまけて、しかもその状態でアンインストールをすると「Program Files」フォルダを丸ごと全消ししようとするという、お前はどこのプログラム初心者なんだというような事やらかしてたし。
NAVERだった頃はGoogleクローラーを詐称してネット巡回してた。
とにかくあの会社に関係するものには近寄らないのが一番良い。プライバシー情報の塊みたいなスマートフォンに入れるとか正気の沙汰じゃないよ。
「みんなの役に立つサイトを作って、一発大きく儲けたい!」と、
思い続けて、早10年(泣)。。
とりあえず、エロサイトを作るのってすごく勉強なる?楽しい?らしいので、
誰にも利用されない「へぼツール」作るより必ず誰かの為になるなぁと考え、
できるだけ、誰でもわかるように、詳細を書いていますので、
これを見るだけで、ノンプログラマーの方でも、
※記事は毎日10件更新予定です。つまり毎日このサイトだけ見に行けば困らないってことです。
http://anond.hatelabo.jp/20101219185436
http://anond.hatelabo.jp/20101203150748
http://d.hatena.ne.jp/inouetakuya/20120331/1333192327
http://anond.hatelabo.jp/20120318122617
http://anond.hatelabo.jp/20120914214121
http://anond.hatelabo.jp/20110804021353
http://anond.hatelabo.jp/20120926165533
saasesのVPS OsukiniサーバーLT メモリ512MB 月450円! アダルトOK
CentOS 64bitを選択。(メモリを食うだけなので、特に用がなければ、32bitにしよう!)
※どこにも書いてないけど、2週間以内なら取り消しできます。
☆契約時、webmin&mysqlの選択は必須にしておいたほうがいいです。私は間違えて、webmin無しにしてしまった。。
後から、再インストール(初期化)すれば、再選択することができるようです。。
申し込み後、たったの30分で接続できるようになりました。
をバリュードメインで取得。280円!安い。
/sbin/chkconfig auditd off
/sbin/chkconfig autofs off
/sbin/chkconfig avahi-daemon off
/sbin/chkconfig firstboot off
/sbin/chkconfig kudzu off
/sbin/chkconfig lvm2-monitor off
/sbin/chkconfig mcstrans off
/sbin/chkconfig mdmonitor off
/sbin/chkconfig messagebus off
/sbin/chkconfig netfs off
/sbin/chkconfig nfslock off
/sbin/chkconfig portmap off
/sbin/chkconfig rawdevices off
/sbin/chkconfig restorecond off
/sbin/chkconfig smartd off
/sbin/chkconfig xfs off
※190MBが150MBぐらいになります。
http://support.saases.jp/index.php?action=artikel&cat=63&id=312&artlang=ja
# vi /etc/httpd/conf/httpd.conf
NameVirtualHost *:80 ←これを探して、コメントアウトを削除。その下に以下を設定。
DocumentRoot "/home/ユーザーID/iphone-xvideos.info"
ServerName iphone-xvideos.info
<Directory "/home/ユーザーID/iphone-xvideos.info">
order deny,allow
Options FollowSymLinks
# /etc/rc.d/init.d/httpd restart
「httpd: Could not reliably determine the server's fully qualified domain name, using...」
その時はこちらで解決⇒http://d.hatena.ne.jp/uriyuri/20100511/1273575287
で、このままだとIPアドレスでもアクセスできてしまうので、以下もやっておく。
http://fedorasrv.com/memo/log/29.shtml
mkdir /home/ユーザーID/iphone-xvideos.info
chown ユーザーID /home/ユーザーID/iphone-xvideos.info
/home/ユーザーID/以下はpermission errorとなりアクセスできないので、権限を変える。←いいのかな?
http://blog.verygoodtown.com/2010/02/centos-apc-install-how-to/
↑これを実行した際に、「error: expected specifier-qualifier-list before 'pcre'」なんちゃらっていうエラーがでたので、以下を実行。
再度実行して、無事インストールできた。
【APCの設定】
extension=apc.so
[APC]
apc.enabled = 1
/ ←検索
n ←次の検索文字へ
]] ←最後尾に移動
:q! ←保存せずに終了
--------------------------
# /etc/rc.d/init.d/httpd restart
vi /home/ユーザーID/iphone-xvideos.info/index.php
phpinfo();
?>
http://tanaka.sakura.ad.jp/2011/05/centos-linux-apache-php-perl-mysql-lamp.html
↑これを参考に適当に変更してみた
MaxClients 256 ←これを40に
MaxRequestsPerChild 4000 ←これを1000
このサーバは、512MBしかないからもっと小さくしたほうがいいのかも。。
# ab -c 10 -n 100 http://iphone-xvideos.info/
【変更前】
Requests per second: 40.01 [#/sec] (mean)
【変更後】
Requests per second: 137.57 [#/sec] (mean) ←1発目
Requests per second: 552.79 [#/sec] (mean) ←2発目以降(キャッシュ後)
最新版をやってみるとエラーが発生。
「サーバーの PHP バージョンは 5.1.6 ですが WordPress 3.4.2 は 5.2.4 以上のみでご利用になれます。」
3.1系を選択する。。
http://ja.wordpress.org/releases/
※↑結局、後日phpとmysqlのバージョンアップをやりました。
ソースをUP
DBを作る
ホームの「新規データベースを作成する」と書いてある所の下にある、
を修正する。
【プラグイン】
WPtouch ←/wp-content/plugins/wptouch/themes/core/core-header.php をちょこっと変更すればiphoneでxvideo再生ができる。
○人気記事一覧
http://the-fool.me/wordpress/plugins/wordpress-popular-posts.html
設定⇒投稿設定⇒Atom 投稿プロトコル&XML-RPCにチェック
キャッシュが効いていて問題ないことを確認。
○wikipediaから取ってきた女優名をカテゴリテーブル(wp_terms)に突っ込む。(5,260人でした。)
↑これは月に2回更新。cronで動かすことにした。
○googleブログ検索(24時間以内のもの)に女優名をつっこんで、
(とりあえず、引退した人の動画は少ないだろうと考え、現役2,762人分のxvideosを取得してみた。処理時間8時間、192件取得できた。)
http://www.kaasan.info/archives/1457
動画のURLを取得したら、削除されていないか調べて、OKだったら投稿。
http://www.multiburst.net/sometime-php/2009/04/newpost-with-wordpress-xmlrpc-api/
↑ここらへんを参考に
http://pear.php.net/package/PEAR/download
↑pear自体はここにあるので、「XML」フォルダのみをUP。
だいたい、30分で10記事取得できることがわかったので、
【cron設定】
$ crontab -e
00 04 * * * /bin/sh /home/ユーザーID/iphone-xvideos.info/insert_X.sh >/dev/null 2>&1
00 03 1,15 * * /bin/sh /home/ユーザーID/iphone-xvideos.info/insert_XXX.sh >/dev/null 2>&1
http://miya0.dyndns.org/pc/settei/crontab.html
----------------------------------------------------
↑旬な情報が取れないが、とりあえず。。
前日のterm_idを記録して、
次の日はそれ以降のデータを取得する。
----------------------------------------------------
☆jqueryでお気に入り作成。cookieを使う。(PCのみ?)
☆好きな女優を登録しておけば、記事の更新情報をメールで通知。
☆デザイン修正。。
実際、なんとなく勉強になった気もするし、楽しく作業できました。
まったくアクセス無くても、自分用にとても良いものができたと思っているので満足です。
もし繋がりにくくなったりしたら、
別のレンサバに変更しますー。
随時こちらに追記していきますね。
最後まで読んで頂いてありがとうございます。
サイトオープンから10日ほど過ぎたので状況をお知らせします。
はてぶは全くだめだった。。
(日々増加しているが、検索エンジンからくるようになってもまだこんだけ。。)
メモリは問題なし。512MB中ピークでも300MBぐらいしか使ってない。
# chmod 744 /usr/local/bin/memrep.sh
※本日、テスト的にDMMの広告を張ってみました。。←すぐ消した。。
また、後日お知らせしますね。
1か月経ったので。。
ページビュー2500/日
自動更新なのに、きっちりアクセスは日々増えて続けています。エロは強い。
アクセス少ないので、負荷は全く問題なし。
Swapも全く使ってない。