「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2017-01-25

はてなーウェブスクレイピングの実力を見てみたいw

このサイトから英語日本語フレーズを対にしてcsvに全部落とせる?

みんな大好きの瞬間英作文のソースが大量に落とせるよ!

http://gogakuru.com/english/phrase/genre/index.html

はてなーウェブスクレイピングの実力を見てみたいw

このサイトから英語日本語フレーズを対にしてcsvに全部落とせる?

みんな大好きの瞬間英作文のソースが大量に落とせるよ!

http://gogakuru.com/english/phrase/genre/index.html

2016-06-29

anond:20160629135046

右も左も分からんかったのと、python勉強たかったんで、

pythonによるウェブスクレイピング」っていう本読んでるんですよ

curlでもスクレイピングできるんすね。

curl自体初めて聞きました

簡単クローリングなら、curlの方がいいってことですね

本に従ってbeautifulsoap使ってますそれから本の内容的にデータ分析のためにmysql使い始めました


将来的には、クロールしてデータかき集めて、自動取引なんぞに取り組みたいと思ってまして。

からmysql使うのなれとくもいいんではないかと思ってます

素人判断なので、間違ってたら教えてください

2015-12-28

AWS運用しているサイトに定期的にスクレイピングにやってくるバカは消えろks

1分毎に確認しに来てんじゃねえぞ

余計な金を払わせるな

非常識行為はやめろクズ

2015-11-29

aliexpressをrubyスクレイピング

rubyスクレイピング

aliexpressの検索結果から

検索結果のURLを抜き取るのは、

結構簡単にできた。

ここから、ページ切り替えてURL収集する処理も追加すれば、

クローロング部分は完成。

あとは、各ページに対するスクレイピング問題



require 'open-uri'

require 'nokogiri'

# スクレイピング先のURL

url = 'http://ja.aliexpress.com/category/200003482/dresses.html?spm=2114.52010108.6.7.gT0qlW&addpid=32546825642&isOnSale=yes%22'

charset = nil

html = open(url) do |f|

charset = f.charset # 文字種別を取得

f.read # htmlを読み込んで変数htmlに渡す

end

# htmlパース(解析)してオブジェクト作成

doc = Nokogiri::HTML.parse(html, nil, charset)

num=0

doc.css('a[class = "product "]').each do |product|

p product.attribute("href").text

p num = num+1

end

2015-11-26

http://anond.hatelabo.jp/20151126052308

発達障害が判ってからプログラマ目指した訳じゃないし、納期が守れないとか、バグ迷惑かけたとかはない。でももし先に発達障害が判ってたらやらなかったかもしんない。

俺が受注する案件システム屋さんとかに本格的に頼むには小さいとか、コストが掛かりすぎるけど、かといって自分達で拵えるのは難しいというスキマ案件webページの制作スクレイピングシステムサーバ等のインフラ準備、業務に使う簡易なデータベース構築、wordpressなんかのcmsカスタマイズExcelとかのVBAなんかも範疇といったらレベル判ってもらえるだろうか。手にあまりそうな案件なら事前にお断りさせてもらうし。案件安いよ。年収も低い。

でも俺は一人で誰に気兼ねなく作業が出来る今の形態がとてもありがたいと思っている。

作業形態も得られる対価にも不満はないしやっぱコード考えるのは楽しいから個人的には天職だと思ってる。ただ誤字が辛い。

2015-11-14

アフィカスざまぁ

2chまとめサイトを嫌う人たちが、レス名前欄や本文などにアフィリエイターが嫌がる文言を入れているのをよく見かける。

「アド⚪⚪スクリックしてください」とか

「このサイトは⚪麻を販売しています」とか。

「こうしておけばまとめにくいだろ。アフィカスざまぁ」とか思いながらやっているのかも知れないが

そんなの正規表現等で一発変換・消去できるし、そもそも手作業でなんかまとめない。

もっと言えばブラックリストワード学習させてDBにするので新しい文言

入れてきてもすぐに対応できる。

メニュースレッドレスデータスクレイピングしてDBへ、ブラックリストワードの変換・消去、リンク画像等のリプレイスファイル化、CMS連携して記事化するところくらいまでほぼ全自動なのでそういった妨害は全く意味なし。(唯一作業らしいののはレスを読むことくらい)

ちなみに2chニュース系の板単体では生きてるスレッド数が常時700~1000程度、レス数は合計で100000~150000くらいになる。この量なら3分くらいで全て取得、ブラックリストワードを変換・消去した上でDB化できる。

必死妨害しようとしている徒労に涙を禁じ得ない。

2015-07-30

エロ動画サイト更新が5千倍捗るXVIDEOSサムネイル取得ツールを作った

こんにちはとあるXVIDEOSまとめサイト管理人です。

毎日毎日動画を探してきてはシコシコと投稿して暮らしています

そんな中、アクセス数を増やしたい一心で、

ふと思い立って1日の記事更新数を12から24回に増やしてみたところ…

なんと検索から流入が2倍も増えちゃったんです!

Googleなんて楽勝!もうウハウハやで!!

・・・なんて気分には全然なれませんでした。

実際のところは、記事更新に追われる毎日でございまして…。

いやもうほんと大変。

こんな生活やってられん!でも更新数は絶対減らしたくない!!

う~ん、どうにか楽できないもんかね?


ということで、

XVIDEOS動画ページのURLを貼り付けたらサムネイルが出てくるという、

エロ動画サイト管理人には夢のような更新補助ツール自作してみました。

このツールを使えば、

動画再生して、良い感じのとこで一時停止して、キャプチャーソフトで保存する…。

そんな面倒くさい作業から解放されるのです!これはすごいっ!!

何がすごいのか分からない一般人には糞の役にも立たないツールです。

でもせっかくだからちょっと試してみてね。

ちなみに更新ツールなので閲覧環境PCのみ対応してます

スマホで見てる人はごめんなさいね

http://eronuku.com/

※当サイトについてというページの「サムネイル自動取得ツール」のリンクで公開してます

簡単に使い方を説明します。

ご存知の方も多いと思いますが、

XVIDEOSでは1つの動画に対して30枚の画像サイズ違いで4種類も用意されています

で、上のページにある検索窓みたいなとこに

XVIDEOS動画ページのURLを貼り付けるとあら不思議サムネイルが30枚ずらずら出てきます

そして使いたい画像クリックすれば、どどん!と下に出てくるようになっています

サムネイル」「小サイズ」「中サイズ」「大サイズ」の4種類のURLコピペして使うなり、

ダウンロードして使うなり、煮るなり焼くなり好きなようにしちゃってください。

ついでに動画の埋め込みコードコピペできるようになってます

あと使うかわかりませんが、XVIDEOSサムネイルURLを貼り付けても使えるようにしています


スクレイピングサイトだったら1日50記事とか100記事とか自動更新されてるんでしょうけど、

こっちが必死に作った記事をサクッと盗まれてるのがすっごい悔しくて。

私みたいに自力更新している管理人さん達がちょっとでも楽できたら…。

なんて思ったりして自分一人で使うだけじゃなくて公開することにしました。

このツールを使って節約できた時間をアクトレ作業に回したり、さら更新回数を増やしたり、SEO勉強したり。

そんなこんなでアクセス数が倍増しちゃったりしたら最高ですよね!

そんでもってスクレイピングサイト検索結果の下位ページに追いやられたらもう言うことなし!!

みんなであいつらをこの業界から追い出してしまいましょう。

やっぱりオリジナルコンテンツが1番良いに決まってるよね!


P.S. このPHPを応用すればスクレイピングサイト作れるんじゃね?と思ってしまったことは内緒です。

2015-07-18

エロキュレーションサイトを一日で作ってみた

エロキュレーションサイトを一日で作ってみた

とりあえず、サイトはこちら

エロヒーローズ

http://erohero.com/

サイトを作った目的

エロサイトはたくさんあるが、どれも似たようなものいまいち使いにくい

世の中の男性には万人に理解されない性癖があると思う(自分も)

エロサイトほとんどはカテゴリも大まかにしかまとめらていないので完全に自分が求めている動画出会えないので自分で作ってみることに。

作るまで

厳選したエロ動画を集めたいのでスクレイピングはしないで完全手動で運営することにした。

エロサイトなので海外サーバーレンタル

wordpressインストールしてオリジナルデザインテーマ作成

Xvideosから動画を手動で収集

サムネイルXVideosサムネイル取得するAPIを使い

URL入力したらサムネイルを吐き出すページを作成

あとは、地道に動画投稿をする。

ヒーローページとは

動画をかなり細かなジャンルで分けたページ

髪型や髪色、髪の長さ、肌の色、射精の種類

熟女の種類も三段階で分けてみた。(他サイトでどうみても20代人妻という理由熟女扱いされている時があったから)

他にもいろいろ細かく分けている。

ネット検索もっとマニアックものがあったら随時追加していきたい。

まとめ

エロサイトを作ったのは中学の時ぶりだったが、やはり制作しているときが一番楽しい

実際運営するとなるとなかなかめんどくさいがとりあえず、飽きるまで続けてみようと思う。

2015-07-14

童貞プログラマーエロサイト作ってみた

作ったサイト

AV女優検索

http://pornstar.jp/

かつて好きだった人の写真好きな芸能人写真から顔が最も似ているAV女優検索するサービス

既に好きなAV女優から新たなAV女優を発掘するという利用もできます

動機

僕はAV女優を顔重視で選ぶのですが、いろんなエロ動画サイトを見ていると、有名ではないが、自分の好みな顔のAV女優を見付けることがよくあります

既存エロ動画サイトテキスト検索することは可能ですが、もしかしたら、まだ自分の知らない自分好みなAV女優がたくさん存在するかもしれないと

もし顔で検索できれば自分AVライフもっと楽しくなるだろうと一念発起して開発しました(開発期間は半年くらい)。

システム構成

レンタルサーバーGMOクラウド Public
WEBApache
DBMySQL
プログラミング言語PHP
フレームワークCakephp
UIBootstrap
認識Face++

簡単に仕組みを説明すると、

①DMMのサイトスクレイピングしてAV女優基本情報名前スリーサイズなど)を登録

②DMMのAPIを利用して、それぞれの女優作品を取得して、パッケージ写真中の顔面積を測り、最も面積が大きいパッケージ写真登録

ユーザーアップロードした画像からFace++のAPIを利用することで顔検索して、最も似ているAV女優を8人表示

終わりに

今はまだ、顔認識を他のサービスに頼っているので、いずれ内製化して全て自分で開発したいと考えています

また、今は静止画でとどまっているので、動画範囲を拡げて、画像アップロードすると、

自動的画像に似た女優が出演する動画を表示する仕組みも開発したい思います

2015-06-22

増田まとめブログを作ればいいんだ

月に一回、はてぶの数でソートして増田をまとめた、まとめブログ作ろう。

転載禁止らしいけど、タイトルリンクだけ並べればいいだろう。

そしたら過去の名作増田も掘り返せるし。

足切りは50ブクマかな。

つーわけでそのうちスクレイピングすっけど、はてなさんよろしくな。

俺の増田記事でいくらか儲けてんだろ。

そんぐらい許せや。

2015-05-19

自動更新エロサイトを作ったから自慢させて

初めて書くのでいろいろと不慣れだけど許してください。

■作ったサイト

エロ動画ちゃんねる

http://eromovie-ch.com/

■使った技術

PHP

スクレイピング

cron

Wordpress

HTML

CSS

jQuery

位だったと思う。

制作時間

スクレイピングPHPでするプログラム半年くらい掛かった気がする。

てかそもそもはなんとなくスクレイピングに興味を持って作りこんでたら「あれ?これエロサイト作れるんじゃね?」って思ったので

エロサイトを作った流れ。

Wordpressとかで実際にサイト構築したのは1日掛かってない。

サーバー

非常に悩んだ結果GMOVPSを使うことにした。

安いのとアダルトOKで一番有名だと思ったから。

ゴヤサポートがクソだった。

サイト機能とか

特に目新しいことはないです。

記事一覧が表示されて、cookieお気に入りが追加できて、タグ一覧があって、検索できるだけ、

本当はリンク切れ報告ボタンも作りたかったけど力尽きた。

作る方法は頭の中にあるけど、どうせ作っても誰も押してくれないんでしょ?見たいになってる。

あ、テーマPC/SP共に自作です。

レスポンシブに対応しています更新が楽だしね。

スクレイピングについて

基本的FC2XVIDEOSから取れるようにしている。

ただXVIDEOS日本語タイトルじゃないからそれを日本語にするのが手間と言う理由で今はとめてる。

翻訳APIを使ってやってもいいんだけど、サーバーが落ちそうだから嫌だ。

うそう、スクレイピングがめちゃくちゃ重すぎてサーバーが落ちる!

これがちょっと困る。

なので最低限のサイトから最低限の動画しか取得してない。

それでも1日100動画くらいは投稿できてる気がする。

さすがにスクレイピング自作ではめんどくさかったので[PHP Simple HTML DOM Parser]というスクレイピング定番ライブラリを使っている。

これが重い最大の理由なんだけど、これなしで効率よくスクレイピングさせるのはめんどくさかった。

あとは、簡単に他の動画サイトからスクレイピングできるようなつくりにしたから、やろうと思えばニコ動でもyoutubeでもいろいろなところから取得できる。

これは結構利点だと思う。

FC2が突如つぶれても他のエロ動画サイトからスクレイピングすることが出来るから

アクセス数/収益について

今は0です。

だっておとといドメインを取ったばかり何だものインデックスだって100ページ程度しかされてないし。

1ヶ月もすれば1日5000PVくらいにはなると思うけど。

とにかく更新が楽だから自動から)忘れたことにPVがあがってくれると助かる。

てか会社を辞めてエロサイト収益生活したい。

あんな会社で働きたくないし・・・

ということで、一通り書いてみました。

意見、ご感想などあればコメントとかください。

■追記

いろいろとコメントを頂いてうれしいです。

ポリシー場所とかは単純に忘れてました(汗

ロゴも雑ですが直しました。

大変参考になりました。

アフィリエイト広告については悩んでたのですが、早めに乗せることにしてみます

ありがとうございました。

■追記2

事情で1週間ほどサイトを閉鎖しています・・・(2015/5/28現在

ちょっと復活まで待ってください。

よろしくお願い致します。

■追記3

復活しました!

ぜひお楽しみください!!

2015-05-10

グーグルに支配される

スクレイピングしてwebサービス作ろうとしたんだけどグーグル検索結果に何でも出るようになっている。スポーツ選手レシピなんでも。

しか画像付きで。

もう勝ち目無いよ。どうしたらいいんだ

2015-04-17

Webスクレイピングへの対応どうしよう

Ractive.js辺りを使ってWebアプリを作ろうと思ったのだが、

これを使うとPerlでいうHTML::QueryやRubyでいうNokogiriを使ってデータを抜き出すことができなくなるのだよな…。

かといってHTMLベタ書きするのは大変そうだし、

多少手間はかかるがレンタルサーバーなりPaaSを借りて、

後ろでHTMLを生成するとかのほうが適切なのかなー…。

2015-04-14

スクレイピングライブラリのgoutteってそんなに良いか?

ヘボグラマの俺からしたらsimple dom htmlのほうが

使いやす

filterしたりreduceしたりいちいちめんどくさい

2015-03-14

2ちゃんねる、新仕様APIへ移行するものの速攻で穴を突かれる

日本で最大規模を誇る電子掲示板サイト2ちゃんねるでは3/13から仕様API対応していない2ちゃんねる専用ブラウザは利用出来なくなった。

しかし、新仕様API移行に反発する有志達(主にオープンソースプロジェクトで開発れていた2ちゃんねる専用ブラウザユーザ)によって新仕様API規約の穴を突かれて突破されてしまっている。

仕様API規約によればWebスクレイピングJavascriptなどが禁止されているが、例えばPerlPythonシェルスクリプトなどのユーザスクリプトによるHTTPソースの改変は規制されていない。

そこで有志達は規約通りに新仕様APIを介して2ちゃんねるHTMLファイルを取得しユーザスクリプトによってHTMLを従来の2ちゃんねる専用ブラウザで読み込めるdatファイルへ変換する方法を編み出した。

ユーザが個人で楽しむ範囲HTMLソースdatファイルに変換するにのは法的にも問題が無いと思われ、2ちゃんねる運営にもそれらを規制する法的根拠を得るのは難しいと考えられている。

他にもルータフィルタリング機能DNSサーバー設定の変更で広告を表示しないようにしてしまうなど、2ちゃんねる運営は思い通りにならない2ちゃんねらー達にやきもきさせられてしまう格好だ。

今後の2ちゃんねる運営2ちゃんねらーいたちごっこが見物である

2015-02-16

2ch専ブラ禁止って法的に有効なんだろうか

API禁止は有効だろうけど、スクレイピングで通常のHTMLを読み込む方式も禁止するんでしょ?

Webで公開してるものを、特定ブラウザしかアクセスしてはいけないとか、表示も勝手カスタマイズしちゃいけないって、そんなのアリなのかね。

2015-02-11

LINE QというLINEよりも恐ろしいコミュニティが出来上がっている

最近LINE Qというアプリを入れてみた。LINE関係なので利用者の年齢層はわかっていたけど予想以上にひどい状況だった。

LINE Qは2013年12月5日サービスを開始した。知恵袋よりも手軽にそして、Twitterのような感覚で使えるサービス

まずはじめに、知恵袋でいう知恵コイン一定数貯まるとLINEのスタンプを購入する時に使えるコイン現金に換金できる仕組みがある。

この仕組みによってユーザーが増えていると言っても過言ではないだろう。

ただし、換金するためには30000ポイント以上貯めなければいけないし、1ポイント=0.1円なのでそう簡単には換金できない。

一気に稼ぐために「私に聞いて」という機能がある。ただ、私に聞いてと言っても答えるのはネットでかじった情報なのであまりたくさんの質問付いているのを見たことがない。

まぁここまでは許せないこともない。通常の質問がヤバすぎる。

まず、質問者は一切自分で調べる気がないし、LINE Qに同じ質問があってもそれを参考にしようともしない。

賢い回答者自分定型文のようなものを作ってピッタリ(ベストアンサー)をつけてもらっている。

内容の多くが、

自由の翼フォントが何故か大人気でしか製作者のページではなくそフォントが使えるアプリを紹介する。

自分でttfファイルフォルダに入れる気はないし解凍する意味を知らない。

  • ○○に△△△が出た時の動画URLください。できればDailymotionがいいです。

違法アップロード動画の在処を堂々と聞くだけでなく、投稿されているサイトまで指定してくる。

ググらない

  • これってどうすればいいですか?

スクショ付きでそこに答えが書いてあるのになぜか聞く。自分のために回答されたものでないと信じられないのだろう。

魔法石800個プレゼントのようなアプリスクショ付きで聞いてくる。そんなうまい話はない。こういう層がいるからなくなならないんだなぁと実感。

  • この加工どうやってやるんですか?アプリを教えて下さい。

工夫しない、なんでもアプリで出来ると思ってる。Photoshopなどの高度な画像編集ソフトですることもスマホアプリできるはずだ信じている。

比べるものが違う

  • ○○○の画像ください

著作権とか肖像権なんて知らない。「利用にあたっての約束」という利用規約ネットマナー小学生がわかるくらい簡単に説明しているページがあるのに読まない。

  • ~~って本当ですか?

未発表情報未来ソシャゲイベントの予定なんて教えられるわけがない。

このような質問ユーザー名を出さずに「匿名」設定でする上に回答がつかなければ削除してもう一度質問する。自分の思ってたこと違う回答がついても自分の考えと同じ回答が来るまで質問する。

ヤフー知恵おくれ」と言われる知恵袋よりもひどい。LINEトラブル依存問題ではあるが、調べる前に人に聞き、そして反論は受付ない。もしかしたらLINE QはTwitter以上の性能を持つバカ発見器になるのかもしれない。(もうなっているのかもしれない)

【どうでもいい追記】

これは増田がこのWebサービス本質をわかってないのでは。これって人力のSiriでしょ?Siriには何回も同じこと聞くよね?「この前教えたやらろググレや」ってsiriに言われたらどう思う?

その通りだと思います。ただ人力のSiriとは言えど、Siriのような的確な回答がついている質問は少ないです。回答者が小中高生なので仕方ないですが、間違った情報を「何人もこう言ってるからそうなんだー」と思ってしまわないかという懸念です。

スマホが普及したことによって今まで見えなかったものが見えるようになったのかもしれません。

この層を相手にいかに商売をするかがネットで儲けるために重要なんですかね。

そういえば人力検索はてなっていうサービスがありましたね。今どうなってるかしらないですけど。

LINE Qはパソコンブラウザでも見れるので、スクレイピングして、文章内の単語から内容を推測して定型文を自動投稿するbotを作ったらガッポガッポかもしれないけど技術もないし運営に怒られそうなのでやりません。

最後の追記】

予想以上のブクマがついたので説明したいのですが、まず私はおっさんではなくただの高校1年生です。前々からLINE Qの質問内容も見ていましたが「さすがにこれはどうなのだろう?」と重い一石を投じたくて記事を書いたつもりが大岩を投じるような感じになってしまいました。父親の影響でDSiインターネットが見れるようなった頃(小学5年生くらい?)からはてブを見てきたので煽りすぎるタイトルや大げさに書きすぎてしまった部分がありました。ただ言いたいのはこのLINE Qを潰したいとかそういうことではなく何かいい方に進むきっかけになってほしい気持ちでこの記事を書いたことです。

2015-02-03

突貫ではてな匿名ダイアリーChrome拡張作った

https://chrome.google.com/webstore/detail/masudalert/clkiaalhgfhgcllngddndbghoaahhnfa

当方デザインできないので見づらいのはご愛嬌

とりあえず自分投稿した日記トラバブクマがついたらわかるようになってます

現時点で申請後にいくつか修正したので、バージョン1.1を申請してます

できればバージョンを見て1.1であることを確認してからいれてください。



仕様は下記のような感じ



なんかフィードバックもらえると嬉しいです。

http://anond.hatelabo.jp/20150201190857



--

(追記):いろいろトラバブクマありがとうございます

火狐版は簡単そうならやろうかと調べてみました。どうやらFxバッジないんですね・・・

メールみたいに常にページを開いておいてもらって、タブで通知するとかはアリかもしれませんが、自分があまりFx使わないので正解がわかりません。

Githubソースもあげたので誰かがやってくれるのを期待します。

https://github.com/katsuren/masudalert



--

(追記2)

バッジがあがってきても、どの記事なのか、トラバなのかブクマなのかわかりづらかったので、

リンク見出しトラバ/ブクマ数を表示するようにしておきました。

version 1.3 にアップデートお願いします。

エンジョイ増田ライフ



--

(追記3)

ついでに各記事に返信リンクを追加する機能つけました。

トラバつけるときコピペするの面倒だったので。

こんな感じでよければ iOS とか Android とか作ります。多分。

2015-01-19

エロサイト作ってみた

*ふと思いつきでエロサイト作ってみた

**内容はxvideoとかpornhubとかにある動画リンクサイト

**ちょこちょこスクレイピングしてるまぁ一般的にあるエロサイト

運用を初めて3ヶ月位

**PVデイリーで1万くらい

**まだまだ儲からない

**運用していて思うのは、他にあるエロ動画まとめサイト組織的にやってるんじゃない?っておもったりする。

**あと、いいアドってどこなんだろうかな。nendでもいれてみるかな。

*懸案事項として

**これって違法じゃないよね?

**リンクサイトだし、サーバーに保持してないし

***とはいえ、そもそもうpされてる動画著作権的にNGから限りなくグレーなのかな。

**なんだかんだ、運用に1日1hくらいの時間をつかってる

***あと1ヶ月位して、流入ノビなければやめるかな。

***つかまるのとか嫌だしね

*ひとまず、つくるのは楽しい

===追記

違法性について

**やっぱアウトなんですね。”アウトとわかっててやったなら”って話なら、なんとか逃げれる?笑

**”ヤクザからの連絡”これってやっぱくるのかな、相互リンクの連絡用に連絡先を載せたいけど、そのあたりがこわいからやっていません。

*うーん。やっぱり、らくして稼ぐみたいなのって良くないことが多いのかな?

2014-12-24

イブクリスマスも予定のない俺とみんなのためのエロサイトを作った

作ったサイト

エロ動画を色々なところから収集するサイトです。

skrsvideo

http://skrsv.info/

サーバー選び

今回プログラミング言語Rubyを選択したため、基本的にはVPSクラウド的なサーバーLinuxが動作する環境を探しました。

エロサイト運営するにあたって問題になるのがサーバー選びです。

基本的日本レンタルサーバーではアダルトサイト運用を禁止しています

普段使っているさくらVPSが利用できず、AWSもなんだかグレーな感じ(東京リージョン以外なら・・・?)

そんなわけで探し、GMOグループWebkeepersを使いました。

Webkeepersのサーバー海外にあるらしいです。

質問アダルトサイト運用はできますか?

http://faq.webk.net/faq/index.php?qc=1&qc_sub=4&id=99

使っても良いよ〜というお墨付き

そして価格も手頃だったためここに決定。

システム

DBMariaDB
WebサーバNginx
フレームワークRuby on Rails

MariaDBを選んだ理由はなんとなく、MySQLとの違いはほぼありません。利用するGEMmysql2でいけます

NginxWebサーバで、ページキャッシュもしています

ちなみにJavaScriptは使わずすべてCSSで作る方針しました。

スマホPC対応のためにMedia Queryでレスポンシブにしています

Webの流れ

Nginx

unicorn

Ruby on Rails

MariaDB

という流れです

使っているGEM

gem 'mysql2'

gem 'rails_config'

gem 'kaminari'

gem 'haml-rails'

gem 'sass-rails'

gem 'nokogiri'

gem 'unicorn'

フロントhamlsassで、難しいことはしていないのでcompassはいれませんでした。

あとはデバッグ用にrails_config、pry系が入っています

クローリングスクレイピングでnokogiriを使います

クローラー

skrsvideoでは動画URLを取得するためにクローラーもどきスケジューリングして収集しています

スケジューリングにはcrontabを使用しています

crontabでRakeタスクを定期的に叩きます

コマンドはこんな感じ

RAILS_ENV=production bundle exec rake item:search


Rakeタスクはnokogiriでxvideosへのリンクを集めています

doc = Nokogiri::XML( open(URI.parse(url)).read )

urls = []

doc.css('a').each do |link|

 urls.push link[:href] if link[:href] =~ /xvideos.com\/video(\d+)/

end

Nokogiriのスクレイピングでaタグリンクを取得し、URLxvideosのものかチェックして保存って感じです。

動画を探し終えるとaタグからランダムピックアップし次のページに進んでいきます

動画が見つかったページはドメインDBに記録して、しばらくしたら再びクローリングをするようにし、収集効率化。

サイト機能

(45 min)←コレの安心感は異常wwwwww

http://blog.livedoor.jp/dennououjo/archives/39873075.html

これを思い出して、動画時間を表示するようにしました。

30分以上の表示はちょっと頑張ったところ

http://skrsv.info/30_min_more


AV女優タグが表示されるようになっています

これはタイトル文字列から部分一致で引っかかったものを表示しています

AV女優名前を表示するためにWikipediaからとってきたら、ちょっと膨大な数になってしまったため断念。

どんだけ女優いるんだって感じですね。

DMMランキングに載っていた方だけをとりあえず入れています

タグも同様にDMMから

おわりに

1日でつくろうと思っていたら思った以上にサーバーが見つからないで、サーバー選びに1日かかってしまいました。

あとはFC2とか対応できたらいいなーと思います

ログイン ユーザー登録
ようこそ ゲスト さん