「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2017-04-21

Orarioとスクレイピング大学側の対応について

すでに学生でもないのになぜこの件について書いているか自分でも分からないが、例の穏便でない大学教授発言ブーストされた感がある。

まず前提として、ID/パスワードを用いてスクレイピングを行うサービスのものは、特殊というほどではない。そのようなサービスはすでにいくつも存在するし、最も有名なところでは口座アグリゲーションサービスMoneyForward等)だ。彼らは業としてそのようなサービスをおこなっている。セキュリティのこと少しでもわかる人間ならそんなサービスやらない、というほどでもない。ただし、セキュリティが分かる人間であればあるほど慎重になる、というのは確かではある。通常ID/パスワードを渡すということは、全権委任とおなじだ。また、ログイン後の行動について、自分がやったか第三者がやったか、全く判別できない状況になる。さらに通常のWebセッションと同等だとすると、パスワードリセットから完全なアカウント乗っ取りまであり得る。つまりサービス事業者に対してよほど強い信頼関係がなければ厳しい、ということになる。

クラウド上で動いているかスマホ上で動いているか、という話は、それほどは重要ではない。クラウドしろスマホアプリしろ、すべてサービス事業者側の組んだプログラム意図に従って動くものであることは確かだからだ。

ただしクラウド上ではユーザが想定していない動作を行っているのかどうかという検証しにくいという問題があるとはいえる。とはいユーザが予め意図した行動から外れることをしてないのであれば、クラウドからアクセスでも別にそれは問題ないわけで、その点で、Orario側の主張であるスマホで動かしているのだから」という主張は、ちょっと見当はずれではある。

なお、ユーザインタラクションを介さな自動的アクセス自体サービス要件に含まれ場合スマホでは厳しいためクラウドアクセス主体が置かれる、というのは、まああり得る。口座アグリゲーションはその典型的ものだろう。Orarioの場合は、たぶんその必要はないのだと思う。

正規手段として学認があるのになぜしない?という主張は、マジでひどいと思う。普通に考えて、ぼっと出の1ベンチャートラストサークルに加えてもらえると思っているのか。このような主張は、Google/Facebookレベル自由APIクライアント登録ができるようになっていて、初めて言えるものだろう。通常は、世に受け入れられるサービスが出て初めて実行力を認めてもらえる、にわとりたまごの話ではないのか。そもそも、学認のShibboleth仕様で、そのような履修情報のやりとりがそもそもできるようになっているのか疑わしい。ホントSSOできるだけではないのか?

大学側にお伺いを立てるべき、という筋論は、そりゃそうかもしれないけど、やっぱりにわとりたまごだと思う。ビジネスの筋論っていうやつは、内輪だけの論理になっている場合が多いし、正直ステークホルダー既得権益側だったりするわけで、話が通じるとは思えない。そのようなもの破壊していくのは常に外部からだろうし、それを単なる破壊行為ではなくDisruptionにできるのは唯一ユーザからの支持であるわけだけど、Orarioは最低限そこはできていたようにもみえる。例の教授はどうも内側のメンバーの感じがひしひしと出ており、傍目から見ると、そりゃそのポジションじゃあね感が強い。

事業モデルがわからいから怪しい、事業が成り立つとしたら収集したデータ第三者への販売ぐらいしかないはずだ、という主張は、気持ちはわかるもの論理として弱い。怪しいサービスに預けるな、というのは、意見の表明ではあるかもしれないが、普遍的に怪しさを証明するには根拠が足りていない。利用規約レベルではまだなんとでもいえる。逆に言うと、Orario側は、そういう色が少しでもあったのでは?と思わせるような内容を否定してさえいけば、その点では勝てるが、やっぱりそこは何らかの形で検討して行きたかったのでは、とも思えるので、そういう将来の自分たち制限することはことはあまりやりたくないだろうなとは思う。

結論を言うと、とりあえず大学側はもうすこしトーンを落としてほしい。このままではFUDだといわれても仕方ない。単位云々の脅しは傲慢以外の何物でもない。少なくとも卒業生にとってそのような大学いたことを恥じるレベルである。嫌なのは分かるが、銀行とかだってそうだったはずだ。もうすこし長い目で見てあげられないのか。ID/パスワードを預けることのユーザへの注意喚起は、もちろん正当だが、それを認識して預けていることについてとやかく言うことは得策でない。

そして、Orario側は、自分たちがやっているサービス説明に少し時間を割いてもいいと思う。特に何をどのように取得しているのか、明確にすることは重要だ。大半のユーザたちはそういうこと気にしないとしても、自分たち自身自分たちサービス定義するのに役に立つし、今はEvilでなかったとしてもいつかEvilになってしまうのを防ぐという意味合いもある。面倒かもしれないが、取得範囲を明確にすることは信頼を得るということであり、最終的にユーザの獲得に寄与するだろう。

2017-04-20

http://anond.hatelabo.jp/20170419213734

中の人なの?

ユーザスマホからスクレイピングじゃなくて、ユーザスマホからアクセスによるスクレイピング(と情報の蓄積)が問題とかじゃなかったっけ?

なんで開発中だけちょろっとアクセスしただけなんて言えるんだ?

2017-04-19

流行ってるOrarioと大学側について思うこと

Orarioについて思うこと

Orarioについて

現在大学の中でOrarioのアクセスがどうこうという問題が起きているようだが、

ひとまずこの記事については、下記URLにある、京都大学専門家であらせられる記事について、一人歩きしてる感があるので、

もう少し彼のような上流側(という表現で良いかどうかは不明だが)の専門家ではなく、

下流プログラムガッツリ書いているほうの専門家として私(匿名で失礼)が纏めたいと思う。

  

https://srad.jp/~yasuoka/journal/611343/

  

  

不正アクセスという言葉曖昧

Orarioの芳本大樹が書いた『時間割アプリの「Orario」の特性安全性について』(2017年4月17日)という文書を読んだ。このOrarioは、京都大学のKULASISにずっと不正アクセスを繰り返していて、正直なところ私(安岡孝一)としてはアタマに来ていたのだ。

  

Orarioの特性安全性について、本当にスクレイピング技術クライアント端末側で行っているのであれば、

この部分は間違いではないと私(匿名で失礼)は考えている。

  

この部分の書き方、実に大学教授らしい逃げ道を多く用意していて。

  

KULASISにずっと不正アクセスを繰り返していて

  

上記発言、これは本来「開発時の検証段階」の話をしているのであれば「正解」、である

逆に今のOrarioの通信についてを不正アクセスとしているのであれば「正解ではない」、である

  

何せ、開発者勝手アカウントを使って入り込んで様々な検証を行う必要があるため、

学生からIDパスワードを借りたはずだ。

借りてログインするのが不正かというと微妙ラインだと思う。

  

この辺りにもやっぱり大学教授のいやらしさがあって

KULASISサーバに対してクラッキング/ハッキングを行って根こそぎどうこうしたなどという大がかりな不正アクセスではなく、

あくま大学側が定める規約規則から若干外れた使われ方がされているという意味不正アクセスである

  

法律的には、正直不正かどうか微妙ラインになる。

(そもそもスクレイピングなんて技術を使う連中はID/PASSWORDがない状態でのサーバへの不正アクセスなどできない

  

開発時は「京大のKULASISアカウントをもったユーザが開発に携わっていないのであれば」押し出してきている京大規約によれば、不正アクセスにあたるのかもしれない。

個人的には当たらないと感じるが。

  

  

現在動いているアプリ不正アクセスと断言できない

現在動いているもの不正アクセスではなく、

京大規定に定められたユーザが「特定ブラウジングツール(Orario)」により、

KULASISにアクセスしているのだからアクセスとしては不正ではない。

本当にスマートWebスクレイピングで行われているのであれば、Webブラウザと全く同じ動きをするはずで、

それを不正アクセス断罪してOrarioは不正というのは表現が汚いと考える。

  

  

これはコメント欄にもあるが、

https://srad.jp/comment/3196554

また、ChromeSafari(及びその他マイナーWebブラウザ)なども御校のWebサーバーよりコンテンツデータを取得し、HTML構文解析し画面表示を行っていますが、これらはセキュリティポリシーには適合しているのでしょうか?

  

ご大層にはっておられるリンクを流し読みをする限り、そんな厳格に何かを定めているわけではないように思われる。

それ故、実際にOrarioがスマートフォンによるスクレイピングを行っているのであれば、

Webブラウザ一種とも言えなくはない為、これを不正と断ずるのは、「正しくない」だろう

京大ユーザが開発に携わったか証明できない以上、彼にとっては不正なのかもしれないが、

ここでそれをOrarioは不正アクセスと断ずる論理性が私(匿名で失礼)にはわからない。

  

  

アクセスパターンを公開できない理由とは?

他にもこの部分

Orarioアプリでは「Webオートメーション(Webスクレイピング)」と呼ばれる技術を用いています。この技術により、利用者様のスマートフォン(にインストールされているOrarioアプリ)に学生アカウント大学IDパスワード)を入力すると、自動で当該利用者様の教務用ページから時間割の生成に必要情報のみを取得し、Orarioアプリ時間割テーブルに当該利用者様の時間割を生成・表示することができるという仕組みとなっています

全く信用できない。少なくとも先月以前、OrarioからKULASISへのアクセスパターンを解析した限りでは、そんな風なアクセスパターンには見えなかった。嘘を書くのもいい加減にしろ

  

この部分も怪しいものである

Webスクレイピング技術に関して、なぜアクセスパターン問題になるかが一つ疑問である

下記のOrarioが出しているPDF(http://www.orario.jp/wp-content/uploads/2017/04/Orario%E3%81%AE%E5%AE%89%E5%85%A8%E6%80%A7%E3%81%AB%E9%96%A2%E3%81%99%E3%82%8B%E8%A6%8B%E8%A7%A3.pdf)にあるように、簡単にいうならばID/Passwordを利用したPOST通信を行い、その返答値をスクレイピング切り貼り)している。

  

それをアクセスパターンを解析で一体何が取れるのか?という部分が、この辺りが分かる自称専門家の私(匿名で失礼)にもさっぱりわからない。

  

もっというと、「そんな風なアクセスパターンには見えない」、というならば、セキュリティ観点上公開すべきではないだろうか、

逆に一体アクセスパターンを見て私(匿名で失礼)も何を行っているのかが気になるところである

  

ただでさえ、不正アクセスという言葉をつかって攻撃しているわけだから

アクセスパターンを公開して断罪すべきだし、セキュリティ観点からみても他大学との共有はすべきで、

学生に対してもその証拠を出して止めさせるべきだろう、というのが個人的見解である

学生の求める「単位」をつかって脅しをかけている時点で、お察しだが……。

  

そもそも上記で述べた開発時のほぼ不正アクセスと考えられる通信についてを「アクセスパターン解析で見つけた」というのであれば理解ができるが、

現在すでにスクレイピング確立している通信に関して、アクセスパターンでOrarioかどうかを判別するのが可能かというと何とも言えないと思う。

(ご丁寧にOrarioが通信用のUserAgentにOrarioの文字を含めているなら別だが……

(もちろん、アクセスログを見て、ログインページからWebスクレイピングしたいページへ遷移するまでの時間を取るとあまりに短すぎる、という話ならやれるかもしれないが……。

  

たとえKULASISが京都大学オリジナルで開発した大学教務事務パッケージだとしてもそうだろうと考えている。

同様に日立富士通も同じような大学教務事務パッケージがあるが、

基本ログ処理がザルでろくにuser-agentの確認もできない大学も多く存在したりすることを知ってる自分としては、

本当だろうか?嘘を書くのもいい加減にしろ? と思う。

大学側について思うこと

なぜOrarioが学生に人気か

UIが糞(システムスマートフォン対応がノロい)だからアプリ流行るということに気づくべき。

  

富士通日立にしてもそうだが、API提供したほうがいいのではなかろうか。

とくにKULASISだったか何だったは、京都大学謹製と聞いている(違ったら失礼

少なくとも他の大学教務事務パッケージではなかったと記憶している。

であれば、京都大学API提供大学側で専門家を集めてOrarioを超えるものを作ってはどうか?

  

大学予算確保の問題

実際大学でこういうことをやろうにも、問題になってくるのは予算で。

大学は、縦割り構造で、横とのつながりが極端に薄く。

教務、事務、学務、図書館、など様々な縦割りが存在し、それぞれがそれぞれの予算でそれぞれのシステムを入れている。

これが実に糞で。

つの大きなシステムを入れ替えるとなると、横との連携をとって全ての組織の号令をとらなければならない。

  

その辺りが難しいのは知っているので文句は言えないものの、

ここまで問題になってくるとやはりその辺りの対応の遅さが問題なのではないかと考えている。


まとめ

学生がアホ → 仕方が無い若いんだし

大学がアホ → 学生に良い物を提供したいという思いがあるならもっとフットワーク軽くしろ

教授がアホ → 曖昧表現で、素人を先導しようとするのが見え見えで気に入らない

Orarioアホ → コメントにもあるけどやり方が汚いのは確かだから甘んじて受け入れろ


以上です

2017-02-16

[]ブクマ1000超えしている11記事の内どれだけ重複するIDがあるか

http://anond.hatelabo.jp/20170215193247

の回答にあるブクマスパム説を検証するために数えてみた

7,086個のID12,216回のブックマークを行って111000超え記事を生み出していた。1ID平均1.72ブクマ

http://b.hatena.ne.jp/ranking/weekly1000ブックマーク以上されている11記事中n記事ブックマークしているID

11, 6ID

10, 6ID

9, 12ID

8, 23ID

7, 42ID

6, 71ID

5, 130ID

4, 263ID

3, 624ID

2, 1595ID

重複なし, 4314ID

(注: n重複のID数の中にn+1重複のID数は含まれていない。つまり10重複のID数の中に11重複のID数は含まれていない。)

集計対象11ページ

ttp://b.hatena.ne.jp/entry/www.nakahara-lab.net/blog/archive/7308 (※この行間違えてたので修正)

ttp://b.hatena.ne.jp/entry/s/togetter.com/li/1079883

ttp://b.hatena.ne.jp/entry/omocoro.jp/kiji/101534/

ttp://b.hatena.ne.jp/entry/qiita.com/shu223/items/9e3a50e092c2997fe6d2

ttp://b.hatena.ne.jp/entry/ironna.jp/article/5686

ttp://b.hatena.ne.jp/entry/blog.tinect.jp/?p=36441

ttp://b.hatena.ne.jp/entry/s/togetter.com/li/1078513

ttp://b.hatena.ne.jp/entry/careersupli.jp/lifehack/eiga/

ttp://b.hatena.ne.jp/entry/www.lifehacker.jp/2017/02/170205_free_alternatives.html

ttp://b.hatena.ne.jp/entry/anond.hatelabo.jp/20170206102543

ttp://b.hatena.ne.jp/entry/appmarketinglabo.net/staba-sns/

はてブのページはスクレイピング拒否するかのようにJavaScriptで描画しているわ、コピペすると1ブクマ3行になっているわ、3行固定かと思えば2行のところがあるわ、めちゃくちゃなのでもうやらない。

2017-01-25

日経新聞AI決算記事自動生成 「日経電子版」などに配信

http://headlines.yahoo.co.jp/hl?a=20170125-00000083-zdn_n-sci.view-000

これ単なるスクレイピングじゃん。

AIってこういうのも言うのか?

そもそもAIって定義あいまいすぎるよね。

言ったもん勝ちだよなー

はてなーウェブスクレイピングの実力を見てみたいw

このサイトから英語日本語フレーズを対にしてcsvに全部落とせる?

みんな大好きの瞬間英作文のソースが大量に落とせるよ!

http://gogakuru.com/english/phrase/genre/index.html

はてなーウェブスクレイピングの実力を見てみたいw

このサイトから英語日本語フレーズを対にしてcsvに全部落とせる?

みんな大好きの瞬間英作文のソースが大量に落とせるよ!

http://gogakuru.com/english/phrase/genre/index.html

2016-06-29

anond:20160629135046

右も左も分からんかったのと、python勉強たかったんで、

pythonによるウェブスクレイピング」っていう本読んでるんですよ

curlでもスクレイピングできるんすね。

curl自体初めて聞きました

簡単クローリングなら、curlの方がいいってことですね

本に従ってbeautifulsoap使ってますそれから本の内容的にデータ分析のためにmysql使い始めました


将来的には、クロールしてデータかき集めて、自動取引なんぞに取り組みたいと思ってまして。

からmysql使うのなれとくもいいんではないかと思ってます

素人判断なので、間違ってたら教えてください

2015-12-28

AWS運用しているサイトに定期的にスクレイピングにやってくるバカは消えろks

1分毎に確認しに来てんじゃねえぞ

余計な金を払わせるな

非常識行為はやめろクズ

2015-11-29

aliexpressをrubyスクレイピング

rubyスクレイピング

aliexpressの検索結果から

検索結果のURLを抜き取るのは、

結構簡単にできた。

ここから、ページ切り替えてURL収集する処理も追加すれば、

クローロング部分は完成。

あとは、各ページに対するスクレイピング問題



require 'open-uri'

require 'nokogiri'

# スクレイピング先のURL

url = 'http://ja.aliexpress.com/category/200003482/dresses.html?spm=2114.52010108.6.7.gT0qlW&addpid=32546825642&isOnSale=yes%22'

charset = nil

html = open(url) do |f|

charset = f.charset # 文字種別を取得

f.read # htmlを読み込んで変数htmlに渡す

end

# htmlパース(解析)してオブジェクト作成

doc = Nokogiri::HTML.parse(html, nil, charset)

num=0

doc.css('a[class = "product "]').each do |product|

p product.attribute("href").text

p num = num+1

end

2015-11-26

http://anond.hatelabo.jp/20151126052308

発達障害が判ってからプログラマ目指した訳じゃないし、納期が守れないとか、バグ迷惑かけたとかはない。でももし先に発達障害が判ってたらやらなかったかもしんない。

俺が受注する案件システム屋さんとかに本格的に頼むには小さいとか、コストが掛かりすぎるけど、かといって自分達で拵えるのは難しいというスキマ案件webページの制作スクレイピングシステムサーバ等のインフラ準備、業務に使う簡易なデータベース構築、wordpressなんかのcmsカスタマイズExcelとかのVBAなんかも範疇といったらレベル判ってもらえるだろうか。手にあまりそうな案件なら事前にお断りさせてもらうし。案件安いよ。年収も低い。

でも俺は一人で誰に気兼ねなく作業が出来る今の形態がとてもありがたいと思っている。

作業形態も得られる対価にも不満はないしやっぱコード考えるのは楽しいから個人的には天職だと思ってる。ただ誤字が辛い。

2015-11-14

アフィカスざまぁ

2chまとめサイトを嫌う人たちが、レス名前欄や本文などにアフィリエイターが嫌がる文言を入れているのをよく見かける。

「アド⚪⚪スクリックしてください」とか

「このサイトは⚪麻を販売しています」とか。

「こうしておけばまとめにくいだろ。アフィカスざまぁ」とか思いながらやっているのかも知れないが

そんなの正規表現等で一発変換・消去できるし、そもそも手作業でなんかまとめない。

もっと言えばブラックリストワード学習させてDBにするので新しい文言

入れてきてもすぐに対応できる。

メニュースレッドレスデータスクレイピングしてDBへ、ブラックリストワードの変換・消去、リンク画像等のリプレイスファイル化、CMS連携して記事化するところくらいまでほぼ全自動なのでそういった妨害は全く意味なし。(唯一作業らしいののはレスを読むことくらい)

ちなみに2chニュース系の板単体では生きてるスレッド数が常時700~1000程度、レス数は合計で100000~150000くらいになる。この量なら3分くらいで全て取得、ブラックリストワードを変換・消去した上でDB化できる。

必死妨害しようとしている徒労に涙を禁じ得ない。

2015-07-30

エロ動画サイト更新が5千倍捗るXVIDEOSサムネイル取得ツールを作った

こんにちはとあるXVIDEOSまとめサイト管理人です。

毎日毎日動画を探してきてはシコシコと投稿して暮らしています

そんな中、アクセス数を増やしたい一心で、

ふと思い立って1日の記事更新数を12から24回に増やしてみたところ…

なんと検索から流入が2倍も増えちゃったんです!

Googleなんて楽勝!もうウハウハやで!!

・・・なんて気分には全然なれませんでした。

実際のところは、記事更新に追われる毎日でございまして…。

いやもうほんと大変。

こんな生活やってられん!でも更新数は絶対減らしたくない!!

う~ん、どうにか楽できないもんかね?


ということで、

XVIDEOS動画ページのURLを貼り付けたらサムネイルが出てくるという、

エロ動画サイト管理人には夢のような更新補助ツール自作してみました。

このツールを使えば、

動画再生して、良い感じのとこで一時停止して、キャプチャーソフトで保存する…。

そんな面倒くさい作業から解放されるのです!これはすごいっ!!

何がすごいのか分からない一般人には糞の役にも立たないツールです。

でもせっかくだからちょっと試してみてね。

ちなみに更新ツールなので閲覧環境PCのみ対応してます

スマホで見てる人はごめんなさいね

http://eronuku.com/

※当サイトについてというページの「サムネイル自動取得ツール」のリンクで公開してます

簡単に使い方を説明します。

ご存知の方も多いと思いますが、

XVIDEOSでは1つの動画に対して30枚の画像サイズ違いで4種類も用意されています

で、上のページにある検索窓みたいなとこに

XVIDEOS動画ページのURLを貼り付けるとあら不思議サムネイルが30枚ずらずら出てきます

そして使いたい画像クリックすれば、どどん!と下に出てくるようになっています

サムネイル」「小サイズ」「中サイズ」「大サイズ」の4種類のURLコピペして使うなり、

ダウンロードして使うなり、煮るなり焼くなり好きなようにしちゃってください。

ついでに動画の埋め込みコードコピペできるようになってます

あと使うかわかりませんが、XVIDEOSサムネイルURLを貼り付けても使えるようにしています


スクレイピングサイトだったら1日50記事とか100記事とか自動更新されてるんでしょうけど、

こっちが必死に作った記事をサクッと盗まれてるのがすっごい悔しくて。

私みたいに自力更新している管理人さん達がちょっとでも楽できたら…。

なんて思ったりして自分一人で使うだけじゃなくて公開することにしました。

このツールを使って節約できた時間をアクトレ作業に回したり、さら更新回数を増やしたり、SEO勉強したり。

そんなこんなでアクセス数が倍増しちゃったりしたら最高ですよね!

そんでもってスクレイピングサイト検索結果の下位ページに追いやられたらもう言うことなし!!

みんなであいつらをこの業界から追い出してしまいましょう。

やっぱりオリジナルコンテンツが1番良いに決まってるよね!


P.S. このPHPを応用すればスクレイピングサイト作れるんじゃね?と思ってしまったことは内緒です。

2015-07-18

エロキュレーションサイトを一日で作ってみた

エロキュレーションサイトを一日で作ってみた

とりあえず、サイトはこちら

エロヒーローズ

http://erohero.com/

サイトを作った目的

エロサイトはたくさんあるが、どれも似たようなものいまいち使いにくい

世の中の男性には万人に理解されない性癖があると思う(自分も)

エロサイトほとんどはカテゴリも大まかにしかまとめらていないので完全に自分が求めている動画出会えないので自分で作ってみることに。

作るまで

厳選したエロ動画を集めたいのでスクレイピングはしないで完全手動で運営することにした。

エロサイトなので海外サーバーレンタル

wordpressインストールしてオリジナルデザインテーマ作成

Xvideosから動画を手動で収集

サムネイルXVideosサムネイル取得するAPIを使い

URL入力したらサムネイルを吐き出すページを作成

あとは、地道に動画投稿をする。

ヒーローページとは

動画をかなり細かなジャンルで分けたページ

髪型や髪色、髪の長さ、肌の色、射精の種類

熟女の種類も三段階で分けてみた。(他サイトでどうみても20代人妻という理由熟女扱いされている時があったから)

他にもいろいろ細かく分けている。

ネット検索もっとマニアックものがあったら随時追加していきたい。

まとめ

エロサイトを作ったのは中学の時ぶりだったが、やはり制作しているときが一番楽しい

実際運営するとなるとなかなかめんどくさいがとりあえず、飽きるまで続けてみようと思う。

2015-07-14

童貞プログラマーエロサイト作ってみた

作ったサイト

AV女優検索

http://pornstar.jp/

かつて好きだった人の写真好きな芸能人写真から顔が最も似ているAV女優検索するサービス

既に好きなAV女優から新たなAV女優を発掘するという利用もできます

動機

僕はAV女優を顔重視で選ぶのですが、いろんなエロ動画サイトを見ていると、有名ではないが、自分の好みな顔のAV女優を見付けることがよくあります

既存エロ動画サイトテキスト検索することは可能ですが、もしかしたら、まだ自分の知らない自分好みなAV女優がたくさん存在するかもしれないと

もし顔で検索できれば自分AVライフもっと楽しくなるだろうと一念発起して開発しました(開発期間は半年くらい)。

システム構成

レンタルサーバーGMOクラウド Public
WEBApache
DBMySQL
プログラミング言語PHP
フレームワークCakephp
UIBootstrap
認識Face++

簡単に仕組みを説明すると、

①DMMのサイトスクレイピングしてAV女優基本情報名前スリーサイズなど)を登録

②DMMのAPIを利用して、それぞれの女優作品を取得して、パッケージ写真中の顔面積を測り、最も面積が大きいパッケージ写真登録

ユーザーアップロードした画像からFace++のAPIを利用することで顔検索して、最も似ているAV女優を8人表示

終わりに

今はまだ、顔認識を他のサービスに頼っているので、いずれ内製化して全て自分で開発したいと考えています

また、今は静止画でとどまっているので、動画範囲を拡げて、画像アップロードすると、

自動的画像に似た女優が出演する動画を表示する仕組みも開発したい思います

2015-06-22

増田まとめブログを作ればいいんだ

月に一回、はてぶの数でソートして増田をまとめた、まとめブログ作ろう。

転載禁止らしいけど、タイトルリンクだけ並べればいいだろう。

そしたら過去の名作増田も掘り返せるし。

足切りは50ブクマかな。

つーわけでそのうちスクレイピングすっけど、はてなさんよろしくな。

俺の増田記事でいくらか儲けてんだろ。

そんぐらい許せや。

2015-05-19

自動更新エロサイトを作ったから自慢させて

初めて書くのでいろいろと不慣れだけど許してください。

■作ったサイト

エロ動画ちゃんねる

http://eromovie-ch.com/

■使った技術

PHP

スクレイピング

cron

Wordpress

HTML

CSS

jQuery

位だったと思う。

制作時間

スクレイピングPHPでするプログラム半年くらい掛かった気がする。

てかそもそもはなんとなくスクレイピングに興味を持って作りこんでたら「あれ?これエロサイト作れるんじゃね?」って思ったので

エロサイトを作った流れ。

Wordpressとかで実際にサイト構築したのは1日掛かってない。

サーバー

非常に悩んだ結果GMOVPSを使うことにした。

安いのとアダルトOKで一番有名だと思ったから。

ゴヤサポートがクソだった。

サイト機能とか

特に目新しいことはないです。

記事一覧が表示されて、cookieお気に入りが追加できて、タグ一覧があって、検索できるだけ、

本当はリンク切れ報告ボタンも作りたかったけど力尽きた。

作る方法は頭の中にあるけど、どうせ作っても誰も押してくれないんでしょ?見たいになってる。

あ、テーマPC/SP共に自作です。

レスポンシブに対応しています更新が楽だしね。

スクレイピングについて

基本的FC2XVIDEOSから取れるようにしている。

ただXVIDEOS日本語タイトルじゃないからそれを日本語にするのが手間と言う理由で今はとめてる。

翻訳APIを使ってやってもいいんだけど、サーバーが落ちそうだから嫌だ。

うそう、スクレイピングがめちゃくちゃ重すぎてサーバーが落ちる!

これがちょっと困る。

なので最低限のサイトから最低限の動画しか取得してない。

それでも1日100動画くらいは投稿できてる気がする。

さすがにスクレイピング自作ではめんどくさかったので[PHP Simple HTML DOM Parser]というスクレイピング定番ライブラリを使っている。

これが重い最大の理由なんだけど、これなしで効率よくスクレイピングさせるのはめんどくさかった。

あとは、簡単に他の動画サイトからスクレイピングできるようなつくりにしたから、やろうと思えばニコ動でもyoutubeでもいろいろなところから取得できる。

これは結構利点だと思う。

FC2が突如つぶれても他のエロ動画サイトからスクレイピングすることが出来るから

アクセス数/収益について

今は0です。

だっておとといドメインを取ったばかり何だものインデックスだって100ページ程度しかされてないし。

1ヶ月もすれば1日5000PVくらいにはなると思うけど。

とにかく更新が楽だから自動から)忘れたことにPVがあがってくれると助かる。

てか会社を辞めてエロサイト収益生活したい。

あんな会社で働きたくないし・・・

ということで、一通り書いてみました。

意見、ご感想などあればコメントとかください。

■追記

いろいろとコメントを頂いてうれしいです。

ポリシー場所とかは単純に忘れてました(汗

ロゴも雑ですが直しました。

大変参考になりました。

アフィリエイト広告については悩んでたのですが、早めに乗せることにしてみます

ありがとうございました。

■追記2

事情で1週間ほどサイトを閉鎖しています・・・(2015/5/28現在

ちょっと復活まで待ってください。

よろしくお願い致します。

■追記3

復活しました!

ぜひお楽しみください!!

2015-05-10

グーグルに支配される

スクレイピングしてwebサービス作ろうとしたんだけどグーグル検索結果に何でも出るようになっている。スポーツ選手レシピなんでも。

しか画像付きで。

もう勝ち目無いよ。どうしたらいいんだ

2015-04-17

Webスクレイピングへの対応どうしよう

Ractive.js辺りを使ってWebアプリを作ろうと思ったのだが、

これを使うとPerlでいうHTML::QueryやRubyでいうNokogiriを使ってデータを抜き出すことができなくなるのだよな…。

かといってHTMLベタ書きするのは大変そうだし、

多少手間はかかるがレンタルサーバーなりPaaSを借りて、

後ろでHTMLを生成するとかのほうが適切なのかなー…。

2015-04-14

スクレイピングライブラリのgoutteってそんなに良いか?

ヘボグラマの俺からしたらsimple dom htmlのほうが

使いやす

filterしたりreduceしたりいちいちめんどくさい

2015-03-14

2ちゃんねる、新仕様APIへ移行するものの速攻で穴を突かれる

日本で最大規模を誇る電子掲示板サイト2ちゃんねるでは3/13から仕様API対応していない2ちゃんねる専用ブラウザは利用出来なくなった。

しかし、新仕様API移行に反発する有志達(主にオープンソースプロジェクトで開発れていた2ちゃんねる専用ブラウザユーザ)によって新仕様API規約の穴を突かれて突破されてしまっている。

仕様API規約によればWebスクレイピングJavascriptなどが禁止されているが、例えばPerlPythonシェルスクリプトなどのユーザスクリプトによるHTTPソースの改変は規制されていない。

そこで有志達は規約通りに新仕様APIを介して2ちゃんねるHTMLファイルを取得しユーザスクリプトによってHTMLを従来の2ちゃんねる専用ブラウザで読み込めるdatファイルへ変換する方法を編み出した。

ユーザが個人で楽しむ範囲HTMLソースdatファイルに変換するにのは法的にも問題が無いと思われ、2ちゃんねる運営にもそれらを規制する法的根拠を得るのは難しいと考えられている。

他にもルータフィルタリング機能DNSサーバー設定の変更で広告を表示しないようにしてしまうなど、2ちゃんねる運営は思い通りにならない2ちゃんねらー達にやきもきさせられてしまう格好だ。

今後の2ちゃんねる運営2ちゃんねらーいたちごっこが見物である

ログイン ユーザー登録
ようこそ ゲスト さん