「クローラー」を含む日記 RSS

はてなキーワード: クローラーとは

2017-01-15

画期的()ソリューション セキュリティフォントへの期待

自治体から情報漏洩は、僕らの大切な情報漏れることにつながる。総務省の人が言うように、「自治体セキュリティー強化は待ったなし」とはそのとおりだが、ではどうやって?
どうせどんなにセキュリティーウォールを高くしたって、横浜市役所で見られたように職員の手順ミスでの情報漏洩だったり、佐賀県公立学校情報Wi-Fiから故意に盗まれたり、絶対に、情報漏洩は防ぐことはできない。
ではどうすれば良いのか。発想の大転換。
2月に会社を立ち上げるが、「情報漏洩しても大丈夫。」そう、情報漏れた瞬間に、その漏れ情報ホワイトアウト化(蒸発)すれば良いだけの話。その特許技術を世の中に広めたいと思っています。
夏頃から本格化させようと思ったけど、情勢は思った以上に焦眉の急。急ぎます!!あなたの大切な情報を守るために。

2016-12-12

著作権関連であったら嬉しい、こんな技術

Welq問題ウェブ著作権関連が盛り上がってるので、IT素人が考える欲しい技術を書いてみた。技術に詳しい人から見るとどうなんだろ?難しいかな?


無断転載されるたびに自動著作権者お金が入る仕組み

  映像方面だとYoutubeが似たようなことをやってたっけ?

  できれば掲載した瞬間から料金が発生し、掲載期間が長いほど上乗せされていくシステムがいい

  (訪問者が多い新着期間だけ荒稼ぎして怒られたら削除するだけのアフィサイトいから)



ウェブ画像を表示するとGoogleあたりが勝手画像検索して著作権者情報を一緒に強制表示してくれる

  たとえば、あらかじめGoogleとかに著作権者情報登録しておく。

  よそのサイト無断転載されて、掲載されてる画像ファイル名や含有データが変更されてても

  登録情報から元の著作権者情報を呼び出してマウスオーバーとかで表示してくれる。

  Googleクローラーをはじいてるサイトhttpsサイトとかだっけ?)だと効果ないのかも。

  TumblrPinterestFacebookTwitterRTじゃないツイート)など、違法に共有される可能性が高いサービスには特に欲しい機能

  これらのサービス画像転載すると元ファイル情報著作権者名とかサイトURL)が画像の下部あたりに表示される。




いずれにしても多分サーバー単位管理しなきゃならないから難しいのかな。

自分サイトツイッター等にアップされた場合だけ除外して、他サイト転載されたら料金が発生したり情報強制表示になる、というのが理想なんだけど。

ただ公式サイト提供した画像でも別の販促サイトに使われたりするし、電子書籍になったりとか考えると現実的じゃないのかね……。



スキャンされたりスクショ取られたりテレビ画面を撮影したりした無断転載であっても、現在技術であれば「画像Aと無断転載画像Bは同じ画像」だと自動認識できるらしいよね

Youtubeとかでテレビ番組が消されるのに使われてる技術とか)

画像の一部だけ切り取ったり反転・色変更等を行っても元画像として認識する技術もあるとはどっかで読んだ。



いち著作権者としては、画像拡散自体を止めたいわけじゃないんだよね。宣伝になる場合があるのはその通りだし。

問題は、多くの場合著作権者作品情報と切り離されて画像けが使われてしまうのと、アダルト系や2ちゃんまとめ、詐欺など違法だったり印象の悪いサイトで使われること。

そして、どれだけ拡散されて宣伝になったとしても、実際に宣伝効果がどれだけあったのか計測する方法がないのでビジネスに活かせない。

なんとかならないじゃろか。

2016-06-29

anond:20160629130615

先輩、ありがとうございます

入門書ざっと読んでみます

それ以外は僕はその都度ぐぐることにしま


簡単クローラー作って完成させたいです!

2016-04-30

[]番外編2 お嬢マイスター縦ロールさん

 サバイバル部の同好会への格下げを阻止するため、縦ロールのお嬢様生徒会本部に乗り込んだ。

 道中、ポニーテールお嬢様と合流する。

 生徒会室に待ち受けていたのはディーゼル排気音に聞こえた生徒会三人衆。すなわち、

「リフトの書記!」

高車会計!」

「そして、ユニックの副会長!!」

 乗り物ごと待ちかまえていた三人に、お嬢様は肩をすくめた。

自己紹介ご苦労様ですわ。でも、きちんとフォークリフトや高所作業車と言わないと一部でしか通用しませんわ」

「おだまり!!」

ひだまり」スヤァ

 膝でまどろみはじめたポニーテールお嬢様あやしながら、

「あと、ユニックはインシュロックさんと同じく商h」

「そのようなお話をしにいらっしゃったの?」と副会長

 重量級の作業機械を前にしても、つとめて優雅に縦ロールのお嬢様かぶりを振った。

「いいえ。でも、ここでは貴方たちの乗り物にそぐいませんから

 さわりがなければ、それぞれわたくしの指定した場所に来ていただきたいですわ」

姑息手段を弄しても、結果は変わりありませんが……いいでしょう。

 あえて受けて立つことで格の違いを見せつけてさしあげます!」



 書記フォークリフト砂場で待ちかまえる縦ロールお嬢様に突進した直後、思いっきスタックした。

フォークリフトの接地圧は意外と高いのですわ。

 十分に転圧していない地面での走行は要注意ですわ。おーほっほっほ」



 会計の高所作業車は体育館への立ち入りを管理人に断られた。

「なぜです!ちゃんと入構申請はだしてあるはずです!!」

「すまんのう。垂直に伸び縮みするタイプの高所作業車だと思っておったもんで

 ブームタイプちょっと……」

あらあら段取り不足ですわね。おーほっほっほ」



 副会長のユニックはコンクリート敷きのピロティに進入して先生に怒られた。

「入るときはベニヤとブルーシート養生しなさい!

 さもなくば白タイヤ仕様にしなさい!!

 黒タイヤじゃコンクリートに跡が残るでしょう。消えるまでお掃除よ!!」

副会長「ひーん」

ブルーシートがなければ絨毯を敷けばよろしくてよ。おーほっほっほ」



「これで残すは生徒会長のみですわね」

「壮絶な戦いだった」

 ポニーテールお嬢様述懐した。

貴方、ずっと生徒会室のミニクローラークレーンに目を輝かせていただけでなくって?」

「あれはカッコいい。履帯蜘蛛足の組み合わせがまるでSF

「そこは同意しますわ」

 生徒会長室のドアが内側から開いた。ボーイッシュで浮き名をはせた生徒会長アフロ+螺髪)が飛び出してくる。

「その話、まぜてもらおうか!!」

お断りですわ!!」

「つれない!?ならば、自慢の100トンクレーンで吊ってやる。増田だけに!!!

「お待ちなさいっ!!戦う前にひとつ言っておくことがありますわ。

 わたくしたちお嬢サバイバル部の正式名称お嬢様DIY部のような気がしていましたけど、

 別にそんなことはありませんでしたわ!

 生徒会長アフロ+螺髪)も言い返す。

「私もひとつ言っておくことがある。殴り込みを掛けてきたお嬢サバイバル部員は君たちで三組目だ!

 もう勘弁してくれ!!」

「ならば格下げ撤回するヨロシ(すでに部員って言っているし)」

 ポニテ提案生徒会長アフロ+螺髪)は身震いのように首を振り、クレーンの操縦室に飛び乗った。

「いいや、仏の顔も三度目の正直だ。

 まずは私がこの10トンクレーン100トンクレーンを組み立てるのを見守っているがいいっ!!!

 うぃいいいいいいいいい……

 青ランプがくるくるくる。

「そんなの待てと言われて待っているお間抜けさんはいませんわーーっ!!!

 二重反転スクリューアタック

 粘性の高いスラリー干渉しないように同調して回転するスクリュー同士の働きで搬送されるっ!!

 生徒会長は錐揉みしながら美しく上衣の破片を待ち散らし、クレーンフロントスタイリッシュポーズで仰向けに倒れた。

「君も重機やらないか?」ガクッ



「これにて革命完了ですわ」

革命をするお嬢様とはなんであるのか。それは誰も知らない。めでたし…めでたし…たし」



本編1話

http://anond.hatelabo.jp/20160407225815



実は前回

http://anond.hatelabo.jp/20160413065013

2016-04-21

はてなブログPro互助会パックにしたけど

ブログ更新しても、だれも見に来ないんだけど、スターブクマも付かない。

本当に誰からもどこからアクセスが来ない、

クローラーすら来ない、

そりゃー互助会費払っていてアクセス数が0だもんな、そりゃー怒るわ。

2016-04-16

http://anond.hatelabo.jp/20160416172547

SEOSEO. グーグル検索で上位に来るには、クローラーに注目されることが1つの指標でしたからね。

まだ、クローラーには機械学習機能が付加されていないのですか。

人工知能世界みたい...。

増田SPAMクリックする奴…

ほとんどの増田は、SPAM投稿のURLをクリックしてみることは無い。

から無意味なのになんで投稿し続けるんだよ?

と疑問に思っていたんだ。



でも、この世界にはSPAMSPAMと分からクリックしまくる奴がいた。

検索エンジンクローラーだ。彼らは意味も考えずに、闇雲にリンククリックしまくる。

ボットSPAM拡散し、ボットSPAM巡回してゆく。

そのうち、人間の居場所は無くなってしまうかもしれない。

2016-01-24

http://anond.hatelabo.jp/20160124221832

15人っていうかクローラーがぶん回してるだけだろうな

2014-12-31

1年の締めとして一人ハッカソンした

去年の今頃は「今年こそはすごいWebサービス作るぞ!!!!!!!!!!!」って意気込んでたのに

なんかもう今日が最終日。

ということでこの12月から何か作ろうと考えていて、丁度年末からということで作った。




Amazon購入金額分析

前にAmazonの購入金額合計を出すブックマークレット流行ったけど、それとほぼ同じ。


Amazonの今までの合計金額と、書籍とかPCとかカテゴリごとの合計金額出してグラフにする。

適当Twitter投稿して終わり。




年末だしTwitterで「2014年Kindle購入金額内訳は...でした」とか投稿すれば

みんなつられてアクセスするはず!宣伝しなくても勝手に大ブーム間違いなし!!!!!!!!

最終日に目標達成大勝利!!!!!!!!!




って思ってたけど

投稿してもだれもアクセスしてくれない。待っても待ってもアクセス0。


e?嘘でしょ???って思ったら

EC2セキュリティグループの設定変更忘れてた。


よーし今度こそアクセス過多間違いなし!!!!!




のはずだったけど今度はrobots.txt見に来るクソbotしかアクセスしてくれない。

虚しさ半端ない

というかTwitterURLつぶやくと即効でどこぞやのクローラー巡回してくるんですね。




構成自体クライアントサーバサイド共にjsEC2上でnode.js


D3.jsグラフ画像svgからどうにかしてpngにしないとTwitter投稿出来ないのが微妙に面倒だった

投稿時にクライアント側でbase64canvaspngにしても良かったけど

結局サーバサイドのphantomjsやらせた。



商品カテゴリ取得するためにはProduct Advertising API使うしかなくて

コレが毎秒1商品しか取得できない厳しい制限付き。


重複なしで600商品購入してたらなら10分かかる。

redis上にキャッシュしておいたりwebsocket適当に進捗伝えたりした。




今回得た経験値としては


あたり。




今年は残念ながら目標不達成だったけど、いい最終日の過ごし方になったと思う。

お疲れ様でした。

2014-12-24

イブクリスマスも予定のない俺とみんなのためのエロサイトを作った

作ったサイト

エロ動画を色々なところから収集するサイトです。

skrsvideo

http://skrsv.info/

サーバー選び

今回プログラミング言語Rubyを選択したため、基本的にはVPSクラウド的なサーバーLinuxが動作する環境を探しました。



エロサイト運営するにあたって問題になるのがサーバー選びです。

基本的日本レンタルサーバーではアダルトサイト運用を禁止しています

普段使っているさくらVPSが利用できず、AWSもなんだかグレーな感じ(東京リージョン以外なら・・・?)

そんなわけで探し、GMOグループWebkeepersを使いました。

Webkeepersのサーバー海外にあるらしいです。

質問アダルトサイト運用はできますか?

http://faq.webk.net/faq/index.php?qc=1&qc_sub=4&id=99

使っても良いよ〜というお墨付き

そして価格も手頃だったためここに決定。


システム

DB MariaDB
Webサーバ Nginx
フレームワーク Ruby on Rails

MariaDBを選んだ理由はなんとなく、MySQLとの違いはほぼありません。利用するGEMmysql2でいけます

NginxWebサーバで、ページキャッシュもしています

ちなみにJavaScriptは使わずすべてCSSで作る方針しました。

スマホPC対応のためにMedia Queryでレスポンシブにしています

Webの流れ

Nginx

unicorn

Ruby on Rails

MariaDB

という流れです

使っているGEM

gem 'mysql2'

gem 'rails_config'

gem 'kaminari'

gem 'haml-rails'

gem 'sass-rails'

gem 'nokogiri'

gem 'unicorn'



フロントhamlsassで、難しいことはしていないのでcompassはいれませんでした。

あとはデバッグ用にrails_config、pry系が入っています

クローリングスクレイピングでnokogiriを使います

クローラー

skrsvideoでは動画URLを取得するためにクローラーもどきスケジューリングして収集しています

スケジューリングにはcrontabを使用しています

crontabでRakeタスクを定期的に叩きます

コマンドはこんな感じ

RAILS_ENV=production bundle exec rake item:search


Rakeタスクはnokogiriでxvideosへのリンクを集めています

doc = Nokogiri::XML( open(URI.parse(url)).read )

urls = []

doc.css('a').each do |link|

 urls.push link[:href] if link[:href] =~ /xvideos.com\/video(\d+)/

end

Nokogiriのスクレイピングでaタグリンクを取得し、URLxvideosのものかチェックして保存って感じです。

動画を探し終えるとaタグからランダムピックアップし次のページに進んでいきます

動画が見つかったページはドメインDBに記録して、しばらくしたら再びクローリングをするようにし、収集効率化。


サイト機能

(45 min)←コレの安心感は異常wwwwww

http://blog.livedoor.jp/dennououjo/archives/39873075.html

これを思い出して、動画時間を表示するようにしました。

30分以上の表示はちょっと頑張ったところ

http://skrsv.info/30_min_more


AV女優タグが表示されるようになっています

これはタイトル文字列から部分一致で引っかかったものを表示しています


AV女優名前を表示するためにWikipediaからとってきたら、ちょっと膨大な数になってしまったため断念。

どんだけ女優いるんだって感じですね。

DMMランキングに載っていた方だけをとりあえず入れています


タグも同様にDMMから

おわりに

1日でつくろうと思っていたら思った以上にサーバーが見つからないで、サーバー選びに1日かかってしまいました。

あとはFC2とか対応できたらいいなーと思います

2014-12-04

人工知能人間の職を奪うについて

人工知能人間の職を奪うについて」と日記をはじめると非常にSF的ではあるんだが、思考実験として一つやってみる。

今回は「blog記事を書く人工知能」。

実を言うとこんな人工知能、すでにある。適当なところからコピペして自分blog記事転載するbotなんて、ちょっとプログラムをかじればすぐ作れる。

そしてこれはちょっと本腰を入れて研究すれば、すぐにかなり高性能になるだろう。

「どんなふうな記事がより注目(=ブックマークとかアクセスとか)を集められるか?」というのは評価関数を作るのがとても簡単なので、ベースとなるデータの巨大さと機械学習で順調に成長させられる。記事のまるパクリ問題も、何も真っ正直に「人工知能として本当に文脈理解して人間的な意味記事を書く」必要なんてない。

http://graphics.cs.cmu.edu/projects/scene-completion/scene-completion.pdf

この論文みたいなアプローチ記事を一つの画像だと見立てれば部分を差し替えることは可能だろうし、語尾や語彙の置きかけは、それこそ巨大置換でどうとでもなる。

人間が日ごろ、ほう、ふむふむなんて巡回できるblogの数なんてたかが知れているし、機械クロールで回収できる記事の数は莫大だ。年末年始記事やどこそこの店に行って何々がうまかったなんて記事は毎年のようにループしている(学習ネタとして最適だ)。

この種の(人工知能と呼べるほどに高度になった)botはそのべらぼうな処理能力にあかせて、アホみたいな数のサイト運営できる。登校時間バナーの位置やサイトデザインコピー文章リアルタイム評価関数ぶんぶん回すbot阿呆みたいな速度で自己進化できる。もちろんプロバイダやらが何らかの対処をする可能性もゼロではないけれど、しかしそれもほとんど意味がないだろう。回線の向こう側から規制する根拠に乏しい。もちろんコピペもととなった記事を書いた人間からすればパクリであり著作権違反だが、それを証明するのは手間だし、照明をあきらめるほど飽和攻撃を行う処理速度がbotにはある。また、人工知能的な記事合成、変換、結論変更、文章アレンジは、しばらくすればパクリパクリだと証明するのさえ難しくしてしまうだろう。何せblog記事というのは画像と比べて10%とか5%以下の情報量しかないのだ。

まあ、とにかく、こういうbotはすぐ開発できるだろう。現在技術でもほとんど可能だし、数年以内には実用化できる。

で本題なのだが、こういうbotができたらどうなるか? そりゃ、投入するでしょう。ちょっぴり初期投資をしてあとは寝てるだけで、阿呆みたいな数のアフィサイト運営できるようになる。なんらかのステマサイトも似たような手法運営できるようになる。ちょっと技術ネオニート生活! 投入されないわけがない。

そしてひとたび投入されれば、それは加速度的に高性能になっていくだろう。機械学習の結果出力っていうのはだいたいサンプルにする学習母体データの大きさや質に左右される。Webに解き放たれたクローラーはありとあらゆる泡沫Blogまで咀嚼を始めるので、その出力の制度はどんどん上がっていくだろう。

PVを金に換えるビジネスというのは一時的に大好景気になって、次の瞬間に価格破壊されるだろう。人件費が限りなくゼロに近づいてゆき過当競争になるからだ。

その世界では「人間blog記事を書く」という行為価値が果てしなく低くなるだろう。そこでははてなスター獲得競争の相手がbotになってしまうからだ。相手はたしか人間よりも記事を書く技術が低いかもしれないが、無尽蔵の体力を持ってるし、blog記事なんてそもそも10本書いて1つが注目集めればそれでいいような世界なのだ。1万本書いて9999本はずれでも構わないやつが出てきたら、体力勝負で勝てやしない。

この状況が長引けば、アフィリエイトというビジネスモデルのもの破壊されるだろう。いやそもそも、アマチュアが公開の場所記事を書くという文化のもの破壊される可能性もある。

Web世界は会員制のFacebookGoogle+みたいなもので分断され、今度はその内側から個人の記事ビッグデータにぬいていくBot蔓延するだろう。

こういうBotは廉価なサーバーマシンで動かすことができる。実際作ってみないとはっきりとは言えないが、それこそ数百体動かせる可能性もある。性能が十分に周知されれば、「日本語Blog記事を書く人」よりも「日本語コピー合成記事作成するBot」のほうが多くなることは、けっしてありえない状況ではない。

事ここに至って、人工知能は「あるジャンルの職を奪う」ことに成功する。奪われるのはアフィリエイト暮らしていた人間Blog書きだけではない。それを端緒に広報生業にしている多くの人も職を奪われる可能性がある。状況はおそらく大混乱にちかくなるので、今の時点では、この種のムーブメントにおいて電通博報堂のような広告代理店が大きく成長する可能性もあるし、致命的な打撃を受ける可能性もある。成長するにした所で、今のような体育会系的営業の会社で居続けることはできないだろう。開発や分析理系部署が今の10倍以上の大きさになるだろう。グループインタビューなんかやるよりも、匿名掲示板ログから消費行動の傾向を出したほうがよほど精度が高い企画が作れてしまう。

人間の職を奪う、というのはこういう光景雇用から減少を表現した言葉であって、実際に起きることは雇用の減少だけではない。文化や消費行動の破壊ともいえる変化だ。

まあでも俺はだから人工知能研究が怖いとか規制すべきとは思ってないんだけどね。いいぞもっとやれって思う。

2014-10-26

とあるサイトの構築

rssフィードパースしてスマホ用のhtmlに展開してs3にpushするスクリプトを書いて

heroku にあげて heroic scheduler でdailyで動かすものをつくってみた

スクレイピングをするところまでやりたいけど、もう少し時間かかるか、、

rubyによるクローラー開発技法読みながら勉強しよう

http://sp.eropop.net

2014-09-16

スクレイピングサイト作成

前に一度作成したエロサービスサイトリニューアルしてみた。

http://kawasaki.soapjou.com

ソープ嬢のスクレイピングサイト

前回の反省を踏まえて少し見やすくできたと思う。

前回の反省

 広告クリック率考えるとPCの方がおまけになってしまうかもしれない。

 詳細ページに回遊率を上げる仕組みが必要、逆にTOPページとかはアクセスないしどうでもいいっぽい。

デザイン

もうあきらめた。

Bootstrap使っても自分では無理なのでフリーテンプレートを使用。

クローラー

「simple_html_dom.php」最高だと思う。

Librahack事件を忘れないように相手のサーバーを思いやる設定(時間と頻度)にする

また、画像バイナリ比較をして更新された画像のみを取得。

サーバー

無修正サイトなど国内法に触れるもの以外のアダルトサイトGMO一択だと思う。

安いしサポート充実してます

ドメイン

お名前.com 安いし代行サービスがタダ(重要

たまにエロサイトWhoisダダ漏れの人いるよね。怖いね

アフィリエイト(予定)

前回はDTIを使用していた。

コレは動画の紹介とかやる気のある人以外効率よくないと思う。

前回は誰にも買われなかった。放置サイトPPCがよいのかな。

忍者、i-mobileなどの大手アダルトPPCを予定

おわり

Webデザインには

「はじめにAdobeありき。」

である

全てのサイト合わせて月5000円以上儲かったら(道のり遠い)買ってみる。

スクレイピングサイト作成

前に一度作成したエロサービスサイトリニューアルしてみた。

http://soapjou.com

ソープ嬢のスクレイピングサイト

前回の反省を踏まえて少し見やすくできたと思う。

前回の反省

広告クリック率考えるとPCの方がおまけになってしまうかもしれない。

詳細ページに回遊率を上げる仕組みを作って、逆にTOPページとかアクセスないしどうでもいいっぽい。




削除してしまった為再登録します。

Rails3 とTwitter Bootstrapで、オシャレなエロサイトをつくってみました。

http://anond.hatelabo.jp/20120708161051

に感化されてサイト作ってみた

bootstrap使ってもカッコよくできないよ?

プログラマー向けじゃないの?

http://searchjou.com

デザイナーって好きなサイト作れていいよなー。

デザイン

bootstrap3 の公式サイトを見ながら

CSS,Components,Javascriptタグにあるサンプルを全部作ってみた

デザインわからん。一度諦めた。

クローラー

一番経験のあるPHPを選択。

最初正規表現でガリガリ書いていたのだが

まりの面倒臭さに一度諦めた。

その後色々調べたら「simple_html_dom.php」の存在を知る。

スクレイピング作業が一瞬にして終わった。

サーバー

Root欲しいのでVPSを探す。

GMOアダルトOKっぽい、安いので決定。

postfix + dovecotメールサーバー構築

メールの設定がどうしてもできない。

仕事で何度も設定しているのに意味不明

エラーも出ていない。

一度諦めた。

しかし、サーバー代払ったので再度トライ

info@xxxx.com

メールアドレス作成していたのだが

システムエイリアスで「info」を使用していたため

メール転送出来ずに受信できなかったもよう。

危ない名前は使わないのは基本だよね。

/etc/aliases は確認しましょう。

データベース

Mysqlを使用、一応クエリキャッシュ設定

MyIsamだとインデックスに容量制限があるのでInnoDB使用

表示

php + Smarty

キャッシュSmarty実装

プログラマーからデザイン出来ないんじゃなくて

自分センスがないのが原因な事が判明。

出来あがったサイト

川崎ソープ嬢を検索 - サーチ嬢

http://searchjou.com

数1000件のデータなのでキャッシュインデックスいらなかったかも。

プログラマデザインやるのと

デザイナープログラムやるのって後者の方が敷居は高いとは思う。

でもプログラム勉強できるけどデザインってセンスがなきゃどうしようもない。

おわり

もう少しデザイン頑張ってみる。

デザインの教本読んでみると

最初に「Adobe」ありき。で話が始まるけど敷居高くない?

Adobeクラウドの月5000円でも高いよー。

2014-09-02

http://anond.hatelabo.jp/20140902160914

ちょっと」複雑な。具体的にはクローラーやで。

bashメインで書いてるんだけど、jsonだったりURL文字列だったりの複号/符号化はbash単体でやるにはちと辛い。

そんな時にスクリプト内でPHPを使うとあら素敵になるケースは結構あるんや。

クローラ全体をPHPで書くやつもいるけどな)

2014-08-02

「ご遠慮ください」「お控えください」は禁止だろうか?

クローラーをこういう文言規制?してたんだけど 問題が起こらないように配慮すれば許されるかな?

ダメかな?

2014-07-22

http://anond.hatelabo.jp/20140722110416

bashでなんでもかんでも処理書いてみろ。関数型言語覚えるよりもそっちの方がよっぽど自分の為になるぞ。

因みに漏れweb屋で特異な言語PHPとかJavaとか。OOプログラミングは得意な分野や。

そういう手合いでも用途によって概念の異なる言語を扱うのやから別にどちらかにこだわる必要なんてあらへん。勝手に身に付く。

とりあえずwgetを駆使してwebクローラー書いてみればええねん。

2014-05-21

プログラミング勉強したけどアイデアがないから誰かちょうだい

今年に入ってからプログラミング勉強し始めて、phpjavascriptpythonでとりあえず動くものを作れるようになった。各言語メジャーwebフレームワークも使えるようになったし、過去株価ダウンロードしてmysqlに突っ込んでta-libシストレのバックテストして遊んだり、ニコ動タグ検索結果のクローラー作って新着があればメールで知らせてくれたりするの作ったり、websocketためしてみたりbackbonejsで遊んだりもしてる。ニートから時間無限なのもあるけど、5か月弱でずいぶんできることが増えてきたなと思う。そろそろ何か作って公開してアフィで稼ぎたいなと思い始めた。でも何も出てこない。今月入ってからずっと考えてるのに作りたいものが浮かばない。いくら勉強してもアイデアがなければ無意味なんだと気付いた。誰かアイデアちょうだい

2014-05-19

http://anond.hatelabo.jp/20140519101725

何のこと?アルタビスタAppleGoogleには買収されてないと思うが

ただし当時のYahooやオバーチャディレクトリ検索であって、キーワード検索には否定的だったけどな。

 

当時はまだ権威主義的であり審査があった検索エンジンが主導であって、クローラー型の検索エンジン およびそれに広告をつけるというキーワード検索技術

それこそGoogleが牽引したものだ。

2014-03-27

さくら base storageはNAS感覚では使えない

弊社googleの真似してクローラーを大量に生成して世のエロ画像自分用に蒐集している怪しい者なんですけど、

そのエロ画像を保存する先にネットワークを使用したいと考えていて、でもS3凄く高いから困ってて

今ちょうどベータテストが開始されていて期間中無料な件のさくら base storageを利用している訳ですが、

これがどうもサービス的に糞くさいのでちょっと書きこんでおく。

ファイル容量無制限らしいが、ファイル数増えてくると機能しなくなる

あなたの所有エロ画像枚数は?1200...地球人にしては多い方でしょうか。

ちなみに…私のエロ画像枚数は53万枚です。これは数えられた分だけなので、蒐集して数えていない分を含めればこれの数倍はあるでしょう…!

そんな性豪がさくらbase storageを使用してファイルを保存しようとすると、途中でファイルアップロードエラーが出るようになります

どうしてだ? 何が起こった? ファイルアップロードをしたディレクトリ一覧を見ようとしたら、応答は返ってきません。

どうも、ファイル一覧そのものインデックスされているらしく、超大量のファイルリストサーバに一覧問い合わせすると、めちゃくちゃ時間がかかるようなのです。

連動しているのかどうかは不明ですが、総容量二けたGB程度で実質アップロードも行えなくなります

ディレクトリ名間違っちゃったかリネームしようとする。ファイルの数だけ時間がかかる

ネットワークを介しているからってのは分かるけどさー、一つのファイルを移動するのに秒オーダー掛かるのはどうなの?

単位ファイルを移動するために罹った時間、丸二日。


もう、とにかくパフォーマンス悪すぎでやってられないと思ったのでした。

2014-03-06

http://anond.hatelabo.jp/20140306170721

ROBOT.txtとかでクロールを躱せるとか思うのは甘え。

重要なのは野良クローラークロールしたコンテンツの内容を転載されて、それがgoogleインデックスされることの方だよ。

ぶっちゃけ、それやられるとインデックス上位に来るのは野良クローラ作成したサイトの方だぜ?

それを、オリジナルコンテンツユーザは許せるのかという話よ。

2014-02-03

http://anond.hatelabo.jp/20140203124854

あの、その、ゲフンゲフン。その、大量に集まったってのは、つまり特殊方法で根こそぎやったからであって。

エロ画像サイト向けのクローラー書くの楽しいな♪

2014-01-21

エロサイトを立ち上げた引きこもり~魂の物語エピソード7

---------------------------------------------------------------------------

動画 エロサイト←これが僕の作ったサイトです

---------------------------------------------------------------------------

前回の続き

苦労して作ったサイトGoogle検索エンジンインデックスされていないという衝撃の事実を知り、

なんとか持ち前のポジティブさで、持ちこたえた僕。

とりあえず、Google先生の指示通り、ウェブマスターツールに登録後、サイトマップを作ってみました。

それから、僕はひたすらhtmlを見直したり、デザインを変えてみたり、自分が知っている事と

出来る事だけを着々と進めた。

2週間が経った昼下がり、何気なくサイトURL検索してみた。


キタキタキタキタ━━━(゚∀゚≡(゚∀゚≡゚∀゚)≡゚∀゚)━━━━!!




キタ━━━━━━━━m9( ゚∀゚)━━━━━━━━!!



インデックスされてる!!


☆-ヽ(*´∀`)八(´∀`*)ノイエーイ


ただクローラー様が到達してなかっただけだったのね


さて気になる検索順位はと・・・



「ど圏外」


Σ(っ゚Д゚;)っ




SEO対策について

えーっと今から当たり前の事いいます

検索エンジンインデックスされる事がゴールではない!



検索順位を上げるには、それなりの対策必要です。

サーチエンジン最適化、略して「SEO

これがかなり重要というか、これ無しでは、もはやサイトを作る意味すら無いようなもの

だって誰も見る事ができないサイト存在してないも同じだよなあ。



さて、何の知識も金もない僕がどうやって学べばいいのか。

やっぱネットで探すかな・・・



待て待て、そもそもネットSEOを教えるサイトってどうなんだろう?

そのサイト自体SEO対策して上位表示させたいわけで、

それなのにその知識をネットでばら撒くとはこれ如何に!?



とは言ってもそれ以上に情報源はない・・・やるしかない!


でもSEOサイトって結構あるしなあ。


そこで僕は無い脳みそ絞って考えた。



もしかしてSEO」というキーワードで、トップに表示されてるサイトって

すごいSEOの力があるんじゃまいかと・・・



とりあえず「SEO検索してトップに出てきたサイトがコレ↓でした。

http://www.searchengineoptimization.jp/


よしこサイトから全てを吸収しよう!



30分後、激しい頭痛が僕を襲ってきた。


全くわからん



発想を変えればSEOは簡単

なんだか色々と細かい技術が基本としてあるらしい。

それはおいおいやるとして、一つ気になった記事があったので、以下抜粋


<発想を変えればSEOは簡単>

その情報を本当に求めている人であれば、検索を繰り返して必ずその情報にたどり着いてくれます検索からの流入を増やすことは簡単です。その情報必要とする誰かに向けて情報を発信するだけす。情報を求める人々は検索エンジンを繰り返し使って、その情報を探し当ててくれます

・人々は検索エンジンを使って情報を探しています。その情報を公開すれば、それは人々に届きます

・公開する情報がより有益で高品質ものなら、それは検索され、再共有され、リンクされ、検索結果のランキングも上昇し、さら

・自画自賛、売り込み、売上げ自慢や能力自慢の類いは情報ではありません。コンテンツでもありません。役に立つ情報の発信に努めましょう

あなた情報が役に立ったというそ事実の積み重ねによって、ユーザーとの間に信頼関係が生まれます。その信頼関係明日の売上げを作ります。これはオフラインでの接客や営業と何ら変わりません



最終的にコンバージョンが欲しいというのはわかりますしかコンバージョンを獲得したいのであれば、その前に信頼を獲得しなければなりません。信頼を獲得したいのであれば、その前に接点を獲得しなければなりません。接点や信頼の獲得のためにウェブ上でできることは、ユーザーの役に立つ情報の発信です。

SEOは簡単です。きちんと取り組めば必ず結果はついてきますしか時間と手間がかかります。様々な邪悪な誘惑もありますお客様を想い、お客様に貢献したいと望む強い気持ちが必要です。誠意と熱意、そしてそれを継続する根気が必要です。しかしそれらは日々の取り組みを通じてウェブ上に立ち現れ、お客様の心を動かします。



なるほど。

当たり前だけど検索エンジンを使って検索するわけだから、まず検索する相手がいるわけだ。

そしてその検索者はもっと自分が欲しい情報を手に入れたいわけで、検索エンジンは彼に対して

最適な検索結果を目指す。

この基本的構造の流れを汲んでサイト修正したり、時には技術を駆使して適切なサイトに作り変えてゆけばいいのかもしれない。

なんだか少しだけやる気出てきた(^-^)p



つづく



関連記事

2013-12-19

エロサイトを立ち上げた引きこもり~魂の物語エピソード6

---------------------------------------------------------------------------

動画 エロサイト←これが僕の作ったサイトです

---------------------------------------------------------------------------

前回の続き

html学習に加え、サイトを作りながらCSS勉強中。

苦労の甲斐があってエロサイトのおおまかな枠組みはできてきた。

ここまできて僕は、どうやったらwebサイトとして機能するのだろう(ヤフーとかグーグルとかに載るんだろう)?

という疑問を持った。とゆうか最初にその疑問を持てという話でもあるが、とにかく僕は急にそう思い始めた。


ちょっと試しに自分サイト名で検索してみよう。



Google先生!僕のサイトは今どんな感じですか?

とりあえず、キーワードサイト名の「動画エロサイト」でお願いしまつっ!!!

(期待に胸をふくらます僕)

すると先生は意外な一言を放った。



分からん



先生またご冗談を。全知全能の先生がそんなはずないじゃないですか

僕のサイトは今エロ動画で何位なんですか?

何位だって驚きませんよ。あんまり気を遣わないでください。

何百位でもかまわないですよ。まだ始めたばっかりですから

それでは、先生、改めて僕のサイト順位のご発表をお願いします!!


ドゥン!ドゥルルルルルルルルルルルルルルルルルルルルルルルルルゥ!!



「載っとらん」



Σ(っ゚Д゚;)っ




検索エンジンサイト関係

検索エンジンは「クローラー」とか「スパイダー」と呼ばれるプログラムを使って、web上に存在するページの情報を集めるらしい。クローラーウェブ上を自動的に巡回して集めたデータデータベースといういわばデータの貯蔵庫のような所に登録する。

この事をインデックスする(される)などと呼ぶらしい。


ロボットデータ収集している…

なんだか僕の知らないところで、とんでもない事が起きている気がしてきた。


とにかく、サイトはこのインデックスというのをされていないと、Googleヤフー(のちにヤフーGoogle検索エンジンを使っている事が判明)Binginfoseekなどから検索する事ができない。


インデックスされない3つの原因

クローラが巡回にくるタイミングはまちまちで、すぐインデックスされる事もあれば、何カ月もされない場合があるらしい。

どうしてもインデックスされないのなら下記の原因を疑ってみた方がいい。

以下、ネット情報

クローラークロールされやすくなっていない

Googleガイドライン違反している

クローラー制御タグ記述がある

クローラークロールされやすくなっていない

クローラー発見されやすサイト構成や、Googleウェブマスターツールへのサイト登録をして、

クローラークロールされやすくする必要があります

クローラー発見されやすサイト構成

クロールされやすい記事、サイトからクロールしてもらいたい記事へのリンクを張っていくことも重要です。

とにかく露出を増やす事が重要であると考えてください。

Googleウェブマスターツールの利用

Googleウェブマスターツールへのサイト登録&サイトマップ送信

などの改善を行なってください。



Googleガイドライン違反している

このガイドラインを見ると、Googleはどのような行為に対して不正とみなすのかを確認することができます

Google提供するガイドライン違反することで、ペナルティを受けてしまった場合には、最悪インデックス削除の可能性もあります

インデックス削除はかなり重いペナルティであり、それが解除されるまでには時間がかかります。最悪の場合、悪質なサイトである認定されてしまい、インデックスされないドメインとなる可能性もあります。ですからGoogleガイドラインはしっかりと読み込んで、気をつけてサイト運営を行ないましょう。



クローラー制御タグ記述がある

この原因に関しては、かなりSEOの知識のある人でないと、そもそもクローラー制御タグ記述を利用する事がないので調べる必要はないと思いますが、一応書いておきます

インデックスさせたい記事のmetaタグに以下の設定が入っていてはインデックスされなくなる。


noindex このページはクロールしても、インデックスはしない

nofollow このページはクロールしても、ページ内リンク先はクロールしない


インデックスさせたい記事へ外部からリンクを送る場合において、nofollowをmetaタグ内に記述しているとインデックスされにくくなる。

以上の点について、改善していきましょう。


まとめ

インデックスクローラークロールされやすサイト作成し、

リンクを用いて露出を増やし、Googleガイドライン違反しないよう気を付ける

クローラー制御タグ記述の有無についても要確認。


う~ん。なるほど。ここら辺はかなり重要だなあ

html勉強したときメタタグの事は調べたので、もう一度確認したらすんなり頭に入った。

あとは、ウェブマスターツールなるものに登録して、「サイトマップ」ていう単語も出てきたか

これも後で調べよう。

クロールされやすサイトをまずは目指してみるか。


よしもう一度僕のサイトを確認してみよう(^-^)p



つづく



関連記事

ログイン ユーザー登録
ようこそ ゲスト さん