「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2018-10-14

anond:20181014213046

合ってるよ。商品情報自動でまとめられる機能があればなぁってずっと思ってて。

それがスクレイピングって名前なのもさっぱり分からなかったよ。

これが出来るとものすごーーーーーーーく助かる。

勉強は大変そうだけど、生活で役立つから頑張れるよー!

anond:20181014212954

んーん。広告とかではなくて情報が欲しかったんだー。

からスクレイピングを頑張るよー!

anond:20181014212820

いや、元増田がやろうとしてるのはスクレイピングではなくて、アドブロックの様なことなのでは?

anond:20181014212419

スクレイピングと呼ばれるやつだね

少し勉強すれば出来ると思うよ

Raspberry Piとかherokuで常時実行すればいいと思う

2018-10-12

Pythonを150時間学んだ結果

プログラミング経験ゼロからPython勉強を始め同時にWEB関連の勉強もしたが未だにrequestとbeautifulsoupを使ったスクレイピングができない。挫折しそう。

2018-09-13

[]  第11話「今日は休む」

2018年9月13日 天気:俺はもう限界

昨日の釣果 5エントリー 0ブクマ

なんだけど、過去増田が伸びている……

こういうパターンの時に昨日の釣果システムでは辻褄が……

今週の釣果システムでも土曜日に書いた増田月曜日に伸びたりすると数字が……

このシステムそもそも間違っているのか?

増田分析スクレイピングして差分が発生した場合それを正確に反映すべきなのだろうか……

pixiv自分の絵についた点数に一喜一憂している絵師とかはどうしてるんだろうか

2018-08-08

高頻度のクローリングスクレイピングとは田代砲である

これは間違いないことなんだよ。

よっぽど鯖が頑丈なサイトに対して行う場合と、極めて健全方法を用いる場合以外は基本的無意味アクセスを繰り返して相手を痛めつけるだけの行為になる。

モラルのない人間や、知識のない人間が行うスクレイピングによって数多の鯖が殺されてきたのを我々は忘れてはならない。

2018-07-11

anond:20180711165459

ワンチャンどころかピコチャンくらいやぞ…>スクレイピングツール

PHPおじさんが敢えて語るべきことでもないが、スクレイピングだったりクローラだったりなんてゲーム開発者flappy birdクローン作るのと同じくらいの手慰みワークだからな…

2018-07-08

anond:20180708220140

検索にもキャッシュにも残ってないのにURLで指摘されたことある

ブラウザ履歴確認したら確かに合ってたので、スクレイピングでもしてるんだろう

そいつと再投稿した自分しか真実は分からないんだろうけど

Python = Webスクレイピング or 機械学習

Pythonって、アフィリエイトで稼いでる系の人たちにとってはスクレイピング用の言語で、エンジニア寄りの人にとっては機械学習用の言語っていう偏ったイメージがついている気がする。

自分2012年くらいに、みんながrubyrailsだ言ってるときに「はじめての言語Pythonだとコードをきれいに書く癖がついていい」という話だけで勉強し始めたんだよね。当時は2系と3系が混在してるときタイミングとしては好ましくなかったかも知れないけど、Python選んでよかったと思ってる。今ほどPythonPython言われるとは思ってなかったけど、純粋に書きやすいし、やりたいことは大抵できるし。

でも、だからこそ、スクレイピングならPythonだよ!みたいなブログとか見るとグッと来るんだよね。なんかもっと色々なことに使えるのに、それに終始しているのはなんかなぁ・・・

自分エンジニアじゃないし、機械学習なんてノータッチから、結局のとこと、スクレイピング文字列操作エクセル操作、あと種々の自動化くらいなもんだから偉そうなこという気はないんだけど、 https://employment.en-japan.com/engineerhub/entry/2018/05/18/110000 こういうのが3ヶ月に一回くらいはてブの上の方に上がってくるのを見るとげんなりする。もっとなんかないのかね。

2018-06-12

そもそも「引きこもってインターネットをやって賢くなろう」というのが間違い

地道に学んで、他人意見を付き交わし、人の役に立ったり、傷ついたり、そういった事を繰り返して人は賢くなる。

安全圏に閉じこもってスクレイピング効率を追い求めては上からマウントを取って気持ちよく射精してばかりいるうちはいつまで経っても馬鹿のままだよ。

2018-04-26

とある障害の話

これはLAN内で使っているだけの、しょっぱいエントリクラスサーバ1台障害の話だ、価値のある話ではない。

とある国内最大級の某グループウェア Office(パッケージ版)を使っている。

この某グループウェアは、従業員の「その日のタイムカードの一覧」を見ることができない。

CSVエクスポートすれば可能だが、営業マンは勤怠をガラケーメールで報告する運用であるため、

スマホ支給しろ 一覧+タイムカード修正画面へのURLリンク付きで

総務課の人にスクレイピングしてあげていた。

↓大雑把にこんな感じ

#!/usr/bin/env perl
use MY::Cybozu;

my $cb = MY::Cybozu->new;
$result = $cb->get_timecard( sprintf("%d.%.d%", $year, $month, $day) );

&send_mail( $result );

数年来やってきていたのだが、突然このスクレイピングデータが取れなくなった。

かにPerlを書けるだけで、他の言語将棋を指すようにしか書けない低能である

まず自分スクリプトを疑った。

ちょうど20日の月替りのタイミングだったので、スクリプトミスでズレたのか?

或いは、タイムカードHTMLtable構造で「trの何番目が何日目」という原始的な処理の方でズレたか

しかし、日付に関係なくダメになったのである

ほぼほぼデータを取れないのだが、たまに正常に取れたりもする。なんだこりゃ。

$mech->statusの結果はいつも200である

print $mech->contentの結果は、HTMLが途中で途切れていた。

スクレイプ対象の前で途切れたので、値を取得できなくなっていたのだ。

同じ場所で途切れる事が多いが、若干の増減はあった。

手元のWindowsマシン移植したところ、まったく問題ない。

どうやらスクリプトを動かしているLinux側の問題と思われる。

が、Webアクセスしてコンテンツが途中で途切れるって何だ?

どういう現象なのか?

そこまでの知識経験もなければ、調べ方も分からない。

からないなりに、とりあえずtcpdumpしてみた。

3WAYハンドシェイクはよく知られた話だが、正常な通信では、サーバから送られてきたパケットに対して

こちらは「ここまでのパケット受け取った」とACKを返し、最終的にサーバからFINこちらがRST返すのが見て取れた。

この異常をきたしたスクリプトでは、ある程度を過ぎると、こちらがACKを返す前にサーバからどんどんパケットが送られ、

突如としてこちらがRSTを連打し、切断してしまっていた。

なるほど、ステータスは200だけど、コンテンツは途切れているのだな。

悪いのは、いよいよこちら側である事は間違いない。

でもスクリプトじゃなくて、ネットワーク制御しているOSが悪いっぽい?

となると深刻である自動車に乗れても内燃機関構造など把握していないのだ。

唯一、tcp_abort_on_overflowでそれっぽい挙動をしそうだと分かったが、この機能は使われていない。

詰まった。

お手上げだ。

でも分かった。

端末からNASディレクトリへ、TAB補完しようとすると突如フリーズしたのだ。

他のスクレイピングは正常に動作してる。

httpdも正常に動作してる。

MySQLも正常に動作してる。

グループウェアへのスクレイピングNASへのTAB補完だけが動かない。

故障だ。

単にマシン故障だ。こういうヘンテコな挙動をするのは。

1.3万円で買って7年目の某ProLiantサーバから寿命なのだろう。

オチはないけど、最初から故障を強く疑っても良かったではないのか、と自省する。

そのマシンでのみ失敗し、しかも失敗したりしなかったり(比にして7:3程度)、結果も毎回変わっていたのだから

うーん無能

2018-03-25

ハロワ求人をこの1年ほどスクレイピングしてて

特定できる会社を"常時募集""3ヶ月以内に再募集"でリストアップしてみたけど多すぎてダメだな

もっと的確にブラック分別できる技術を磨きたい

2018-03-13

Webスクレイピングで全自動更新エログ作ったったwwww

概要

よくある「完全放置!」「全自動更新!」「何もしなくても儲かる!」みたいなアフィがあるけど

おそらく、その1つである自動更新エログ作って一ヶ月近くたったからその結果を書く。

何かしら作品を作ったらQiitaかにアウトプット上げるけど、内容が内容なのでここで。

URLは多少内定自慢できるくらいの会社内定貰っているから伏せます><@バレなさそうなら晒す

・仕組み

サイト情報

お金の話

技術的な話

結論

仕組み

仕組みは簡単、いくつかの既存エロサイトWebスクレイピングをかけてウチのエログでも全く同じ情報配信する。

そんなエログに全く価値が無いと思われるが、既存エロサイトと比べてウチのエログを使うメリットはいくつかある。

メリットリスト

1. share-videosを使っているので削除されていても案外見れたりする。

2. 広告share-videos意外無い

3. エログ特有アクセストレードを行っていない(コピペなのでそもそもアクトレサイト申請出来ない)ため、色んなサイトを行き来せずにめっちゃやすい!

4. 「PageSpeed Insights スマホ 82 PC 93」「【GTmetrix】 PageSpeed Score 99 YSlow Score 87(CDN入れたら94)」平均読み込み4秒のエログの割に読み込みが早い

5. スクレイピングするエログ動画クオリティが高いサイトに厳選しているため良いネタがすぐに見つかってずく抜ける。(自分でも毎日使ってる)

事実友達に悪い点とかのフィードバックを頂戴とお願いしたが「特に悪い点は無い、、、むしろ使いやすい」と好評。セッション継続時間は平均4分でみんな動画ちゃんと見てるみたい^^

サイト情報

自慢はここら辺にして、アクセス結果とかサイト情報はざっくりを晒す

2月の総アクセスざっと2400くらいで、1日大体70〜100くらい。流入検索からアクセス100%

検索ワードjk 個人撮影みたいなワードからが割と多い。記事の数は10000件くらい。

直帰率60%、ユーザー当たりのセッションは4。

こんなものか?正直Web系ではあまりいから何をいえば良いかからない。GAで取っているからみたい値があれば追記で。

完全放置コピペかつ検索から流入100%で1ヶ月目にしてはじょうじょうかな?

お金の話。

儲かっているかというとこののままだと大赤字です。

鯖の無料枠で運営しているため向こう1年はタダで運営出来ますが、もっとアクセスを稼がないと厳しいです。(何せshare-videosしか収入がないから)

月極広告お話が来たら安定するのですが、スクレイピングでこの程度であれば来ないでしよう。

技術的な話

CMSとしてWordpress採用理由SEOとかプラグインで楽そうだから事実楽)(KUSANAGI存在を知っていれば使ってたのにと今更後悔)

WebスクレイピングGolang採用理由は速いから。並列処理でもっといから。あと書きやすい。てか。。。普通に好き。。。><

速さを求める理由はFunction as a serviceでスクレイピングを実行しているから。Python使おうと思ったけど、実行時間制限があるためある程度早くスクレイピングを終わらせなければならなかった。

鯖側で常駐かcronを使っても良かったけど、常駐はメモリ食べてパニックだし、cronは設定がめんどくさいから。FaaSだとWeb上で実行間隔を弄れて無料で最高。

こだわった所

Webスクレイピング抽象化

詳しい内容はウチのサイトの強みだから言えないが、他のエログURLリストに貼るだけで勝手に取得し投稿する。神。

結論

Webスクレイピングエログおすすめしない。手動で毎日更新したほうがアクトレで確実に儲かる。

黒字化するのであれば現行の方法ではなく、全自動日本中エログ全てのから記事を取得してshare-videosに張り替えて投稿するサイトかな。

ほんで長期運営ユーザーブクマしてもらえるような見やすサイトにでもしなければ収益化は無理。

2018-01-06

anond:20180106211107

マクロからだと少し話が飛躍するかもしれないがウェブサイトから記事テキストで抜き取るスクレイピングっていう技術がある

株価の動向をデータ管理して数字を見るとか,こういったはてなブログ記事適当な所だけ抜き取って記録していくとか,スクラップできる.

アマゾンセールとかで買い物かごに速攻で突っ込みまくる巡回ソフトもこういう技術だった気がする.

2018-01-05

増田機能、ここが足りない俺的トップ1

はてなの数あるサービスの中でもトップクラスPVがあると予想されるのに、いまだまともな検索機能実装されないところ。

あれですか、スクレイピングでも定期的に実行して自分検索してろってことですか?

有用記事ですらあとで検索しづらくて見つけづらくて辛い。

2018-01-02

うへー

Windows上でPython2系を使ってUnicode扱うのだるすぎつらい

未だにいい感じのIDE見つからん

ファイル開くときコンソール上に出すときと書き込む時で

それぞれ文字コードを設定せねばならぬ感あるし

Linux系の環境ができるまで スクレイピングは他の言語にしとこ…

2017-12-15

https://anond.hatelabo.jp/20171214232537

ダウト

11、そういえば、アトラクションの待ち時間が分かるアプリがあるからダウンロードしといてね!

アプリストアにあるのはTDR公式サイトスクレイピングしている非公式アプリだ。(海外パーク用のは米ディズニー公式で用意してる)

ディズニー及びオリエンタルランド公式TDR待ち時間アプリディズニーモバイル端末向けにしか用意されていない。

一般的な人」がディズニーモバイルなんて使ってないだろ。公式サイト案内しておけ。

http://info.tokyodisneyresort.jp/s/calendar/tdl/

GPSリゾート内にいればリアルタイムスタンバイ時間がわかる。

個人的に、こういうグレーゾーン的な野良アプリの紹介があった場合はその業者宣伝だと思うことにしてる。


ダメ出しだけでもあれなので

12トイレ場所は覚えとくとすごく有り難がられるよ!分かんなかったらキャストさんに聞くと教えてもらえるよ!

あと、ディズニー女性トイレはすごく混む。覚悟してね!

本気でトイレに困ったら、最終手段としてホテルに駆け込むのをおすすめしてる。

ランドならランドホテル、シーならミラコスタランチ終わりの時間帯にぶつかると厄介だが、大抵空いてる。

うんこしてスッキリしたら、ラウンジお茶でもしていけば良い。

アーカイブ ヘルプ
ログイン ユーザー登録
ようこそ ゲスト さん