「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2018-10-15

[]2018年10月14日日曜日増田

時間記事文字数文字数平均文字数中央値
0012123030190.347
019413913148.048
02399534244.580
033010199340.043.5
04102934293.468.5
0571184169.160
0616138086.348.5
07213026144.165
08374091110.664
0911016476149.853
101401329695.035.5
1112920863161.746
121531010466.042
1314916612111.534
1417021599127.154
1516418782114.544
1611316822148.968
1710710718100.239
189712131125.147
1912018772156.451.5
202151743481.133
212172085096.155
2220428655140.555
2314923687159.046
1日2612336092128.747

頻出名詞 ()内の数字単語が含まれ記事

人(275), 自分(240), 今(142), 話(129), 男(102), 人間(102), 好き(99), 日本(95), 女(95), 仕事(94), 増田(89), 女性(86), 必要(82), 前(79), フェミニスト(77), 問題(77), 感じ(72), オタク(71), 相手(68), フェミ(66), 意味(66), あと(64), 頭(60), 最近(58), 気持ち(57), レベル(55), 時間(55), ー(54), 普通(54), 金(53), 理解(51), 気(51), 今日(51), 理由(51), 無理(50), 昔(50), 目(50), 男性(50), 存在(50), 関係(49), 勉強(48), 一人(48), 他(48), 会社(48), 世界(47), 言葉(47), 最初(47), キズナアイ(47), 子供(45), 手(43), 他人(43), しない(40), 漫画(40), 人生(40), 意見(40), 日本人(40), 勝手(40), 批判(39), ネット(39), 作品(39), 確か(38), 嫌(38), 結果(38), 別(38), 場合(37), 結局(37), バカ(36), 差別(36), 文章(36), 自体(36), 英語(36), ダメ(35), ただ(35), 馬鹿(35), 扱い(35), 発言(34), 顔(34), まとも(34), 嫌い(34), 正直(34), 心(34), 大学(33), コメント(33), 現実(33), 声(32), 興味(31), 人たち(31), 投稿(31), 個人(31), 本人(31), 全て(30), 記事(30), 表現(30), 最後(30), 絶対(30), 状態(29), 結婚(29), ブクマ(29), しよう(29), 子(29), 小説(29), 社会(29), 仕方(29), 一番(29), 性的(29)

頻出固有名詞 ()内の数字単語が含まれ記事

日本(95), 増田(89), フェミ(66), キズナアイ(47), ブクマ(29), アメリカ(28), じゃなくて(27), いない(25), はてブ(19), 腐女子(18), ブコメ(18), 可能性(18), PHP(17), わからん(17), IT(17), Google(16), ツイッター(16), 一人(15), SNS(15), Twitter(15), スマホ(15), 何度(15), Java(14), 中国(14), hatena(14), 10年(14), 韓国(14), 6時間(13), ツイート(13), キチガイ(13), 萌え絵(13), ラノベ(13), 普通に(13), Redmine(13), フォロワー(13), リアル(12), 東京(12), 富士(12), 耐久レース(12), 二次創作(12), 個人的(12), ワイ(12), なんだろう(12), …。(11), ブクマカ(11), 元増田(11), 1人(10), マジで(10), カス(10), カプ(10), お気持ち(10), w(10), 不快感(10), twitter(10), ネトウヨ(10), いいんじゃない(10), キモオタ(10), なのか(10), ネット上(10), s(10), A(10), Ruby(9), あいつら(9), ここに(9), ID(9), ブログ(9), イケメン(9), OK(9), モテ(9), 何回(9), AI(9), 好きな人(9), フリーランス(9), アレ(9), rci(8), 欧米(8), 自分たち(8), なんや(8), ありません(8), にも(8), 若い女(8), アプリ(8), 数年(8), キモい(8), セーラームーン(8), なんの(8), コナン(8), 価値観(8), マルクス(8), 100万円(7), yahoo(7), よね(7), zyzy(7), 私たち(7), 基本的(7), 新自由主義(7), キツ(7), 技術力(7), Amazon(7), B(7), パワハラ(7), 笑(7), 共産党(7), 出版社(7), アイコン(7), 会社員(7), NHK(7), 消費税(7), 被害者(7), 精神的(7), はてサ(7), マウンティング(7), ヤバい(7)

本日の注目単語 ()内の数字単語が含まれ記事

Redmine(13), スクレイピング(6), rci(8), パーマネント(3), 脳トレ(3), ジャッポス(3), しらべ(3), 神通力(3), 横乳(5), 私と私(3), アウトレット(3), なじら(3), 踏み切っ(3), ホー(3), もやしもん(3), 神頼み(3), PHP(17), 一人一派(16), カプ(11), 醤油(19), イノベーション(10), Java(14), zyzy(9), やりがい(9), 100万円(7), コナン(8), 不快感(10), カフェ(9), パック(9), フェミニスト(65), 蓋(7), 寿司(16), 拡散(12), 三次元(7), プログラマー(13), プログラミング(19), 腐女子(18), Google(16), 都内(13), パソコン(18), 返信(13), ついて(12), 商売(14)

投稿警察もどき日中に再投稿された本文の先頭20文字 ()内の数字投稿された回数

子供女性性を見て加害するのがロリコ(10), 富士6時間耐久レース 富士6時間(5), うんち (5), 富士6時間耐久レース 富士6時間(4), わかる (3), 富士6時間耐久レース 2018 (3), 再投稿は甘え (3), いや〜平均的な人間レベルより下だと(2), >彼女たちをフェミニストと呼ぶのはフ(2), 日本 セルビア 日本 セルビア (2), あってる? (2), 日本 セルビア 日本 セルビア (2), おっおう (2), (2), nederland duitsla(2), 今日も女は毒親叩き (2), 他のは読んだことないけどそれ町が入っ(2), 増田での営業行為は禁じられてますよ (2)

頻出トラックバック先(簡易)

■まともなフェミニストはこれをどう思うの /20181014112046(29), ■そのひとたちはフェミニストではありません /20181014141021(23), ■パック寿司の蓋を醤油皿にする女 /20181014203109(20), ■嫌いな小説書きの話 /20180925051542(15), ■喪女の苦しみ /20181014110541(15), ■SFでも恋愛ものでもスポーツものでも歴史物でもバトルものでもない漫 /20181013233433(14), ■君のためにホームラン打つよ!←打てなかった時はどう言い訳したら許してもらえるの? /20181013185521(9), ■俺の書いた小説が読まれない /20181014135446(9), ■男女平等の何が嫌いか説明しといてやる /20181013125559(8), ■「ネタタグ不快感やばい /20181013125548(7), ■それじゃ聞くけどオリンピック開会式にふさわしいアーティストって誰? /20181012092551(7), ■20年前から小説家を目指してる /20181014142444(7), ■FFTで好きなセリフ 選 /20181014175546(7), ■「NTTデータ女子顔採用、気が強いから嫁にすると大変そう」 /20181014180634(7), ■なんか最近はてブを見るのが辛い /20181014201158(7), ■オタク隔離すればいいんだよなぁ /20181014104258(7), ■外付けCPUって何でないの /20181014215610(6), ■医大の件、女性が声を全然上げない理由 /20181014223925(6), ■チンして /20181013171408(6), ■日本語ってなくすべきじゃね? /20181014231404(6), ■プログラムを学びたい /20181014003945(6), ■27歳男性だけど人生詰んだ /20181014151146(6)

増田合計ブックマーク数 ()内の数字は1日の増減

5706255(3692)

2018-10-14

anond:20181014213046

合ってるよ。商品情報自動でまとめられる機能があればなぁってずっと思ってて。

それがスクレイピングって名前なのもさっぱり分からなかったよ。

これが出来るとものすごーーーーーーーく助かる。

勉強は大変そうだけど、生活で役立つから頑張れるよー!

anond:20181014212954

んーん。広告とかではなくて情報が欲しかったんだー。

からスクレイピングを頑張るよー!

anond:20181014212820

いや、元増田がやろうとしてるのはスクレイピングではなくて、アドブロックの様なことなのでは?

anond:20181014212419

スクレイピングと呼ばれるやつだね

少し勉強すれば出来ると思うよ

Raspberry Piとかherokuで常時実行すればいいと思う

2018-10-12

Pythonを150時間学んだ結果

プログラミング経験ゼロからPython勉強を始め同時にWEB関連の勉強もしたが未だにrequestとbeautifulsoupを使ったスクレイピングができない。挫折しそう。

2018-09-13

[]  第11話「今日は休む」

2018年9月13日 天気:俺はもう限界

昨日の釣果 5エントリー 0ブクマ

なんだけど、過去増田が伸びている……

こういうパターンの時に昨日の釣果システムでは辻褄が……

今週の釣果システムでも土曜日に書いた増田月曜日に伸びたりすると数字が……

このシステムそもそも間違っているのか?

増田分析スクレイピングして差分が発生した場合それを正確に反映すべきなのだろうか……

pixiv自分の絵についた点数に一喜一憂している絵師とかはどうしてるんだろうか

2018-08-08

高頻度のクローリングスクレイピングとは田代砲である

これは間違いないことなんだよ。

よっぽど鯖が頑丈なサイトに対して行う場合と、極めて健全方法を用いる場合以外は基本的無意味アクセスを繰り返して相手を痛めつけるだけの行為になる。

モラルのない人間や、知識のない人間が行うスクレイピングによって数多の鯖が殺されてきたのを我々は忘れてはならない。

2018-07-11

anond:20180711165459

ワンチャンどころかピコチャンくらいやぞ…>スクレイピングツール

PHPおじさんが敢えて語るべきことでもないが、スクレイピングだったりクローラだったりなんてゲーム開発者flappy birdクローン作るのと同じくらいの手慰みワークだからな…

2018-07-08

anond:20180708220140

検索にもキャッシュにも残ってないのにURLで指摘されたことある

ブラウザ履歴確認したら確かに合ってたので、スクレイピングでもしてるんだろう

そいつと再投稿した自分しか真実は分からないんだろうけど

Python = Webスクレイピング or 機械学習

Pythonって、アフィリエイトで稼いでる系の人たちにとってはスクレイピング用の言語で、エンジニア寄りの人にとっては機械学習用の言語っていう偏ったイメージがついている気がする。

自分2012年くらいに、みんながrubyrailsだ言ってるときに「はじめての言語Pythonだとコードをきれいに書く癖がついていい」という話だけで勉強し始めたんだよね。当時は2系と3系が混在してるときタイミングとしては好ましくなかったかも知れないけど、Python選んでよかったと思ってる。今ほどPythonPython言われるとは思ってなかったけど、純粋に書きやすいし、やりたいことは大抵できるし。

でも、だからこそ、スクレイピングならPythonだよ!みたいなブログとか見るとグッと来るんだよね。なんかもっと色々なことに使えるのに、それに終始しているのはなんかなぁ・・・

自分エンジニアじゃないし、機械学習なんてノータッチから、結局のとこと、スクレイピング文字列操作エクセル操作、あと種々の自動化くらいなもんだから偉そうなこという気はないんだけど、 https://employment.en-japan.com/engineerhub/entry/2018/05/18/110000 こういうのが3ヶ月に一回くらいはてブの上の方に上がってくるのを見るとげんなりする。もっとなんかないのかね。

2018-06-12

そもそも「引きこもってインターネットをやって賢くなろう」というのが間違い

地道に学んで、他人意見を付き交わし、人の役に立ったり、傷ついたり、そういった事を繰り返して人は賢くなる。

安全圏に閉じこもってスクレイピング効率を追い求めては上からマウントを取って気持ちよく射精してばかりいるうちはいつまで経っても馬鹿のままだよ。

2018-04-26

とある障害の話

これはLAN内で使っているだけの、しょっぱいエントリクラスサーバ1台障害の話だ、価値のある話ではない。

とある国内最大級の某グループウェア Office(パッケージ版)を使っている。

この某グループウェアは、従業員の「その日のタイムカードの一覧」を見ることができない。

CSVエクスポートすれば可能だが、営業マンは勤怠をガラケーメールで報告する運用であるため、

スマホ支給しろ 一覧+タイムカード修正画面へのURLリンク付きで

総務課の人にスクレイピングしてあげていた。

↓大雑把にこんな感じ

#!/usr/bin/env perl
use MY::Cybozu;

my $cb = MY::Cybozu->new;
$result = $cb->get_timecard( sprintf("%d.%.d%", $year, $month, $day) );

&send_mail( $result );

数年来やってきていたのだが、突然このスクレイピングデータが取れなくなった。

かにPerlを書けるだけで、他の言語将棋を指すようにしか書けない低能である

まず自分スクリプトを疑った。

ちょうど20日の月替りのタイミングだったので、スクリプトミスでズレたのか?

或いは、タイムカードHTMLtable構造で「trの何番目が何日目」という原始的な処理の方でズレたか

しかし、日付に関係なくダメになったのである

ほぼほぼデータを取れないのだが、たまに正常に取れたりもする。なんだこりゃ。

$mech->statusの結果はいつも200である

print $mech->contentの結果は、HTMLが途中で途切れていた。

スクレイプ対象の前で途切れたので、値を取得できなくなっていたのだ。

同じ場所で途切れる事が多いが、若干の増減はあった。

手元のWindowsマシン移植したところ、まったく問題ない。

どうやらスクリプトを動かしているLinux側の問題と思われる。

が、Webアクセスしてコンテンツが途中で途切れるって何だ?

どういう現象なのか?

そこまでの知識経験もなければ、調べ方も分からない。

からないなりに、とりあえずtcpdumpしてみた。

3WAYハンドシェイクはよく知られた話だが、正常な通信では、サーバから送られてきたパケットに対して

こちらは「ここまでのパケット受け取った」とACKを返し、最終的にサーバからFINこちらがRST返すのが見て取れた。

この異常をきたしたスクリプトでは、ある程度を過ぎると、こちらがACKを返す前にサーバからどんどんパケットが送られ、

突如としてこちらがRSTを連打し、切断してしまっていた。

なるほど、ステータスは200だけど、コンテンツは途切れているのだな。

悪いのは、いよいよこちら側である事は間違いない。

でもスクリプトじゃなくて、ネットワーク制御しているOSが悪いっぽい?

となると深刻である自動車に乗れても内燃機関構造など把握していないのだ。

唯一、tcp_abort_on_overflowでそれっぽい挙動をしそうだと分かったが、この機能は使われていない。

詰まった。

お手上げだ。

でも分かった。

端末からNASディレクトリへ、TAB補完しようとすると突如フリーズしたのだ。

他のスクレイピングは正常に動作してる。

httpdも正常に動作してる。

MySQLも正常に動作してる。

グループウェアへのスクレイピングNASへのTAB補完だけが動かない。

故障だ。

単にマシン故障だ。こういうヘンテコな挙動をするのは。

1.3万円で買って7年目の某ProLiantサーバから寿命なのだろう。

オチはないけど、最初から故障を強く疑っても良かったではないのか、と自省する。

そのマシンでのみ失敗し、しかも失敗したりしなかったり(比にして7:3程度)、結果も毎回変わっていたのだから

うーん無能

2018-03-25

ハロワ求人をこの1年ほどスクレイピングしてて

特定できる会社を"常時募集""3ヶ月以内に再募集"でリストアップしてみたけど多すぎてダメだな

もっと的確にブラック分別できる技術を磨きたい

2018-03-13

Webスクレイピングで全自動更新エログ作ったったwwww

概要

よくある「完全放置!」「全自動更新!」「何もしなくても儲かる!」みたいなアフィがあるけど

おそらく、その1つである自動更新エログ作って一ヶ月近くたったからその結果を書く。

何かしら作品を作ったらQiitaかにアウトプット上げるけど、内容が内容なのでここで。

URLは多少内定自慢できるくらいの会社内定貰っているから伏せます><@バレなさそうなら晒す

・仕組み

サイト情報

お金の話

技術的な話

結論

仕組み

仕組みは簡単、いくつかの既存エロサイトWebスクレイピングをかけてウチのエログでも全く同じ情報配信する。

そんなエログに全く価値が無いと思われるが、既存エロサイトと比べてウチのエログを使うメリットはいくつかある。

メリットリスト

1. share-videosを使っているので削除されていても案外見れたりする。

2. 広告share-videos意外無い

3. エログ特有アクセストレードを行っていない(コピペなのでそもそもアクトレサイト申請出来ない)ため、色んなサイトを行き来せずにめっちゃやすい!

4. 「PageSpeed Insights スマホ 82 PC 93」「【GTmetrix】 PageSpeed Score 99 YSlow Score 87(CDN入れたら94)」平均読み込み4秒のエログの割に読み込みが早い

5. スクレイピングするエログ動画クオリティが高いサイトに厳選しているため良いネタがすぐに見つかってずく抜ける。(自分でも毎日使ってる)

事実友達に悪い点とかのフィードバックを頂戴とお願いしたが「特に悪い点は無い、、、むしろ使いやすい」と好評。セッション継続時間は平均4分でみんな動画ちゃんと見てるみたい^^

サイト情報

自慢はここら辺にして、アクセス結果とかサイト情報はざっくりを晒す

2月の総アクセスざっと2400くらいで、1日大体70〜100くらい。流入検索からアクセス100%

検索ワードjk 個人撮影みたいなワードからが割と多い。記事の数は10000件くらい。

直帰率60%、ユーザー当たりのセッションは4。

こんなものか?正直Web系ではあまりいから何をいえば良いかからない。GAで取っているからみたい値があれば追記で。

完全放置コピペかつ検索から流入100%で1ヶ月目にしてはじょうじょうかな?

お金の話。

儲かっているかというとこののままだと大赤字です。

鯖の無料枠で運営しているため向こう1年はタダで運営出来ますが、もっとアクセスを稼がないと厳しいです。(何せshare-videosしか収入がないから)

月極広告お話が来たら安定するのですが、スクレイピングでこの程度であれば来ないでしよう。

技術的な話

CMSとしてWordpress採用理由SEOとかプラグインで楽そうだから事実楽)(KUSANAGI存在を知っていれば使ってたのにと今更後悔)

WebスクレイピングGolang採用理由は速いから。並列処理でもっといから。あと書きやすい。てか。。。普通に好き。。。><

速さを求める理由はFunction as a serviceでスクレイピングを実行しているから。Python使おうと思ったけど、実行時間制限があるためある程度早くスクレイピングを終わらせなければならなかった。

鯖側で常駐かcronを使っても良かったけど、常駐はメモリ食べてパニックだし、cronは設定がめんどくさいから。FaaSだとWeb上で実行間隔を弄れて無料で最高。

こだわった所

Webスクレイピング抽象化

詳しい内容はウチのサイトの強みだから言えないが、他のエログURLリストに貼るだけで勝手に取得し投稿する。神。

結論

Webスクレイピングエログおすすめしない。手動で毎日更新したほうがアクトレで確実に儲かる。

黒字化するのであれば現行の方法ではなく、全自動日本中エログ全てのから記事を取得してshare-videosに張り替えて投稿するサイトかな。

ほんで長期運営ユーザーブクマしてもらえるような見やすサイトにでもしなければ収益化は無理。

2018-01-06

anond:20180106211107

マクロからだと少し話が飛躍するかもしれないがウェブサイトから記事テキストで抜き取るスクレイピングっていう技術がある

株価の動向をデータ管理して数字を見るとか,こういったはてなブログ記事適当な所だけ抜き取って記録していくとか,スクラップできる.

アマゾンセールとかで買い物かごに速攻で突っ込みまくる巡回ソフトもこういう技術だった気がする.

アーカイブ ヘルプ
ログイン ユーザー登録
ようこそ ゲスト さん