「スクレイピングツール」を含む日記 RSS

はてなキーワード: スクレイピングツールとは

2024-01-10

anond:20240110220807

簡単パスしないでくれ

文句だけ言ってフリーライドするのは今日でやめにするのだ

スクレイピングツールoctpusで「https://b.hatena.ne.jp/entrylist?url=https%3A%2F%2Fanond.hatelabo.jp%2F2022&sort=count

スクレイピング

②①をgoogleスプレッドシートに貼り付ける

ブクマ数上位から下記増田を削除して、50件とか100件ほど増田文学ぽいのを厳選する

 記事が消えているもの

 批判ばっか

 アンケート

 お役立ち情報が強いもの

  例)投資IT家事やら

 短文質問いかけ系

 政治色が強いもの

④これ排除したら、タグが「増田文学」って付いてるのを拾う

⑤もう一度見直して、明らかに文学じゃねーな、ってのを削除

 評論とか、個人体験記的なのが残っているはず

見出しブクマ数、カテゴリー、備考を載せて整形チェック

 タイトルが表示されないものは備考に適当記事タイトルを付けてやる

 ※この作業はなくてもいいか

⑦表になるように増田に貼り付けて確認

おしまい

2023-08-16

なんか管理してない店舗URL一覧出せって言うから作業Google検索してURLコピペしてくなんて愚の骨頂じゃん?

から社内で運用してるスクレイピングツール使って終わらせて欲しいって依頼立てたわけ

Google検索で一番上のURLを取ってくる繰り返し処理のゆるい条件で

1,2時間でできるだろうと思ってさ

そしたら余裕ないから出来ないし、使い回しできる作業だけ依頼しろって

すげえ重い依頼出したみたいになってんの

アホなのか

チャットGPTに書かせてclabで実行するまで30分もかからない作業だぞ

会社で認可されない(なぜか)から使えないけど、アホらしくなって使った

これがクライアント事業のDX化をトータルで請け負うIT企業の姿かよ

まず弊社をDX化しろ

心底アホらしくて、もうどうでもいい

2023-01-13

anond:20230113162750

これをネットストーカーと呼ぶかは立場によるところだろうけど、Webスクレイピングツール自体を悪だって言い始めるとGoogleとかYahooは成立しなくなるので注意が必要

まぁ個人的にはWebスクレイピングツールのずる賢い悪用一種だとは思うけど辞めろって言っても暇空茜応援団は辞めないだろうしね

じゃあ暇空茜応援団が何をやって更新へ即座へ反応しているのか教えてあげようかなと

暇空茜応援団Webスクレイピングを導入していて更新監視している

Webスクレイピングツール一般であまり認知されていないが、Webを中心としたIT界隈では常識的ツールであり、端的に言えば登録したWebページを巡回更新監視するツールである

似たようなものRSSAtomフィードリーダーなどが存在するものの、Webスクレイピングツール業界共通認識としては、監視するWebページにRSSAtomフィードが無くともWebページ情報差異過去現在計算し、変更の閾値を超えたWebページの更新を通知し、そして保存できるというものである

変更の閾値という処理が挟まれ理由として、広告などを代表例にWebページ閲覧時の更新の度に変化する可能性があるため1%でも更新が通知されると更新の通知が膨大となるため些細な変更を無視するためだ。

もしWebスクレイピングツール更新されているページにPDFJPEGなどのバイナリファイル存在したとしても、PDFJPEGなどのバイナリファイル存在したとき多くの場合Diffと呼ばれる差分検出ツールを用いてバイナリファイル単位で変更があったかどうかを監視している。

Colaboなど現代の多くの団体Web活用して運営されているため情報Webを介して告知するので、暇空茜応援団はそれを逆手に取り情報更新監視している。

暇空茜応援団が即座にWeb情報更新へ反応するのはこういった背景があるのだ。

逆に言えばWebページの更新を秒間で行うなど更新通知を飽和させるカウンターなどを想定できるが、閾値を変えればその様なカウンター手法無視できるため意味がないし、特定キーワードだけ抽出することも可能なので無駄リソースとなるため無駄である忠告しておきたい。

2022-03-11

エロ駆動開発

とあるエロサイトは最新の数十件しか表示されないからF5を押して常にPCの前に張り付いていた。

日中F5を押すのは時間も労力も掛かるたpython自動スクレイピングツールを作った。

1分毎にページを取得してお目当ての動画URL等をデータベースに格納。

重複する動画無視した上で格納。これにより無駄な閲覧をなくすことが出来た。

データベースから取得してHTML自動生成するツールも作った。

画像の表示はjavascriptで描画位置計算することで実現。

これでかなりの時短になることは間違いない。

今はコマンドラインでページを生成しているためWEBインタフェース作成する予定。

有給を取って有意義システムを構築することが出来た。

2020-08-29

0ブクマ増田が10000を超えた

ごく簡単スクレイピングツール自作して自分増田ブクマ数について毎月集計している。

つい最近やった集計の結果で、0ブクマ増田数が10055となった。

10000。

数字にすればなんのことはない。

日記なら27年半かかるが、増田は1日30件でも100件でも投稿できる。

チャットとして使うのなら半年で達成する。

ただ、私の場合はそれなりに内容があるし、トラバも滅多にしないので、これは5年ほどかけて積み上げたものだ。

全くの0ブクマ10000。

1回の記事にかけるのが平均10分として、100000分。

およそ1600時間インターネットの虚無に消えたことになる。

なんだこれは。

1600時間あったらなろう小説の一作ぐらい書けるのでは?

それだけの時間を0ブクマゴミみたいな増田を書くのに使ったのか?

この増田を見ればわかるように、文章力構成力は別に伸びていない。

承認欲求も満たされず成長もなくただ可処分時間けが失われた

俺の時間はどこへ消えたのか。

2019-10-11

食べログ 非会員/無料会員/有料会員の見分け方

データ解析を駆使して食べログ3.8問題が証明できなかった話 - konkon3249’s diary

https://b.hatena.ne.jp/entry/4675593069446477314/comment/terencow

対象食べログ店舗会員かどうかは、店舗ページのトップ写真があるか」とあるけれど、無料会員でも画像は貼れるように見える( https://owner.tabelog.com/owner_info/top )「非会員/無料会員/有料会員」で見るべきなのでは

思いがけず多数のスターをもらってしまい、ブコメして投げっぱなしもあれなので見てわかる範囲で調べた。

くだんのスクレイピングツールについてソースを見たところ、会員かどうかの判定をしている箇所は以下。

isPremium = soup.find('h3', class_='pr-comment-title js-pr-title')

h3要素のpr-comment-title js-pr-titleクラスというのが、上述の「バー下にあるPR文」なので、このロジックであれば、「非会員・無料会員」と「有料会員」で二分されることになる。

そもそも今回の食べログ炎上で争点となっていたのは「代理店から有料会員を勧められた」という点なので、確かにこの判定基準で十分そうだ。konkon3249さんにお詫び申し上げる(ただ、無料会員を「会員」と「非会員」のどちらに含めているかを明示してもらえると、より混乱がなかったかも)。

「有料会員だが、PR文や写真の設定はしていない」というパターンが有りうるかもしれないが、さすがにレアケースだと思うので考慮しないこととしたい。

参考:

飲食店なら管理しておきたい食べログ無料店舗会員ができる事まとめ | KTGブログ

無料会員の範囲内で写真PR文の設定を行っている例。店舗へのリンクもあるが、見てみると写真正方形サムネイルだけ、PR文もトップ下ではなく末尾となっている。

2019-08-03

[]2019年7月あとで読むトップ20リスト

anond:20120303220901を見て何となく調べてみたくなった。デイリーホットエントリに入っているものだけだからけがあると思う。

482あとで/3046users 【永久保存版】「お金がもらえる・戻ってくる制度や手当」をまとめてみた→リプ欄にも続々情報が集まって有能「行政がやるべきことを無償で…神」 - Togetter

372あとで/2421users 【永久保存版Gitのあらゆるトラブル解決する神ノウハウ集を翻訳した - LABOT 機械学習ブログ

329あとで/1559users 初心者無料勉強できる良教材いろいろまとめ - orangeitems’s diary

271あとで/1298users すべての新米フロントエンドエンジニアに読んでほしい50の資料 - Qiita

258あとで/2327users お金の話について|ヨッピーnote

256あとで/1804users 認知バイアス一覧で社会心理学入門

254あとで/2207users YouTubeで500万再生された腹筋を割るトレーニングを1ヶ月続けてみた結果がヤバい

253あとで/3101users 重大事故の時にどうするか?|miyasaka|note

250あとで/1791users 「めんどくさい」の正体を脳科学者に聞く | Lidea(リディア) by LION

247あとで/1628users 中国だけで2100万部、話題性と本物のおもしろさを兼ね揃えたバケモノ級の中国SF──『三体』 - 基本読書

233あとで/1304users インフラエンジニアに便利な負荷計測コマンド【基礎編】 - はてな村定点観測

231あとで/1831users 東京から1泊2日で行けるおすすめ温泉チャート作りました - いつか住みたい三軒茶屋

227あとで/1304users 睡眠の質を高めるための方法(総まとめ編)

225あとで/1188users リクルートテクノロジーズ エンジニアコース新人研修の内容を公開します!(2019年度版) | リクルートテクノロジーズ メンバーズブログ

219あとで/1672users 四川料理のスゴイ人が猛プッシュする「肉味噌ストック」を大量に作り置きして毎日献立天国にする方法 - メシ通 | ホットペッパーグルメ

211あとで/1630users 「皆がこれ読んでたら読んでたら世の中もっと良くなるのに」本

210あとで/1024users この記事の元の本編は削除しました。|樫田光 | Hikaru Kashida|note

202あとで/1465users 5年間蓄積したシャツの襟首汚れも抹殺する魔のアイテムアタックプロEX石けん」がめっちゃ便利 - Togetter

187あとで/1018users 【スクレイピングツール】面倒な情報収集はGoogle Spreadsheetにやらせよう! | DAINOTE

185あとで/1241users 国は何に、誰にカネを使っているのか 政府の全事業予算をチェックするデータベースを作った人たちがいる

[あとで読む]が全体に占める比率で見たときに高いのはIT系のようだ。

86あとで/233users CI/CD原則デザインパターン (整理会)/20190722-jaws-ug-arch-pipeline-principle - Speaker Deck

80あとで/243users たのしOSSコードリーディング:Let's read "cookies"🍪 - Speaker Deck

75あとで/236users 【やる気を出したい人必見】科学的に証明されたやる気を出す方法5選 怠惰自分とは今日でおさらば - ホワイト心理学って何?

103あとで/340users なぜテストを書くの?(または書かないの?) 〜テストコードの7つの役割〜 / #tamarubykaigi01 - Speaker Deck

122あとで/407users これからVue勉強しようと思っている人への道しるべ(勉強方法)を書く - Qiita

前月、2019年6月も見てみる

451あとで/3146users 海外で7年働いて、今でもやっぱりメチャ使っている英語の補助ツール3選|__shinji__|note

261あとで/1368users あのGoogleアナティクス実践本が全文無料公開!インターネット最高 | DevelopersIO

258あとで/1339users 333枚のスライドで「インターネットはこれからどうなるのか」を示した貴重なレポートInternet Trends 2019」 - GIGAZINE

258あとで/1069users ソフトウェアアーキテクチャ歴史 - tasuwo's notes

242あとで/1396users プログラマーを30年間やってきた経験から学んだことまとめ - GIGAZINE

235あとで/1609users どうやって校閲記者は調べているか | 毎日ことば

234あとで/2027users 調べものリンク集 | 毎日ことば

186あとで/849users tmk.nom on Twitter: "すげーリポジトリ見つけた。Webサービスシステム設計が学べる。日本語もある。システム設計ってどうやって学ぶのが効率いいんだろうって思ってたけど、コイツを出発点にするのはアリな気がする。 https://t.co/1YMBP9UMHo"

184あとで/1174users 1時間で出来る!最強のWordPress環境構築(永久無料) - Qiita

182あとで/810users ウェブサイトが表示されるまでにブラウザはどういった仕事を行っているのか? - GIGAZINE

180あとで/916users 「Linuxのしくみ」をもっと早く読んでおけばよかったと後悔した - ばーろぐわにる

176あとで/1442users イエメン情勢

170あとで/875users 2019年前半の「JavaScriptちゃんとやるための地図

169あとで/828users 新メンバーが多い大型プロジェクトでの不確実性との戦い方 - Quipper Product Team Blog

167あとで/996users 楽しく読める!お金の基礎知識おすすめ本|深津 貴之 (fladdict)|note

166あとで/954users 「君、今日からクラウド担当ね」 未経験者が1人で始めた、ファミマAWS移行の舞台裏 (1/2) - ITmedia NEWS

163あとで/1251users クレジットカードの偽決済画面が稼働していたサーバーについて調べてみた - piyolog

160あとで/726users Dockerfile を書くためのベストプラクティス解説

158あとで/997users マイクロサービスにおける決済トランザクション管理 - Mercari Engineering Blog

158あとで/756users Visual Studio Codeのうれしい機能を使いこなして、初心者を最速で脱出する!《VSCode実践入門》 - エンジニアHub|若手Webエンジニアキャリアを考える!

追記2019年1月まで遡る(長くて2月までしか表示されない)

5月

421あとで/2838users The Elements of Styleの全訳

376あとで/2277users 総務省 ICTスキル総合習得プログラム

334あとで/3018users 簡単初心者向けの資産形成 (長期投資)

276あとで/2328users プログラマだったら当然知ってるよね?という知識一覧 | anopara

273あとで/1314users マネジメントで悩むすべてのエンジニアが見るべき完全無料テキストGoogle re:Work」 | DevelopersIO

234あとで/1641users 拝啓お客様Webサイト制作コストはここにかかります。 | 東京上野Web制作会社LIG

232あとで/1044users 数時間で完全理解!わりとゴツいKubernetesハンズオン!! - Qiita

225あとで/1095users AWSをこれから始める学生への圧倒的なインプット - Speaker Deck

207あとで/1046users 東大松尾研究室監修のエンジニア向け教育プログラム「DL4US」の演習コンテンツ無償公開 | Ledge.ai

204あとで/1453users ダサい英語しか書けない人はこの本を読むといい→多くの人がポチった結果Amazonの売り上げランキング上位に入り著者が喜ぶ「これがTwitter効果か」 - Togetter

194あとで/2105users WEB特集 潜入取材フォロワー3万人買ってみた | NHKニュース

192あとで/1829users まず楽天銀行楽天証券に口座を作りなさい。 それから楽天カードも作りな..

184あとで/1440users 松岡修造根拠理論に裏打ちされていない根性論が一番嫌い」【滝川クリステル対談】

182あとで/2364users 66歳男性風呂場で涙… 友人もいない老後を憂う相談者に鴻上尚史が指摘した、人間関係絶対言ってはいけない言葉 (1/6) 〈dot.〉|AERA dot. (アエラドット)

175あとで/928users AWSアカウントを作ったら最初にやるべきこと ~令和元年版~ | DevelopersIO

174あとで/1854users あなたの知らない「詐欺グラフ」の世界(随時更新中)|けんけん|note

173あとで/1316users 「マクドナルドの店内BGM」のディープさに感動して“中の人”に直撃したら本当にスゴかった話 | BUSINESS INSIDER JAPAN

171あとで/1490users 患者向け医療情報サイト総まとめ|病気になったらググる前に見てください | 外科医視点

171あとで/777users 君には1時間Gitについて知ってもらう(with VSCode) - Qiita

170あとで/1339users 「バカうま」「キャベツ1玉なくなった」 “ジェネリック叙々苑サラダのたれ”を小説家が開発、その作り方とは? - ねとらぼ

4月

495あとで/2948users これだけ守れば見やすくなるデザインの基礎 - Speaker Deck

460あとで/2809users 「お金を払ってセキュリティを学ぶ」のは平成で終わり? ある無料教本が神レベルで優れている件 (1/3) - ITmedia エンタープライズ

315あとで/1908users Google無償の『デジタルスキルトレーニング』を国内1000万人に提供 - Engadget 日本版

290あとで/2306users Excelで一番「え、そんなことできるの!?」って裏技書いたやつが優勝 BIPブログ

282あとで/1723users 仕事給与評価関係 - Speaker Deck

266あとで/3312users 平成31年度東京大学学部入学式 祝辞 | 東京大学 (上野千鶴子 - 認定NPO法人 ウィメンズ アクション ネットワーク理事長)

264あとで/1840users 騙されたと思ってやってみて!! ストレッチプロが教える 肩、腰、腕周りのストレッチまとめ「痛くてちぎれる」「生活の質が3段階上がる」 - Togetter

260あとで/1570users フォント選びに迷ったら見返したい、おすすめ定番フォント31選まとめ (欧文編)|原田 佳樹 Harada Yoshikinote

248あとで/1419users ディープラーニング入門:Chainer チュートリアル

244あとで/1800users 「という」と「こと」を減らすだけで、文章はぐっと読みやすくなる|Ryo Yoshitake | THE GUILDnote

233あとで/1839users 無料で“Google 翻訳”より高精度! “みらい翻訳”のお試し翻訳が便利 - やじうまの杜 - 窓の杜

217あとで/1266users AWSマンガ 全話を読む| AWS

184あとで/2627users 平成30年度卒業式総長告辞 | 東京大学

184あとで/1044users 「機械学習データ集めるのが一番大変・・・」⇛Googleが大量の機械学習データベース無料公開してた - Qiita

182あとで/1224users 優秀な人材がやめていくのは「計画グレシャムの法則」に陥っているからだ:ITソリューション塾:オルタナティブブログ

181あとで/1110users エンジニアが何か問題にぶつかったときにあるといい力を5個 - Mitsuyuki.Shiiba

177あとで/1205users プログラミングの変数メソッド命名でよく使う英単語を整理(備忘) - "BOKU"のIT日常

169あとで/754users 読書アウトプット書評おすすめです。書評の書き方をお話します。 - とある士業の知的日常

168あとで/1515users 【photoshop風景写真イラストアニメ風に加工する | briccolog東京渋谷区ウェブ制作会社ブリルール

166あとで/689users 不確実性と上手く付き合う意思決定手法 - Speaker Deck

166あとで/1103users 簡単過ぎる!GoogleスプレッドシートからPWAアプリを開発できる「Glide」を使ってみた! - paiza開発日誌

166あとで/896users 履歴を持つデータ設計 - Speaker Deck

3月

228あとで/1345users サーバーレスパターン

213あとで/1599users こうしてGoogle入社した(kumagi編) - Software Transactional Memo

210あとで/966users 入門 Docker

196あとで/1162users 配色はセンスじゃない、UIデザインで色をかんたんにキメるメソッド|Taiki IKEDA|note

196あとで/3940users ある日突然自分建物他人ショベルカー破壊しても「建造物損壊」にはならないのか? - GIGAZINE

192あとで/2393users アメリカに住んで初めてわかった「最大級」の違い - メソッド屋のブログ

186あとで/1645users イチロー引退会見を文字起こししてみた - 俺の遺言を聴いてほしい

183あとで/1767users 学生アパート大家と全力でバトルして敷金を全額取り返した話 - ゴミログ

181あとで/2627users 平成30年度卒業式総長告辞 | 東京大学

180あとで/905users サーバーサイドエンジニアも知っておくべきフロントエンドの今 - Speaker Deck

178あとで/983users 一時期プログラミングのデザインパターンというものが大流行しましたが、現在ではどのように評価されているのでしょうか? - Quora

175あとで/955users プレゼン本に書いていない生々しい8つのプレゼン技術のご紹介(前編)|Yasuhiro Yoshizawa|note

175あとで/1523users シンプルオススメの本教えて(ただし自身立場から

172あとで/1292users 筋トレしない人も「鶏むね肉とブロッコリーレンチンチーズ蒸し」を食べるのが大正義な3つの理由筋肉料理人】 - メシ通 | ホットペッパーグルメ

166あとで/1669users Google退職します|eqsan|note

164あとで/833users [書評] アウトプット大全 を一ヶ月試してみて毎日アウトプット力が着実に向上し始めた - My External Storage

163あとで/943users 未経験から7日間でコーダーとして現場投入させるまでのカリキュラムを忘れないようにメモっとく - Qiita

160あとで/973users なぜ作ったゲーム面白くならないのか?基礎にして奥義「フロー理論」|かえるD|note

159あとで/1009users まだExcelで消耗してるの?Pythonによる自動集計ガイド 基礎編 - Qiita

156あとで/1327users 横浜市「RPAの有効検証の成果について」を読んで、仕事とは何かを思い知らされる - orangeitems’s diary

2月

354あとで/2868users 家族が亡くなった後の「手続き地獄」早わかりカレンダー | マネーポストWEB

296あとで/1575users プログラマの採用面接で聞かれる、データ構造アルゴリズムに関する50以上の質問 | POSTD

220あとで/1135users コンテナ技術入門 - 仮想化との違いを知り、要素技術を触って学ぼう - エンジニアHub|若手Webエンジニアキャリアを考える!

210あとで/1199users 配色はセンスじゃない、UIデザインで色をかんたんにキメるメソッド|Taiki Ikeda|note

179あとで/1589users アメリカ流行ってるサービス: 俺と周りの場合

179あとで/1378users 「婚前交渉禁止」の家庭で育った戸田真琴は、なぜ【AV女優】になったのか?|転職サファリ

173あとで/1407users 「21時以降でもやっている都内おすすめ喫茶店教えてください」→超有益情報まりまくる - Togetter

172あとで/1832users 平成最後のキッチン革命「酒蒸し法」 :: デイリーポータルZ

170あとで/1322users とある厨房で実演→オムライスのあの卵の作り方をバイトさんに教えている動画話題に「これやりたかったやつ!」 - Togetter

168あとで/1971users 「4歳の娘が可愛くない」とSOSを出す母親に、鴻上尚史がまず最初に聞いたこと (1/4) 〈dot.〉|AERA dot. (アエラドット)

165あとで/1885users Google社員食堂に感じた、格差社会リアル。 | Books&Apps

153あとで/2005users アメリカでは仕事をいきなりクビになることがあると聞きますが、そのクビになった人が持っていた仕事はきちんと他の人に引き継がれるのでしょうか? - Quora

153あとで/1021users 電子工作趣味にすると何ができるようになるか(+電子工作のはじめかた) - nomolkのブログ

152あとで/1760users 経済制裁下のイランに行った|Yu Okada|note

151あとで/822users なぜコンピュータを学ばなければならないのか 21世紀君主論

149あとで/580users Firebase、そろそろ触っとかないとやばいんかな?と思っているあなたのための超基本Firebaseの勉強に役立つサイトまとめ - かとのぼダイアリー

149あとで/1663users Google転職していきなり3ヶ月の育休を貰った - Software Transactional Memo

148あとで/1580users 紙の辞書の方が単語などを覚えやすいというのは本当なのですか? - 最近... - Yahoo!知恵袋

143あとで/1218users たくさん獲るのをやめたら、儲かって休みも増えた。佐渡エビ漁に見えた希望 | Gyoppy!(ギョッピー) - 海から、魚から

2018-09-04

anond:20180904223918

スクレイピングツール 無料」とかで検索して自分で使い方調べりゃ2時間ぐらいで出来るだろって話だよな。

 
ログイン ユーザー登録
ようこそ ゲスト さん