「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2023-01-26

最寄駅の時刻表を暗記したい

駅に停まるやつ

通過するやつ

快速のやつ

快速だけど途中までのやつ

色々ありすぎる

待ち時間5分以内だと思って行ったら15分待ちとかなると遅刻する

あとちょっとイレギュラーがあって次のになるとびっくりするくらい遅れる

山手線感覚でやっちゃう

 

でも時刻表変わるからなあ

スクレイピングして常時最新のが出るようにするか

何かのアプリで随時見るか

アプリ使うなら検索すれば良いって思うんだけど

乗り換え案内もGoogleマップちょっとした誤差で大きなズレになるんだよなあ

やっぱ秒で時刻表確認したい

遅延は確認できなくていい、そこまで重いものでは無い

2023-01-20

anond:20230119101547

かとえっちぇっちぇよ、ディスレクシアは言いいにきいよ

何とかスレってのはネスレしか日常で言わんのよね

スクレのがスクレイピングやはスクレーパーやらあるもの

2023-01-19

泥棒企業リストSDGsという名の泥棒村木厚子伊藤忠だけ悪者ではない

この税金泥棒に加担した企業法人は多い。

そしてこれがジェンダー平等パリテの正体。

単純に一人の腐敗した女性けが得をする。

税金泥棒する。

そしてAV新法のように女性搾取される。

搾取しているぱっぷすは新聞で褒められる。

ヤフーに出る。

いささかも驚かない。

ネオリベラルフェミ典型的例。

これが日本リベラルフェミジェンダー平等人権包摂の正体。

社会学者は全員このインチキの味方。

村木厚子さんの関係ちょっと調べただけでこれだけ。

呼び掛け人(代表) 若草プロジェクト

取締役 伊藤忠商事株式会社

社外取締役 住友化学株式会社

社外取締役 SOMPOホールディングス株式会社

理事 公益社団法人日本フィランソロピー協会

理事 日本生活協同組合連合会

(続)

暇空茜

@himasoraakane

https://noufuku.or.jp

村木厚子さんが副会長(ほんとどこにでもいるな)の農福連携協会障害者雇用ソーラーパネル推してる

https://maff.go.jp/j/shokusan/renewable/energy/einou.html

そらゆりこ逆らえんわ

最終更新

午前3:02 · 2023年1月17

https://twitter.com/himasoraakane/status/1615046771948015616

藤原💰かみら🦙S耐2022 RED SEED Audi R8 LMS GT4🦊⛩️

@Racer_Kamira

·

1月17

村木厚子さんの関係ちょっと調べただけでこれだけ。

呼び掛け人(代表) 若草プロジェクト

取締役 伊藤忠商事株式会社

社外取締役 住友化学株式会社

社外取締役 SOMPOホールディングス株式会社

理事 公益社団法人日本フィランソロピー協会

理事 日本生活協同組合連合会

(続)

引用ツイート

暇空茜

@himasoraakane

1月17

https://noufuku.or.jp

村木厚子さんが副会長(ほんとどこにでもいるな)の農福連携協会障害者雇用ソーラーパネル推してる

https://maff.go.jp/j/shokusan/renewable/energy/einou.html

そらゆりこ逆らえんわ

藤原💰かみら🦙S耐2022 RED SEED Audi R8 LMS GT4🦊⛩️

@Racer_Kamira

理事 公益財団法人プランインターナショナルジャパン

副会長理事 一般社団法人日本農福連携協会

顧問 一般社団法人障害者雇用企業支援協会

顧問 首都圏若者サポートネットワーク

顧問 NPO法人抱樸

評議員 公益財団法人キリン福祉財団

評議員 一般法人・公益法人情報公開共同サイト

(続)

藤原💰かみら🦙S耐2022 RED SEED Audi R8 LMS GT4🦊⛩️

@Racer_Kamira

評議員 日本生命保険相互会社

アドバイザー 一般社団法人 地方行政リーダーシップ研究会

サポーター パーソルサンクス株式会社

招へい教授 大阪大学男女協働推進センター

教授 津田塾大学総合政策学部客員

委員 中央防災会議防災対策実行会議

支援者 社会福祉法人プロップステーション

(続)

藤原💰かみら🦙S耐2022 RED SEED Audi R8 LMS GT4🦊⛩️

@Racer_Kamira

内閣府 共生政策担当統括官?

厚生労働省事務次官

以上。今の所ネットにあるpdfとかを検索->スクレイピングで動かしてみたけれど出るわ出るわ…怖い。

怖くはない。

単純にこんなに業務ができるわけがない。

自然でどういう雇用形態か。

お飾りで雇ってないか

2023-01-13

増田削除アプリを作った

動機

趣味増田の削除です。

増田を全削除するのであればPower Automation DesktopSelenium IDEあたりでも使えば可能ですが、中にはブクマを集めた珠玉増田ブクマは付かなくても割と気に入ってる増田もあるので全削除はしたくありませんでした。

なので選択的に増田を削除するためのアプリ作りました

アプリ概要

Masuda Deleter

https://github.com/oribeolive/masuda-deleter/

Masuda DeleterはDockerコンテナ環境を作って動くのでDocker必要です。

M1 Mac動作していますWindows検証できるマシンが手元にないので動作未確認です。

インストールGitHubのREADMEに書かれたコマンドを実行すればできると思います

Masuda Deleterははてラボログインして指定されたページ分の自分増田投稿スクレイピングしてローカルDBに保存します。

取得された投稿リストブラウザで見られるので、そこで削除するものを選んで実行すると、またログインして投稿を削除しにいきます

ページのアクセスごとに読み込みと遠慮のために1秒から数秒sleepするので少し時間がかかります

一旦投稿ローカルに保存するという過程があるため副作用として自分投稿検索できます

これにより

が容易になります

増田にはAPIがないので、IDパスワードを使ってログインして、表示されている文章スクレイピングしてくるという原始的なやり方になります

(2回目からcookieがある場合cookie復元してログイン状態になります。)

ユーザーが知らない外部サイトにクレデンシャルを渡すのは危険であり、サービス運営側としてもパスワードを平文で持ちたくないので、Webサービスとして実装せずセルフサービスとしております

ユーザーによってローカルの.envファイルに書かれたIDパスワード使用する形です。

ソースオープンしておりますので怪しいことをしていないか確認ができるかと思います

機能

取込

ページ数を入れて取込ボタンを押すと投稿の取得が始まります

一応下にプログレスバーが出ますが、ページ遷移すると見られなくなります。進捗は進捗管理でも確認できます

取得された投稿リアルタイムで画面に反映されないのでブラウザリロードしてください。

検索

自分増田キーワードブクマ数やトラバ数で検索できます

キーワードは濁点を区別していません。

一覧

増田IDタイトル、本文の省略、投稿日時、ブクマ数、トラバ数が表示されます

ブクマ数やトラバ数でソートできます

あとで消す(選択削除)

「あとで消す」投稿をチェックし、「あとで消す」記事をついに消すボタンで削除を実行します。

チェックは別のページに遷移しても有効です。

「あとで消す」選択全解除ボタンで解除できます

削除を実行すると下にプログレスバーが出ます

こちらは実行した時点で表示されているページのみリアルタイムに画面に反映されます

リロードすれば現時点でのデータが見られます

詳細

投稿の全文を見られますタグ等は取得しないのでテキストのみになります

再読込

投稿個別に取得してローカル文章ブクマ数とトラバ数を更新します。

削除

投稿個別に削除しにいきます

Space Masuda

隠し機能デフォルトではOFF。

対象投稿タイトルを空に、本文をスペース1文字にしにいきます

進捗管理(Progresses)

処理の進捗(何件中何件処理済みか)を見ることと、処理を停止させることができます

排他処理(取込と取込、特定IDの削除と同じIDの削除等)にしているので動いていなそうな処理を停止して再度処理を実行するときに使います

停止する場合は停止ボタンを押すか、それでも停止しそうにない場合強制停止ボタンを押してください。

進捗一覧ではプログレスバーアニメーションはありません。

「停止」は今行っている最中の処理ではなく次以降の処理を停止するという形になります

停止ボタンを押したときに4ページ目を取得している場合は、5ページ目の取得を始める前に処理を終了することになります

そのためプロセスのものが止まっている場合は停止されません。

強制停止」はプロセスをkillします。スクリプト名とプロセスIDプロセス検索して子プロセスも含めてkillします。

グラフ

おまけとして、投稿日とブクマ数、投稿日と3ブクマ以上の投稿件数投稿時間(hour)ごとの1ブクマ以上の投稿件数グラフが見られます

ブクマが付いた瞬間ではなく投稿日時なので、いつの時期に投稿した、何時に投稿した増田が活きが良いのかを見られる程度です。

集計データ別に持っていないので増田を削除するとグラフ使用されるデータも消えます

その他

私はこれで多いときには4000件程度あった増田を3000件程度に減らしました。

これを開発する前からも増え続ける増田の削除に日々勤しんでいたので総数はもっと多いはず。

まだまだ削除したいです。

たまに

Message: unknown error: net::ERR_CONNECTION_CLOSED

というSeleniumエラーが出て処理が実行されないことがあります。再度実行してください。

今後

フロントエンドレガシーなのでMasuda Deleterの開発に飽きていなければもう少しモダンリプレースしようと思っています

使用していないDjango REST frameworkがrequirements.txtに入っているのはその名残です。

anond:20230113161346

どっち派とか関係なく技術者立場から言うとrobots.txt内にサイトに対するスクレイピングルール定義できるんだからこんなこといってたら笑われるぞ

anond:20230113161951

Colaboは自分自身公告Webでやるって言ってるんだよなぁ

自分で作ったルールなので守らないわけにはいかない

暇空茜応援団はそれをわかっていてWebスクレイピングしてる

この点に関してはどうにもならないColaboがはじめたことなので

暇空茜応援団Webスクレイピングを導入していて更新監視している

Webスクレイピングツール一般であまり認知されていないが、Webを中心としたIT界隈では常識的ツールであり、端的に言えば登録したWebページを巡回更新監視するツールである

似たようなものRSSAtomフィードリーダーなどが存在するものの、Webスクレイピングツール業界共通認識としては、監視するWebページにRSSAtomフィードが無くともWebページ情報差異過去現在計算し、変更の閾値を超えたWebページの更新を通知し、そして保存できるというものである

変更の閾値という処理が挟まれ理由として、広告などを代表例にWebページ閲覧時の更新の度に変化する可能性があるため1%でも更新が通知されると更新の通知が膨大となるため些細な変更を無視するためだ。

もしWebスクレイピングツール更新されているページにPDFJPEGなどのバイナリファイル存在したとしても、PDFJPEGなどのバイナリファイル存在したとき多くの場合Diffと呼ばれる差分検出ツールを用いてバイナリファイル単位で変更があったかどうかを監視している。

Colaboなど現代の多くの団体Web活用して運営されているため情報Webを介して告知するので、暇空茜応援団はそれを逆手に取り情報更新監視している。

暇空茜応援団が即座にWeb情報更新へ反応するのはこういった背景があるのだ。

逆に言えばWebページの更新を秒間で行うなど更新通知を飽和させるカウンターなどを想定できるが、閾値を変えればその様なカウンター手法無視できるため意味がないし、特定キーワードだけ抽出することも可能なので無駄リソースとなるため無駄である忠告しておきたい。

2022-12-13

20万~50万のパソコンでできる事って微妙じゃないか

ゲームだけするってのなら高い買い物。

動画編集だと、エンコードは速くなるが、そんなのは放置するだけなので、あまりって感じ。

編集時にカクつかない性能さえあれば、動画素材や編集素材、特殊効果の方にお金を振った方が視聴数が上がる。

音楽だとトラック数増やせるかはSSD転送速度くらいしかなく、ゲーミングPCとはちょっと違ってる。


自動化といっても、個人だとあまりできることがない。

スクレイピング禁止されてなけりゃ、もっと色々できるだろうが。


コア数が増えたとしても、コアを全部フルで使うソフト個人用途だと少ない。


AIが出てきてるが、こちらは性能が全然足りてない。

2022-12-05

最近よく見るスパムサイト

マイナー商品Google検索してみる(例えば古いおもちゃ)

すると、上の方にはアマゾン商品ページがあって(売り切れ)、その下辺りにメルカリ検索結果が出てくる

さらに下の方に、見たことのないドメインながら、その商品を売っていそうなECサイトっぽいサイト複数引っかかる(説明文に価格が書いてある)

試しにクリックすると、説明文のページは出てこず、詐欺っぽい広告サイトリダイレクトされる

おそらくまともなECサイトフリマサイトから商品説明文をスクレイピングして、おとりページを作成していると思われる

これなんとかならんの?

2022-11-21

anond:20221121105039

難しいこと考えなくてええねん、思ったこと言えば

ワイは仕事柄、ツイートスクレイピングするねんけど、妙に客観ぶってツイートより思ったまんまをかくツイートのほうが、総体としてはデータとしておもろいと思うで

レビューもそうやろ

2022-10-05

プログラム組める”って言っていい基準

どのレベルまで出来れば普通にプログラム組める”って言っていいの?

hello worldが書ける

2000年対応コーディング単体テストができる

Excelマクロword差し込み印刷みたいのを0から作れる

賃貸情報スクレイピング収集し、好きな条件で検索できるシステムを0から構築できる

⑤500件以上のホテルの予約サイトを0から構築運用できる

2022-09-11

anond:20220911205221

おかしいかどうかわからんけど、

俺の年収より稼いでる人は俺ができることなら全部できて当然

じゃないと世の中フェアじゃないので、

俺より稼いでる人には

データベース設計とかwebサーバー構築、業務会計システムとかワークフローシステムフルスクラッチ開発とかスクレイピングとかSQLチューニングとか全部全部全部独力で当たり前の平気な顔してやってほしいなー

2022-09-01

MidjourneyとStable Diffusion比べて、単純にスクレイピングして画像学習させるだけじゃ、クオリティ出ないんだなって

Stable Diffusionは23億枚の画像学習したっていうのだけど、使っているとクオリティが低い画像が大量に生成される。

自分が書いたプロンプトが悪くて、内部のベクトルが散らばってしまっている可能性はあるのだけど、使用感はStyleGANに近い。

大量に画像学習しているはずだけど、2枚の画像を合成してる感じ。

seedを固定してtext2imgすると元絵っぽいのがなんとなくわかるのだけど、構図が元絵に引っ張られる。

2枚の元画像にない場合は、描こうとするのだけど崩れる。


Midjourneyの方だとわりと適当に入れても「凄い」ってなるし、

言葉で言い表しにくいが、概念学習している感じ。

〇〇をモチーフにと2つ組み合わせれると意外性も含めて画像を出力してくれる。


データセットの枚数を聞くと23億って多いなって思うけど、

スクレイピングしてくるだけじゃクオリティでないなって。

(もちろんデータセット側で低レベルなのはaestheticで切っているのだろうけど)


適当なこというと、Midjourneyの方がオープンになってローカルで動かせるようになって欲しかったな。

2022-08-31

AIイラスト生成で吹き上がる人に対して醒めた目で見ている

イラストレーター仕事がなくなる!って吹き上がっている人が多くてなんだかなあというところがある

そもそも、例えばAIイラスト完璧に新しく自分の絵柄を元に生成できたとして、それに対して上がってきたものの「善し悪し」ってAIが判定するの?

クライアントジャッジしてもいいけど、クライアントいか自分自身要望すら把握していないかっていうの、一番わかっているのイラストレーター自身だろ。

「いやクライアントあほから、それっぽい絵が上がってきたらそれでOKってなるよ」みたいな話をするイラストレーターがいたとしたら、じゃあアホに対してしか仕事できねえ自分を恨んでくれ。逆にそのレベルクライアントはじけるの、買いたたきとかするやつらばっかだからプラスになるんじゃねえか?

イラストレーター仕事が単純に既存の絵にならってそれっぽい絵柄を描くだけの仕事なら確かにAI仕事を奪われるんだけど、イラストレーター仕事の中には要件定義要望の汲み取り、文脈やそれに倣った構図、配置というところの指定が入ってくる。これらはAIにとっては現状ひどく困難で、AIというのは言われたこしかできないのであなた思考をくみ取ることは現状残念ながらできないし、それっぽい文言を生成するのすら、素人には難しいだろう

また、AIが生成してきた絵があったとして、それが本当に案件合致するか?というジャッジ素人には無理である

それを細かく修正することも、どこが悪くてどこがよいのか、という判定を下す人間が適切に対処しないと無理なのだAIは言われたこしかいまだできないのである

から、「審美眼を持ち、顧客要件を読み取り、自分の画風としてイラストを描けてあげられる」というイラストレーター然とした人間は、まだまだ生き残ると思うよ

まあ、デジタル絵というもの学習されやすくなるが、今後もリアルな版画や絵画価値は減衰はしないだろうっていうのもあるしね(むしろ価値が上がりそう)

本当にうまいちゃん仕事ができる人は生き残り続けるだろう

というわけで、ここまでは理屈の話でイラストレーター仕事はなくならないって話なんだけど、今TwitterにてこういったAI禁止を唱えている人々は単純に「自分の絵を勝手に使って絵を作られることの拒否感」というお気持ちレベルの話で吹き上がっている。その人たちに言い換えると「モラル」の話である

これに関しては本当にくそくだらないと思うんだけど、お前たちのその絵柄はpixivTwitterで上がってきている有象無象の絵から一切影響を受けなかったのか?

Twitterという公共の場で流れてくる二次創作を一切享受しなかったの?それと機械の間にどれくらいの差があるの?人間が温かみをもって集めているのと機械文字通り機械的に集めていることの差は何?

それを知らない第三者転用されるのが嫌!っていう人はインターネット作品を上げない方がいいという話になるしかない。インターネットとは、上げた瞬間にどこか知らない場所再利用されているしスクレイピングされているし、集めている当事者ですら、集めているということを検知しないまま集めていることもままある

それをすべて禁止するのは無理である

また、対策として、透かしを入れたところで最近はその透かしを取るAI技術それ自体が発達していっているので早晩意味がなくなるだろう

悪意を持ったやつを想定してサービス作れよ!っていうけど、そもそもより悪意をもってサービスを作るやつの方がインターネットは強いので意味がなくなるし、そちらに流れるだけである

それに「自分の絵柄が模倣される!」と言っている人間の中の何人が「まったくオリジナルな絵柄」を獲得しているのだろうか。

少なくともアニメ調で描いている時点でそれオリジナルではなくないか自分の絵柄が既存の絵とどう違うのかって説明できるやつ何人いるんだ?

なにより一番くだらねえと思おうのは上記の主張をしているやつらのなかで二次創作メインでやってるやつらが多くいることが、本当に、本当に、くだらない

機械学習が絵柄を取ることを心配する前にまず他人作品に乗っかって創作するのやめろよって言いたい

こういった人間心理は「絵が描ける」って単なる技能しかないものアイデンティティとした末路だと思うので、別のところにアイデンティティ確保したら?と思ってしまう。絵が描ける+シチュエーションのような形で

どのみち、この人たちが求めている法整備したら二次創作死ぬだろうし、法律要件組むだけでも結構いろんなところに気をつけないと、AI禁止するよりもっと大きなところに影響が波及しかねないので、おそらく今後10年くらいは法律整備できねえだろうなあという気持ちはある。法というのはそういうものである

まあ、このお気持ち自体は新しい技術が出てきた時の古い職人たちのアレルギー反応のようなものなので、粛々と慣れるまで時間をおくしかないのだろうなあというのを様々な記事コメントを見て感じる次第だった

2022-08-11

プログラミング言語の紹介

初心者Pythonから始めましょう。やりたいことはPythonでだいたいできます世界で一番人気の言語資産豊富にあります低学歴素人がなんと言おうとPythonです。Pythonを覚えるのです。簡単なので1日あれば覚えられるでしょう。

次にSQL勉強しましょう。SQLは3日くらいあれば中級者になれるでしょう。現代データベースはだいたいSQLかそれのパチモンが備わっていますSQLができると仕事の幅が広がるでしょう。

そしてJavaScript勉強しておきましょう。Webブラウザは全部JavaScriptが動きますJavaScript勉強することでWebページで遊ぶことができるようになりますスクレイピングなどの理解も深まりますJavaScriptは便利です。

さて、ここまで来たら仕事必要プログラミングは身についているので次に進む必要は無いです。コンピュータ気持ち理解するためにはC言語をかじってみるのもいいでしょう。大企業で働きたいならJava必須です。型に興味を持ったらOCamlHaskellに手を出してみても良いでしょう。システムプログラミングをしたいならGoやRustも良いです。Goバカみたいに簡単ですがRustは初心者向きではないです。

2022-08-05

あなたが「スクレイピング」という言葉を使うたび

どこかの誰かの頭の中で、スク水女の子が一人、強姦されるのです

Webスクレイピングサービスという存在

適切な目的で適切な手段自分スクレイピングするのは問題ないというのは理解しているが、業としてスクレイピングサービスとして提供するのはちょっとひっかかる

法的に全く問題ないんだろうか?

Webスクレイピングサービスという存在

適切な目的で適切な手段自分スクレイピングするのは問題ないというのは理解しているが、業としてスクレイピングサービスとして提供するのはちょっとひっかかる

法的に全く問題ないんだろうか?

Webスクレイピングサービスという存在

適切な目的で適切な手段自分スクレイピングするのは問題ないというのは理解しているが、業としてスクレイピングサービスとして提供するのはちょっとひっかかる

法的に全く問題ないんだろうか?

2022-08-02

anond:20220802100107

結論から言います

作れません

開発には公式が発行するAPI必要だけど新規受付は5年前に停止しました

スクレイピングなら作れますが、規約上では一応禁止です

2022-07-27

anond:20220727042958

こういうのスクレイピング練習としてやってみたい

とりあえず自分ブクマ一覧が

https://b.hatena.ne.jp/自分ID/bookmark?page=1

から、そこから href属性

<a href="/entry/******/comment/自分ID"

リンクを取得し、その先で

<a href="" class="comment-hatena-star-username"> ID </a>

ID部分を取得して、数え上げたら良さそう

2022-06-16

ツイッター名前に@8wだの@16wだの付けてやがる女をスクレイピングしてヲチするのが最近趣味

である日突然それが消えたアカウントに「もしかして流産しちゃったんですか!?残念です🥺」ってDM送るとほぼ確定でブロックされる

楽しい

ログイン ユーザー登録
ようこそ ゲスト さん