「スクレイピング」を含む日記

はてなキーワード: スクレイピングとは

2024-06-01

■オキニの風俗嬢のために自己研磨

３７歳のおっさんがガチ恋してしまいました。

毎日筋トレ、週３で10kmランニングしています。

夜はプロテインとキウイのみ。

人気で予約がすぐ埋まるため、通知用のAndroidアプリを開発。

自宅PCでシティヘブンのサイトを１分毎にスクレイピング。

出勤予定に変化があれば、Firebase Cloud Messageに送信。

Androidアプリ側にプッシュ通知されてバイブレーションをし続けます。

これで仕事中でもポケットの中で振動したらトイレに駆け込み、光の速さで予約できます。

Permalink | 記事への反応(0) | 17:25

2024-05-28

■anond:20240528234217

めちゃくちゃ変なレスしてしまった

増田を読み込ませるのは反応させるためじゃんね

APIorスクレイピング(許されるかはまだ調べてない)で、発言だけ切り取って、

自前のサーバに投げて、削除逃亡増田っぽい(要は偏屈な面がでたタイミング)で反応するかしないかの判断をしてもらって

あとはツリー追いかけて投げる

たどる部分は自前でさくっと書けばいいんじゃない？ってくらい

問題は絶対明日には飽きているということ

Permalink | 記事への反応(0) | 23:57

2024-05-09

■スクレイピーとスクレイピングの違い

ふふ

Permalink | 記事への反応(0) | 15:32

■anond:20240509150043

スクレイピング禁止って本質的に不可能よね

Permalink | 記事への反応(0) | 15:24

2024-05-08

■anond:20240508222840

定期的にスクレイピングしてるからわかるんでは？

Permalink | 記事への反応(0) | 22:34

2024-04-23

■本日の趣味 プログラミング

多分、本日で8回目くらい。毎日勉強してる人ってすごいなぁ

今回はPythonで増田をスクレイピングしてみる。

Pythonは全くわからないのですべてを生成AIに丸投げすることにした。頼むぜ、Claude3

Claude3に要求を適当に伝える

はてな匿名ダイアリーをスクレイピングしてくれ
指定したURLのページの中の、指定したタグの中にあるURLを持ってこい
持ってきたURLをファイルに出力しろ。場所はあそこで、ファイル名はこうしろ
しばらく待ってから持ってきたURLに対して同じことを繰り返せ。出力は追記な。
繰り返す回数を上限を適当に設定しろ

んで、出力されたコードをJupyter Notebook上にコピペして実行。

すげぇ・・・　動いた。テキストファイルに増田の各エントリのURLがモリモリと列挙されていく。

本当にURL しか持ってきてないから、何が面白いのかと聞かれても答えに困る。

次回以降、トラバの個数とか文字数とかをカウントする処理を加えてみたい

Permalink | 記事への反応(0) | 21:52

2024-04-14

■本日の趣味 プログラミング

phpは飽きたので、他でやることを探しみる。

そうだ。増田をスクレイピングしよう。怒られない範囲で。

でもどこから手を付けてよいのかさっぱりわからん。pythonが向いてるのか？そんな気がする。

入門記事を参考に進めてみる。

［Python入門］Hello Python：一番簡単なプログラムを作ってみよう
https://atmarkit.itmedia.co.jp/ait/articles/1904/05/news021.html

全く触ったことがないので、Hello Wolrdまでが遠い。

と、思ったらなぜかパソコンにPythonの実行環境が整っていた。前に挫折した残骸だ。

とりあえずJupyter Notebook上でHello Worldが動いたので、今日は満足である。

Permalink | 記事への反応(0) | 16:31

2024-03-31

■anond:20240331063306

俺も

HTMLとCSS しかできなかったのに

JavaScriptをやれと言われて

PHPとMySQLとApacheをやれと言われて

データベース関連さっぱりなのに無理矢理やって

俺の中途半端な知識で出来上がったアプリをみんなが使い始めて困惑して日々修正だの対応して

Windows サーバーで設定管理しろと言われて

アクティブディレクトリとかグループポリシーとかやるはめになり

4月からはPythonでスクレイピングをやれと言われてる

なんで？

Photoshopでパノラマ画像作れとか

Illustratorで綺麗なデザインしてポスター作れとか

autoCADで内線表作れとか

パワーディレクターで動画作れとか

なんでなんでなんで？

お前はDX推進委員なとか言われてなんで？って

Permalink | 記事への反応(0) | 06:53

2024-03-24

■anond:20240324132756

クローリングやスクレイピングをどう理解してるんだろうな、それ

Permalink | 記事への反応(0) | 14:53

2024-03-06

■AI 学習 合法で押し通してたら転売屋みたいな扱いになるのでは？

AI 学習は著作権法30条の4で合法なんだが？の言い分は1000回くらい見た。まあ実際そうなんだけどさ、合法なら世間に許容されるとは限らないよね。

転売行為がそう。買ったものをそれ以上の値段で売る、これは合法であり咎められる理由はない（場合によっては違法です）。のだが、社会的には迷惑行為扱いであり転売屋はボロカスに罵られるのが常である。様々な理由から違法でなくとも、他者に害であると認知されればそうなるのだ。

昨今のAI 技術と転売には共通項がある。「誰でも簡単に扱えるようになった」ことだ。スマホ一つでメルカリから転売できることであらゆる商品に転売屋がむらがるように、生成AIで簡単に作れることでフェイク画像や声の模倣、絵柄の模倣なんかがどんどこ増えている。AI 学習の害が実例として広まりつつある。

少数なら見過ごせる行為も、閾値を超えれば対策をとらざるを得ない。メーカーや店舗は転売対策にコストを割かれ、真っ当な購入者は不便を強いられることもある。

さすがにAI 学習と転売行為がまったく同じだとは思わないよ、例え話。とはいえ重要なのは、合法であってもやりすぎたら世間から忌避されるよ、ということ。

忌避しても合法で押し通されるなら、利用される側は勝手に対策をはかることになる。現に絵描き間ではスクレイピング対策として画像に微細なノイズ処理をかける行為が広まりつつある。いずれネットにあがるデータはそうした処理が自動で施されるようになるかもしれない。そうなったら誰も得しないんじゃない？

Permalink | 記事への反応(1) | 10:12

2024-02-26

■データを集めて傾向から 解決策を導き出す行為が嫌い

物事が計画通り、傾向通りに進んでるとイライラする。

予測不能なカオスの中からこそ新しいものは産まれると思っているからだ。

あと、誰かの計画の一部に自分が組み込まれているのが許せない。

統計学も嫌いだし、ビッグデータも嫌い。

昨今、スクレイピングの是非が問われているが、それもやはり嫌だね。

なんなら、子供の誕生日に喜ぶやろうなあ、と思って買ったものが計算通り喜ばれるとものすごく不快。

俺が思いつきもしなかった遊び方で楽しんでいるならいい。

喜ぶ理由が予想外ても許す。

だが俺ごときに予想される行動を取るのなら内心見捨てる。

電車が時刻通り運行する行為も許せないし、医療や法律が規定通りに遂行されるのも不愉快だ。

地裁の意味わかんねえ判決とかは好き。

だから俺はウィキペディアに時に嘘を書くし、ときに食べログやGoogleマップの評価に嘘を混ぜるし、

スタバといいつつ牛丼の写真をたまにアップロードする。

恩がある人間には時に冷たく、時に暖かく対応する。

意味なんてないが、小さな抵抗だ。

万民、あらゆる自然現象は俺や人のデータを超えてきてほしい。

Permalink | 記事への反応(3) | 16:09

2024-02-05

■anond:20240205161839

今4つ見つけてるダミーサイトのうち2つで「様専用」はあるが他2つではない

サイトによってスクレイピング対象を変えているらしい

サイトによってレビュー機能もあったりなかったりする

そしてレビュー機能がある方では同日にたくさんレビュー投稿がされていて2月0日なんて日付もある

レビュー 引用

フルネーム: タオサカ　タカフミコメント時間: 2024-02-5

買おうかと迷っていましたが、思い切って購入。説明書なども丁寧で発送も早かったです。これから、活躍してもらいます。

フルネーム: ヒラノコメント時間: 2024-02-4

プレゼント用に購入しましたが、とても発送が早く、商品がとっても可愛いです(^｡^)！！！お店で買うより安いし、もっと早く知っていれば自分の子供のはこれに統一したのにーーって感じでした！

フルネーム: リケンコメント時間: 2024-02-4

を購入しましたが、画像よりも白いところがクリーム色っぽく可愛かったです

フルネーム: コジマコメント時間: 2024-02-0

見た目は思ったとおり可愛くて、機能も充実しているので大満足です。

風が優しくて気持ちいし、タイマーが長い時間設定できるのもありがたです。

フルネーム: たかたコメント時間: 2024-02-5

買うかずっと迷ってて買って選んで正解でした！

フルネーム: 伸一郎コメント時間: 2024-02-3

息子も大変満足していました。

また下の子にも購入したいと思います。

フルネーム: イトウコメント時間: 2024-02-0

可愛いしすぐに届いたのが嬉しかったです。キャンプで使うのが楽しみです。

フルネーム: タカダコメント時間: 2024-02-3

安くてとても暖かいです。

商品が届いてからすぐにまたリピしました。

フルネーム: 有希子コメント時間: 2024-02-0

想像していたとおりでした。気に入りました

ちなみにこれはMBPについてるレビューだ

適当にもほどがある

レビュー機能があるほうがむしろマイナスになっている

Permalink | 記事への反応(0) | 16:39

■anond:20240205154918

◯◯様専用とかの専用品までスクレイピングされて出品されてるので詐欺ダミーサイト確定

よほど警戒してないと事前に発見できない

Permalink | 記事への反応(1) | 16:18

■詐欺られた（注意喚起の拡散希望）

訪れたサイトが扱っていた商材はかなりマニアックなもので、その商品以外の商品もたくさんあってページもひとつひとつしっかりしていて特集バナーなども作ってあり自然な作り

しかし実態はヤフオクのスクレイピングで大量に商品が登録されているだけの中古ショップ風のただのダミーのフィッシングサイトだった

自分が買おうとした物があまりにマニアックだったため、そんなマニアックでスーパーニッチなものをまさか詐欺の商材としようとする人間がいるとは思わず、全く警戒してなかったため、サイトの細部までよく調査をせず普通に振り込んでしまった

しかし振り込んだあとは待てど暮せど発送されず連絡も取れない

主犯か受け子かしらないが口座名義はおそらくタイかベトナム風の名前（←これについてもこの時点でん？と思ったがスルーしてしまった心境は後述の追記やトラバ参照。この時点では全ての警戒センサーがオフになっていたのでよく考えたらタイ・ベトナムの名前だよなと思ったのも後からである）

その買おうとした物に設定されていた商品名でぐぐったらこういった部類のダミーサイトが複数存在するようだ

後で気付いたが特集バナーはクリックすれば中身はなくトップページに行くだけ

しかも上手いのがヤフオクより安い割引の値段で売っていることだ

つまりヤフオクで見かけて、さらに掘り出し物を狙ってたどり着いた人はお得感でこっちのダミーサイトで購入してしまう可能性がある

（自分の場合は検索でたどり着いたのでそもそもヤフオクに大本があるとは知らなかったし、割引関係なく探していたものが存在するという感動で買った）

大量出品でロングテールのSEO 対策はばっちり

探している商品がマニアックであればあるほど競合が少ないため検索で普通に上位にヒットしてくるのでおそらく他にも被害者が多数いると思われる

この手口はあまり周知されておらず、少なくとも自分は知らなかったので、まさかこんなマニアックな商品を詐欺の商材にするとは思わず警戒心も下がりがち

反社の資金源にならぬよう、被害防止の注意喚起のためにこの増田をぜひ拡散してくれ

もはやGoogleがフィッシングサイトへのリーチサイトみたいになってて、これは本当にGoogleの責任でもあると思う

ダミーサイトはどれも共通の特徴があるからアルゴリズムで弾いてくれよ

【追記】

どういう商品やサイトかはトラバにヒントや追跡調査を書いてるので探してみてくれ→20240205154918

ヤフオクからの転載と知らないと一見普通のストアのようにしっかり作ってあるように見える

ちなみにクレカ決済ではなくメールした後に振り込み先を送られてくるから注文時点でお金をとられることはない

（振込しないなら捨てアドや適当な個人情報を用いて相手の使用している銀行口座までの調査ができる）

【追記】

有能なサイトをトラバで教えてもらったのでどういうサイトかサンプルを知りたい人はこちらを見るのがよい

すべて特徴が共通しているため、一度手口を知った後であれば容易に判別できる

特に会社情報のページがゴミみたいなメールアドレス、適当な電話番号等、特徴的で共通項が多い

https://www.neo-blood.co.jp/

【追記】

どうしても自分にケチをつけたい人間がいるみたいだが、「マニアックすぎる商品」という所が味噌で

マニアックなお店で神保町にいるような高齢店主、PCは独学でいじれるが最先端ではない人を想像したらドメインやデザイン、UI諸々が洗練されてないのは逆に納得感が出てきてしまった

この「スーパーニッチなマニアックすぎる商品である」という一点が、エアポケットに陥り自分のあらゆる警戒センサーをスルーさせた

リテラシーマウンティングはいいから、論旨を汲み取って人の陥った心境に想像をめぐらせてみよう

【追記】

アクティブな増田は口座凍結に協力を→anond:20240206175039

＞kazuhix

転売屋ではないしただの消費者。商材＝転売とかいう謎の角度からの難癖をやめろ　

サイト側からの主格でそう書いただけ

よく何の確度もないたったひとつの単語から勝手にこっちの背景を自己完結できるな

たまにいるんだよなこういう予想だにしない確度からの非生産的な反応を示すやつ

こちらが追跡調査してまで二次被害を止めようとしてるのに、余計な難癖つけてこちらの情報を軽んじようと目論むのはお前が詐欺グループに与する一味だからか？ってお前の真似したろか

＞poppo-george

高額商品ではなく数千円

自分の被害は数千円でも高額をだまし取られてる人もいるだろうしこいつらを許すわけにはいかない

だからこそ話の芯がわかってない勝手に人物像を設定して勝ち誇りたいだけの人間はノイズであり、プライドの問題ではなく、どうせバカが騙されただけでしょと軽んじられれば拡散という目的達成の邪魔なので否定する

この記事の人物像など本来どうでもいいのにそこを見下しやすい人物に設定して本質の情報を軽んじようとする人間が多すぎ

Permalink | 記事への反応(13) | 15:38

2024-02-04

■anond:20240204015205

1. バックアップのスケジューリング

2. システムメンテナンス

3. ログのローテーション

4. ウェブサイトのモニタリング

5. データの同期

6. メールの送信

7. ソフトウェアの更新

8. セキュリティスキャン

9. データベースの最適化

10. スクリプトの実行

11. ウェブスクレイピング

12. レポート生成

13. データのエクスポートとインポート

14. システムのモニタリング

15. ソーシャルメディアの更新

16. ストックのチェック

17. ウェブサイトのバックアップ

18. RSSフィードの更新

19. ビルドとデプロイ

21. データのクリーニング

22. アラートの送信

23. ニュースレターの送信

24. インベントリのチェック

25. セキュリティのチェック

26. データの分析

27. メールのチェック

28. タスクのリマインダー

29. ビジネスプロセスの自動化

30. APIのチェック

Permalink | 記事への反応(1) | 02:01

2024-01-26

■

https://t.co/EBcPvZU7I1
ん？読売のオンラインの規約変更が凄いな。最近の新聞協会のトーン的に生成AIへの学習禁止は心情は察するが、データマイニング、クローリング、スクレイピングあたりも営利性とか関係なく全面禁止。ようするに検索やSNSも含めてネットから消えますという宣言かな？ pic.twitter.com/sePkMDRRbW— Shuji Sado (佐渡秀治) コロナで背骨を骨折ニキ (@shujisado) January 25, 2024

確かに、これじゃ検索結果から消えることになりそうだが

Yahooとかとは個別にライセンス契約するってことなんだろうか

Permalink | 記事への反応(0) | 15:55

2024-01-22

■anond:20240122205528

でも警察は図書館のホムペをスクレイピングする市民を逮捕したことがあるけどな

Permalink | 記事への反応(0) | 21:00

2024-01-10

■anond:20240110220807

簡単にパスしないでくれ

文句だけ言ってフリーライドするのは今日でやめにするのだ

①スクレイピングツールoctpusで「https://b.hatena.ne.jp/entrylist?url=https%3A%2F%2Fanond.hatelabo.jp%2F2022&sort=count」

でスクレイピング

②①をgoogle スプレッドシートに貼り付ける

③ブクマ数上位から下記増田を削除して、50件とか100件ほど増田文学ぽいのを厳選する

　記事が消えているもの

　批判ばっか

　アンケート

　お役立ち情報が強いもの

　　例）投資、IT，家事やら

　短文質問問いかけ系

　政治色が強いもの

④これ排除したら、タグが「増田文学」って付いてるのを拾う

⑤もう一度見直して、明らかに文学じゃねーな、ってのを削除

　評論とか、個人の体験記的なのが残っているはず

⑥見出しでブクマ数、カテゴリー、備考を載せて整形チェック

　タイトルが表示されないものは備考に適当に記事タイトルを付けてやる

　※この作業はなくてもいいかも

⑦表になるように増田に貼り付けて確認

Permalink | 記事への反応(0) | 23:37

■画像生成AIの扱い今後どうなっていくかを予想する

現時点で、画像生成AIは「無断学習」を根拠に一部のクリエイターたちから蛇蝎のごとく嫌われてて企業 PRでAIを使うだけで苦情が殺到するレベルになってきてる

ただそれは倫理的な検討を重ねてというより「自分の絵が知らない間に学習されてるのはなんかキモチワルイ」という感覚的な嫌悪感によるところがかなり大きい

Googleはもともとサイトのデータを勝手にスクレイピングしまくって検索サイトとか翻訳サービスとか作ってきたのだが、そういうのには文句がいかないあたり、著作物を学習することそのものは焦点じゃない

チャット GPTみたいなテキスト生成には甘かったりするし、人によっちゃ漫画の改変コラという直球の著作権侵害をかましながら生成AIに反対してたりするんだからね

よって、現時点は画像生成AIに反対しているクリエイターたちも「なんか大丈夫っぽい」と判断しだしたらゆるゆるその機能を使い始めるだろう

本質的には同じ問題を抱えていても感情的に受け入れられるかどうかのほうが重要だから

じゃあどのラインからクリエイターは画像生成を受け入れだすか？

これは現在のテック企業の動きを見ているとある程度予想できる

まず、画像を含む生成AIの開発がここから止まることはほぼありえないと断言できる

マイクロソフトもGoogleもAIに巨額の資金をベットしてしまったしもう引き返せない

多少強引にゴリゴリ進めながら落とし所を見つけていく腹積もり

当然反発もあるし、完全無視はできない

OpenAIやらMidjourneyやらは大量の訴訟を相手にしてる

大まかに言えば全部「うちのデータを勝手に食って売り物にしてんじゃねえよ」という内容だ

落とし所はおそらく「学習元に利益のいくらかを分配します」「違法なデータは言ってくれたら削除します」「生成AIの出力から学習したデータで学習をするのでクリーンです」あたり

そうなると、最初に和平条約を結んだところは生成AIの進化を後押しする側に回るから風向きが変わっていくはず

並行して、AIが仕事で手放せないくらい便利になってさらに風向きが変わる

GoogleやAmazonがいかにEvilな行為をしているかは調べればすぐわかる

でも使うのをやめられないのは便利だから

逆にいうと、今画像 AIが叩かれてるのは本職の絵師にとって大して便利じゃないからっていうのがでかい

絵描きにとって便利な機能が出てくれば評価はかなり変わってくる

たぶん最初に使われるは色塗りとか、壁や床のテクスチャ生成あたりからだろう

AIによる画風の再現とかは今後も「魂を傷つけられた」「自分の作品も勝手に使われてそうでキモチワルイ」と感じる人が多い

だから単純作業っぽい工程がAIで代替できる仕組みから浸透し始める

それだって結局はどっかから勝手に引っ張ってきたデータをミキサーで混ぜて作ったデータだという意味では同じなんだけど、あくまでこれは感情の問題だからね

大量に絵を作らなきゃいけないソシャゲ絵師とか同人作家がおずおず使い出したらあとは早くて、構図からポーズから、かなりの部分をAI任せにしてもなんも言われなくなる

その頃には「（一応）（自称）クリーンなデータセット」みたいなものの定番も存在するはず

この段階に来ると絵描きの倫理観は「補助として使う分にはどう使ってもOK」「特定の絵柄の再現をやるのはNG」って線引きになってると思う

そんでさらに時間が経つと、外部思考装置としてのAI生成が当たり前になって、ただの思考と区別されなくなる

（現代人がスマホでできることも含めて人間の能力だと思っているのと同じ）

生成AIに学習されたとき「魂の一部を盗まれた」と思う感覚がだんだん時代遅れになって、著作権の観念ごとゆっくり曖昧になる

集合的無意識みたいなものが現実化するイメージ

ストレートに実現するかはともかく、ビッグテックがやろうとしてるのは倫理観の書き換えそのものだと思う

どうなっちゃうんだろうね今後

Permalink | 記事への反応(2) | 02:25

2023-12-29

■anond:20231229020546

スクレイピングされたサイトの投稿者もそりゃ怒るだろうね

Permalink | 記事への反応(0) | 03:04

2023-11-10

■Pythonの基礎はだいたい理解したんだけど

次何すればいい？やったのはcodeprepってやつとそこら辺に転がってた問題集。

このままやりたいこと（web アプリとウェブスクレイピング）の本とか買っていいものなのかな。

Permalink | 記事への反応(4) | 14:28

2023-09-28

■anond:20230928154318

「スクレイピング・ハッキング・ラボ Pythonで自動化する未来型生活」　著：齊藤貴義

やで

Permalink | 記事への反応(1) | 15:47

2023-09-17

■anond:20230917112222

そんなJr.ができるようなスクレイピングで2万稼げるならおじさんやってあげるのに

Permalink | 記事への反応(1) | 11:24

2023-09-15

■anond:20230915172712

炎上する度にスクレイピングかけるんだが全然居ねえんだよ

Permalink | 記事への反応(1) | 17:29

2023-09-07

■[勉強日記] スクレイピングのマニュアルみたいなのを作ってgithubに載せたい

休業中のプロジェクトとしてはぴったりだと思うので、ちょっとやってみようかな。

スクレイピングについては、もう何年も経験があるので、いい加減知見を体系化したいと思っています。

オライリーにもpythonでスクレイピングする書籍がありますが、あれは初心者向け過ぎなので、もっと内容的に豊富にしたいんです。

特に法律面での補足があると読者が誤ってDDoSすることも減ると思います。

Permalink | 記事への反応(0) | 10:29

ようこそゲストさん