「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2024-04-23

本日趣味プログラミング

多分、本日で8回目くらい。毎日勉強してる人ってすごいなぁ

今回はPython増田スクレイピングしてみる。

Pythonは全くわからないのですべてを生成AIに丸投げすることにした。頼むぜ、Claude3

Claude3に要求適当に伝える

んで、出力されたコードをJupyter Notebook上にコピペして実行。

すげぇ・・・ 動いた。テキストファイル増田の各エントリURLがモリモリと列挙されていく。

本当にURLしか持ってきてないから、何が面白いのかと聞かれても答えに困る。

次回以降、トラバの個数とか文字数とかをカウントする処理を加えてみたい

2024-04-14

本日趣味プログラミング

phpは飽きたので、他でやることを探しみる。

そうだ。増田スクレイピングしよう。怒られない範囲で。

でもどこから手を付けてよいのかさっぱりわからんpythonが向いてるのか?そんな気がする。

入門記事を参考に進めてみる。

Python入門]Hello Python:一番簡単プログラムを作ってみよう

https://atmarkit.itmedia.co.jp/ait/articles/1904/05/news021.html

全く触ったことがないので、Hello Wolrdまでが遠い。

と、思ったらなぜかパソコンPythonの実行環境が整っていた。前に挫折した残骸だ。

とりあえずJupyter Notebook上でHello Worldが動いたので、今日は満足である

2024-03-31

anond:20240331063306

俺も

HTMLCSSしかできなかったのに

JavaScriptをやれと言われて

PHPMySQLApacheをやれと言われて

データベース関連さっぱりなのに無理矢理やって

俺の中途半端知識で出来上がったアプリをみんなが使い始めて困惑して日々修正だの対応して

Windowsサーバーで設定管理しろと言われて

アクティブディレクトリとかグループポリシーとかやるはめになり

4月からPythonスクレイピングをやれと言われてる

なんで?

Photoshopパノラマ画像作れとか

Illustratorで綺麗なデザインしてポスター作れとか

autoCADで内線表作れとか

パワーディレクター動画作れとか

なんでなんでなんで?

お前はDX推進委員なとか言われてなんで?って

2024-03-06

AI学習合法で押し通してたら転売屋みたいな扱いになるのでは?

AI学習著作権法30条の4で合法なんだが? の言い分は1000回くらい見た。まあ実際そうなんだけどさ、合法なら世間に許容されるとは限らないよね。

転売行為がそう。買ったものをそれ以上の値段で売る、これは合法であり咎められる理由はない(場合によっては違法です)。のだが、社会的には迷惑行為いであ転売屋はボロカスに罵られるのが常である。様々な理由から違法でなくとも、他者に害である認知されればそうなるのだ。

昨今のAI技術転売には共通項がある。「誰でも簡単に扱えるようになった」ことだ。スマホ一つでメルカリから転売できることであらゆる商品転売屋がむらがるように、生成AI簡単に作れることでフェイ画像や声の模倣、絵柄の模倣なんかがどんどこ増えている。AI学習の害が実例として広まりつつある。

少数なら見過ごせる行為も、閾値を超えれば対策をとらざるを得ない。メーカー店舗転売対策コストを割かれ、真っ当な購入者は不便を強いられることもある。

さすがにAI学習転売行為がまったく同じだとは思わないよ、例え話。とはいえ重要なのは合法であってもやりすぎたら世間から忌避されるよ、ということ。

忌避しても合法で押し通されるなら、利用される側は勝手対策をはかることになる。現に絵描き間ではスクレイピング対策として画像に微細なノイズ処理をかける行為が広まりつつある。いずれネットにあがるデータはそうした処理が自動で施されるようになるかもしれない。そうなったら誰も得しないんじゃない?

2024-02-26

データを集めて傾向から解決策を導き出す行為が嫌い

物事計画通り、傾向通りに進んでるとイライラする。

予測不能カオスの中からこそ新しいものは産まれると思っているからだ。

あと、誰かの計画の一部に自分が組み込まれているのが許せない。

統計学も嫌いだし、ビッグデータも嫌い。

昨今、スクレイピングの是非が問われているが、それもやはり嫌だね。

なんなら、子供誕生日に喜ぶやろうなあ、と思って買ったもの計算通り喜ばれるとものすごく不快

俺が思いつきもしなかった遊び方で楽しんでいるならいい。

喜ぶ理由が予想外ても許す。

だが俺ごときに予想される行動を取るのなら内心見捨てる。

電車が時刻通り運行する行為も許せないし、医療法律規定通りに遂行されるのも不愉快だ。

地裁意味わかんねえ判決とかは好き。

から俺はウィキペディアに時に嘘を書くし、とき食べログGoogleマップ評価に嘘を混ぜるし、

スタバといいつつ牛丼写真をたまにアップロードする。

恩がある人間には時に冷たく、時に暖かく対応する。

意味なんてないが、小さな抵抗だ。

万民、あらゆる自然現象は俺や人のデータを超えてきてほしい。

2024-02-05

anond:20240205161839

今4つ見つけてるダミーサイトのうち2つで「様専用」はあるが他2つではない

サイトによってスクレイピング対象を変えているらしい

サイトによってレビュー機能もあったりなかったりする

そしてレビュー機能がある方では同日にたくさんレビュー投稿がされていて2月0日なんて日付もある

レビュー引用

フルネーム: タオサカ タカフミ コメント時間: 2024-02-5

買おうかと迷っていましたが、思い切って購入。説明書なども丁寧で発送も早かったです。これから活躍してもらいます

フルネーム: ヒラノ コメント時間: 2024-02-4

プレゼント用に購入しましたが、とても発送が早く、商品がとっても可愛いです(^。^)!!!お店で買うより安いし、もっと早く知っていれば自分の子供のはこれに統一したのにーーって感じでした!

フルネーム: リケン コメント時間: 2024-02-4

を購入しましたが、画像よりも白いところがクリーム色っぽく可愛かったです

フルネーム: コジマ コメント時間: 2024-02-0

見た目は思ったとおり可愛くて、機能も充実しているので大満足です。

風が優しくて気持ちいし、タイマーが長い時間設定できるのもありがたです。

フルネーム: たかコメント時間: 2024-02-5

買うかずっと迷ってて買って選んで正解でした!

フルネーム: 伸一郎 コメント時間: 2024-02-3

息子も大変満足していました。

また下の子にも購入したいと思います

フルネーム: イトウ コメント時間: 2024-02-0

可愛いしすぐに届いたのが嬉しかったです。キャンプで使うのが楽しみです。

フルネーム: タカコメント時間: 2024-02-3

安くてとても暖かいです。

商品が届いてからすぐにまたリピしました。

フルネーム: 有希コメント時間: 2024-02-0

想像していたとおりでした。気に入りました



ちなみにこれはMBPについてるレビュー

適当にもほどがある

レビュー機能があるほうがむしろマイナスになっている

anond:20240205154918

◯◯様専用とかの専用品までスクレイピングされて出品されてるので詐欺ダミーサイト確定

よほど警戒してないと事前に発見できない

詐欺られた(注意喚起拡散希望

訪れたサイトが扱っていた商材はかなりマニアックもので、その商品以外の商品もたくさんあってページもひとつひとつしっかりしていて特集バナーなども作ってあり自然な作り

しか実態ヤフオクスクレイピングで大量に商品登録されているだけの中古ショップ風のただのダミーフィッシングサイトだった

自分が買おうとした物があまりマニアックだったため、そんなマニアックスーパーニッチものまさか詐欺の商材としようとする人間がいるとは思わず、全く警戒してなかったため、サイトの細部までよく調査をせず普通に振り込んでしまった

しかし振り込んだあとは待てど暮せど発送されず連絡も取れない

主犯受け子かしらないが口座名義はおそらくタイベトナム風名前(←これについてもこの時点でん?と思ったがスルーしてしまった心境は後述の追記トラバ参照。この時点では全ての警戒センサーオフになっていたのでよく考えたらタイベトナム名前だよなと思ったのも後からである

その買おうとした物に設定されていた商品名でぐぐったらこういった部類のダミーサイト複数存在するようだ

後で気付いたが特集バナークリックすれば中身はなくトップページに行くだけ

しかも上手いのがヤフオクより安い割引の値段で売っていることだ

まりヤフオクで見かけて、さらに掘り出し物を狙ってたどり着いた人はお得感でこっちのダミーサイトで購入してしま可能性がある

自分場合検索でたどり着いたのでそもそもヤフオク大本があるとは知らなかったし、割引関係なく探していたもの存在するという感動で買った)

大量出品でロングテールSEO対策はばっちり

探している商品マニアックであればあるほど競合が少ないため検索普通に上位にヒットしてくるのでおそらく他にも被害者が多数いると思われる


この手口はあまり周知されておらず、少なくとも自分は知らなかったので、まさかこんなマニアック商品詐欺の商材にするとは思わず警戒心も下がりがち

反社資金源にならぬよう、被害防止の注意喚起のためにこの増田をぜひ拡散してくれ

もはやGoogleフィッシングサイトへのリーチサイトみたいになってて、これは本当にGoogle責任でもあると思う

ダミーサイトはどれも共通の特徴があるからアルゴリズムで弾いてくれよ


追記

どういう商品サイトかはトラバにヒントや追跡調査を書いてるので探してみてくれ→20240205154918

ヤフオクから転載と知らないと一見普通のストアのようにしっかり作ってあるように見える

ちなみにクレカ決済ではなくメールした後に振り込み先を送られてくるから注文時点でお金をとられることはない

(振込しないなら捨てアド適当個人情報を用いて相手使用している銀行口座までの調査ができる)

追記

有能なサイトトラバで教えてもらったのでどういうサイトサンプルを知りたい人はこちらを見るのがよい

すべて特徴が共通しているため、一度手口を知った後であれば容易に判別できる

特に会社情報のページがゴミみたいなメールアドレス、適当電話番号等、特徴的で共通項が多い

https://www.neo-blood.co.jp/

追記

どうしても自分ケチをつけたい人間がいるみたいだが、「マニアックすぎる商品」という所が味噌

マニアックなお店で神保町にいるような高齢店主、PCは独学でいじれるが最先端ではない人を想像したらドメインデザインUI諸々が洗練されてないのは逆に納得感が出てきてしまった

この「スーパーニッチマニアックすぎる商品である」という一点が、エアポケットに陥り自分のあらゆる警戒センサースルーさせた

リテラシーマウンティングはいいから、論旨を汲み取って人の陥った心境に想像をめぐらせてみよう

追記

アクティブ増田は口座凍結に協力を→anond:20240206175039


>kazuhix

転売屋ではないしただの消費者。商材=転売かいう謎の角度からの難癖をやめろ 

サイトからの主格でそう書いただけ

よく何の確度もないたったひとつ単語から勝手にこっちの背景を自己完結できるな

たまにいるんだよなこういう予想だにしない確度から非生産的な反応を示すやつ

こちらが追跡調査してまで二次被害を止めようとしてるのに、余計な難癖つけてこちらの情報を軽んじようと目論むのはお前が詐欺グループに与する一味だからか?ってお前の真似したろか

>poppo-george

高額商品ではなく数千円

自分被害は数千円でも高額をだまし取られてる人もいるだろうしこいつらを許すわけにはいかない

からこそ話の芯がわかってない勝手人物像を設定して勝ち誇りたいだけの人間ノイズであり、プライド問題ではなく、どうせバカが騙されただけでしょと軽んじられれば拡散という目的達成の邪魔なので否定する

この記事人物像など本来どうでもいいのにそこを見下しやす人物に設定して本質情報を軽んじようとする人間が多すぎ

2024-01-26

かに、これじゃ検索結果から消えることになりそうだが

Yahooとかとは個別ライセンス契約するってことなんだろうか

2024-01-10

anond:20240110220807

簡単パスしないでくれ

文句だけ言ってフリーライドするのは今日でやめにするのだ

スクレイピングツールoctpusで「https://b.hatena.ne.jp/entrylist?url=https%3A%2F%2Fanond.hatelabo.jp%2F2022&sort=count

スクレイピング

②①をgoogleスプレッドシートに貼り付ける

ブクマ数上位から下記増田を削除して、50件とか100件ほど増田文学ぽいのを厳選する

 記事が消えているもの

 批判ばっか

 アンケート

 お役立ち情報が強いもの

  例)投資IT家事やら

 短文質問いかけ系

 政治色が強いもの

④これ排除したら、タグが「増田文学」って付いてるのを拾う

⑤もう一度見直して、明らかに文学じゃねーな、ってのを削除

 評論とか、個人体験記的なのが残っているはず

見出しブクマ数、カテゴリー、備考を載せて整形チェック

 タイトルが表示されないものは備考に適当記事タイトルを付けてやる

 ※この作業はなくてもいいか

⑦表になるように増田に貼り付けて確認

おしまい

画像生成AIの扱い今後どうなっていくかを予想する

現時点で、画像生成AIは「無断学習」を根拠に一部のクリエイターたちから蛇蝎のごとく嫌われてて企業PRAIを使うだけで苦情が殺到するレベルになってきてる

ただそれは倫理的検討を重ねてというより「自分の絵が知らない間に学習されてるのはなんかキモチワルイ」という感覚的な嫌悪感によるところがかなり大きい

Googleはもともとサイトデータ勝手スクレイピングしまくって検索サイトとか翻訳サービスとか作ってきたのだが、そういうのには文句いかないあたり、著作物学習することそのものは焦点じゃない

チャットGPTみたいなテキスト生成には甘かったりするし、人によっち漫画の改変コラという直球の著作権侵害かましながら生成AIに反対してたりするんだから

よって、現時点は画像生成AIに反対しているクリエイターたちも「なんか大丈夫っぽい」と判断しだしたらゆるゆるその機能を使い始めるだろう

本質的には同じ問題を抱えていても感情的に受け入れられるかどうかのほうが重要から

じゃあどのラインからクリエイター画像生成を受け入れだすか?

これは現在テック企業の動きを見ているとある程度予想できる

まず、画像を含む生成AIの開発がここから止まることはほぼありえないと断言できる

マイクロソフトGoogleAIに巨額の資金ベットしてしまったしもう引き返せない

多少強引にゴリゴリ進めながら落とし所を見つけていく腹積もり

当然反発もあるし、完全無視はできない

OpenAIやらMidjourneyやらは大量の訴訟相手にしてる

大まかに言えば全部「うちのデータ勝手に食って売り物にしてんじゃねえよ」という内容だ

落とし所はおそらく「学習元に利益いくらかを分配します」「違法データは言ってくれたら削除します」「生成AIの出力から学習したデータ学習をするのでクリーンです」あたり

そうなると、最初に和平条約を結んだところは生成AI進化を後押しする側に回るから風向きが変わっていくはず

並行して、AI仕事で手放せないくらい便利になってさら風向きが変わる

GoogleAmazonいかEvil行為をしているかは調べればすぐわかる

でも使うのをやめられないのは便利だから

逆にいうと、今画像AIが叩かれてるのは本職の絵師にとって大して便利じゃないからっていうのがでかい

絵描きにとって便利な機能が出てくれば評価はかなり変わってくる

たぶん最初に使われるは色塗りとか、壁や床のテクスチャ生成あたりからだろう

AIによる画風の再現とかは今後も「魂を傷つけられた」「自分作品勝手に使われてそうでキモチワルイ」と感じる人が多い

から単純作業っぽい工程AI代替できる仕組みから浸透し始める

それだって結局はどっかから勝手に引っ張ってきたデータミキサーで混ぜて作ったデータだという意味では同じなんだけど、あくまでこれは感情問題から

大量に絵を作らなきゃいけないソシャゲ絵師とか同人作家がおずおず使い出したらあとは早くて、構図からポーズから、かなりの部分をAI任せにしてもなんも言われなくなる

その頃には「(一応)(自称クリーンデータセット」みたいなもの定番存在するはず

この段階に来ると絵描き倫理観は「補助として使う分にはどう使ってもOK」「特定の絵柄の再現をやるのはNG」って線引きになってると思う

そんでさら時間が経つと、外部思考装置としてのAI生成が当たり前になって、ただの思考区別されなくなる

現代人がスマホでできることも含めて人間能力だと思っているのと同じ)

生成AI学習されたとき「魂の一部を盗まれた」と思う感覚だんだん時代遅れになって、著作権観念ごとゆっくり曖昧になる

集合的無意識みたいなもの現実化するイメージ

ストレートに実現するかはともかく、ビッグテックがやろうとしてるのは倫理観の書き換えそのものだと思う

うなっちゃうんだろうね今後

2023-11-10

Pythonの基礎はだいたい理解したんだけど

次何すればいい?やったのはcodeprepってやつとそこら辺に転がってた問題集

このままやりたいこと(webアプリウェブスクレイピング)の本とか買っていいものなのかな。

2023-09-17

anond:20230917112222

そんなJr.ができるようなスクレイピングで2万稼げるならおじさんやってあげるのに

2023-09-07

[] スクレイピングマニュアルみたいなのを作ってgithubに載せたい

休業中のプロジェクトとしてはぴったりだと思うので、ちょっとやってみようかな。

スクレイピングについては、もう何年も経験があるので、いい加減知見を体系化したいと思っています

オライリーにもpythonスクレイピングする書籍がありますが、あれは初心者向け過ぎなので、もっと内容的に豊富にしたいんです。

特に法律面での補足があると読者が誤ってDDoSすることも減ると思います

2023-08-21

anond:20230821151231

一応、Xの利用規約を貼っておくが、利用規約には違反している。法律については専門家ではないので分からないが日本だと「不正アクセス防止法」に該当しそうな気がする。

ユーザーは、当社より本サービスへのアクセスとその利用について許諾を得ることの対価として、当社ならびにその第三者プロバイダーおよびパートナーが、本サービス上に広告掲載すること、またはコンテンツもしくは本サービスから得られる情報(その提供者がユーザーである他者であるかを問わず)の表示に関連した広告掲載することに同意するものします。ユーザーはまた、たとえば当社のサービス妨害や当社が提供するインターフェースおよび手順以外の方法を使った当社のサービスへのアクセスにより、当社のサービス不正利用をしないことにも同意するものします。ユーザーは、適用される法令が明示的に許容する範囲のみを除き、本サービスの一部としてユーザー提供されるソフトウェア技術制限回避したり、ソフトウェアリバースエンジニアリング、逆コンパイル、逆アセンブルをしたりしてはなりません。ユーザーは、本サービスへのアクセスまたはその使用中に、次のいずれも行ってはなりません。(i)本サービス、当社のコンピュータシステム、または当社のプロバイダーのテクニカルデリバリーシステムの非公開部分へのアクセス不正改ざんもしくは使用、(ii)システムもしくはネットワーク脆弱性の探索、スキャンもしくはテスト、またはセキュリティもしくは認証方法侵害もしくは回避、(iii)当社から提供される(かつ該当する利用条件に従う場合にの提供される)、当社の現在利用可能な公開インターフェース以外の方法自動プログラムか否かを問わない)での、本サービスへのアクセスもしくはその探索またはアクセスもしくは探索の試み(ただし、当社との個別契約特に許可されている場合は除く)(注: 本サービスへのクローリングは、robots.txtファイルの定めによる場合は認められていますが、当社による事前の同意がないまま本サービススクレイピングをすることは明示的に禁止されています)、(iv電子メールもしくは投稿でのTCP/IPパケットヘッダーまたはヘッダー情報の一部の偽造、または方法の如何を問わず改ざんされた情報詐欺情報もしくは情報源を偽装した情報を送る目的での本サービスの利用、または(v)いずれかのユーザーホストもしくはネットワークアクセス妨害、または遮断(もしくはその試み)(本サービスへのウィルス送信オーバーロード、フラッディング、スパミング、メールの大量送信、あるいは本サービス妨害したり過度な負荷を与えたりする方法コンテンツ作成スクリプトすることを含みますが、これらに限定されません)。当社はさらに、(i)適用されるすべての法令規則、法的手続政府要請対応し、(ii)本規約実施し(規約違反の疑いがある場合調査を含みます)、(iii)不正利用、セキュリティもしくは技術的な問題を検知、防止もしくはその対処をし、(ivユーザーからサポート要請対応し、または(v)Twitterやそのユーザーおよび社会全体の権利財産もしくは安全保護するために、当社が必要である合理的判断する一切の情報について、アクセス、閲覧、保存、および公開する権利留保します。当社は、当社のプライバシーポリシーの定めによる場合を除き、個人識別情報第三者に開示することはありません。

ログイン ユーザー登録
ようこそ ゲスト さん