はてなキーワード: スクレイピングとは
Pythonは全くわからないのですべてを生成AIに丸投げすることにした。頼むぜ、Claude3
んで、出力されたコードをJupyter Notebook上にコピペして実行。
すげぇ・・・ 動いた。テキストファイルに増田の各エントリのURLがモリモリと列挙されていく。
AI学習は著作権法30条の4で合法なんだが? の言い分は1000回くらい見た。まあ実際そうなんだけどさ、合法なら世間に許容されるとは限らないよね。
転売行為がそう。買ったものをそれ以上の値段で売る、これは合法であり咎められる理由はない(場合によっては違法です)。のだが、社会的には迷惑行為扱いであり転売屋はボロカスに罵られるのが常である。様々な理由から違法でなくとも、他者に害であると認知されればそうなるのだ。
昨今のAI技術と転売には共通項がある。「誰でも簡単に扱えるようになった」ことだ。スマホ一つでメルカリから転売できることであらゆる商品に転売屋がむらがるように、生成AIで簡単に作れることでフェイク画像や声の模倣、絵柄の模倣なんかがどんどこ増えている。AI学習の害が実例として広まりつつある。
少数なら見過ごせる行為も、閾値を超えれば対策をとらざるを得ない。メーカーや店舗は転売対策にコストを割かれ、真っ当な購入者は不便を強いられることもある。
さすがにAI学習と転売行為がまったく同じだとは思わないよ、例え話。とはいえ重要なのは、合法であってもやりすぎたら世間から忌避されるよ、ということ。
忌避しても合法で押し通されるなら、利用される側は勝手に対策をはかることになる。現に絵描き間ではスクレイピング対策として画像に微細なノイズ処理をかける行為が広まりつつある。いずれネットにあがるデータはそうした処理が自動で施されるようになるかもしれない。そうなったら誰も得しないんじゃない?
予測不能なカオスの中からこそ新しいものは産まれると思っているからだ。
あと、誰かの計画の一部に自分が組み込まれているのが許せない。
昨今、スクレイピングの是非が問われているが、それもやはり嫌だね。
なんなら、子供の誕生日に喜ぶやろうなあ、と思って買ったものが計算通り喜ばれるとものすごく不快。
俺が思いつきもしなかった遊び方で楽しんでいるならいい。
喜ぶ理由が予想外ても許す。
だが俺ごときに予想される行動を取るのなら内心見捨てる。
電車が時刻通り運行する行為も許せないし、医療や法律が規定通りに遂行されるのも不愉快だ。
今4つ見つけてるダミーサイトのうち2つで「様専用」はあるが他2つではない
そしてレビュー機能がある方では同日にたくさんレビュー投稿がされていて2月0日なんて日付もある
フルネーム: タオサカ タカフミ コメント時間: 2024-02-5
買おうかと迷っていましたが、思い切って購入。説明書なども丁寧で発送も早かったです。これから、活躍してもらいます。
プレゼント用に購入しましたが、とても発送が早く、商品がとっても可愛いです(^。^)!!!お店で買うより安いし、もっと早く知っていれば自分の子供のはこれに統一したのにーーって感じでした!
を購入しましたが、画像よりも白いところがクリーム色っぽく可愛かったです
見た目は思ったとおり可愛くて、機能も充実しているので大満足です。
風が優しくて気持ちいし、タイマーが長い時間設定できるのもありがたです。
買うかずっと迷ってて買って選んで正解でした!
息子も大変満足していました。
可愛いしすぐに届いたのが嬉しかったです。キャンプで使うのが楽しみです。
安くてとても暖かいです。
想像していたとおりでした。気に入りました
ちなみにこれはMBPについてるレビューだ
適当にもほどがある
訪れたサイトが扱っていた商材はかなりマニアックなもので、その商品以外の商品もたくさんあってページもひとつひとつしっかりしていて特集バナーなども作ってあり自然な作り
しかし実態はヤフオクのスクレイピングで大量に商品が登録されているだけの中古ショップ風のただのダミーのフィッシングサイトだった
自分が買おうとした物があまりにマニアックだったため、そんなマニアックでスーパーニッチなものをまさか詐欺の商材としようとする人間がいるとは思わず、全く警戒してなかったため、サイトの細部までよく調査をせず普通に振り込んでしまった
しかし振り込んだあとは待てど暮せど発送されず連絡も取れない
主犯か受け子かしらないが口座名義はおそらくタイかベトナム風の名前(←これについてもこの時点でん?と思ったがスルーしてしまった心境は後述の追記やトラバ参照。この時点では全ての警戒センサーがオフになっていたのでよく考えたらタイ・ベトナムの名前だよなと思ったのも後からである)
その買おうとした物に設定されていた商品名でぐぐったらこういった部類のダミーサイトが複数存在するようだ
後で気付いたが特集バナーはクリックすれば中身はなくトップページに行くだけ
しかも上手いのがヤフオクより安い割引の値段で売っていることだ
つまりヤフオクで見かけて、さらに掘り出し物を狙ってたどり着いた人はお得感でこっちのダミーサイトで購入してしまう可能性がある
(自分の場合は検索でたどり着いたのでそもそもヤフオクに大本があるとは知らなかったし、割引関係なく探していたものが存在するという感動で買った)
探している商品がマニアックであればあるほど競合が少ないため検索で普通に上位にヒットしてくるのでおそらく他にも被害者が多数いると思われる
この手口はあまり周知されておらず、少なくとも自分は知らなかったので、まさかこんなマニアックな商品を詐欺の商材にするとは思わず警戒心も下がりがち
反社の資金源にならぬよう、被害防止の注意喚起のためにこの増田をぜひ拡散してくれ
もはやGoogleがフィッシングサイトへのリーチサイトみたいになってて、これは本当にGoogleの責任でもあると思う
ダミーサイトはどれも共通の特徴があるからアルゴリズムで弾いてくれよ
【追記】
どういう商品やサイトかはトラバにヒントや追跡調査を書いてるので探してみてくれ→20240205154918
ヤフオクからの転載と知らないと一見普通のストアのようにしっかり作ってあるように見える
ちなみにクレカ決済ではなくメールした後に振り込み先を送られてくるから注文時点でお金をとられることはない
(振込しないなら捨てアドや適当な個人情報を用いて相手の使用している銀行口座までの調査ができる)
【追記】
有能なサイトをトラバで教えてもらったのでどういうサイトかサンプルを知りたい人はこちらを見るのがよい
すべて特徴が共通しているため、一度手口を知った後であれば容易に判別できる
特に会社情報のページがゴミみたいなメールアドレス、適当な電話番号等、特徴的で共通項が多い
【追記】
どうしても自分にケチをつけたい人間がいるみたいだが、「マニアックすぎる商品」という所が味噌で
マニアックなお店で神保町にいるような高齢店主、PCは独学でいじれるが最先端ではない人を想像したらドメインやデザイン、UI諸々が洗練されてないのは逆に納得感が出てきてしまった
この「スーパーニッチなマニアックすぎる商品である」という一点が、エアポケットに陥り自分のあらゆる警戒センサーをスルーさせた
リテラシーマウンティングはいいから、論旨を汲み取って人の陥った心境に想像をめぐらせてみよう
【追記】
アクティブな増田は口座凍結に協力を→anond:20240206175039
>kazuhix
転売屋ではないしただの消費者。商材=転売とかいう謎の角度からの難癖をやめろ
よく何の確度もないたったひとつの単語から勝手にこっちの背景を自己完結できるな
たまにいるんだよなこういう予想だにしない確度からの非生産的な反応を示すやつ
こちらが追跡調査してまで二次被害を止めようとしてるのに、余計な難癖つけてこちらの情報を軽んじようと目論むのはお前が詐欺グループに与する一味だからか?ってお前の真似したろか
>poppo-george
高額商品ではなく数千円
自分の被害は数千円でも高額をだまし取られてる人もいるだろうしこいつらを許すわけにはいかない
だからこそ話の芯がわかってない勝手に人物像を設定して勝ち誇りたいだけの人間はノイズであり、プライドの問題ではなく、どうせバカが騙されただけでしょと軽んじられれば拡散という目的達成の邪魔なので否定する
①スクレイピングツールoctpusで「https://b.hatena.ne.jp/entrylist?url=https%3A%2F%2Fanond.hatelabo.jp%2F2022&sort=count」
③ブクマ数上位から下記増田を削除して、50件とか100件ほど増田文学ぽいのを厳選する
批判ばっか
現時点で、画像生成AIは「無断学習」を根拠に一部のクリエイターたちから蛇蝎のごとく嫌われてて企業PRでAIを使うだけで苦情が殺到するレベルになってきてる
ただそれは倫理的な検討を重ねてというより「自分の絵が知らない間に学習されてるのはなんかキモチワルイ」という感覚的な嫌悪感によるところがかなり大きい
Googleはもともとサイトのデータを勝手にスクレイピングしまくって検索サイトとか翻訳サービスとか作ってきたのだが、そういうのには文句がいかないあたり、著作物を学習することそのものは焦点じゃない
チャットGPTみたいなテキスト生成には甘かったりするし、人によっちゃ漫画の改変コラという直球の著作権侵害をかましながら生成AIに反対してたりするんだからね
よって、現時点は画像生成AIに反対しているクリエイターたちも「なんか大丈夫っぽい」と判断しだしたらゆるゆるその機能を使い始めるだろう
本質的には同じ問題を抱えていても感情的に受け入れられるかどうかのほうが重要だから
じゃあどのラインからクリエイターは画像生成を受け入れだすか?
まず、画像を含む生成AIの開発がここから止まることはほぼありえないと断言できる
マイクロソフトもGoogleもAIに巨額の資金をベットしてしまったしもう引き返せない
多少強引にゴリゴリ進めながら落とし所を見つけていく腹積もり
当然反発もあるし、完全無視はできない
OpenAIやらMidjourneyやらは大量の訴訟を相手にしてる
大まかに言えば全部「うちのデータを勝手に食って売り物にしてんじゃねえよ」という内容だ
落とし所はおそらく「学習元に利益のいくらかを分配します」「違法なデータは言ってくれたら削除します」「生成AIの出力から学習したデータで学習をするのでクリーンです」あたり
そうなると、最初に和平条約を結んだところは生成AIの進化を後押しする側に回るから風向きが変わっていくはず
並行して、AIが仕事で手放せないくらい便利になってさらに風向きが変わる
GoogleやAmazonがいかにEvilな行為をしているかは調べればすぐわかる
でも使うのをやめられないのは便利だから
逆にいうと、今画像AIが叩かれてるのは本職の絵師にとって大して便利じゃないからっていうのがでかい
絵描きにとって便利な機能が出てくれば評価はかなり変わってくる
たぶん最初に使われるは色塗りとか、壁や床のテクスチャ生成あたりからだろう
AIによる画風の再現とかは今後も「魂を傷つけられた」「自分の作品も勝手に使われてそうでキモチワルイ」と感じる人が多い
だから単純作業っぽい工程がAIで代替できる仕組みから浸透し始める
それだって結局はどっかから勝手に引っ張ってきたデータをミキサーで混ぜて作ったデータだという意味では同じなんだけど、あくまでこれは感情の問題だからね
大量に絵を作らなきゃいけないソシャゲ絵師とか同人作家がおずおず使い出したらあとは早くて、構図からポーズから、かなりの部分をAI任せにしてもなんも言われなくなる
その頃には「(一応)(自称)クリーンなデータセット」みたいなものの定番も存在するはず
この段階に来ると絵描きの倫理観は「補助として使う分にはどう使ってもOK」「特定の絵柄の再現をやるのはNG」って線引きになってると思う
そんでさらに時間が経つと、外部思考装置としてのAI生成が当たり前になって、ただの思考と区別されなくなる
(現代人がスマホでできることも含めて人間の能力だと思っているのと同じ)
生成AIに学習されたとき「魂の一部を盗まれた」と思う感覚がだんだん時代遅れになって、著作権の観念ごとゆっくり曖昧になる
ストレートに実現するかはともかく、ビッグテックがやろうとしてるのは倫理観の書き換えそのものだと思う
どうなっちゃうんだろうね今後
一応、Xの利用規約を貼っておくが、利用規約には違反している。法律については専門家ではないので分からないが日本だと「不正アクセス防止法」に該当しそうな気がする。
ユーザーは、当社より本サービスへのアクセスとその利用について許諾を得ることの対価として、当社ならびにその第三者プロバイダーおよびパートナーが、本サービス上に広告を掲載すること、またはコンテンツもしくは本サービスから得られる情報(その提供者がユーザーであるか他者であるかを問わず)の表示に関連した広告を掲載することに同意するものとします。ユーザーはまた、たとえば当社のサービスの妨害や当社が提供するインターフェースおよび手順以外の方法を使った当社のサービスへのアクセスにより、当社のサービスの不正利用をしないことにも同意するものとします。ユーザーは、適用される法令が明示的に許容する範囲のみを除き、本サービスの一部としてユーザーに提供されるソフトウェアの技術的制限を回避したり、ソフトウェアのリバースエンジニアリング、逆コンパイル、逆アセンブルをしたりしてはなりません。ユーザーは、本サービスへのアクセスまたはその使用中に、次のいずれも行ってはなりません。(i)本サービス、当社のコンピュータシステム、または当社のプロバイダーのテクニカルデリバリーシステムの非公開部分へのアクセス、不正な改ざんもしくは使用、(ii)システムもしくはネットワークの脆弱性の探索、スキャンもしくはテスト、またはセキュリティもしくは認証方法の侵害もしくは回避、(iii)当社から提供される(かつ該当する利用条件に従う場合にのみ提供される)、当社の現在利用可能な公開インターフェース以外の方法(自動プログラムか否かを問わない)での、本サービスへのアクセスもしくはその探索またはアクセスもしくは探索の試み(ただし、当社との個別契約で特に許可されている場合は除く)(注: 本サービスへのクローリングは、robots.txtファイルの定めによる場合は認められていますが、当社による事前の同意がないまま本サービスのスクレイピングをすることは明示的に禁止されています)、(iv)電子メールもしくは投稿でのTCP/IPパケットヘッダーまたはヘッダー情報の一部の偽造、または方法の如何を問わず、改ざんされた情報、詐欺的情報もしくは情報源を偽装した情報を送る目的での本サービスの利用、または(v)いずれかのユーザー、ホストもしくはネットワークのアクセスの妨害、または遮断(もしくはその試み)(本サービスへのウィルスの送信、オーバーロード、フラッディング、スパミング、メールの大量送信、あるいは本サービスを妨害したり過度な負荷を与えたりする方法でコンテンツの作成をスクリプトすることを含みますが、これらに限定されません)。当社はさらに、(i)適用されるすべての法令、規則、法的手続や政府の要請へ対応し、(ii)本規約を実施し(規約違反の疑いがある場合の調査を含みます)、(iii)不正利用、セキュリティもしくは技術的な問題を検知、防止もしくはその対処をし、(iv)ユーザーからのサポート要請に対応し、または(v)Twitterやそのユーザーおよび社会全体の権利、財産もしくは安全を保護するために、当社が必要であると合理的に判断する一切の情報について、アクセス、閲覧、保存、および公開する権利を留保します。当社は、当社のプライバシーポリシーの定めによる場合を除き、個人識別情報を第三者に開示することはありません。