https://t.co/EBcPvZU7I1
ん？読売のオンラインの規約変更が凄いな。最近の新聞協会のトーン的に生成AIへの学習禁止は心情は察するが、データマイニング、クローリング、スクレイピングあたりも営利性とか関係なく全面禁止。ようするに検索やSNSも含めてネットから消えますという宣言かな？ pic.twitter.com/sePkMDRRbW— Shuji Sado (佐渡秀治) コロナで背骨を骨折ニキ (@shujisado) January 25, 2024

確かに、これじゃ検索結果から消えることになりそうだが

Yahooとかとは個別にライセンス契約するってことなんだろうか

Permalink | 記事への反応(0) | 15:55

2024-01-22

■anond:20240122205528

でも警察は図書館のホムペをスクレイピングする市民を逮捕したことがあるけどな

Permalink | 記事への反応(0) | 21:00

2024-01-10

■anond:20240110220807

簡単にパスしないでくれ

文句だけ言ってフリーライドするのは今日でやめにするのだ

①スクレイピングツールoctpusで「https://b.hatena.ne.jp/entrylist?url=https%3A%2F%2Fanond.hatelabo.jp%2F2022&sort=count」

でスクレイピング

②①をgoogle スプレッドシートに貼り付ける

③ブクマ数上位から下記増田を削除して、50件とか100件ほど増田文学ぽいのを厳選する

　記事が消えているもの

　批判ばっか

　アンケート

　お役立ち情報が強いもの

　　例）投資、IT，家事やら

　短文質問問いかけ系

　政治色が強いもの

④これ排除したら、タグが「増田文学」って付いてるのを拾う

⑤もう一度見直して、明らかに文学じゃねーな、ってのを削除

　評論とか、個人の体験記的なのが残っているはず

⑥見出しでブクマ数、カテゴリー、備考を載せて整形チェック

　タイトルが表示されないものは備考に適当に記事タイトルを付けてやる

　※この作業はなくてもいいかも

⑦表になるように増田に貼り付けて確認

おしまい

Permalink | 記事への反応(0) | 23:37

■画像生成AIの扱い今後どうなっていくかを予想する

現時点で、画像生成AIは「無断学習」を根拠に一部のクリエイターたちから蛇蝎のごとく嫌われてて企業 PRでAIを使うだけで苦情が殺到するレベルになってきてる

ただそれは倫理的な検討を重ねてというより「自分の絵が知らない間に学習されてるのはなんかキモチワルイ」という感覚的な嫌悪感によるところがかなり大きい

Googleはもともとサイトのデータを勝手にスクレイピングしまくって検索サイトとか翻訳サービスとか作ってきたのだが、そういうのには文句がいかないあたり、著作物を学習することそのものは焦点じゃない

チャット GPTみたいなテキスト生成には甘かったりするし、人によっちゃ漫画の改変コラという直球の著作権侵害をかましながら生成AIに反対してたりするんだからね

よって、現時点は画像生成AIに反対しているクリエイターたちも「なんか大丈夫っぽい」と判断しだしたらゆるゆるその機能を使い始めるだろう

本質的には同じ問題を抱えていても感情的に受け入れられるかどうかのほうが重要だから

じゃあどのラインからクリエイターは画像生成を受け入れだすか？

これは現在のテック企業の動きを見ているとある程度予想できる

まず、画像を含む生成AIの開発がここから止まることはほぼありえないと断言できる

マイクロソフトもGoogleもAIに巨額の資金をベットしてしまったしもう引き返せない

多少強引にゴリゴリ進めながら落とし所を見つけていく腹積もり

当然反発もあるし、完全無視はできない

OpenAIやらMidjourneyやらは大量の訴訟を相手にしてる

大まかに言えば全部「うちのデータを勝手に食って売り物にしてんじゃねえよ」という内容だ

落とし所はおそらく「学習元に利益のいくらかを分配します」「違法なデータは言ってくれたら削除します」「生成AIの出力から学習したデータで学習をするのでクリーンです」あたり

そうなると、最初に和平条約を結んだところは生成AIの進化を後押しする側に回るから風向きが変わっていくはず

並行して、AIが仕事で手放せないくらい便利になってさらに風向きが変わる

GoogleやAmazonがいかにEvilな行為をしているかは調べればすぐわかる

でも使うのをやめられないのは便利だから

逆にいうと、今画像 AIが叩かれてるのは本職の絵師にとって大して便利じゃないからっていうのがでかい

絵描きにとって便利な機能が出てくれば評価はかなり変わってくる

たぶん最初に使われるは色塗りとか、壁や床のテクスチャ生成あたりからだろう

AIによる画風の再現とかは今後も「魂を傷つけられた」「自分の作品も勝手に使われてそうでキモチワルイ」と感じる人が多い

だから単純作業っぽい工程がAIで代替できる仕組みから浸透し始める

それだって結局はどっかから勝手に引っ張ってきたデータをミキサーで混ぜて作ったデータだという意味では同じなんだけど、あくまでこれは感情の問題だからね

大量に絵を作らなきゃいけないソシャゲ絵師とか同人作家がおずおず使い出したらあとは早くて、構図からポーズから、かなりの部分をAI任せにしてもなんも言われなくなる

その頃には「（一応）（自称）クリーンなデータセット」みたいなものの定番も存在するはず

この段階に来ると絵描きの倫理観は「補助として使う分にはどう使ってもOK」「特定の絵柄の再現をやるのはNG」って線引きになってると思う

そんでさらに時間が経つと、外部思考装置としてのAI生成が当たり前になって、ただの思考と区別されなくなる

（現代人がスマホでできることも含めて人間の能力だと思っているのと同じ）

生成AIに学習されたとき「魂の一部を盗まれた」と思う感覚がだんだん時代遅れになって、著作権の観念ごとゆっくり曖昧になる

集合的無意識みたいなものが現実化するイメージ

ストレートに実現するかはともかく、ビッグテックがやろうとしてるのは倫理観の書き換えそのものだと思う

どうなっちゃうんだろうね今後

Permalink | 記事への反応(2) | 02:25

2023-12-29

■anond:20231229020546

スクレイピングされたサイトの投稿者もそりゃ怒るだろうね

Permalink | 記事への反応(0) | 03:04

2023-11-10

■Pythonの基礎はだいたい理解したんだけど

次何すればいい？やったのはcodeprepってやつとそこら辺に転がってた問題集。

このままやりたいこと（web アプリとウェブスクレイピング）の本とか買っていいものなのかな。

Permalink | 記事への反応(3) | 14:28

2023-09-28

■anond:20230928154318

「スクレイピング・ハッキング・ラボ Pythonで自動化する未来型生活」　著：齊藤貴義

やで

Permalink | 記事への反応(1) | 15:47

2023-09-17

■anond:20230917112222

そんなJr.ができるようなスクレイピングで2万稼げるならおじさんやってあげるのに

Permalink | 記事への反応(1) | 11:24

2023-09-15

■anond:20230915172712

炎上する度にスクレイピングかけるんだが全然居ねえんだよ

Permalink | 記事への反応(1) | 17:29

2023-09-07

■[勉強日記] スクレイピングのマニュアルみたいなのを作ってgithubに載せたい

休業中のプロジェクトとしてはぴったりだと思うので、ちょっとやってみようかな。

スクレイピングについては、もう何年も経験があるので、いい加減知見を体系化したいと思っています。

オライリーにもpythonでスクレイピングする書籍がありますが、あれは初心者向け過ぎなので、もっと内容的に豊富にしたいんです。

特に法律面での補足があると読者が誤ってDDoSすることも減ると思います。

Permalink | 記事への反応(0) | 10:29

2023-08-21

■anond:20230821151231

一応、Xの利用規約を貼っておくが、利用規約には違反している。法律については専門家ではないので分からないが日本だと「不正アクセス防止法」に該当しそうな気がする。

ユーザーは、当社より本サービスへのアクセスとその利用について許諾を得ることの対価として、当社ならびにその第三者プロバイダーおよびパートナーが、本サービス上に広告を掲載すること、またはコンテンツもしくは本サービスから得られる情報（その提供者がユーザーであるか他者であるかを問わず）の表示に関連した広告を掲載することに同意するものとします。ユーザーはまた、たとえば当社のサービスの妨害や当社が提供するインターフェースおよび手順以外の方法を使った当社のサービスへのアクセスにより、当社のサービスの不正利用をしないことにも同意するものとします。ユーザーは、適用される法令が明示的に許容する範囲のみを除き、本サービスの一部としてユーザーに提供されるソフトウェアの技術的制限を回避したり、ソフトウェアのリバースエンジニアリング、逆コンパイル、逆アセンブルをしたりしてはなりません。ユーザーは、本サービスへのアクセスまたはその使用中に、次のいずれも行ってはなりません。（i）本サービス、当社のコンピュータシステム、または当社のプロバイダーのテクニカルデリバリーシステムの非公開部分へのアクセス、不正な改ざんもしくは使用、（ii）システムもしくはネットワークの脆弱性の探索、スキャンもしくはテスト、またはセキュリティもしくは認証方法の侵害もしくは回避、（iii）当社から提供される（かつ該当する利用条件に従う場合にのみ提供される）、当社の現在利用可能な公開インターフェース以外の方法（自動プログラムか否かを問わない）での、本サービスへのアクセスもしくはその探索またはアクセスもしくは探索の試み（ただし、当社との個別契約で特に許可されている場合は除く）（注: 本サービスへのクローリングは、robots.txt ファイルの定めによる場合は認められていますが、当社による事前の同意がないまま本サービスのスクレイピングをすることは明示的に禁止されています）、（iv）電子メールもしくは投稿でのTCP/IP パケットヘッダーまたはヘッダー情報の一部の偽造、または方法の如何を問わず、改ざんされた情報、詐欺的情報もしくは情報源を偽装した情報を送る目的での本サービスの利用、または（v）いずれかのユーザー、ホストもしくはネットワークのアクセスの妨害、または遮断（もしくはその試み）（本サービスへのウィルスの送信、オーバーロード、フラッディング、スパミング、メールの大量送信、あるいは本サービスを妨害したり過度な負荷を与えたりする方法でコンテンツの作成をスクリプトすることを含みますが、これらに限定されません）。当社はさらに、（i）適用されるすべての法令、規則、法的手続や政府の要請へ対応し、（ii）本規約を実施し（規約違反の疑いがある場合の調査を含みます）、（iii）不正利用、セキュリティもしくは技術的な問題を検知、防止もしくはその対処をし、（iv）ユーザーからのサポート要請に対応し、または（v）Twitterやそのユーザーおよび社会全体の権利、財産もしくは安全を保護するために、当社が必要であると合理的に判断する一切の情報について、アクセス、閲覧、保存、および公開する権利を留保します。当社は、当社のプライバシーポリシーの定めによる場合を除き、個人識別情報を第三者に開示することはありません。