最近話題の生成AI、いわゆるクリエイター界隈ではあっちらこっちらで話が広がって、しかも誤解や間違いもどんどん広まって、いったいどうしたことかと混迷を極めている。見る人が見れば本当に面白い状況だろう。加えてXの唐突な規約変更（と誤解されている）で投稿画像が無断学習されると騒ぎになり、SNSは今や群雄割拠の戦国時代みたいになっている。自分もXのフォロワーがやれブルースカイ、クロスフォリオに移行するやら、今後のイラストはすべてポイぴくを挟むやら、創意工夫をもってAI 学習の手から逃れようとしているのを眺めていた。

これらの行為率直に言って、無駄だなと思う。無駄ではないがあんまり成果の出る行動ではないな、と思う。むしろ AI 学習から逃れられない上にインプレッションが下がるだけなのでどちらかというと損失の方が大きいだろう（人はURLをタップして新規ページにアクセスするという一手間をとんでもなく惜しむ、自分も画像直貼りなら見る絵も、URL クリックになった場合はサムネが余程好みでない限りほぼ100％見ない。これについては論文出てるから興味ある人は読んでみるのをお勧めする）

まずこの情報社会のインターネットという大きな箱において、データ収集されないで済むものの方が少ない。基本インターネットに上げた時点ですべて情報社会の餌になると考えた方が逆に健全だ。デジタルタトゥーとか言うだろ、使い方も意味も違うが、構造自体はほぼそれと同じだ。原則として「セキュリティ保護（パスワード認証）のないデータはすべて学習の対象となる」と考えた方が良い。これはインターネットという性質を考えれば自明の理だ。AIのスクレイピングを阻害するプラットフォームに上げたとて、基本人が自由にアクセス出来るのにAIが学習出来んわけなかろう。人間が自由に見れるものはAIも自由に見れる。これが基本原則であることを分かってない人が多すぎる。勿論サーバーにAI 学習を阻害する設定を相当しっかりやっていればだいぶ軽減はされるが、まあ最終的にアクセス出来れば学習は出来る。これは変わらんと考えておいた方がいい。むしろXはAPI 制限などをbot 対策などを相当労力掛けてやったので（ユーザーからは不満たらたらだったが）そういう意味ではAI 学習対策がなされている方だとも言う考え方もあるようだ。X自体の学習は防げなくても、X外からの学習は防げるからなあ。こればっかりは何を良しとするかだけど。

話がそれた。

まあそうやって他SNSに移行しようとどうしようと基本的に生成AI からの学習は逃れられないし、それはインターネットという情報社会の性質上仕方のないことだといえる。まあ仕方ないという理由で諦められないから絵師の一部はみんな怒ってるのかもしれないが。ただひとつ間違えないでほしいんだが、そもそも学習して誰しもクオリティの高い画像が出力出来るようになるのは悪いことじゃない。これは学習が法的権利として制限されていないからだとかそういう小難しい話をしたいのではなく、単純な社会全体としての話だ。

「”一部の人間しか出来なかったもの”が、簡単にちょっとの手間で”皆が出来るようになる”のはいいことだ」

というのが人間社会の基本的な原理原則だからだ。

レトルトや時短料理なんて最たるものだろう。ホテルのシェフが時間かけて、時には数日かけて作っていた料理が、かつて圧力鍋、今では自動調理鍋なんてもので似たようなクオリティが一瞬で誰でも出来る。材料入れてボタン押すだけ。シェフ監修がいわゆる偏向学習LoRAだとするなら、自動調理鍋や圧力鍋が生成AIに当たる部分だ。この例えに色々モノ申すところはあるだろうが、細かいところが問題なのではなく、論旨は「誰にでも出来るようになるのは社会にとって絶対的”正”だ」ということだ。

この視点において、この先も生成AIが大きく制限されることは恐らくない。だって社会にとって悪いことではないからだ。かつて裕福な家庭しか画家を雇い自画像を残せなかった時代が、技術の発展でカメラが生まれ、カメラも高価で専門職に頼む必要があったものが、インスタントカメラになって世間の多くに普及し、絵の具や鉛筆がなきゃ美術を成しえなかった人たちが、パソコンとペンタブという十万程度の投資で無料のYoutubeを見て誰もが絵を描ける環境を整えられるようになった。お金が無くても、技術が無くても、環境が無くても、苦労が無くても「出来る」ということは、社会にとってはその社会の技術が熟成した証拠でありその結実でもある。人間はそういう歴史を積み重ねて文化を発展させてきたのだ。そういう意味において、生成AIの在り方は正しいと言える。

ただし、ただしだ。

ただ、それでは絵師たちは自分たちの努力が無価値と感じ、自分たちの成果が使い潰されていると感じるだろう。仕事は取られ、搾取されるだけ搾取され捨てられてしまうんだ、と。もうここまでの文を読んで反AIの人間は多くが読むのをやめたと思うが続ける。本当にそうだろうか。本当に絵師たちはそんな無価値なものなのだろうか、と思う。

結論を言う。そんなことはない。

だってみんな圧力鍋で美味しいビーフストロガノフを作れるようになったらお店で出るビーフストロガノフは売れなくなるのか。みんな簡単に手軽にスマホで写真が撮れるようになったら、写真家の仕事は無くなるのか。無くならないだろう？無くならないんです。写真という技術が生まれてなお、未だに筆を執ってキャンバスに写実風風景画を描き続けてる画家がいてその作品が売れているように、どれだけ高精度の生成AIによって高クオリティの絵が乱立しようと絵師と呼ばれる人たちの生み出すオリジナルイラストの価値が損なわれることはないんです。

ただ、弱肉強食とも言える淘汰は発生するだろう。「淘汰」とは即ち、プロとしてのクオリティレベルの向上を指す。単純に言えば、これまでのようにちょっと絵を描いてお小遣い稼ぎみたいのは出来なくなる。なぜならそのレベルなら生成AIでいくらでも個人が作成出来るようになるからだ。写真家が普通の風景写真を売ろうとしても売れないように、イラストもただ絵がちょっとうまいだけでは売れなくなる。プロに頼むからにはプロのクオリティを求められる。

ここまで読んで気付いた方もいるかもしれない、特に今プロとして第一線で働いているイラストレーターの方。

別に普通に……これまでもそうだったのではないだろうか？

そうなのだ、プロであり技術があるほど、生成AIがあろうとこれまでと変わらないのだ。

生成AIは少し見れば分かる通り、とにかくコンセプトアートに弱い。「猫耳娘」とか「セーラー服の美少女」とか汎用的なお題ならいくらでも出力出来るが、「猫耳娘のイヤリングが彼女が猫の頃を彷彿とさせる飼い主の想い出の品がモチーフになってる」とか「セーラー服の美少女の足元には好きな人との思い出の公演が映っており、画面に添えられた花言葉はふたりのこれからの関係を暗示している」などといった、「一枚絵でドラマを読み解かせる」という構造がとにかく不得意だ。生成AIの構造と成り立ちを考えればそれは至極当然だ。AIにとってイラストはドット単位の色の集合体であり、そこに意味はない。そこに意味を感じるのは人間であり、読み取るのが観客であり、読み取りやすく指向的にドラマを仕込むのがイラストレーターと呼ばれる絵を描く人間の仕事だ。

だからこそむしろ、イラストレーターはより重宝され、求められることになる。人間はドラマやストーリーに魅力を感じる生き物だ。そういう意味で、どれだけクオリティが高かろうと、重要な場面でのイラストは現状絶対にAIに任せられない。色んなジャンルでよくある「周年絵」であれば、これまでのドラマや記念コンセプトをふんだんにあしらいたいだろう。こういうものこそイラストレーターに任せていくようになる。

もちろん、そういったコンセプトを生成AIが表現できないのは「現状」の話だ。時代は変わる。コンピューターの普及、スマートフォンの普及で情報社会レベルが格段に変わったように、やがて生成AIもコンセプトアートをきちんと表現していく時代も生まれるだろう。もう十年は先の話だろうが、ただ十年後はそうなるかもしれない。それにはもう少し時間が掛かる。それまでに絵師としてのポジションをどう確立させていくかは、今現在絵を描いている人間に求められている課題だ。そんな課題と向き合うことなくこれまで通りの世界でイラストを描き続けたいというのは、残念ながらただの停滞思考に過ぎない。時代は変わる。どう足掻いても。それに適応していかなければ廃れるだけだ。それに適応しなかったものから、絵を描いて仕事をする、というポジションから脱落することになってしまう。

ちなみにAI生成なんかじゃなくて絵を描く楽しみを知るべきだ！というのはお門違いである。

「自動調理鍋を使わずじっくり数時間かけて煮込んでこその料理だ！」「一瞬の風景を何時間も掛けて描くことに意味があり、写真なんて偽物だ！」「ピアノを習ったことないやつがデジタルで曲を作るな！」とは誰も言わないだろう。求めてるものがそもそも違うのだ。じっくり料理をすることに、じっくり観察して絵を描くことに、楽しみを見出す人がその手段を選べばいい。生成AIで絵を出力することが「絵を楽しんでいない」とイコールにはならない。もちろん主張したい気持ちも伝えたいことも一定の理解はある。だがこれを読む貴方だって「音楽とはホールの生演奏を聴いてこそすべてだ」と言われても困るだろう。そうじゃない、手軽なものはいくらだってあっていいのだ。そうやって多くの人間が手軽に楽しめるようになることが文化の発展であり、先人たちが作ってきた成果なのだ。

だから生成AIでイラストレーターの仕事が奪われるとか、そういうデマは少し落ち着いた方が良い。もしこれからも絵を描く仕事を続けていきたいなら、どうやって生成AIと共存していくか、それを考えてみてほしいと思うよ。学習を「無断学習」とか「窃盗」とかいうのも、考え直した方がいい。情報社会はデータの集積で成り立つ社会である以上、収集されるのは貴方たちのイラストに限らない。すべてだ。検索履歴・ワードすら貴方たちのデータはデータベースに集積されている。それが嫌なら電子世界から手を切れ。ネット回線を閉ざした山奥に籠れ。便利な通販があるのも、いつでも繋がれるSNSやアプリがあるのも、そういう情報解析の技術の末のもので、我々がいるのはそういう社会なんだよ。

とはいえ、生成AIによる成果物の取り扱いについては早く文化庁が結論を出してある程度法規制してほしいとも思うよ。悪用する人間はどんな技術に対してもどこにでもいるからね。あと、生成AI イラストと声優業界の生成AIボイスの問題は別物だと思ってるぞ。あれは声という一個人の尊厳の侵害に障る部分が多いからな。言った言わないは千年前から現在に至るまで人間の問題になる議論だから慎重に取り扱わなければいけないと思う。刑事犯罪立証に関わることもある部分だからね。ただ声帯を失くした人への補助AIとかはどんどん発展してほしいね。

以上、11/15を前にした人間のぼやきでした。

Permalink | 記事への反応(1) | 15:24

2024-11-12

■「機械学習されないための加工」は画像の価値を減らすものばかり問題

・robots.txtなどでWeb クローラーに避けてもらう

・パスワード付きページなので条件が揃わないと外部からアクセスできないようにする

・画像の中にサインを入れておいて機械学習側の誤爆を狙う

・画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする

・画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)

・スクレイピング対象から避けやすくするため長辺を256px未満にする←New！

上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像を劣化させる方向にばかり頭を使っている印象。

仮にそれで機械学習の対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。

＝＝＝＝＝

2024/11/13追記：

そう言えば、コピープロテクトのせいで正規ユーザーが被害を被る、って話は昔からあったね。

CDのリッピングは容易で法的にもセーフだけど、そのせいでCCCDとかいう特級呪物が産まれたし。

ただ、正規ユーザーが被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン。

でも、無償公開分……収益は考慮しない趣味絵のようなものにまでウォーターマークを適用するのは (正規ユーザーも被害を受けるので) よろしくない。

逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像にウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。

Permalink | 記事への反応(3) | 20:22

2024-10-13

■

生成AI 推しならさぁ！

マークダウンで書いてるドキュメントをさぁ！

zip 圧縮してさぁ！

配布してくれたってさぁ！

いいじゃないの・・・

RAG用にせこせこスクレイピングするのめんどいねん

Permalink | 記事への反応(0) | 06:24

2024-10-06

■anond:20241006124414

スクレイピングやってない

Permalink | 記事への反応(0) | 15:27

2024-09-29

■【令和最新版】令和のWeb スクレイピング(クロール)【ベスト プラクティス】

18歳社長か...無邪気な優秀さは怖い

我々おっさんの無言ブクマ多いように、

「実際にはスクレイピングは皆やってるけど、顕名や会社名でおおっぴらにノウハウを書いていい技術でもない」

という温度感はよく考えるとバカバカしいことはバカバカしいよな...

Permalink | 記事への反応(0) | 02:57

2024-09-17

■anond:20240917090751

ニュースサイトってクラウドフレアでスクレイピング対策してるところ多くない？

Permalink | 記事への反応(0) | 09:56

■

世間には自分にとって必要のないニュースと話題が多いのは周知の事実だが、

ニュースサイトが自分用にしてくれるわけでもないので（そういうサービスもあるそうだが）

pythonとChatGPTで作った。

BeautifulSoupでスクレイピングして、

外部txt ファイルにNGワードを書いておいて、

NGワードに引っかかったトピックを削除してHTMLで書き出し。

Permalink | 記事への反応(1) | 09:07

2024-09-16

■anond:20240916115656

それ半分嘘。

ウェブ開発でスクレイピング程度だとちょっと勉強すればできるので最低時給程度しかもらえない。

プログラミングの概念と構造化設計、デザインパターン、英語でかかれたAPI ドキュメントの読み込み、基本的なアルゴリズムとデータ構造の勉強なんてサルでもできる。

Permalink | 記事への反応(0) | 12:01

2024-09-05

■anond:20240905115050

たいていのお客さんは無料でfreeeを使うし、国税のサイトで簡単な申告ならただでできるんで株価は上がらないぞ

freeeが無料のお客さん限定で広告を出すなら話は別だが、タイミングと内容が難しいだろうなあ…

スクレイピングの待ち時間とか画面遷移待ちにユーザーがイライラしない広告を出すなら話は別だが、広告を出すために画面遷移を遅くしたとかやるとプロダクトの改悪と受け取られかねない

Railsを使ってるなら、テンプレートエンジンみたいなのがあるんで、広告のタグを埋め込むのはそう難しい話でもないんだが、UX デザインがマジで地獄

Permalink | 記事への反応(1) | 12:01

■anond:20240904032316

anond:20240904032316についてたブクマカの初めて買ったCDのリリース年を調べた。

スクレイピング

Chromeのコンソールから

for (let a of document.body.getElementsByClassName('entry-comment-text js-bookmark-comment')) console.log(a.textContent)

ってやってテキスト集める。

AIにリリース年を教えてもらう

Microsoft Copilotに「以下の文章に出てくる、音楽CDのタイトルとリリース年を一覧で表にしてください。」って指示。

タイトル	リリース年
パンチ・ザ・クロック (エルヴィス・コステロ)	1983年
ハイ・ランド、ハード・レイン (アズテック・カメラ)	1983年
TSUNAMI (サザンオールスターズ)	2000年
ロケット団よ永遠に (ポケモン)	1998年
パラダイス銀河 (光GENJI)	1988年
さよなら人類 (たま)	1990年
SUPER BEST II (CHAGE&ASKA)	1992年
LOVEマシーン (モーニング娘。)	1999年
treasure (B’z)	1998年
pleasure (B’z)	1997年
POP LIFE (JUDY AND MARY)	1998年
F-ZERO GX サウンドトラック	2003年
Chicago 17 (Chicago)	1984年
Wind Climbing ～風にあそばれて～ (奥井亜紀)	1997年
バロック音楽集	不明
季節がいく時 (SPEED)	1999年
天外魔境 (ゲーム)	1989年
旅人のうた (中島みゆき)	1995年
ドリーム・シフト (地球防衛組)	1991年
INNOCENT SORROW (abingdon boys school)	2006年
カルトグラススターズ (ミッシェルガンエレファント)	2000年
悪の華 (BUCK-TICK)	1990年
風が通り抜ける街へ (ZARD)	1993年
My Little Lover	1995年
globe	1996年
小松未歩ファーストアルバム	1997年
愛の言霊 (サザンオールスターズ)	1996年
そばかす (JUDY AND MARY)	1996年
中村めいこ	不明
ポケットモンスター赤緑 BGM 音源集	1997年
TWO-MIX TRUTH	1996年
Wind Climbing ～風にあそばれて～ (魔法陣グルグル)	1997年
ジュラシックパークサウンドトラック	1993年
After Burner サウンドトラック (SEGA)	1987年
Love Wing (ハミングバード)	1993年
super best 2 (CHAGE&ASKA)	1992年
中山美穂 8cmCD シングル	不明
C-Girl (浅香唯)	1988年
天晴 (サディスティック・ミカ・バンド)	1974年
Hi! (光GENJI)	1988年
CAROL (TM NETWORK)	1988年
DORA THE BEST (ドラえもん)	1999年
がじゃいも	1997年
美少女戦士セーラームーン～In Another Dream	1992年
交響曲ドラゴンクエストIV 導かれし者たち N響版	1990年
ポケモン言えるかな	1997年
dear (大江千里)	1989年
めずらしい人生 (KAN)	1990年
BECAUSE (有頂天)	1986年
スーパーゼビウス 12inchEP (細野晴臣)	1984年
ZUTTO (永井真理子)	1990年
愛は勝つ (KAN)	1990年
クラシック CD (100円ショップ)	不明
ブルーハーツファーストアルバム	1987年
I’m Here (小比類巻かほる)	1988年
微笑みの爆弾 (幽遊白書)	1992年
くじら 12号 (JUDY AND MARY)	1996年
無罪モラトリアム (椎名林檎)	1999年
愛のままにわがままに僕は君だけを傷つけない (B’z)	1993年
WORST (聖飢魔II)	1990年
BADDEST (久保田利伸)	1989年
Delight Slight Light KISS (松任谷由実)	1988年
リフレインが叫んでる (松任谷由実)	1988年
Gift for Fanks (TM NETWORK)	1987年
もっと強く君を抱きしめたなら	1994年
Che Che-Bye Bye (種ともこ)	1991年
負けないで (ZARD)	1993年
愛と虐殺の日々 (聖飢魔II)	1991年
ペットショップボーイズ	1986年
機動戦士Zガンダムオリジナルサウンドトラック	1985年
マルコじいさん (さねよしいさこ)	1995年
めざせポケモンマスター	1997年
淋しい熱帯魚 (Wink)	1989年
キャロル (TM NETWORK)	1988年
幽遊白書ミュージックバトル編	1993年
蜘蛛の糸 (筋肉少女帯)	1990年
Winners (サイバーフォーミュラー)	1991年
だんご3兄弟	1999年
Achtung Baby (U2)	1991年
faith (George Michael)	1987年
ダイアモンド (プリンセスプリンセス)	1989年
The very best of Unicorn	1993年
ALFEE GOLD (ALFEE)	1985年
そして伝説へ (鴻上尚史)	1986年
マシンガンズの集い (SEX MACHINEGUNS)	1998年
FF4 アレンジミニアルバム	1991年
ブルーウォーター (森川美穂)	1990年
鉄骨飲料	1990年
SPY (槇原敬之)	1994年
尾崎家の祖母(3) (まりちゃんズ)	1977年
TIME (REBECCA)	1986年
もう一度TENDERNESS	1995年
HIGH LANDER (爆風スランプ)	1989年
空耳の丘 (遊佐未森)	1990年
Yellow Yellow Happy (ポケットビスケッツ)	1996年
リッジレーサー2 サウンドトラック	1994年
フラッシュパパメンソール (電気グルーヴ)	1995年
さよなら人類 (たま)	1990年
倉木麻衣のアルバム	不明
カルミナ・ブラーナ (輸入盤)	不明
スキャットマン (Scatman John)	1994年
白い雲のように (猿岩石)	1996年
幽☆遊☆白書オリジナルサウンドトラックVol2～魔界の扉編～	1994年
ヴェルディ川崎の応援歌	不明
ShinWeAre (BoA)	2003年
忘れない/風の住む星 (西脇唯)	1995年
ヴィヴァルディの四季	不明
田園 (小学館「クラシック・イン」)	不明
ゼルダの伝説風のタクトオリジナルサウンドトラック	2003年
MUSIC from HYDLIDE3	1987年
君だけのTomorrow (ドロンズ)	1997年
松浦亜弥のアルバム	不明
ドラクエのサントラ	不明
マンモスフラワー (フラワーカンパニーズ)	2000年
めざせポケモンマスター	1997年
ユグドラシル (BUMP OF CHICKEN)	2004年
マリオ RPG サウンドトラック	1996年
ファイナルファンタジーVII リユニオン・トラックス	1997年
Time to Destination (Every Little Thing)	1998年
ショパンのアルバム (アルゲリッチ)	不明
ここは春の国 (谷山浩子)	1988年
Valkyrie Notes (TONERICO)	2019年
Love Phantom (B’z)	1995年
夢 with you (三上博史)	1993年
夏の日の1993 (class)	1993年
いとしのエリー (サザンオールスターズ)	1979年
Round About Midnight (Miles Davis)	1957年
Gift for Fanks (TM NETWORK)	1987年
ez do dance (TRF)	1993年
イージューライダー (奥田民生)	1996年
ロマサガサウンドトラック	1992年
ドラクエ2 ドラマCD	1990年
DATE (岡村靖幸)	1988年
ETERNAL WIND (森口博子)	1991年
ARAKAWA魂 (荒川ラップブラザーズ)	2003年
愛の言霊 (サザンオールスターズ)	1996年
ドラゴンクエスト3 サウンドトラック	1988年
スモール・ワールド (ヒューイ・ルイス&ザ・ニュース)	1988年
HOME (Mr.Children)	2007年
trfのアルバム	不明
ガニ (とんねるず)	不明
暴動 (There’s a Riot Goin’ On) (Sly and the Family Stone)	1971年
カミワザ -dIvine works-	不明
シングルベスト10 おまけつき (シャ乱Q)	1997年
カウボーイビバップサウンドトラック	1998年
ガンダムF91 サウンドトラック (森口博子)	1991年
暴れだす (ウルフルズ)	1995年
団子3兄弟	1999年
エルドラド (THE ALFEE)	1997年
foo? (ポルノグラフィティ)	2001年
Until Strawberry Sherbet (林原めぐみ)	1997年
勇気のしるし～リゲインのテーマ～ (時任三郎)	1989年
いとしさと切なさと心強さと (篠原涼子 with t.komuro)	1994年
REVIEW (GLAY)	1997年
愛の言霊 (サザンオールスターズ)	1996年
ナイスビート (キンモクセイ)	2002年
Carol (TM NETWORK)	1988年
サン=サーンスのオルガン (マルティノン)	不明
銀河鉄道の夜 (細野晴臣)	1985年
ロード第二章 (THE 虎舞竜)	1993年
IT’S ONLY LOVE (福山雅治)	1994年
バザール3兄弟音頭	不明
さよなら人類 (たま)	1990年
フロムイエスタデイ (桑田佳祐)	1992年
アスタリスク (ORANGE RANGE)	2005年
ark (L’Arc~en~Ciel)	1999年
春よ、来い (松任谷由実)	1994年
ray (L’Arc~en~Ciel)	1999年
ポケモン言えるかな	1997年
ニーベルングの指環管弦楽曲集 (ショルティ/VPO)	1986年
minoru land (向谷実)	1986年
1stアルバム (人間椅子)	1990年
the great escape (JUDY AND MARY)	2001年
bluebird (浜崎あゆみ)	2006年
Variety (竹内まりや)	1984年
Watermark (エンヤ)	1988年
BEAT EMOTION (BOOWY)	1986年
ARAKAWA魂 (荒川ラップブラザーズ)	2003年
MYSELF ～風になりたい～ (徳永英明)	1991年
ひとりじゃない (DEEN)	1996年
ドリームハンター麗夢サウンドトラック	1985年
シンディ・ローパー	不明
Keep The Faith (Bon Jovi)	1992年
君がいるだけで (米米CLUB)	1992年
シェイク (SMAP)	1996年
決戦は金曜日 (DREAMS COME TRUE)	1992年
SelEVENTH MOON (FireBomber)	1995年
田園 (玉置浩二)	1996年
プロビジョン (スクリッティ・ポリッティ)	1988年
クラッシュ万事休す	不明
yellow yellow happy (ポケットビスケッツ)	1996年
STONED TOWN (akeboshi)	2004年
ナイトフォール・イン・ミドルアース (ブラインド・ガーディアン)	1998年
1st (ブルーハーツ)	1987年
FENCE OF DEFENSE III (FENCE OF DEFENSE)	1988年
カラクリハウス (レピッシュ)	1989年
just communication (two-mix)	1995年
マーラー交響曲7番「夜の歌」ロリン・マゼール指揮ウィーンフィル	不明
未来航路 (La’cryma Christi)	1997年
BELLS (吉田美奈子)	1986年
原子心母 (Pink Floyd)	1970年
プリパラのミュージックコレクション	不明
トラブル・イン・ヘブン (宇都宮隆)	1994年
Kiss me (氷室京介)	1992年
Past Masters1 (The Beatles)	1988年
super donuts (スターダストレビュー)	1990年
ザ・タイマーズ	1989年
LIFE (小沢健二)	1994年
FF5 サウンドトラック	1992年
踊るポンポコリン (B.B.クィーンズ)	1990年
イノセントマン (ビリー・ジョエル)	1983年
だんご3兄弟	1999年
ベト5＆シューベルト未完成 (カルロ・マリア・ジュリーニ)	不明
MAGIC OF LOVE (アニメ魔法陣グルグル)	1994年
ラグランジュポイントサウンドトラック	1991年

途中で切れたので分割する。続き→ anond:20240905115337

Permalink | 記事への反応(1) | 11:46

2024-08-15

■そんなに文句あるならもうGoogleニュースだけ見てたら？

自分で判断もできん連中がなんでもかんでもエコチェン認定しやがる

Xはエコチェン

5chはエコチェン

はてなはエコチェン

ヤフコメはエコチェン

個人サイトはエコチェン

そんなにエコチェンを回避したいならGoogleニュースみたいなコメント欄がないタイプのスクレイピングニュースサイトだけ見てたら？

文句言いながらそれぞれのサイトに張り付いてるのはお前だろ。

Permalink | 記事への反応(1) | 08:06

2024-08-05

■anond:20240805174429

ガチャ結果を提出して集計する有志の外部サイトとかがあれば

そんでそのガチャ結果がWebのガチャ履歴からスクレイピングしてこれるものであれば

捏造データの影響を無視できるという意味で、統計的に結果が操作されてないことは明らかにできてるな

要するにpaimon.moeとかstarrailstationみたいなやつよ

まあ大局的には操作されてないことが確からしいと言えるだけで

ユーザーの個別アカウントに対して確率操作が行われることがないという証拠は出しようがないけどね

まあそんな悪魔の証明みたいなことにこだわりすぎても仕方ない

Permalink | 記事への反応(0) | 22:19

2024-08-02

■データセットを100兆円にするとかなんとか言ってる絵描きども

自前でデータセットを作って販売したとして、学習されないよう保護されるのは

「そのデータセットのデータ」だけだぞ。

同じ絵をネットに発表していて、それがスクレイピングされて勝手にデータセットにされたとしたら、

それはもう別のデータセットなんだから、保護なんてされん。

もし、自分の絵を確実に保護したいなら、そのデータセットにしかその絵を含めず、かつ、クロールされたりしないようにパスワードなどで保護しないといけない。

もしネットなどで発表したら、勝手に学習されうるし、お前はそれに請求なんてできない。

なぜならお前のデータセットは誰も使ってないからだ。わかる？

つまりな、ネットに発表すれば全て学習されうるし、それをお前が止める手段は一切ないんだ。

言いたいことは分かる。

「じゃあ学習から保護するためにデータセット作れという文化庁の言ってることって、何の意味があるの？」

ない。何にもない。

あえて言えば、アホの目を逸らすため？

今後、法改正されない限り、学習を避ける方法はない。（LoRAのような集中学習を除く）

国は法改正するつもりがない。むしろ、どんどんAI利用を広げたがってる。

つまり、学習に関して、もう状況は詰んでるんだ。もう、この国では、全てのデータは生成AIの餌にしていいことになった。

ルールはもう変わった。もう一度それを変えようと努力するのも、変わったルールに適応するのも自由だが、

ただ感情的にゴネても、絶対勝ち目はなくなった。ルールが変わるってそういうことだ。

これから、どんどん、感情的に不満を言っている人たちの立場は悪くなる。

ルールが変わったからだ。しかも、新しいルールでのゲームに参加することを拒否しているから、

その新しいルールのもとでの恩恵を得ることもできないからだ。

これから先、どんどん利用が広がっていくAIを拒否し続けるのはしんどい人生になるぞ。

というかそんなのは不可能になるので、倫理的に不正をしていると感じながら生きることになる。

早めに、意識を切り替えた方がいい。それか、法改正に向けてのみ動くかだ。

それ以外の抗議活動は、「ルールに反対しているうるさい奴ら」という属性をつけてしまうだけだ。

可哀想だが、これが現実だ。

一つアドバイスだ。

さっさと、生成AIを使い倒せ。

どうせお前の絵が学習されたことによる効果なんて極小なんだ。そもそも学習されてない可能性すらある。

生成AIを使うことによる恩恵の方が、はるかにデカい。比較にもならない。

これまでのクリエイティブな経験と、生成AI 技術を掛け合わせろ。

単に生成AIを使うだけの素人より、いいクリエイトが生まれる可能性が高い。チャンスがある。

そうやって稼げ。どんどん作品を作って作って、作りまくれ。学習なんか気にするな。

繰り返す。もうルールは変わった。文字通り、法律が変わった。

学習されないことはもう無理だ。だから、恩恵をぶんどりにいけ。

Permalink | 記事への反応(0) | 09:54

2024-07-01

■PHPで書いたスクレイピングのコードをPythonで書き直そうとしたがうまくいかない

そもそも、ターゲットにはじかれたりみたいなトラブルもあるけど、なんかしっくり書けないな

意外とPHPはスクレイピングにも向いてると思ってる

Permalink | 記事への反応(1) | 06:07

2024-06-23

■公共料金のアプリ

公共料金の利用量や調整金とか自動で取って統計を取りたい

が、軒並みAPIが無くて悲しい

スクレイピングでやればできるのだけど、それ、なんか違うと感じるのだよな

Permalink | 記事への反応(0) | 16:25

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (6)

データの壁

これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。

フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプである Common Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である（例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる）。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。

データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック（16回の繰り返し）の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの（効果的な）計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ：ダリオ・アモデイ（Anthropic社CEO）は最近、ポッドキャストでこう語った：「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。

インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法（限られたデータからより多くのことを学べるようにするアルゴリズムの改良）を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい：

現代のLLMが訓練中に行うことは、基本的に、教科書を非常に素早く読み飛ばすことであり、単語はただ通り過ぎていくだけで、それに頭を使うことはあまりない。
そうではなく、あなたや私が数学の教科書を読むときは、2、3ページゆっくり読み、その内容について頭の中で独白し、何人かの勉強仲間と話し合う。
あなたや私も、もしLLMのように、密度の濃い数学の教科書をさらっと読むだけなら、そこから多くを学ぶことはできないだろう。
しかし、限られたデータからモデルがより多くのことを学べるようにするために、人間がどのように密度の高い数学の教科書を消化するかを取り入れる方法があるのかもしれない。単純化すれば、このようなこと、つまり、教材について内部で独白すること、勉強仲間と議論すること、理解できるまで問題に挑戦して失敗することが、多くの合成データ／セルフプレイ／RLアプローチがやろうとしていることなのだ。

モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力（そして多くの失敗プロジェクト）が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去 10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。

さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ（例えば、難しい科学的問題に取り組む人々の推論チェーン）ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。

AlphaGo（囲碁で世界チャンピオンを破った最初のAI システム）を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。

ステップ1では、AlphaGoは熟練した人間の囲碁の対局を模倣して学習させた。これで基礎ができた。
ステップ2では、アルファ碁は自分自身と何百万もの対局を行った。イ・セドルとの対局での有名な37手目を思い出してほしい。極めて珍しい、しかし人間には決して打てない見事な手だ。

LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である（さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう）。

以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう）。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。

余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた）。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。）