「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2024-11-16

anond:20241116154222

AIスクレイピングした画像をそのまま学習してる訳じゃなくて前処理が必要

その前処理はアルゴリズムでやったり人間様がやったりするわけ

これまでも何十万枚もの意図しない妨害画像クオリティが低い等)があったけど性能は上がってるので意味はない

2024-11-15

絵描きへ 海外の怪しいAI学習対策をするくらいなら素直にクリスタ使え

素直にクリスタノイズ使っとけ

https://tips.clip-studio.com/ja-jp/articles/9585

あと手書きサインつけとけ

これはAI学習対策というより無断使用対策

ウォーターマークを入れるなら元絵が分からいくらいがっつりいけ(半透明にしない)

それは最早透かしと呼んでいいのか分からないが

 

そもそもスクレイピングされたくない、人間だけに絵を見せたいならMisskeyやたいっつーやくるっぷに行ってフォロワー限定公開にすれ

全体公開にしてスクレイピングされたくないってのは不可能

よりによって鍵垢もないフォロワー限定公開もないログイン限定にしてもデータが拾えるBlueskyに移動するなんてどうかしてるよ

誰だよBlueskyなら安全だと最初に言ったやつ

 

以上絵描きより

anond:20241115000009

移住先のブルースカイAI学習に対して何の対策もしてないか第三者悪用され放題のノーガード状態なのに対して

TwitterはGrokにAI学習使用されなくなるよう設定できるし、API有料でスクレイピングクローラーもばっちり対策してるからむしAI学習に対してはどこのSNSよりも強固に守られてるんだよね

まさにワクチンよりもノーマスクを選ぶ陰謀論者と同じことしてるんだよこの馬鹿どもは

2024-11-14

イラストAI学習妨害機能って完全に逆効果じゃない?

AI学習妨害機能って手書きイラスト描いてる人しかかけないじゃない?AI生成イラストにかけてる人見たこと無い。

これって絵師がわざわざ絵の品質落として手書き証明付与してるようなものだよね。

学習妨害がかかってるか検知できれば一発で手書きイラストだけフィルタできるわけで。

スクレイピングやすいBlueskyやMisskeyに移住しているのも含め、いまの絵師って生成AI作っている人に協力的な行動ばかりしてるよね。

生成AIの拡大でイラストレーターの行く末ってほんとうに危ういの?

結論から言うが、生成AIが広まることによってイラストレーターを含めた絵を描く人間(面倒なので以降まとめて絵師と略す)の需要価値も損なわれることは決してないし、恐らく寧ろ向上する。ただし一部の層のみ。

最近話題の生成AI、いわゆるクリエイター界隈ではあっちらこっちらで話が広がって、しかも誤解や間違いもどんどん広まって、いったいどうしたことかと混迷を極めている。見る人が見れば本当に面白い状況だろう。加えてXの唐突規約変更(と誤解されている)で投稿画像が無断学習されると騒ぎになり、SNSは今や群雄割拠戦国時代みたいになっている。自分もXのフォロワーがやれブルースカイクロスフォリオに移行するやら、今後のイラストはすべてポイぴくを挟むやら、創意工夫をもってAI学習の手から逃れようとしているのを眺めていた。

これらの行為率直に言って、無駄だなと思う。無駄ではないがあんまり成果の出る行動ではないな、と思う。むしろAI学習から逃れられない上にインプレッションが下がるだけなのでどちらかというと損失の方が大きいだろう(人はURLタップして新規ページにアクセスするという一手間をとんでもなく惜しむ、自分画像直貼りなら見る絵も、URLクリックになった場合サムネが余程好みでない限りほぼ100%見ない。これについては論文出てるから興味ある人は読んでみるのをお勧めする)

まずこの情報社会インターネットという大きな箱において、データ収集されないで済むものの方が少ない。基本インターネットに上げた時点ですべて情報社会の餌になると考えた方が逆に健全だ。デジタルタトゥーとか言うだろ、使い方も意味も違うが、構造自体はほぼそれと同じだ。原則として「セキュリティ保護パスワード認証)のないデータはすべて学習対象となる」と考えた方が良い。これはインターネットという性質を考えれば自明の理だ。AIスクレイピングを阻害するプラットフォームに上げたとて、基本人が自由アクセス出来るのにAI学習出来んわけなかろう。人間自由に見れるものAI自由に見れる。これが基本原則であることを分かってない人が多すぎる。勿論サーバーAI学習を阻害する設定を相当しっかりやっていればだいぶ軽減はされるが、まあ最終的にアクセス出来れば学習は出来る。これは変わらんと考えておいた方がいい。むしろXはAPI制限などをbot対策などを相当労力掛けてやったので(ユーザーからは不満たらたらだったが)そういう意味ではAI学習対策がなされている方だとも言う考え方もあるようだ。X自体学習は防げなくても、X外から学習は防げるからなあ。こればっかりは何を良しとするかだけど。

話がそれた。


まあそうやって他SNSに移行しようとどうしようと基本的に生成AIから学習は逃れられないし、それはインターネットという情報社会性質上仕方のないことだといえる。まあ仕方ないという理由で諦められないか絵師の一部はみんな怒ってるのかもしれないが。ただひとつ間違えないでほしいんだが、そもそも学習して誰しもクオリティの高い画像が出力出来るようになるのは悪いことじゃない。これは学習が法的権利として制限されていないからだとかそういう小難しい話をしたいのではなく、単純な社会全体としての話だ。



「”一部の人しか出来なかったもの”が、簡単ちょっとの手間で”皆が出来るようになる”のはいいことだ」



というのが人間社会基本的原理原則からだ。

レトルト時短料理なんて最たるものだろう。ホテルシェフ時間かけて、時には数日かけて作っていた料理が、かつて圧力鍋、今では自動調理鍋なんてもので似たようなクオリティが一瞬で誰でも出来る。材料入れてボタン押すだけ。シェフ監修がいわゆる偏向学習LoRAだとするなら、自動調理鍋や圧力鍋が生成AIに当たる部分だ。この例えに色々モノ申すところはあるだろうが、細かいところが問題なのではなく、論旨は「誰にでも出来るようになるのは社会にとって絶対的”正”だ」ということだ。

この視点において、この先も生成AIが大きく制限されることは恐らくない。だって社会にとって悪いことではないからだ。かつて裕福な家庭しか画家を雇い自画像を残せなかった時代が、技術の発展でカメラが生まれカメラも高価で専門職に頼む必要があったものが、インスタントカメラになって世間の多くに普及し、絵の具や鉛筆がなきゃ美術を成しえなかった人たちが、パソコンペンタブという十万程度の投資無料Youtubeを見て誰もが絵を描ける環境を整えられるようになった。お金が無くても、技術が無くても、環境が無くても、苦労が無くても「出来る」ということは、社会にとってはその社会技術熟成した証拠でありその結実でもある。人間はそういう歴史を積み重ねて文化を発展させてきたのだ。そういう意味において、生成AIの在り方は正しいと言える。

ただし、ただしだ。

ただ、それでは絵師たちは自分たちの努力が無価値と感じ、自分たちの成果が使い潰されていると感じるだろう。仕事は取られ、搾取されるだけ搾取され捨てられてしまうんだ、と。もうここまでの文を読んで反AI人間は多くが読むのをやめたと思うが続ける。本当にそうだろうか。本当に絵師たちはそんな無価値ものなのだろうか、と思う。

結論を言う。そんなことはない。

だってみんな圧力鍋で美味しいビーフストロガノフを作れるようになったらお店で出るビーフストロガノフは売れなくなるのか。みんな簡単に手軽にスマホ写真が撮れるようになったら、写真家の仕事は無くなるのか。無くならないだろう? 無くならないんです。写真という技術が生まれてなお、未だに筆を執ってキャンバスに写実風風景画を描き続けてる画家がいてその作品が売れているように、どれだけ高精度の生成AIによって高クオリティの絵が乱立しようと絵師と呼ばれる人たちの生み出すオリジナルイラスト価値が損なわれることはないんです。

ただ、弱肉強食とも言える淘汰は発生するだろう。「淘汰」とは即ち、プロとしてのクオリティレベルの向上を指す。単純に言えば、これまでのようにちょっと絵を描いてお小遣い稼ぎみたいのは出来なくなる。なぜならそのレベルなら生成AIいくらでも個人作成出来るようになるからだ。写真家が普通風景写真を売ろうとしても売れないように、イラストもただ絵がちょっとうまいだけでは売れなくなる。プロに頼むからにはプロクオリティを求められる。

ここまで読んで気付いた方もいるかもしれない、特にプロとして第一線で働いているイラストレーターの方。

別に普通に……これまでもそうだったのではないだろうか?

そうなのだプロであり技術があるほど、生成AIがあろうとこれまでと変わらないのだ。

生成AIは少し見れば分かる通り、とにかくコンセプトアートに弱い。「猫耳娘」とか「セーラー服美少女」とか汎用的なお題ならいくらでも出力出来るが、「猫耳娘のイヤリング彼女が猫の頃を彷彿とさせる飼い主の想い出の品がモチーフになってる」とか「セーラー服美少女の足元には好きな人との思い出の公演が映っており、画面に添えられた花言葉ふたりのこれから関係を暗示している」などといった、「一枚絵でドラマを読み解かせる」という構造がとにかく不得意だ。生成AI構造と成り立ちを考えればそれは至極当然だ。AIにとってイラストドット単位の色の集合体であり、そこに意味はない。そこに意味を感じるのは人間であり、読み取るのが観客であり、読み取りやす指向的にドラマを仕込むのがイラストレーターと呼ばれる絵を描く人間仕事だ。

からこそむしろイラストレーターはより重宝され、求められることになる。人間ドラマストーリーに魅力を感じる生き物だ。そういう意味で、どれだけクオリティが高かろうと、重要な場面でのイラストは現状絶対AIに任せられない。色んなジャンルでよくある「周年絵」であれば、これまでのドラマや記念コンセプトをふんだんにあしらいたいだろう。こういうものこそイラストレーターに任せていくようになる。

もちろん、そういったコンセプトを生成AI表現できないのは「現状」の話だ。時代は変わる。コンピューターの普及、スマートフォンの普及で情報社会レベルが格段に変わったように、やがて生成AIもコンセプトアートをきちんと表現していく時代も生まれるだろう。もう十年は先の話だろうが、ただ十年後はそうなるかもしれない。それにはもう少し時間が掛かる。それまでに絵師としてのポジションをどう確立させていくかは、今現在絵を描いている人間に求められている課題だ。そんな課題と向き合うことなくこれまで通りの世界イラストを描き続けたいというのは、残念ながらただの停滞思考に過ぎない。時代は変わる。どう足掻いても。それに適応していかなければ廃れるだけだ。それに適応しなかったものから、絵を描いて仕事をする、というポジションから脱落することになってしまう。




ちなみにAI生成なんかじゃなくて絵を描く楽しみを知るべきだ! というのはお門違いである。

自動調理鍋を使わずじっくり数時間かけて煮込んでこその料理だ!」「一瞬の風景を何時間も掛けて描くことに意味があり、写真なんて偽物だ!」「ピアノを習ったことないやつがデジタルで曲を作るな!」とは誰も言わないだろう。求めてるものそもそも違うのだ。じっくり料理をすることに、じっくり観察して絵を描くことに、楽しみを見出す人がその手段を選べばいい。生成AIで絵を出力することが「絵を楽しんでいない」とイコールにはならない。もちろん主張したい気持ちも伝えたいことも一定の理解はある。だがこれを読む貴方だって音楽とはホール生演奏を聴いてこそすべてだ」と言われても困るだろう。そうじゃない、手軽なものはいくらだってあっていいのだ。そうやって多くの人間が手軽に楽しめるようになることが文化の発展であり、先人たちが作ってきた成果なのだ

から生成AIイラストレーター仕事が奪われるとか、そういうデマは少し落ち着いた方が良い。もしこれからも絵を描く仕事を続けていきたいなら、どうやって生成AI共存していくか、それを考えてみてほしいと思うよ。学習を「無断学習」とか「窃盗」とかいうのも、考え直した方がいい。情報社会データの集積で成り立つ社会である以上、収集されるのは貴方たちのイラストに限らない。すべてだ。検索履歴ワードすら貴方たちのデータデータベースに集積されている。それが嫌なら電子世界から手を切れ。ネット回線を閉ざした山奥に籠れ。便利な通販があるのも、いつでも繋がれるSNSアプリがあるのも、そういう情報解析の技術の末のもので、我々がいるのはそういう社会なんだよ。

とはいえ、生成AIによる成果物の取り扱いについては早く文化庁が結論を出してある程度法規制してほしいとも思うよ。悪用する人間はどんな技術に対してもどこにでもいるからね。あと、生成AIイラスト声優業界の生成AIボイスの問題は別物だと思ってるぞ。あれは声という一個人尊厳侵害に障る部分が多いからな。言った言わないは千年前から現在に至るまで人間問題になる議論から慎重に取り扱わなければいけないと思う。刑事犯罪立証に関わることもある部分だからね。ただ声帯を失くした人への補助AIとかはどんどん発展してほしいね


以上、11/15を前にした人間ぼやきでした。

2024-11-12

機械学習されないための加工」は画像価値を減らすものばかり問題

robots.txtなどでWebクローラーに避けてもらう

パスワード付きページなので条件が揃わないと外部からアクセスできないようにする

画像の中にサインを入れておいて機械学習側の誤爆を狙う

画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする

画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)

スクレイピング対象から避けやすくするため長辺を256px未満にする←New!

上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像劣化させる方向にばかり頭を使っている印象。

仮にそれで機械学習対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。

=====

2024/11/13追記

そう言えば、コピープロテクトのせいで正規ユーザー被害を被る、って話は昔からあったね。

CDリッピングは容易で法的にもセーフだけど、そのせいでCCCDかいう特級呪物が産まれたし。

ただ、正規ユーザー被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン

でも、無償公開分……収益考慮しない趣味絵のようなものにまでウォーターマーク適用するのは (正規ユーザー被害を受けるので) よろしくない。

逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像ウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。

2024-10-13

生成AI推しならさぁ!

マークダウンで書いてるドキュメントをさぁ!

zip圧縮してさぁ!

配布してくれたってさぁ!

いいじゃないの・・・

RAG用にせこせこスクレイピングするのめんどいねん

2024-09-29

【令和最新版】令和のWebスクレイピング(クロール)【ベストプラクティス

18歳社長か...無邪気な優秀さは怖い

我々おっさん無言ブクマ多いように、

「実際にはスクレイピングは皆やってるけど、顕名会社名でおおっぴらにノウハウを書いていい技術でもない」

という温度感はよく考えるとバカバカしいことはバカバカしいよな...

2024-09-17

世間には自分にとって必要のないニュース話題が多いのは周知の事実だが、

ニュースサイトが自分用にしてくれるわけでもないので(そういうサービスもあるそうだが)

pythonとChatGPTで作った。

BeautifulSoupでスクレイピングして、

外部txtファイルNGワードを書いておいて、

NGワードに引っかかったトピックを削除してHTMLで書き出し。

2024-09-16

anond:20240916115656

それ半分嘘。

ウェブ開発でスクレイピング程度だとちょっと勉強すればできるので最低時給程度しかもらえない。

プログラミング概念構造設計デザインパターン英語でかかれたAPIドキュメントの読み込み、基本的アルゴリズムデータ構造勉強なんてサルでもできる。

2024-09-05

anond:20240905115050

たいていのお客さんは無料でfreeeを使うし、国税サイト簡単な申告ならただでできるんで株価は上がらないぞ

freeeが無料のお客さん限定広告を出すなら話は別だが、タイミングと内容が難しいだろうなあ…

スクレイピングの待ち時間とか画面遷移待ちにユーザーイライラしない広告を出すなら話は別だが、広告を出すために画面遷移を遅くしたとかやるとプロダクトの改悪と受け取られかねない

Railsを使ってるなら、テンプレートエンジンみたいなのがあるんで、広告タグを埋め込むのはそう難しい話でもないんだが、UXデザインマジで地獄

anond:20240904032316

anond:20240904032316についてたブクマカの初めて買ったCDリリース年を調べた。

スクレイピング

Chromeコンソールから

for (let a of document.body.getElementsByClassName('entry-comment-text js-bookmark-comment')) console.log(a.textContent) 

ってやってテキスト集める。

AIリリース年を教えてもらう

Microsoft Copilotに「以下の文章に出てくる、音楽CDタイトルリリース年を一覧で表にしてください。」って指示。

タイトルリリース
パンチ・ザ・クロック (エルヴィス・コステロ)1983年
ハイランドハードレイン (アズテックカメラ)1983年
TSUNAMI (サザンオールスターズ)2000年
ロケット団永遠に (ポケモン)1998年
パラダイス銀河 (光GENJI)1988年
さよなら人類 (たま)1990年
SUPER BEST II (CHAGE&ASKA)1992年
LOVEマシーン (モーニング娘。)1999年
treasure (B’z)1998年
pleasure (B’z)1997年
POP LIFE (JUDY AND MARY)1998年
F-ZERO GX サウンドトラック2003年
Chicago 17 (Chicago)1984年
Wind Climbing ~風にあそばれて~ (奥井亜紀)1997年
バロック音楽不明
季節がいく時 (SPEED)1999年
天外魔境 (ゲーム)1989年
旅人のうた (中島みゆき)1995年
ドリームシフト (地球防衛組)1991年
INNOCENT SORROW (abingdon boys school)2006年
カルトグラススターズ (ミッシェルガンエレファント)2000年
悪の華 (BUCK-TICK)1990年
風が通り抜ける街へ (ZARD)1993年
My Little Lover1995年
globe1996年
小松未歩 ファーストアルバム1997年
愛の言霊 (サザンオールスターズ)1996年
そばかす (JUDY AND MARY)1996年
中村めいこ不明
ポケットモンスター赤緑 BGM音源1997年
TWO-MIX TRUTH1996年
Wind Climbing ~風にあそばれて~ (魔法陣グルグル)1997年
ジュラシックパーク サウンドトラック1993年
After Burner サウンドトラック (SEGA)1987年
Love Wing (ハミングバード)1993年
super best 2 (CHAGE&ASKA)1992年
中山美穂 8cmCDシングル不明
C-Girl (浅香唯)1988年
天晴 (サディスティック・ミカ・バンド)1974年
Hi! (光GENJI)1988年
CAROL (TM NETWORK)1988年
DORA THE BEST (ドラえもん)1999年
がじゃいも1997年
美少女戦士セーラームーン~In Another Dream1992年
交響曲ドラゴンクエストIV 導かれし者たち N響1990年
ポケモン言えるかな1997年
dear (大江千里)1989年
めずらしい人生 (KAN)1990年
BECAUSE (有頂天)1986年
スーパーゼビウス 12inchEP (細野晴臣)1984年
ZUTTO (永井真理子)1990年
愛は勝つ (KAN)1990年
クラシックCD (100円ショップ)不明
ブルーハーツ ファーストアルバム1987年
I’m Here (小比類巻かほる)1988年
微笑みの爆弾 (幽遊白書)1992年
くじら12号 (JUDY AND MARY)1996年
無罪モラトリアム (椎名林檎)1999年
愛のままにわがままに 僕は君だけを傷つけない (B’z)1993年
WORST (聖飢魔II)1990年
BADDEST (久保田利伸)1989年
Delight Slight Light KISS (松任谷由実)1988年
リフレインが叫んでる (松任谷由実)1988年
Gift for Fanks (TM NETWORK)1987年
もっと強く君を抱きしめたなら1994年
Che Che-Bye Bye (種ともこ)1991年
負けないで (ZARD)1993年
愛と虐殺の日々 (聖飢魔II)1991年
ペットショップボーイズ1986年
機動戦士Zガンダム オリジナルサウンドトラック1985年
マルコじいさん (さねよしいさこ)1995年
めざせポケモンマスター1997年
淋しい熱帯魚 (Wink)1989年
キャロル (TM NETWORK)1988年
幽遊白書 ミュージックバトル編1993年
蜘蛛の糸 (筋肉少女帯)1990年
Winners (サイバーフォーミュラー)1991年
だんご3兄弟1999年
Achtung Baby (U2)1991年
faith (George Michael)1987年
ダイアモンド (プリンセス プリンセス)1989年
The very best of Unicorn1993年
ALFEE GOLD (ALFEE)1985年
そして伝説へ (鴻上尚史)1986年
マシンガンズの集い (SEX MACHINEGUNS)1998年
FF4 アレンジミニアルバム1991年
ブルーウォーター (森川美穂)1990年
鉄骨飲料1990年
SPY (槇原敬之)1994年
尾崎家の祖母(3) (まりちゃんズ)1977年
TIME (REBECCA)1986年
もう一度TENDERNESS1995年
HIGH LANDER (爆風スランプ)1989年
空耳の丘 (遊佐未森)1990年
Yellow Yellow Happy (ポケットビスケッツ)1996年
リッジレーサー2 サウンドトラック1994年
フラッシュパパメンソール (電気グルーヴ)1995年
さよなら人類 (たま)1990年
倉木麻衣アルバム不明
カルミナ・ブラーナ (輸入盤)不明
スキャットマン (Scatman John)1994年
白い雲のように (猿岩石)1996年
幽☆遊☆白書 オリジナルサウンドトラックVol2~魔界の扉編~1994年
ヴェルディ川崎応援歌不明
ShinWeAre (BoA)2003年
忘れない/風の住む星 (西脇唯)1995年
ヴィヴァルディ四季不明
田園 (小学館クラシック・イン」)不明
ゼルダの伝説 風のタクト オリジナルサウンドトラック2003年
MUSIC from HYDLIDE31987年
君だけのTomorrow (ドロンズ)1997年
松浦亜弥アルバム不明
ドラクエサントラ不明
マンモスフラワー (フラワーカンパニーズ)2000年
めざせポケモンマスター1997年
ユグドラシル (BUMP OF CHICKEN)2004年
マリオRPG サウンドトラック1996年
ファイナルファンタジーVII リユニオントラック1997年
Time to Destination (Every Little Thing)1998年
ショパンアルバム (アルゲリッチ)不明
ここは春の国 (谷山浩子)1988年
Valkyrie Notes (TONERICO)2019年
Love Phantom (B’z)1995年
with you (三上博史)1993年
夏の日の1993 (class)1993年
いとしのエリー (サザンオールスターズ)1979年
Round About Midnight (Miles Davis)1957年
Gift for Fanks (TM NETWORK)1987年
ez do dance (TRF)1993年
イージューライダー (奥田民生)1996年
ロマサガ サウンドトラック1992年
ドラクエ2 ドラマCD1990年
DATE (岡村靖幸)1988年
ETERNAL WIND (森口博子)1991年
ARAKAWA魂 (荒川ラップブラザーズ)2003年
愛の言霊 (サザンオールスターズ)1996年
ドラゴンクエスト3 サウンドトラック1988年
モールワールド (ヒューイ・ルイス&ザ・ニュース)1988年
HOME (Mr.Children)2007年
trfアルバム不明
ガニ (とんねるず)不明
暴動 (There’s a Riot GoinOn) (Sly and the Family Stone)1971年
カミワザ -dIvine works-不明
シングルベスト10 おまけつき (シャ乱Q)1997年
カウボーイビバップ サウンドトラック1998年
ガンダムF91 サウンドトラック (森口博子)1991年
暴れだす (ウルフルズ)1995年
団子3兄弟1999年
エルドラド (THE ALFEE)1997年
foo? (ポルノグラフィティ)2001年
Until Strawberry Sherbet (林原めぐみ)1997年
勇気のしるし~リゲインテーマ~ (時任三郎)1989年
いとしさと切なさと心強さと (篠原涼子 with t.komuro)1994年
REVIEW (GLAY)1997年
愛の言霊 (サザンオールスターズ)1996年
ナイスビート (キンモクセイ)2002年
Carol (TM NETWORK)1988年
サン=サーンスオルガン (マルティノン)不明
銀河鉄道の夜 (細野晴臣)1985年
ロード第二章 (THE 虎舞竜)1993年
IT’S ONLY LOVE (福山雅治)1994年
バザール3兄弟音頭不明
さよなら人類 (たま)1990年
フロムイエスタデイ (桑田佳祐)1992年
アスタリスク (ORANGE RANGE)2005年
ark (L’Arc~en~Ciel)1999年
春よ、来い (松任谷由実)1994年
ray (L’Arc~en~Ciel)1999年
ポケモン言えるかな1997年
ニーベルングの指環 管弦楽曲集 (ショルティ/VPO)1986年
minoru land (向谷実)1986年
1stアルバム (人間椅子)1990年
the great escape (JUDY AND MARY)2001年
bluebird (浜崎あゆみ)2006年
Variety (竹内まりや)1984年
Watermark (エンヤ)1988年
BEAT EMOTION (BOOWY)1986年
ARAKAWA魂 (荒川ラップブラザーズ)2003年
MYSELF ~風になりたい~ (徳永英明)1991年
ひとりじゃない (DEEN)1996年
ドリームハンター麗夢 サウンドトラック1985年
シンディ・ローパー不明
Keep The Faith (Bon Jovi)1992年
君がいるだけで (米米CLUB)1992年
シェイク (SMAP)1996年
決戦は金曜日 (DREAMS COME TRUE)1992年
SelEVENTH MOON (FireBomber)1995年
田園 (玉置浩二)1996年
プロビジョン (スクリッティ・ポリッティ)1988年
クラッシュ万事休す不明
yellow yellow happy (ポケットビスケッツ)1996年
STONED TOWN (akeboshi)2004年
ナイトフォール・イン・ミドルアース (ブラインド・ガーディアン)1998年
1st (ブルーハーツ)1987年
FENCE OF DEFENSE III (FENCE OF DEFENSE)1988年
カラクリハウス (レピッシュ)1989年
just communication (two-mix)1995年
マーラー交響曲7番「夜の歌」ロリン・マゼール指揮ウィーンフィル不明
未来航路 (La’cryma Christi)1997年
BELLS (吉田美奈子)1986年
原子心母 (Pink Floyd)1970年
プリパラミュージックコレクション不明
トラブル・イン・ヘブン (宇都宮隆)1994年
Kiss me (氷室京介)1992年
Past Masters1 (The Beatles)1988年
super donuts (スターダストレビュー)1990年
ザ・タイマーズ1989年
LIFE (小沢健二)1994年
FF5 サウンドトラック1992年
踊るポンポコリン (B.B.クィーンズ)1990年
イノセントマン (ビリー・ジョエル)1983年
だんご3兄弟1999年
ベト5シューベルト未完成 (カルロ・マリア・ジュリーニ)不明
MAGIC OF LOVE (アニメ魔法陣グルグル)1994年
ラグランジュポイント サウンドトラック1991年

途中で切れたので分割する。 続き→ anond:20240905115337

2024-08-15

そんなに文句あるならもうGoogleニュースだけ見てたら?

自分判断もできん連中がなんでもかんでもエコチェン認定しやがる

Xはエコチェン

5chはエコチェン

はてなエコチェン

ヤフコメエコチェン

個人サイトエコチェン

そんなにエコチェン回避したいならGoogleニュースみたいなコメント欄がないタイプスクレイピングニュースサイトだけ見てたら?

文句言いながらそれぞれのサイトに張り付いてるのはお前だろ。

2024-08-05

anond:20240805174429

ガチャ結果を提出して集計する有志の外部サイトとかがあれば

そんでそのガチャ結果がWebガチャ履歴からスクレイピングしてこれるものであれば

捏造データの影響を無視できるという意味で、統計的に結果が操作されてないことは明らかにできてるな

要するにpaimon.moeとかstarrailstationみたいなやつよ

まあ大局的には操作されてないことが確からしいと言えるだけで

ユーザー個別アカウントに対して確率操作が行われることがないという証拠は出しようがないけどね

まあそんな悪魔の証明みたいなことにこだわりすぎても仕方ない

2024-08-02

データセットを100兆円にするとかなんとか言ってる絵描きども

自前でデータセットを作って販売したとして、学習されないよう保護されるのは

「そのデータセットのデータ」だけだぞ。

同じ絵をネットに発表していて、それがスクレイピングされて勝手データセットにされたとしたら、

それはもう別のデータセットなんだから保護なんてされん。

もし、自分の絵を確実に保護したいなら、そのデータセットにしかその絵を含めず、かつ、クロールされたりしないようにパスワードなどで保護しないといけない。

もしネットなどで発表したら、勝手学習されうるし、お前はそれに請求なんてできない。

なぜならお前のデータセットは誰も使ってないからだ。わかる?

まりな、ネットに発表すれば全て学習されうるし、それをお前が止める手段は一切ないんだ。

言いたいことは分かる。

「じゃあ学習から保護するためにデータセット作れという文化庁の言ってることって、何の意味があるの?」

ない。何にもない。

あえて言えば、アホの目を逸らすため?

今後、法改正されない限り、学習を避ける方法はない。(LoRAのような集中学習を除く)

国は法改正するつもりがない。むしろ、どんどんAI利用を広げたがってる。

まり学習に関して、もう状況は詰んでるんだ。もう、この国では、全てのデータは生成AIの餌にしていいことになった。

ルールはもう変わった。もう一度それを変えようと努力するのも、変わったルール適応するのも自由だが、

ただ感情的にゴネても、絶対勝ち目はなくなった。ルールが変わるってそういうことだ。

これから、どんどん、感情的に不満を言っている人たちの立場は悪くなる。

ルールが変わったからだ。しかも、新しいルールでのゲームに参加することを拒否しているから、

その新しいルールのもとでの恩恵を得ることもできないからだ。

これから先、どんどん利用が広がっていくAI拒否し続けるのはしんどい人生になるぞ。

というかそんなのは不可能になるので、倫理的不正をしていると感じながら生きることになる。

早めに、意識を切り替えた方がいい。それか、法改正に向けてのみ動くかだ。

それ以外の抗議活動は、「ルールに反対しているうるさい奴ら」という属性をつけてしまうだけだ。

可哀想だが、これが現実だ。

一つアドバイスだ。

さっさと、生成AIを使い倒せ。

どうせお前の絵が学習されたことによる効果なんて極小なんだ。そもそも学習されてない可能性すらある。

生成AIを使うことによる恩恵の方が、はるかデカい。比較にもならない。

これまでのクリエイティブ経験と、生成AI技術を掛け合わせろ。

単に生成AIを使うだけの素人より、いいクリエイトが生まれ可能性が高い。チャンスがある。

そうやって稼げ。どんどん作品を作って作って、作りまくれ。学習なんか気にするな。

繰り返す。もうルールは変わった。文字通り、法律が変わった。

学習されないことはもう無理だ。だから恩恵をぶんどりにいけ。

2024-07-01

PHPで書いたスクレイピングコードPythonで書き直そうとしたがうまくいかない

そもそもターゲットにはじかれたりみたいなトラブルもあるけど、なんかしっくり書けないな

意外とPHPスクレイピングにも向いてると思ってる

2024-06-23

公共料金アプリ

公共料金の利用量や調整金とか自動で取って統計を取りたい

が、軒並みAPIが無くて悲しい


スクレイピングでやればできるのだけど、それ、なんか違うと感じるのだよな

2024-06-05

I.GPT-4からAGIへ:OOMを数える (6)

データの壁

これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピングデータでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。

フロンティアモデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークン学習された。LLMのトレーニング使用されたインターネットの多くのダンプであるCommon Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である(例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータ使用していることになる)。さらに、コードのようなより特殊領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubリポジトリは、数兆トークン推定されている。

データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック(16回の繰り返し)の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの(効果的な)計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズム改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ:ダリオ・アモデイ(Anthropic社CEO)は最近ポッドキャストでこう語った:「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近公表されていない。

インサイダー強気であることに加え、サンプル効率はるかに向上させたモデルトレーニングする方法(限られたデータからより多くのことを学べるようにするアルゴリズムの改良)を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学教科書からどのように学ぶかを考えてみてほしい:

モデルトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニング一般的パターンは、細部を正しく理解するためには多くの努力(そして多くの失敗プロジェクト)が必要だが、最終的には明白でシンプルもの機能するというものだ。過去10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。

さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在フロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ(例えば、難しい科学問題に取り組む人々の推論チェーン)ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベル計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。

AlphaGo囲碁世界チャンピオンを破った最初AIシステム)を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。

LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要研究課題であるさらに言えば、最終的には人間レベルの知能を超える鍵となるだろう)。

以上のことからデータの制約は、今後数年間のAI進歩予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう)。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデル能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。

余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端技術公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者オープンソースプロジェクトフロンティアと容易に競合できた)。現在では、主要なアルゴリズムアイデアますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソース競争するのがより難しくなるだろう。それは確かに物事面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。)

続き I.GPT-4からAGIへ:OOMを数える(7) https://anond.hatelabo.jp/20240605210017

2024-06-01

オキニ風俗嬢のために自己研磨

37歳のおっさんガチ恋してしまいました。

毎日筋トレ、週3で10kmランニングしています

夜はプロテインキウイのみ。

人気で予約がすぐ埋まるため、通知用のAndroidアプリを開発。

自宅PCでシティヘブンのサイトを1分毎にスクレイピング

出勤予定に変化があれば、Firebase Cloud Message送信

Androidアプリ側にプッシュ通知されてバイブレーションをし続けます

これで仕事中でもポケットの中で振動したらトイレに駆け込み、光の速さで予約できます

2024-05-28

anond:20240528234217

めちゃくちゃ変なレスしてしまった

増田を読み込ませるのは反応させるためじゃんね

APIorスクレイピング(許されるかはまだ調べてない)で、発言だけ切り取って、

自前のサーバに投げて、削除逃亡増田っぽい(要は偏屈な面がでたタイミング)で反応するかしないか判断をしてもらって

あとはツリーいかけて投げる

たどる部分は自前でさくっと書けばいいんじゃない?ってくらい

問題絶対明日には飽きているということ

ログイン ユーザー登録
ようこそ ゲスト さん