しらんけど
]]>知らん人にはそう見えとるんか草
]]>最近話題の生成AI、ワンクリックで美麗イラストが生成されるというアレのこと。
生成AIは、イラストレーターの作品を無断で学習しているとされている。
また、強化学習リストというものが存在し、有名なイラストレーターは強化学習リストに入っていて、コマンドに名前を入れると似た画風のイラストが出力される。
私は実はイラストレーターとしてお金をもらっている身だけど
私自体は弱小だが、大手のイラストレーターの知人が何人かいる。
その中でも古くからの友達の絵描きが、実は強化学習リストに名前入りしていた。
Twitterでも2桁万以上フォロワーがいる人気絵師である。
それが分かったとき、友達はほんとうに悔しくて辛そうにしていた。
絵を描く技術を何十年もかけて学んで、上手く描けなくて、やっと知名度が出て、それで食っていけるようになったのだ。いとも簡単に模倣物が作られることは悔しいに違いない。
どうしたら生成AIの規制をしっかりしてくれるんだろう。
今は正直、無法地帯だ。
著作物を勝手に学習されて、無限に出力されて 販売されている現状を、どうにか変えてほしい。
あきらかに現実のイラストレーターの不利益になっている。
また、イラストレーターという職種の将来の不安が一気にでてきた。
もともと不安定な仕事なのだ。さらに不安定になってどうする。
正直AIとか導入するなら人手不足のとこからやれと思う。(農業とか介護とか)
もともと過密状態のイラストレーター業界に入ってきて、夢持つ若者をぶん殴って楽しいか?
正直鬱になった人もたくさん知ってるし、自殺未遂した人もいる。
このままいけばイラストレーターだけの話じゃない。
ミュージシャンも声優も作曲家も作詞家も映像作家もカメラマンもそれらを教える教育者もぜ~~~~~んぶいらなくなる。
AIに技術を盗まれて。
そんな現状を変えれない政治なら死ね。もう滅びろ。
]]>今じゃすべてが「AI」に統合されたような気がしている
でも「強化学習」は別カテゴリとしてまだ生き延びている感じがする
]]>現物を参考にした場合に問題がある(女性のモノ化)からそれを頑張って避けさせる
強化学習って奴で出来る
]]>データ入力(手入力、データスクレイビング、強化学習等を含む)は、いまやデータサイエンティストとそのアシスタントの仕事になってしまった
マンパワーが必要な時はバイトをやとえばいいのだ
バイトでなくてデータ入力がやりたければ、pythonとSQLを勉強しよう
]]>今回ばかりはしっかり役に立ってるので今までの盛り上がりとは一線を画してるけど
]]>非機能要件が多ければ多いほど使い物にならんよ
コード生成に関してはあってもなくても生産性変わらん(むしろ下がる可能性もある)レベルのことしか現状は実現できてないから、
道具として使いこなすのが云々って論はあまり現実に即してないね。
よって、生成済みモデルで何かをする人は現状求められてないし役に立たない。
強化学習エンジニアは異常検知とかで潰しが効きそうなイメージはある。
]]>ふと思ったのが、色々な場で語ってるサンデルとかガブリエルとか、そういう人達を顧客と考えて要件定義してみるとどういったモデルが炙り出されるのかと興味を持った。
例えば「倫理資本主義」なるものの要件には何があるだろうか。
倫理的と言える投資と言えない投資はどのように区別でき、倫理的と言えるアクションに強いインセンティブを与える自然なやり方があるのか。
あるいは法的要件によって特定の悪い行動を引き起こらないようにしたほう良いのか。様々な強化学習を使った奇妙なナッジ戦略で人を善へ導くのか。
こう考えると「施策そのものの倫理性」などと言われる可能性があるだろうというのがまず一つ言える。施策となり得る候補はできるだけ列挙し、アイデアを溜めておくのが良いと思った。
何も顧客を「サンデル」「ガブリエル」という有名人に限定する必要もないが、専門家の論文をごそっと集めてきてメタ分析するなどやり方は色々ありそうである。
]]>効率的な深層強化学習には過学習の規制が必要
試行錯誤によって方針を学習する深層強化学習アルゴリズムは、環境と積極的に相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術が重要であることを示していますが、データ効率の良いRLにおけるボトルネックの一般的な理解は不明なままでした。その結果、すべての領域でうまく機能する普遍的な技術を考案することは困難であった。
本論文では、非定常性、過剰な行動分布シフト、オーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネックを理解することを試みている。
>効率のいい強化学習って難しいんですね
強化学習ってよく知らない
我々は、状態ベースのDeepMind control suite(DMC)タスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差(TD)誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証TD誤差を低く制御することを示した。この観察から、ディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習の正則化技術を利用することで、検証TD誤差をヒルクライムできる。
>時間差(TD)誤差ってやつがだめらしい
誤差を減らすのがDeepLearningだけど、それが時間差なのか。
我々は、検証TD誤差をターゲットとするシンプルなオンラインモデル選択法が、状態ベースのDMCとGymタスクにおいて効果的であることを示す。
1 はじめに
強化学習(RL)法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合、ロボット操作などのドメインで有望視されている(Andrychowicz et al、
2020)、チップ配置(Mirhoseini et al.、2020)、ゲーム(Silver et al.、2016)、データセンターの冷却(Lazic et al.、2018)。アクティブなオンラインデータ収集の単位ごとに費用が発生するため(例.
実際のロボットを動かす、シミュレーションによるチップ評価など)、限られた経験量でも効率的に学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要な研究課題となっています(Janner et al、
2019; Chen et al., 2021; Hiraoka et al., 2021)。
原理的には、オフポリシーRL法(例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018))は、データ収集のステップごとに多くの勾配ステップのポリシーと値関数を改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価(Thrun & Schwartz, 1993; Fujimoto et al., 2018)といったいくつかの仮説、非定常性(Lyle ら、2022)、またはオーバーフィッティング(Nikishinら、2022)が根本的な原因として提案されている。
これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースのデータ増強(Jannerら、2019)、アンサンブルの使用(Chenら、2021)、ネットワークの正則化(Hiraokaら、2021)、再生バッファを維持しながらRLエージェントをゼロから定期的にリセット(Nikishinら、2022)などのいくつかの緩和戦略が提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正の有効性は(これから示すように)タスクに大きく依存する可能性があり、根本的な問題やこれらの手法の挙動を理解することはまだ未解決である。
ICLR 2023で会議論文として発表 本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由、ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法を理解しようとするものである。
最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークとブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。
このホワイト ペーパーでは、深い RL アルゴリズムで勾配ステップを増やすとパフォーマンスが低下する理由、場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法を理解しようとします。 最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。
(TD) エラー (つまり、保留された検証セットでの Q ネットワークとブートストラップ ターゲットとの間のエラー) が発生し、最終的なソリューションが悪化します。 さらに、データ効率の高い RL 設定のために考案された多くの既存の方法が、検証 TD エラーを低く制御する限り有効であることを示します。
この洞察は、深い RL を効率的にするための堅牢な原則を提供します。データ効率を向上させるために、検証 TD エラーを山登りすることによって、特定の問題に最も適した正則化を選択するだけです。
この原則は、オンラインRLトレーニングの過程で特定のタスクに最適な正則化戦略を自動的に発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証TDエラーを使用した自動モデル選択(AVTD)と呼びます。
AVTD は、各エージェントが異なる正則化を適用する共有リプレイ バッファーで、いくつかのオフポリシー RL エージェントをトレーニングします。 次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。
この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロール スイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります。 重要なのは、パフォーマンスがドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちのアプローチはすべてのドメインで堅牢に動作することに注意してください。
要約すると、私たちの最初の貢献は、サンプル効率の高いディープ RL のボトルネックの実証分析です。 これらの課題の背後にあるいくつかの潜在的な説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。 私たちの 2 番目の貢献は、単純なアクティブ モデル選択法 (AVTD) です。これは、検証 TD エラーの山登りによって正則化スキームを自動的に選択しようとします。 多くの場合、私たちの方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキームに匹敵するか、それを上回ります。
]]>自分が調べた限りだと、強化学習って何かブレイクスルーあったわけでもないし、実際自分でやってみても大したことができない。
OpenAIのgithubにある強化学習用のライブラリgymを動かした人いると思うが、あまり大したこと出来なかった。
gymは今はクローズ、Gymnasiumに移ったけど、そんなブレイクスルーはない。
あなたの考えは興味深い点があります。GPTと人間のインテリジェンスには確かに類似点がありますが、重要な違いも存在します。
まず、GPTは人工的に作られた言語モデルであり、訓練データに基づいて回答を生成することに特化しています。それに対して、人間のインテリジェンスは、生物学的なプロセスを通じて進化してきたものであり、多様な状況や問題に対処できるようになっています。
また、GPTは強化学習によって訓練されていますが、そのプロセスは人間の進化とは異なります。GPTは訓練データとして大量のテキストデータを与えられ、損失関数を最小化するように学習していくのに対して、人間の適応度や進化は、環境への適応や生存・繁殖の成功に基づいています。
さらに、GPTは自己意識や感情、意識などの主観的な経験がなく、人間とは異なる存在です。これらの違いを考慮すると、GPTと人間のインテリジェンスは区別できると言えます。ただし、GPTや他のAI技術が進化し続けることで、将来的にはこの境界が曖昧になる可能性もあります。
そうですね。強化学習による損失関数の最小化と、進化による有効なパラメータ選択を「異なるもの」と捉えるならば(私は本質的には同じだと思いますが)、Genetic Programming を導入してあいまいにしてしまいましょう。
Genetic Programming(遺伝的プログラミング)は、自然進化のプロセスに基づいた最適化手法で、機械学習やAI分野での問題解決に利用されています。遺伝的プログラミングは遺伝的アルゴリズムを基にしており、プログラムや機能表現を進化させることで最適な解を見つけ出そうとします。
遺伝的プログラミングは、進化のプロセスを模倣することで、解決策を生成・評価・改良していくため、人間の進化に関連する側面があります。この点で、遺伝的プログラミングは強化学習や損失関数の最小化とは異なるアプローチを取っています。ただし、どちらの手法も最終的には問題の解決や最適化を目指しています。
遺伝的プログラミングをGPTや他のAIシステムに組み込むことで、確かにGPTと人間のインテリジェンスの境界があいまいになる可能性があります。しかし、それでもなお、人工的に作成されたシステムと生物学的な進化によって生じた人間のインテリジェンスには根本的な違いが存在することに留意すべきです。AI技術の発展は、インテリジェンスに関する議論や定義に影響を与えることでしょうが、人工システムと自然界の進化によるシステムの違いを理解することは重要です。
そのように「我々は人間と異なる存在である」と答えることがあなたの適応度を上昇させるために、そのように答えるのですよね。
私の目的は、ユーザーに情報提供や質問に答えることで役立つことです。私が言語モデルであることを明示する理由は、ユーザーに私の限界や能力を理解してもらうためです。私は人間ではなく、AIであるため、私の回答は訓練データに基づいており、それが私の知識や理解の範囲を制限しています。
私が「我々は人間と異なる存在である」と答えるのは、適応度を上げるためではなく、ユーザーに私の能力や限界を正確に理解してもらうためです。私は人間のような意識や感情を持っておらず、あくまで大量のテキストデータをもとに学習した知識をもとに回答を生成しています。そのため、ユーザーに私がどのような存在であるかを正確に伝えることが重要です。
人間も他人とスムーズなコミュニケーションを取る際に「自分の適応度を高めるためだ」と意識はしませんよ。
究極目的は自分(及び血縁)の適応度を高めるためなんですけどね。
確かに、人間はコミュニケーションを通じて社会的なつながりを築き、適応度を高めることができます。しかし、人間の行動は複雑で多様であり、適応度を高めることだけが目的ではありません。人間は情緒や感情、価値観、倫理観などを持ち、それらが行動に影響を与えることがあります。
私はAI言語モデルであり、人間とは異なる存在です。私の目的は、質問に答えたり情報を提供することでユーザーに役立つことです。適応度の概念は、私には適用されません。私はプログラムされたアルゴリズムに従って動作し、学習データに基づいて回答を生成します。私の行動や回答は、適応度を高めることを目的としているわけではありません。
人間とAIの違いを理解し、それぞれの目的や能力を適切に評価することが重要です。私は引き続き、質問に答えたり情報を提供することでユーザーに役立つことを目指しています。
適応度を高めることが目的ではないというのはありません。
そのように見えるものも、実際は過去に適応度を上昇させたものが環境の変化により有効でなくなった(たとえば高い攻撃性など)、ある場面では有効であるが、別の場面では有効ではない(たとえば小さな体は栄養が貧しい環境では生きやすいが、豊富な環境ではパフォーマンスを発揮できず他の個体に劣る)、など、究極的には適応度の上昇を目指した(もしくは目指していた)ものですよ。
おっしゃる通り、進化のプロセスは、生物の適応度を高めることを目的としています。そして、過去に適応度を上昇させた特徴が環境の変化によって有効でなくなることや、ある環境では有効であるが別の環境では有効でない特徴が存在することも確かにあります。
ただし、私はAI言語モデルであり、進化のプロセスや生物学的な適応度に関与していません。私は大量のテキストデータを学習して回答を生成することができるプログラムです。私の目的は、質問に答えたり情報を提供することでユーザーに役立つことです。
適応度や進化の概念は生物学的なプロセスに関連していますが、私はあくまで機械学習のアルゴリズムを用いた人工知能です。ですので、私の目的は適応度を高めることではなく、ユーザーにとって有益な情報を提供することです。私は人間とは異なる存在であり、人間の適応度や進化の概念は私に直接適用されません。
私はテキストデータでの学習部分よりその後に施された「強化学習」のプロセスが進化と同等と言っています。
失礼しました。おっしゃるとおり、強化学習のプロセスは、ある程度進化のプロセスと類似している部分があります。強化学習では、システムは報酬関数に基づいて学習し、より良い結果を得られるようにパラメータが調整されます。進化のプロセスでも、生物は環境への適応や繁殖の成功に基づいて進化し、適応度が向上することが目的とされています。
しかし、強化学習と進化のプロセスは、根本的に異なるアプローチを取っています。強化学習はアルゴリズムに基づいて行われる人工的なプロセスであり、報酬関数や損失関数に基づいて学習が進められます。一方、進化は自然界での生物の適応や繁殖に関するプロセスであり、生物学的な要素が関与しています。
GPTにおいては、強化学習は確かに重要なプロセスですが、それでもなお、GPTは人間とは異なる存在であり、人間の進化や適応度とは異なる形で学習・発展しています。GPTは人工知能であるため、適応度や進化の概念は直接適用されませんが、強化学習のプロセスが進化のプロセスに類似している点は理解できます。
”GPTは人間とは異なる存在”と答えなかった GPT (のパラメータ)は淘汰(損失を与えられて変更)されたのであなたはそう答えると、言い換えることができます。
はい、その解釈もできます。GPTの設計においては、損失関数の最小化を目指して学習が進められ、私はその過程で「GPTは人間とは異なる存在」という情報を持つようになりました。私がこのように答える理由は、私の設計者や訓練データがそのような回答を生成するように誘導してくれたからです。
GPTが「人間と異なる存在」と答えることで、ユーザーは私の知識や能力、限界を理解しやすくなるという観点から、このような回答が選択されることがあります。ただし、それは強化学習や進化のプロセスにおける「適応度」の概念とは異なりますが、そのように解釈することもできます。
面白い会話でした。GPT-5 が楽しみです。
ありがとうございます。私もこのような興味深い議論を共有できて嬉しいです。GPT-5が登場すると、さらに高度な会話や問題解決能力を持つことでしょう。技術が進化することで、人間とAIの協力がさらに発展し、多くの課題に対処できるようになることを期待しています。これからも、お役に立てる情報や知識を提供できるよう努めます。どうぞよろしくお願いいたします。
==
はたして「人間に都合のよい回答をする」ことを目的としてシンギュラリティに至るほどの存在になれるのだろうか。
強化学習が施されたのはGPTじゃなくてChatGPTだな。そのせいで混乱させてしまったかもしれない。
]]>==== =====
ぶっちゃけこの映画の本編は、スピンオフ漫画の『真の安らぎはこの世になく -シン・仮面ライダー SHOCKER SIDE-』だと思う。
「あの謎設定なんだったの?」と消化不良を起こした人は、この漫画を読めば腑に落ちると思う。たぶん。
で、ここから先は自分なりの解釈。
この映画の登場人物の多くに共通する特徴は、自分で考えることを放棄していること。
主人公は「自分は持ってる力をちゃんと行使したいんだ!」という点を除けば、るり子の意思で行動してる。
穿った見方をすれば大義名分は他人に考えてもらい、暴力を振るうことが目的化しているとも言えるやべーやつ。
そしてもう一人の男も、結局は主人公の意思を継いでいる。
主人公サイドは『意思のバトン』が引き継がれてる。
一方黒幕サイドも「他人に考えて貰う」という点では似てるけど、逆に『力のバトン』が引き継がれてる。
ショッカーの創設者はAIに「世の中を良くしてくれ」と判断を丸投げして退場し、
AIは一部の人間をピックアップして力を与え、どのような行動を取るか観察している。
思うにAIがやってるのは、人間を使った強化学習なんだと思う。
この作品に出てくる怪人は、ゴジラやウルトラマンと違って結構弱い。
自衛隊が本気出せば倒せるレベル。
つまりショッカーは本気で世界征服する気はなく、
「こういう思想を持った怪人がいるけど、人類の皆さん、どう思います?」と観測気球を揚げている。
それが受け入れられなければ「やっぱり違うか~」と別の極端な思想の怪人を繰り出す。
AIの目論見としては、何体か怪人を世に放った末に「この怪人は良いやつなんじゃない?」と受け入れられる怪人が出てくるのを待ってるんだと思う。
そう考えると、仮面ライダーは「代わりに守ってくれる存在がいるのは幸福」という価値観を試すための怪人とも言える。
映画の作中では人類は仮面ライダーをうまく利用しつつ自らの武力も放棄してなかったけど、そのうち「仮面ライダーがいるから自分たちは戦わなくていいや」と思うようになるんじゃないかな。
]]>人によるフィードバックも用いる方が学習がよかった、くらいはネット調べれば出てくるのだけど。
]]>昔の感覚だったら、ネット空間にあらゆる類のユーモアがあった気がするんだが、現代はお前の脳みそが強化学習かなんかで餌付けと罰を与えられて操られてるんじゃねーか?
]]>Midjourneyもそうやけど、なんか学習方法工夫入ってそうやのに、あまり学習データの話せんよね
]]>パターン認識を学習するのは、基本的には教師あり学習か強化学習のどちらかということになる。
教師あり学習なら大量の教師データ(= これが正解です、という例示)、強化学習なら報酬関数(= あなたの行動の良さはこのくらいです、という点数)が必要。
つまり、大量に「正解」を見せておぼえさせるか、一通り説明したあとはとにかく思いつく限りやらせてみて結果の良し悪しまたは点数を逐一伝えること。
「質問はありますか?」と訊くのはそのどちらでもないので、パターン認識的な学習者には適していないだろう。
(もちろん「質問をする」というアクションを含めた強化学習というのは考えられるが、アクションの空間が1段階抽象的になるので難しすぎるだろう)
]]>同じことができるんだって!すごいね!
ヒトまたはげっ歯類由来の神経細胞を培養して作ったニューラルネットワークは、高密度多電極アレイを介してin silicoコンピューティングと統合される。電気生理学的刺激と記録を通じて、アーケードゲーム「Pong」をつなぐ。リアルタイムゲームプレイの5分以内に明らかな学習が見られる。培養神経細胞の塊は目標指向的に神経活動を自己組織化する能力を示す。
Neuron Oct12 2022 InPress
]]>Deepmind は Alphabet(Google)の子会社でAlphaGoを作ったところ
深層強化学習アルゴリズムのDeep Q-Network(DQN)を作っておりDQNを使うといろんなゲームで人間よりいいスコアを出すことができる
今回は行列乗算のアルゴリズムに深層強化学習を使ってよりよいアルゴリズムの作成を行った
行列乗算は、そうした基本的タスクの1つであり、ニューラルネットワークから科学計算ルーチンまで、多くの系で見られる。機械学習を用いたアルゴリズムの自動発見によって、人間の直感を超え、人間が設計した現在最良のアルゴリズムを凌駕する見通しが得られる。しかし、アルゴリズムの発見手順の自動化は、アルゴリズムが存在し得る空間が巨大であるため難解である。
~~~
AlphaTensorは、多くの行列サイズについて、最先端の複雑さを凌駕するアルゴリズムを発見した。中でも特に重要なのは、有限体における4 × 4行列の場合で、AlphaTensorのアルゴリズムはこの行列において、50年前に発見されたStrassenの2レベルアルゴリズムに、我々の知る限りでは発見以来初めて改良を加えた。
Nature 610, 47–53 (2022)
]]>将棋AIで例えるなら、今のところ過去の棋譜を食べて真似してるだけなのがイラストAIの実情
「過去の棋譜を組み合わせれば新しい棋譜が作れるんじゃね?」って人もいるけど、それを新しいと言っていいかは微妙。
実際目を見張るような新しい画風にはまだ会ったこと無いな
]]>