現代のAIはモデルって呼ばれてる奴は重みが調整された巨大なデータ構造です。
データ構造は多分ニューラルネット的なやつが一般的なのでは。知らんけど。あ、私素人ですので、あまり真面目に聞かないでください。
そんでこのモデルは入力に応じて出力が変わります。LLMなら猫っていれたら、猫について語りだして猫この特徴や可愛らしさや、猫にまつわる人間の感情についての文章が出力されるだろうし、画像生成なら猫の画像が出てきます。
モデルは多くの場合関数として振る舞うので、出力方向からこの出力結果を入力すると(お尻にバイブを刺すのと一緒です。)元の入力データが復元できます。猫にまつわる説明文を後ろから入力したら「猫」って言葉が出るし、猫の画像を後ろから入力したら「猫」って言葉が取り出せます。
画像認識AIがやっていたことが全く同じことで、画像認識AIと画像生成AIは裏表の関係になっています。
ところで人間の場合は多くの人が、猫を識別できるにも関わらず、猫の絵を描くことが出来ません。
人間の脳は、これらAIが獲得している何かの機能を削ぎ落としているようです。
なんかそのへんが一方向性ハッシュっぽさあるよなーって思った。この辺のアイディアを組み合わせたらなにか、劇的にAIの計算コストを下げれそうよね。
あとは発話とかの人類共通の計算をハードウェアにしてしまうとか、世界モデルのベースをハードウェアに落とし込むとか色々計算効率化はありそうな気がしている。
人力イラストは、目から入ってハッシュ化され脳に記録されたデータ、もしくは頑張ってハッシュを行わずに保存されてるデータからの手を使った画像復元処理って感じだろうか。
アニメとか漫画のイラストとか絵を見るとき脳の効率を使わずに気分良く見れるのは、脳内の削ぎ落とされたデータに近い形での表現だからだろうなって思いました。
こうなってくるとハッシュはいいすぎててたんに情報量を落としたデータだな。
画像認識AIでポピュラーなCNNは特徴抽出して細かいデータ削ぎ落としてるので逆はできないよ
マジかー、勉強不足が酢部バレますね。指摘ありがとう!
中間層のbottleneckで情報量落とすってのはまさにAIでもよくやる(エンコーダデコーダ) ケツからうんこ食わしてもせいぜい似たような食材が出てくるだけで元の食材は出てこない
最近のいわゆるAIはEmbeddingが肝ですわな
人間も訓練したらかなりリアルな絵が書けるようになったりするので、多くの場合は単に出力層の学習が行われてないだけなのでは 入力を中間表現に落とし込むところまでは多分そんな...
人間が「猫を描く」ことについて訓練されていないんじゃないかな AIはそうなるように訓練されている
モデルは多くの場合関数として振る舞うので 関数そのものだろ さすがにそれくらいググれ
さすがにそれくらいググれ ただの言語表現への難癖を辞められないあなたこそが対処法をググれ どっちだって同じだろ そんなのは
その言語表現とやらが間違ってるだけの話
人間の脳は、画像認識AIとLLMの組合せでしょ。 猫画像をみれば、ドキドキ興奮して猫を愛でる言葉を語りだす。 人間の脳だって、脳裏にははっきりと画像生成AI並みに猫の姿を思い浮か...
猫の姿を思い浮かべてると思うんですが 浮かんでないで 絵は苦手なんや 夢も色がない 夢でも音楽なら後で弾けるくらいキッチリ鳴るし味はある