OpenAIがsoraでテキストから動画生成し話題になった。
モデルがオープンになっているモデルの方が、クローズドなモデルよりも進化する、という意見があったが、差がついたままだ。
何が原因か。
テクニカルペーパー(https://openai.com/research/video-generation-models-as-world-simulators)を見る限り、
予想の範囲内のことしか書かれてない。拡散モデルで画像が出来た時点から、多くの人が想像出来る範囲だろう。
もちろん全部が書かれているわけではないだろうが。
どこで差がついたままなのか。
手がかけない問題に対して、親指、人差し指などを細かく指定すれば解決はするのだろう。
StableDiffusionの学習だとKohya_ssが有名だが、good_hand, bad_handみたいな一言でまとめられているのではないだろうか。
画像をどれだけ言語化できるかで、人だとそれほど詳細な言語化が出来ないことと、
StableDiffusioinだと、WD1.4taggerかBLIPの性能に引きずられているのではないか。
BLIPの代わりにGPTを使ってアノテーションをしている人も居るのだろうが、性能差があることから、
もしかするとOpenAIは角度など数値を機械的に測定したものも学習させているのかもしれない。
GPTは人に理解しにくい所は出力しないので、そこが差になっているのではないだろうか。
要はアノテーションツールがオープンなAIに足りてないということだ。
オープンなAIでは、学習時のデータがどれだけ良いか、データ量、ラーニングパラメータなどは議論されたが、アノテーションツールは議論されず、そこが差になったのではないか。
2つ目は、命令時の曖昧さを、モデル側でどれだけ拡張できるかではないだろうか。
学習時に詳細なアノテーションをしても、プロンプトを書く時は短縮していたり、意識せず省いていたりする。
例えば、「日本人の女性」とプロンプトを書いたら、現代の日本人女性を想像するはずで、
海外公的機関に保存された戦後の湿板写真時代で化粧をしていない日本人女性を意図してないはずだ。
そういった曖昧なプロンプトを意図を汲み取ってプロンプトを拡張して、推論モデルに食わせることが出来るか、
そこが差になったのではないだろうか。