2024-02-17

オープンAIと、OpenAIはどこで差がついたままになっているのか

OpenAIがsoraでテキストから動画生成し話題になった。

モデルオープンになっているモデルの方が、クローズドモデルよりも進化する、という意見があったが、差がついたままだ。

何が原因か。

テクニカルペーパー(https://openai.com/research/video-generation-models-as-world-simulators)を見る限り、

予想の範囲内のことしか書かれてない。拡散モデル画像が出来た時点から、多くの人が想像出来る範囲だろう。

もちろん全部が書かれているわけではないだろうが。


どこで差がついたままなのか。

1つ目は学習時のアノテーションの量だろう。

手がかけない問題に対して、親指、人差し指などを細かく指定すれば解決はするのだろう。

そしてきちんと画素位置指定して学習させているはずだ。

StableDiffusionの学習だとKohya_ssが有名だが、good_hand, bad_handみたいな一言でまとめられているのではないだろうか。

画像をどれだけ言語化できるかで、人だとそれほど詳細な言語化が出来ないことと、

StableDiffusioinだと、WD1.4taggerかBLIPの性能に引きずられているのではないか

BLIPの代わりにGPTを使ってアノテーションをしている人も居るのだろうが、性能差があることから

しかするとOpenAIは角度など数値を機械的に測定したもの学習させているのかもしれない。

GPTは人に理解しにくい所は出力しないので、そこが差になっているのではないだろうか。

要はアノテーションツールオープンAIに足りてないということだ。

オープンAIでは、学習時のデータがどれだけ良いかデータ量、ラーニングパラメータなどは議論されたが、アノテーションツール議論されず、そこが差になったのではないか


2つ目は、命令時の曖昧さを、モデル側でどれだけ拡張できるかではないだろうか。

学習時に詳細なアノテーションをしても、プロンプトを書く時は短縮していたり、意識せず省いていたりする。

例えば、「日本人女性」とプロンプトを書いたら、現代日本人女性想像するはずで、

海外公的機関に保存された戦後の湿板写真時代で化粧をしていない日本人女性意図してないはずだ。

そういった曖昧プロンプトを意図を汲み取ってプロンプトを拡張して、推論モデルに食わせることが出来るか、

そこが差になったのではないだろうか。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん