2023-01-26

画像生成AI流行ってることをお前に教える2(階層マージ・LoRA編)

前回:anond:20221129215754

前回の投稿から状況がめまぐるしく変わっている。

前回紹介したAnythingv3を投稿者が削除したり関係の無い第三者Anythingv4や4.5を勝手リリースしたり…(しかマージモデルだとか)

増田も追いかけきれていないが追いかけてるぶんは自分のためにここでまとめておく。

基本モデル

NAIリークモデルAnythingv3に関しては前回を参照。

インスタモデル

Instagram投稿されている画像学習させたモデル総称

実在人物画像学習しているため人物の体型をより正確に描画させることができる。

cafe-instagramやzeipher-f222など複数存在し、Basil_Mixのようなアジア人に特化したもの存在する。

後述するマージモデルベースの一つ。

マージモデル(階層マージ)

モデル同士を混ぜるマージモデルに進展があった。

U-NET階層ごとにマージを行う階層マージというマージ手法が考案されたからだ。

これにより実写モデルベースに見た目をアニメ風にマージするという方法が採れるようになった。

流行っているモデルシリーズを二つ挙げてみる。

AbyssOrangeMixシリーズ

5chなんU(なんJもしくはなんGのパートスレ向けの板でVIPに対するパー速のような板)の住民作成した階層マージモデル

現在はBasil_MixとAnythingv3を階層マージしている。

このモデルには派生版があり、nsfw版やhard版は上記マージモデル(通称base)にNAIリークモデルやGape60を混ぜたものらしい。

Gapeについては前回の記事を参照。

 

NAIのように長いネガティブプロンプトを設定しなくても綺麗な絵を出すことができる。

7th_layerシリーズ

リアルよりになったAbyssOrangeMixを漫画アニメ向けにファインチューンしたモデル

Abyss→深界七層(メイドインアビス)→7th_layerということらしい。

アニメ寄りなA、漫画寄りなB、より漫画寄りで破綻やすいCの三種類がある。

Anything系のような中華で好まれる独特の厚塗りではなく比較的パキっとした塗りの絵が出るので個人的には一番好き。

 

他にもいろんなマージモデルがあるが、だいたいがNAIリークモデルAnythingv3と実写系モデルを混ぜたりそれにファインチューンをかけたりしたモデルだ。

Anythingv3もNAIリークモデルベースからなんだかんだいってNovelAIが作ったモデルはまさに特異点的な存在なのだろう。

LoRA

Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuningの略で、

Dreamboothの簡易版のようなものとされているが実はDBとは似て非なる技術らしい。

DBよりも短い時間かつ省メモリ環境学習可能で、生成されるファイルも30~200MB程度とHypernetworkとそこまで変わらず一定以上のクォリティで追加学習を行えるようになった。

何よりもVRAMが8GB程度のグラボでも学習できるようになったのが大きい。

現在目的ごとに大きく分けて3種類のLoRAがある。

Style

特定の作者の画像学習させることでその画風を再現するためのLoRA。

従来はHypernetworkで行っていた。

Concept

特定のものやこと(例:ふたなり)を学習させるためのLoRA。

NovelAIやその派生モデルでは困難だった種付けプレスや断面図などの構図の再現可能となった。

Character

キャラクター再現するLoRA。

従来は主にDBで行っておりモデルの配布に苦労していたがLoRAによって配布が非常に楽になった。

 

なお、LoRAは同時に複数適用させることもできるため

士郎正宗風の絵柄でふたなりナンジャモ」という画像を生成することもできる。

 

またLoRAはHypernetworkのようにモデルを選ばないが、NAIリークモデル学習ベースにすると破綻しづらいらしい。

というか今流行っているモデルはほぼNAIリークモデル血筋が入っているので馴染みやすいんだろう。

そのほか

HuggingFace

https://huggingface.co/

アメリカの謎のベンチャー企業通称🤗。

同社が運営しているHuggingFace HUBユーザ登録すれば無料無限AI学習モデル(1ファイル2GB~7GB)をアップロードできる上回線も異常に高速であるため重宝されている。

モデルマージなどでストレージが圧迫されているローカル民にとっては救世主のような存在

資金源は謎だが、2022年5月に2億ドル調達しているのでストレージ無尽蔵に増やせるらしい。知らんけど。

SAFETENSOR

HuggingFaceが考案したモデルファイルファイル形式

実行コードを含んでいることもあり従来のckptモデルしょっちゅうトロイの誤検出が起きていたが、

SAFETENSOR形式モデルは実行コードを含まないため安全であるとされる。

🎈

スカトロ、転じてウンコのもののこと。由来は割愛する。

Baloon_MIXというスカトロ特化のマージモデルもあるらしい。

記事への反応 -

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん