DMM Voice(にじボイス)、Aivis、立て続けにStyle-Bert-VITS2ベースのプロジェクトがリリースされて物議を醸しました。
一番の問題点*は、提供されているベースモデルをファインチューニングしている点です。そのベースモデルはBERT-VITS2というStyle-Bert-VITS2のフォーク元の中国からリリースされたモデルです。
800時間近い日本語データを学習しています。こんなデータが存在するのでしょうか?少なくとも研究用とやUnity Storeなどで買える量ではありません。
このデータはPCゲームなどからデータをぶっこ抜いているのはという噂があります。このあたりは該当するアダルト系のテキストを入れると関連する音声が生成されるところから考察されています。
DMM Voice、Aivis、どちらもちゃんと身元の分かったデータを使っているなら、ちゃんと公式ページに載せると思うんですが、載せてないですよね。載ってたらどなたか教えて下さい。
https://github.com/fishaudio/Bert-VITS2/releases/tag/JP-Exta
StyleBERTVITS2が悪いわけではないです。むしろ技術的には興味深いものです。問題は、デフォルトで利用されるその事前学習モデルが非常にきな臭いんです。
大元の事前学習モデルがどのように学習したかはこれ以上情報がないのですが、本家の学習コンフィグを見るとヒントがあります。見てください。原神の話者がたくさんセットされているではありませんか。
原神って学習データを公開していたんでしたっけ。。?はい、賢い人はもうおわかりですね。
https://github.com/fishaudio/Bert-VITS2/blob/master/configs/config.json
日本の法律的には、元の学習データの音声を楽しむために利用しているわけではなく、出てくる音声もちょっと違うし、実在する声優の名前を出すわけではないので、法律的にはグレーという感じのようです。
ただし倫理的にどうなの?という問題があり、個人で楽しむ分にはよいけど、商用利用可能で大々的に会社として打ち出すのって正直どうなの?という気持ちです。
StyleBERTVITS2ではモデルマージが使えます。モデルマージとは、異なる話者のモデル同士を足し算することで、その中間のような話者を作ることができる技術です。これを使うと架空の話者がたくさん作れてしまうわけですし、"元の話者"からずらす事ができます。
一般の利用者が「これすげー!」と騒ぐのはわかりますが、大元の開発者の人はちゃんとわかった上で公開しているんでしょうか?「面白いから」で進めている様子を私は非常に冷ややかに見ています。
勘違いしないでほしいですが、私は生成AIを推進したい人です。しかし、プロを尊敬しないこの方法は、どうも頂けません。
*故人の声優データでモデルを登録できるのも十分論外なのですが、審査を導入すればすべて解決か?といったらそうでもないので。