2024-11-22

Style-Bert-VITS2を利用してて商用利用可能!はマジで笑えない

DMM Voice(にじボイス)、Aivis、立て続けにStyle-Bert-VITS2ベースプロジェクトリリースされて物議を醸しました。

一番の問題点*は、提供されているベースモデルファインチューニングしている点です。そのベースモデルはBERT-VITS2というStyle-Bert-VITS2のフォーク元の中国からリリースされたモデルです。

800時間近い日本語データ学習しています。こんなデータ存在するのでしょうか?少なくとも研究用とやUnity Storeなどで買える量ではありません。

このデータPCゲームなどからデータをぶっこ抜いているのはという噂があります。このあたりは該当するアダルト系のテキストを入れると関連する音声が生成されるところから考察されています

DMM VoiceAivis、どちらもちゃんと身元の分かったデータを使っているなら、ちゃん公式ページに載せると思うんですが、載せてないですよね。載ってたらどなたか教えて下さい。

https://github.com/fishaudio/Bert-VITS2/releases/tag/JP-Exta

StyleBERTVITS2が悪いわけではないです。むしろ技術的には興味深いものです。問題は、デフォルトで利用されるその事前学習モデルが非常にきな臭いんです。

大元の事前学習モデルがどのように学習たかはこれ以上情報がないのですが、本家学習コンフィグを見るとヒントがあります。見てください。原神の話者がたくさんセットされているではありませんか。

原神って学習データを公開していたんでしたっけ。。?はい、賢い人はもうおわかりですね。

https://github.com/fishaudio/Bert-VITS2/blob/master/configs/config.json

日本法律的には、元の学習データの音声を楽しむために利用しているわけではなく、出てくる音声もちょっと違うし、実在する声優名前を出すわけではないので、法律的にはグレーという感じのようです。

ただし倫理的にどうなの?という問題があり、個人で楽しむ分にはよいけど、商用利用可能で大々的に会社として打ち出すのって正直どうなの?という気持ちです。

StyleBERTVITS2ではモデルマージが使えますモデルマージとは、異なる話者モデル同士を足し算することで、その中間のような話者を作ることができる技術です。これを使うと架空話者がたくさん作れてしまうわけですし、"元の話者"からずらす事ができます

一般利用者が「これすげー!」と騒ぐのはわかりますが、大元開発者の人はちゃんとわかった上で公開しているんでしょうか?「面白いから」で進めている様子を私は非常に冷ややかに見ています

勘違いしないでほしいですが、私は生成AIを推進したい人です。しかし、プロ尊敬しないこの方法は、どうも頂けません。

*故人の声優データモデル登録できるのも十分論外なのですが、審査を導入すればすべて解決か?といったらそうでもないので。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん