2021-01-14

合成音声のUI、誰か進化させて欲しい

一部の界隈の話なので説明しておくと、合成音声界隈は合成エンジン更新されようとしている。

例えば、今日予約開始されたA.I.Voiceというソフト(https://aivoice.thebase.in/)なのだが、

エンジン機械学習を使って新しくなろうとしているのだが、UI過去数年前とそのままなのだ


技術的にはTTS(Text to Speech)という分野であり、GoogleAmazonAppleもやっている。

合成音声マークアップ言語というのもあるが、こちらは何年も更新されていない。


単純に読めればいい場合は、今の技術でも問題ない。

ブレイクスルー必要としているのは、演技をしたような声を出す場合だ。

音声界隈の論文では、喜び、怒り、悲しみの3種類を分類するのが伝統的になっているが、これが数値化できてない。

泣き笑いといった微妙表現ができない。

日本では「萌え声」というのもあるが、こちらも数値化できていない。


現状のUIは音素ごとに音の高さと長さを調整しているが、日常的に発音していても意識していないので、違和感があっても調整できない。

数種類吐き出して、良い方を選んでいくのを強化学習学習させていけば、多少は良くなりそうだが、現状はそうなっていない。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん