一部の界隈の話なので説明しておくと、合成音声界隈は合成エンジンが更新されようとしている。
例えば、今日予約開始されたA.I.Voiceというソフト(https://aivoice.thebase.in/)なのだが、
エンジンは機械学習を使って新しくなろうとしているのだが、UIが過去数年前とそのままなのだ。
技術的にはTTS(Text to Speech)という分野であり、GoogleやAmazonもAppleもやっている。
合成音声マークアップ言語というのもあるが、こちらは何年も更新されていない。
ブレイクスルーが必要としているのは、演技をしたような声を出す場合だ。
音声界隈の論文では、喜び、怒り、悲しみの3種類を分類するのが伝統的になっているが、これが数値化できてない。
日本では「萌え声」というのもあるが、こちらも数値化できていない。
現状のUIは音素ごとに音の高さと長さを調整しているが、日常的に発音していても意識していないので、違和感があっても調整できない。
そういうのはnoteに書け これは割とマジで ここに書いてどうする
既存ユーザーに優しいUIなんちゃうか?