合成音声のUI、誰か進化させて欲しい

はてな匿名ダイアリー

2021-01-14

■合成音声のUI、誰か進化させて欲しい

一部の界隈の話なので説明しておくと、合成音声界隈は合成エンジンが更新されようとしている。

例えば、今日予約開始されたA.I.Voiceというソフト(https://aivoice.thebase.in/)なのだが、

エンジンは機械学習を使って新しくなろうとしているのだが、UIが過去数年前とそのままなのだ。

技術的にはTTS(Text to Speech)という分野であり、GoogleやAmazonもAppleもやっている。

合成音声マークアップ言語というのもあるが、こちらは何年も更新されていない。

単純に読めればいい場合は、今の技術でも問題ない。

ブレイクスルーが必要としているのは、演技をしたような声を出す場合だ。

音声界隈の論文では、喜び、怒り、悲しみの3種類を分類するのが伝統的になっているが、これが数値化できてない。

泣き笑いといった微妙な表現ができない。

日本では「萌え声」というのもあるが、こちらも数値化できていない。

現状のUIは音素ごとに音の高さと長さを調整しているが、日常的に発音していても意識していないので、違和感があっても調整できない。

数種類吐き出して、良い方を選んでいくのを強化学習で学習させていけば、多少は良くなりそうだが、現状はそうなっていない。

Permalink | 記事への反応(2) | 20:12

記事への反応 -

anond:20210114201234
そういうのはnoteに書けこれは割とマジでここに書いてどうする
anond:20210114201234
既存ユーザーに優しいUIなんちゃうか？

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

人気エントリ

注目エントリ

ようこそゲストさん