機械学習が出てきて音声にも適用されるようになった。
身近な所だとGoogleホームなどの音声に使われている。
ネットを探すとテキストを読み上げてくれるソフトやサービスは幾つか見つかるが、
やはり機械音声と人間の声では差が感じられる。
機械学習の論文などを見ても、学習データと全く同じ声と高さでアウトプットしたものは劣化を感じないが、
いざ学習データとは違ったものを読ませれると違和感が残る。
問題は違和感を感じるが、どうすれば正しくなるのかがわからない。
Permalink | 記事への反応(2) | 17:21
ツイートシェア
機械音声はテンポのズレがないから、同じフレーズを同じテンポで発声してしまうあたりが違和を感じる
ピッチ (ペース) の揺らぎじゃない?合成音声はどこまで行ってもワンペースだけど、人間は早くなったり遅くなったり、難しいカタカナ語の前には一瞬言いよどんだりするじゃない。そ...