2021-03-25

機械音声と人間の声で、どこが違うのかがわからない

機械学習が出てきて音声にも適用されるようになった。

身近な所だとGoogleホームなどの音声に使われている。


ネットを探すとテキストを読み上げてくれるソフトサービスは幾つか見つかるが、

やはり機械音声と人間の声では差が感じられる。

機械学習論文などを見ても、学習データと全く同じ声と高さでアウトプットしたもの劣化を感じないが、

いざ学習データとは違ったものを読ませれると違和感が残る。


問題違和感を感じるが、どうすれば正しくなるのかがわからない。


  • 機械音声はテンポのズレがないから、同じフレーズを同じテンポで発声してしまうあたりが違和を感じる

  • ピッチ (ペース) の揺らぎじゃない?合成音声はどこまで行ってもワンペースだけど、人間は早くなったり遅くなったり、難しいカタカナ語の前には一瞬言いよどんだりするじゃない。そ...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん