音声や音って、どこが良い悪いか可視化されない

はてな匿名ダイアリー

2021-07-11

■音声や音って、どこが良い悪いか 可視化されない

窓関数あててフーリエ変換、スペクトログラム表示といったとこまでで止まっている。

例えば、普通の声と鼻声は聴くと明確な差があるが、それを可視化して、何が違っているのか明確な説明を見ない。

他には、ずっと話していると疲れてきて声が変わるが、どこが変わってくるのか明確に視覚化出来ない。

あと現象に対して説明する言葉が少ない。

違和感を感じたときに、表現する言葉も少ないし、違和感のある部分をプログラムなどで検出するのも困難だ。

音声や音への制御方法も少ない。

機械学習でも、録音した誰かの声を真似るところまではGANなどを使ってできるようになってきているが、

誰でもない声をパラメータをいじって作り出すというところまで出来ていない。

ググれば声道モデルとして、太さや長さが違う管をつなげたものとしてモデリングされる話が出てくるが、

動的に舌の動き、息の速度で変わる声を生成するところまで出来てない。

Permalink | 記事への反応(1) | 19:18

記事への反応 -

anond:20210711191820
発生方法か言語によって違うから、必ずしも音声の一部を切り取って良し悪しで評価することができないんじゃね。ガラガラ声とか掠れ声なんかは可能なのかもしれないけど、それも喉...

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

人気エントリ

注目エントリ

ようこそゲストさん