窓関数あててフーリエ変換、スペクトログラム表示といったとこまでで止まっている。
例えば、普通の声と鼻声は聴くと明確な差があるが、それを可視化して、何が違っているのか明確な説明を見ない。
他には、ずっと話していると疲れてきて声が変わるが、どこが変わってくるのか明確に視覚化出来ない。
違和感を感じたときに、表現する言葉も少ないし、違和感のある部分をプログラムなどで検出するのも困難だ。
機械学習でも、録音した誰かの声を真似るところまではGANなどを使ってできるようになってきているが、
誰でもない声をパラメータをいじって作り出すというところまで出来ていない。
ググれば声道モデルとして、太さや長さが違う管をつなげたものとしてモデリングされる話が出てくるが、
動的に舌の動き、息の速度で変わる声を生成するところまで出来てない。
発生方法か言語によって違うから、必ずしも音声の一部を切り取って良し悪しで評価することができないんじゃね。 ガラガラ声とか掠れ声なんかは可能なのかもしれないけど、それも喉...