今更音声なんて、という感じがするが、いざ制御しようとすると調べても出てこない。
世の中に色んなプラグインが出ているが、自然な修正をするのはない。出ているのは機械っぽくするのばかりだ。
論文に関しても探し方が悪いか、サーベイが足りてないのか、出てこない。
そもそもどうして機械っぽい音声になるのか、原因を可視化出来ていない。
AIに関しても、誰かの声を再現するという方向ばかりで、誰でもない声にするというパラーメータや制御方法は出てない。
しかもAIでありがちなアーティファクトが気になって仕方ない。
画像だと回転させたり、縮小したり、切り出したりして学習データを水増しするが、
音声の場合、音を高く/低くするといった制御が不自然になってしまうため、学習データ水増しも用意ではない。