2021-12-28

音声のスペクトログラム、何も問題わからんのだが

音声に対して窓関数かけて、横軸を時間、縦軸を周波数としてプロットしたのをスペクトログラムという。

工学が進むためには可視化必要だと勝手に思っている。

数字が並んだだけだとわかりにくいが、グラフを描けば問題箇所がわかる、といった具合だ。


スペクトログラムを使い始めた際、これで問題がわかるものだと思っていた。

ネットにもスペクトログラムについての記載は多くあり、枯れた技術のように見える。

だが、実際やり始めると、広く広まっているこの手法はいいのか?と思えてくる。


スペクトログラムの欠陥として、

① 耳で聞いたとき違和感に対して、どこが問題があるのかがわからない

違和感のある箇所をgrep抽出できない

③ 耳で聞いて差がある音声に対して、明確にどこが影響しているのか比較diffが取れない

④ 多くの人はスペクトログラムを読めない。(歯擦音、母音、子音かくらいしかからない)

違和感のない修正方法がない

あたりを感じている。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん