音声に対して窓関数かけて、横軸を時間、縦軸を周波数としてプロットしたのをスペクトログラムという。
数字が並んだだけだとわかりにくいが、グラフを描けば問題箇所がわかる、といった具合だ。
スペクトログラムを使い始めた際、これで問題がわかるものだと思っていた。
ネットにもスペクトログラムについての記載は多くあり、枯れた技術のように見える。
だが、実際やり始めると、広く広まっているこの手法はいいのか?と思えてくる。
① 耳で聞いたときの違和感に対して、どこが問題があるのかがわからない
③ 耳で聞いて差がある音声に対して、明確にどこが影響しているのか比較、diffが取れない
④ 多くの人はスペクトログラムを読めない。(歯擦音、母音、子音かくらいしかわからない)
あたりを感じている。