ニューラルネットワークが目的の関数を近似出来るようになるって事自体は数学で証明出来るからいい
でもなぜわざわざ中間層の多いディープラーニングを用いるかとなると理論的な根拠が薄くなる。
中間層が無いよりは一層ある方がいい、二層あると更にいいという所までは証明出来てるけど
それをもって中間層がなるべく多いほうがいいって結論まで持ってくのは厳しすぎる。
この調子でディープラーニングの構成や学習に用いる方法なども万事が薄い根拠と単なる経験とカンで選ばれたものばかり。
君が思うよりは脆弱な証明だったかもしれないが、成果は残っているだろう? ライト兄弟のそれとどの程度差があるか君が思うよりは差がないかもしれないよ。