https://arxiv.org/abs/1708.01986
著者らは、コケ植物の画像判定を行うため、撮影した画像データから学習データを作成し、識別機を作っています。
データは著者らが作成しており、少数の画像から判定機を作成するために、"chopped picture" methodを提案しています。
画像枚数を多くするために、少部分間には50%のoverlapが存在します。言い換えるなら、ある画像は、他2枚の画像を元に再構築可能です。
CNNの学習では、切り出した画像から、validation dataとtraining dataに分けて学習を行っています。
以上の方法で、validation dataによってこの識別機の精度の計測をし、高い精度で識別できていることを主張している。
提案手法は、training dataとvalidation dataに関係があるので、validation dataでの精度は高くなると思われます。
言い換えると、全データに識別機がオーバーfittingしているので、validation dataでの精度が高くなっているのでは?
つぎに、この論文の提案手法でのvalidation dataを識別機に食わしたさいの分類精度は、その識別機の分類精度とは言えません。
validation data・training dataに含まれていないdataセットを作成し、その新たなdataセットでの学習機の精度を検証するべきだと思います。