はてなキーワード: AUCとは
岩手県におけるイノシシ Sus scrofa の分布拡大の変遷と出没確率の予測
https://www.jstage.jst.go.jp/article/mammalianscience/62/1/62_21/_pdf/-char/ja
https://doi.org/10.11238/mammalianscience.62.21
目撃メッシュ数 の意味が書かれていないので、読みづらいです。
5kmx5kmを一つの区間として、その区間で目撃がすくなくとも1回以上あった区間の数のことで良いのでしょうか?
図1を見ると目撃メッシュ数に対して、目撃件数が3倍程度あるので、1区間で平均3回の目撃があったという意味でしょうか?
一般に、AUCは未知のデータに対するモデルの予測の精度を比較します。言い換えれば、学習データと未知のデータにデータを区切って、学習データを使って学習をおこない、その後未知データをつかってAUCを計算します。
今回の場合、5種類の環境データの選別を行うために、すべての出没データを学習させたモデルを使ってAUCを比較しています。この場合、どのデータから予測させてAUC計算したのかが不明です。学習に利用したデータから予測をおこないAUCを比較した場合、未知のデータに対する予測ができていません。なので、どの環境データを使うのが未知データへの予測に対して良い効果をもたらすのかを結論付けることはできていません。
2007 年~ 2017 年のデータから、2018 年および 2019 年の予測を行っていますが、そのさいのAUCが不明です。どの程度の精度だったのかが不明です。書くべきです。
この部分もAUCで比較を行うべきです。比較するAUCが無いのに、データが多いほうがよいという結論は出せないと思います。
出没確率からTrueかFalseを判定してAUCを計算しているはずですが、その閾値はどのようにきめているのだろうか?
出没確率からTrueかFalseを判定していますが、その閾値はどのようにきめているのだろうか?
"出没予測は,実用可能なレベル"と書かれてますが、何に使うのかがわかりません。目的達成のために必要な精度も記載がなく不明です。そのため、本当に実用可能なのかがわかりません。
元のデータを使って人間が予測した方が、当たるのではないだろうか。
場所に対する精度が荒いという問題があり、実用可能な問題が限られると思います。
AUCが書かれてないので、精度がいいのか悪いのかが判断できません。
また、付録を見ると、イノシシの出没はほぼ同じ場所である。イノシシのデータだけを使っても同じ精度で予測ができるのではないだろうか?
また、逆に、環境データのみから、出没場所を推定できるのではないだろうか?2011年までの出没データと、2019年までの環境データを入力すれば、高い予測が可能なのではないだろうか?
2007-2015年と2007-2019年の学習モデルが予測した確率分布図がほぼ一致しているのが面白い。
イノシシのデータではなく、環境データのみでも予測が可能であるということを意味しないだろうか。
いずれにしても学習データと検証データをわけることそして、AUCによる比較検証が必要だと思う。