2024-05-29

anond:20240529160226

お前、ホールドアウト分割したところで実用テストにならんのまず理解してる?

訓練データ分布で話してるよねそれ

記事への反応 -
  • 評価の際には不均衡データではダメ、なんてのはそれこそわかりきった話だろ 普通不均衡だしだからアキュラシーじゃなくてF1使うわけなのでね

    • だからclassification reportを使えばF1出るだろ?

      • それ単なるライブラリの機能なので 何やってるか分かってれば 評価の際には不均衡データではダメ、なんてのはそれこそわかりきった話だろ って言葉は出ないんですよ

        • 不均衡に関しては、テストデータを作る際のラベルの分量のバランスを気をつけろという話ね いくらAUCやF1で良い精度が出たと言っても、実データの分布で実用レベルの結果が出ないと...

          • いやバランス弄ってテストデータ作ってる時点でテストデータじゃないから 実データを分けるんだよ

            • お前、ホールドアウト分割したところで実用のテストにならんのまず理解してる? 訓練データの分布で話してるよねそれ

              • だからバリデーションと分けるんだけど 謎のテストデータがどこかにあったら一回しか使えないだろ

                • コンペみたいにリーダーボードで評価するようにするんだよ、知らんのか? テストデータを「1回しか利用できない」なんてことはなく、ラベルを開発者にバラさなければいい

                  • だからそれで評価されるまで性能上げてったらオーバーフィッティングやろ まして100パーセントの上司だろ?

                    • だから期限と一日あたりのモデル送信数にを設けるんだよ それを超えたらテストデータ自体を更新する どちらにせよ、ホールドアウト分割よりは過学習を防げる

                      • あー クロスバリデーションでバリデーションセットとテストセットの話なんだよね バリデーションとテストってさんざ言ってるんだから知ってればわかると思うけど

                        • バリデーションとテストと分けたところで、ホールドアウト分割だろ? 交差検証してもホールドアウト分割だろ?

                          • k fold cross validationとholdoutは違いますね

                            • わかってないのはお前だろ ホールドアウト分割を繰り返してるんだよ交差検証ってのは テストデータのブラックボックステストってのはそれとは別で、マニュアルでアノテーションして...

                            • はい、交差検証法はホールドアウト分割を繰り返し行う手法です。 ## 交差検証法の手順 1. データセットを複数のフォールド(部分集合)に分割する。[1][2] 2. 1つのフォールドをテストデ...

                            • ルー大柴になればイキれると思ったの?

              • 君Kaggleしかやった事ないのでは? ブラックボックスのテストデータはプロダクションではあり得ないぞ あるとすれば新たに入ってくる生データ

                • ブラックボックスのテストがありえない?何いってんだお前? むしろブラックボックス以外のテストはできないだろ、頭おかしいのか? 開発者がテストデータのラベルを見れる時点で、...

                  • あー やっぱコース受けた方がいいよ

                    • はい、Kaggleのようなブラックボックスのリーダーボードで評価する現場は存在します。 ## 機械学習モデルの評価方法 機械学習モデルの評価には、一般的に以下の2つの方法があります。...

        • ライブラリの機能にしろ、F1を出力することがわかってるなら、F1について事前知識があると考えるのが妥当である。

        • 横だけど、なんか相手を否定したいがために必死になってるのがわかりますなぁw コテハンに誹謗中傷すると訴えられるからほどほどにねw

          • はいはい

          • 評価の際には不均衡データではダメ は、まともにやったことある人なら完全におかしいのわかるけどね

            • 訓練データの分布が、99%がTrueで1%がFalseってタイプのやつだとするだろ? それでそのまま評価するにしろ、F1を使うにしろ、実用の精度の評価は難しいんよ なぜって?「ほぼTrueでいける...

              • それ「評価の際には不均衡データではダメ、なんてのはそれこそわかりきった話だろ」ってなりますかね?

                • 「わかりきった話」という言葉のチョイスは間違えたかも知れないが、テストデータが不均衡だと不都合すると言いたかった

    • そうじゃなくて、正規のテストデータを作る場合はラベルのバランスをある程度気をつけろという話だと思うが...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん