2024-05-29

anond:20240529163337

はい、Kaggleのようなブラックボックスリーダーボード評価する現場存在します。

## 機械学習モデル評価方法

機械学習モデル評価には、一般的に以下の2つの方法があります

1. **ホールドアウト評価**: 学習データを訓練データテストデータに分割し、テストデータモデル評価する方法。[1]

2. **ブラックボックス評価**: 評価用のデータセットが公開されず、サーバーモデルを提出して評価される方法。Kaggleのコンペティションがこの方式。[1][2]

## ブラックボックス評価の利点

ブラックボックス評価には以下のような利点があります

## ブラックボックス評価現場

まり、Kaggleのようなブラックボックス評価は、機械学習の様々な現場採用されている評価方式の1つであり、特に運用に近い評価が求められる場合有効手段となっています。[1][2][3]

Citations:

[1] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

[2] https://www.kikagaku.co.jp/kikagaku-blog/kaggle-competition/

[3] https://www.kikagaku.co.jp/kikagaku-blog/signate-competition/

[4] https://www.topgate.co.jp/blog/google-service/8707

[5] https://www.jst.go.jp/crds/pdf/2023/RR/CRDS-FY2023-RR-02.pdf

記事への反応 -
  • いやバランス弄ってテストデータ作ってる時点でテストデータじゃないから 実データを分けるんだよ

    • お前、ホールドアウト分割したところで実用のテストにならんのまず理解してる? 訓練データの分布で話してるよねそれ

      • 君Kaggleしかやった事ないのでは? ブラックボックスのテストデータはプロダクションではあり得ないぞ あるとすれば新たに入ってくる生データ

        • ブラックボックスのテストがありえない?何いってんだお前? むしろブラックボックス以外のテストはできないだろ、頭おかしいのか? 開発者がテストデータのラベルを見れる時点で、...

          • あー やっぱコース受けた方がいいよ

            • はい、Kaggleのようなブラックボックスのリーダーボードで評価する現場は存在します。 ## 機械学習モデルの評価方法 機械学習モデルの評価には、一般的に以下の2つの方法があります。...

      • だからバリデーションと分けるんだけど 謎のテストデータがどこかにあったら一回しか使えないだろ

        • コンペみたいにリーダーボードで評価するようにするんだよ、知らんのか? テストデータを「1回しか利用できない」なんてことはなく、ラベルを開発者にバラさなければいい

          • だからそれで評価されるまで性能上げてったらオーバーフィッティングやろ まして100パーセントの上司だろ?

            • だから期限と一日あたりのモデル送信数にを設けるんだよ それを超えたらテストデータ自体を更新する どちらにせよ、ホールドアウト分割よりは過学習を防げる

              • あー クロスバリデーションでバリデーションセットとテストセットの話なんだよね バリデーションとテストってさんざ言ってるんだから知ってればわかると思うけど

                • バリデーションとテストと分けたところで、ホールドアウト分割だろ? 交差検証してもホールドアウト分割だろ?

                  • k fold cross validationとholdoutは違いますね

                    • わかってないのはお前だろ ホールドアウト分割を繰り返してるんだよ交差検証ってのは テストデータのブラックボックステストってのはそれとは別で、マニュアルでアノテーションして...

                    • はい、交差検証法はホールドアウト分割を繰り返し行う手法です。 ## 交差検証法の手順 1. データセットを複数のフォールド(部分集合)に分割する。[1][2] 2. 1つのフォールドをテストデ...

                    • ルー大柴になればイキれると思ったの?

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん