はい、Kaggleのようなブラックボックスのリーダーボードで評価する現場は存..

はてな匿名ダイアリー

2024-05-29

■anond:20240529163337

はい、Kaggleのようなブラックボックスのリーダーボードで評価する現場は存在します。

## 機械学習モデルの評価方法

機械学習モデルの評価には、一般的に以下の2つの方法があります。

1. **ホールドアウト評価**: 学習データを訓練データとテストデータに分割し、テストデータでモデルを評価する方法。[1]

2. **ブラックボックス評価**: 評価用のデータセットが公開されず、サーバーにモデルを提出して評価される方法。Kaggleのコンペティションがこの方式。[1][2]

## ブラックボックス評価の利点

ブラックボックス評価には以下のような利点があります。

**データリークのリスクが低い**: テストデータが公開されないため、過学習を防げる。[1]
**実運用に近い評価が可能**: 実際の運用時と同様に、未知のデータに対する汎化性能を評価できる。[1]
**不正を防げる**: 事前にテストデータを知ることができないため、不正な方法で高い評価を得ることが難しい。[2]

## ブラックボックス評価の現場例

**機械学習コンペティション**: Kaggleのほか、SIGNATEやTENSORFLOW COMMUNITYなどのプラットフォームでもブラックボックス評価が行われている。[3]

**企業内の機械学習モデル評価**: 実運用に近い評価が求められる場合に、ブラックボックス評価が採用されることがある。[1]

**学術分野の機械学習モデル評価**: 公平性を期すため、ブラックボックス評価が行われることがある。[1]

つまり、Kaggleのようなブラックボックス評価は、機械学習の様々な現場で採用されている評価方式の1つであり、特に実運用に近い評価が求められる場合に有効な手段となっています。[1][2][3]

Citations:

[1] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

[2] https://www.kikagaku.co.jp/kikagaku-blog/kaggle-competition/

[3] https://www.kikagaku.co.jp/kikagaku-blog/signate-competition/

[4] https://www.topgate.co.jp/blog/google-service/8707

[5] https://www.jst.go.jp/crds/pdf/2023/RR/CRDS-FY2023-RR-02.pdf

Permalink | 記事への反応(0) | 16:36

記事への反応 -

anond:20240529155239
いやバランス弄ってテストデータ作ってる時点でテストデータじゃないから実データを分けるんだよ
- anond:20240529160226
  お前、ホールドアウト分割したところで実用のテストにならんのまず理解してる？訓練データの分布で話してるよねそれ
  - anond:20240529160542
    君Kaggleしかやった事ないのでは？ブラックボックスのテストデータはプロダクションではあり得ないぞあるとすれば新たに入ってくる生データ
    - anond:20240529161046
      ブラックボックスのテストがありえない？何いってんだお前？むしろブラックボックス以外のテストはできないだろ、頭おかしいのか？開発者がテストデータのラベルを見れる時点で、...
      - anond:20240529161306
        あーやっぱコース受けた方がいいよ
        anond:20240529163337
        はい、Kaggleのようなブラックボックスのリーダーボードで評価する現場は存在します。 ## 機械学習モデルの評価方法機械学習モデルの評価には、一般的に以下の2つの方法があります。...
  - anond:20240529160542
    だからバリデーションと分けるんだけど謎のテストデータがどこかにあったら一回しか使えないだろ
    - anond:20240529160835
      コンペみたいにリーダーボードで評価するようにするんだよ、知らんのか？テストデータを「1回しか利用できない」なんてことはなく、ラベルを開発者にバラさなければいい
      - anond:20240529161108
        だからそれで評価されるまで性能上げてったらオーバーフィッティングやろまして１００パーセントの上司だろ？
        anond:20240529161624
        だから期限と一日あたりのモデル送信数にを設けるんだよそれを超えたらテストデータ自体を更新するどちらにせよ、ホールドアウト分割よりは過学習を防げる
        anond:20240529162025
        あークロスバリデーションでバリデーションセットとテストセットの話なんだよねバリデーションとテストってさんざ言ってるんだから知ってればわかると思うけど
        anond:20240529163303
        バリデーションとテストと分けたところで、ホールドアウト分割だろ？交差検証してもホールドアウト分割だろ？
        anond:20240529163457
        k fold cross validationとholdoutは違いますね
        anond:20240529163634
        わかってないのはお前だろホールドアウト分割を繰り返してるんだよ交差検証ってのはテストデータのブラックボックステストってのはそれとは別で、マニュアルでアノテーションして...
        anond:20240529163634
        はい、交差検証法はホールドアウト分割を繰り返し行う手法です。 ## 交差検証法の手順 1. データセットを複数のフォールド(部分集合)に分割する。[1][2] 2. 1つのフォールドをテストデ...
        anond:20240529163925
        ChatGPTかな？
        anond:20240529163634
        ルー大柴になればイキれると思ったの？
        anond:20240529164018
        ルー大柴が決め台詞w

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

人気エントリ

注目エントリ

ようこそゲストさん