「テスト」を含む日記

はてなキーワード: テストとは

2024-05-29

■anond:20240529164210

じゃあマニュアルでテストデータ作っててください

Permalink | 記事への反応(1) | 16:44

■anond:20240529164045

言ってないことを言ったことにするのやめてもらっていいすか？

いいか、ブラックボックステストをするために、マニュアルでテストデータを作成する

これが俺がずっと言ってることね

Permalink | 記事への反応(1) | 16:42

■anond:20240529163634

はい、交差検証法はホールドアウト分割を繰り返し行う手法です。

## 交差検証法の手順

1. データセットを複数のフォールド(部分集合)に分割する。[1][2]

2. 1つのフォールドをテストデータ、残りをトレーニングデータとしてモデルを構築する。[1][2]

3. テストデータでモデルを評価し、評価指標(精度など)を記録する。[1][3]

4. 2と3を、すべてのフォールドが1回ずつテストデータになるまで繰り返す。[1][2]

5. 各フォールドでの評価指標の平均を最終的な評価値とする。[1][2][3]

つまり、交差検証法はホールドアウト分割(トレーニングデータとテストデータに分割)を複数回行い、その結果を平均化することで、より信頼性の高い汎化性能評価を行う手法なのです。[1][2][3]

この繰り返しによって、特定のデータ分割に左右されずに、より客観的な評価ができるというメリットがあります。[1][2]

代表的な交差検証法には、k分割交差検証やLOOCV(Leave-One-Out Cross-Validation)などがあり、データ量に応じて使い分けられます。[1][2]

Citations:

[1] https://shoblog.iiyan.net/cross-validation/

[2] https://ja.wikipedia.org/wiki/%E4%BA%A4%E5%B7%AE%E6%A4%9C%E8%A8%BC

[3] https://qiita.com/RyutoYoda/items/4ca997771e99d6c39ddb

[4] https://aiacademy.jp/media/?p=263

[5] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

Permalink | 記事への反応(1) | 16:39

■anond:20240529163634

わかってないのはお前だろ

ホールドアウト分割を繰り返してるんだよ交差検証ってのは

テストデータのブラックボックステストってのはそれとは別で、マニュアルでアノテーションしてテストデータを作んの

低能にもこの説明でわかったか？

Permalink | 記事への反応(0) | 16:38

■anond:20240529163337

はい、Kaggleのようなブラックボックスのリーダーボードで評価する現場は存在します。

## 機械学習モデルの評価方法

機械学習モデルの評価には、一般的に以下の2つの方法があります。

1. **ホールドアウト評価**: 学習データを訓練データとテストデータに分割し、テストデータでモデルを評価する方法。[1]

2. **ブラックボックス評価**: 評価用のデータセットが公開されず、サーバーにモデルを提出して評価される方法。Kaggleのコンペティションがこの方式。[1][2]

## ブラックボックス評価の利点

ブラックボックス評価には以下のような利点があります。

**データリークのリスクが低い**: テストデータが公開されないため、過学習を防げる。[1]
**実運用に近い評価が可能**: 実際の運用時と同様に、未知のデータに対する汎化性能を評価できる。[1]
**不正を防げる**: 事前にテストデータを知ることができないため、不正な方法で高い評価を得ることが難しい。[2]

## ブラックボックス評価の現場例

**機械学習コンペティション**: Kaggleのほか、SIGNATEやTENSORFLOW COMMUNITYなどのプラットフォームでもブラックボックス評価が行われている。[3]

**企業内の機械学習モデル評価**: 実運用に近い評価が求められる場合に、ブラックボックス評価が採用されることがある。[1]

**学術分野の機械学習モデル評価**: 公平性を期すため、ブラックボックス評価が行われることがある。[1]

つまり、Kaggleのようなブラックボックス評価は、機械学習の様々な現場で採用されている評価方式の1つであり、特に実運用に近い評価が求められる場合に有効な手段となっています。[1][2][3]

Citations:

[1] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

[2] https://www.kikagaku.co.jp/kikagaku-blog/kaggle-competition/

[3] https://www.kikagaku.co.jp/kikagaku-blog/signate-competition/

[4] https://www.topgate.co.jp/blog/google-service/8707

[5] https://www.jst.go.jp/crds/pdf/2023/RR/CRDS-FY2023-RR-02.pdf

Permalink | 記事への反応(0) | 16:36

■anond:20240529163303

バリデーションとテストと分けたところで、ホールドアウト分割だろ？

交差検証してもホールドアウト分割だろ？

Permalink | 記事への反応(1) | 16:34

■anond:20240529162025

あー

クロスバリデーションでバリデーションセットとテストセットの話なんだよね

バリデーションとテストってさんざ言ってるんだから知ってればわかると思うけど

Permalink | 記事への反応(1) | 16:33

■anond:20240529161624

だから期限と一日あたりのモデル送信数に設けるんだよ

それを超えたらテストデータ自体を更新する

どちらにせよ、ホールドアウト分割よりは過学習を防げる

Permalink | 記事への反応(1) | 16:20

■anond:20240529161433

「わかりきった話」という言葉のチョイスは間違えたかも知れないが、テストデータが不均衡だと不都合すると言いたかった

Permalink | 記事への反応(0) | 16:18

■anond:20240529161046

ブラックボックスのテストがありえない？何いってんだお前？

むしろブラックボックス以外のテストはできないだろ、頭おかしいのか？

開発者がテストデータのラベルを見れる時点で、それはテストではない

Permalink | 記事への反応(1) | 16:13

■anond:20240529160835

コンペみたいにリーダーボードで評価するようにするんだよ、知らんのか？

テストデータを「1回しか利用できない」なんてことはなく、ラベルを開発者にバラさなければいい

Permalink | 記事への反応(1) | 16:11

■anond:20240529160542

君Kaggleしかやった事ないのでは？

ブラックボックスのテストデータはプロダクションではあり得ないぞ

あるとすれば新たに入ってくる生データ

Permalink | 記事への反応(1) | 16:10

■anond:20240529160440

訓練データの分布が、99%がTrueで1%がFalseってタイプのやつだとするだろ？

それでそのまま評価するにしろ、F1を使うにしろ、実用の精度の評価は難しいんよ

なぜって？「ほぼTrueでいけるやろ」の学習をしがちだから

F1で評価するにしても、それは「ランダム分類機よりは汎化性能が高い」ということならわかるが、実用判断だと「Falseの見逃しは減らせ！」ってことが結構ある

そんで、テストデータでTure50%False 50%としておけば実用上の性能の評価はやりやすいって話ね

Permalink | 記事への反応(1) | 16:10

■anond:20240529160542

だからバリデーションと分けるんだけど

謎のテストデータがどこかにあったら一回しか使えないだろ

Permalink | 記事への反応(1) | 16:08

■anond:20240529160226

お前、ホールドアウト分割したところで実用のテストにならんのまず理解してる？

訓練データの分布で話してるよねそれ

Permalink | 記事への反応(2) | 16:05

■anond:20240529155239

いやバランス弄ってテストデータ作ってる時点でテストデータじゃないから

実データを分けるんだよ

Permalink | 記事への反応(1) | 16:02

■anond:20240529155023

不均衡に関しては、テストデータを作る際のラベルの分量のバランスを気をつけろという話ね

いくら AUCやF1で良い精度が出たと言っても、実データの分布で実用レベルの結果が出ないと話にならんので

Permalink | 記事への反応(1) | 15:52

■anond:20240529154622

そうじゃなくて、正規のテストデータを作る場合はラベルのバランスをある程度気をつけろという話だと思うが...

Permalink | 記事への反応(1) | 15:50

■anond:20240529142702

なにいってんだこいつ
テストデータのラベルを開発者に渡すわけじゃねーだろ
Kaggleとかやったことない初心者

プロダクションに入れたことない初心者

Kaggleって意外にレベル低いのね

Permalink | 記事への反応(0) | 14:28

■anond:20240529142511

なにいってんだこいつ

テストデータのラベルを開発者に渡すわけじゃねーだろ

Kaggleとかやったことない初心者

Permalink | 記事への反応(1) | 14:27

■anond:20240529135107

## 概要

提示された文章は、機械学習モデルの評価方法に関する重要な指摘を含んでおり、おおむね正しい内容だと言えます。

## 詳細

上司が細かい条件でモデルの失敗例を指摘し続けることは、モデルの改善に役立たず、不毛な方法であるという指摘は適切です。

代わりに、予め目標とする精度基準を設定しておくことが重要であるという提案は賢明です。ただし、以下の点にも留意する必要があります。

### 精度基準の設定

100%の精度を求めるのは現実的ではありません。分野によっては、ある程度の誤りは避けられません。
目標精度は、実際のユースケースを反映し、達成可能な水準に設定する必要があります。

### テストデータの重要性

テストデータのラベル情報をモデル開発者に漏らさないことが重要です。自動評価の仕組みを用意するのが賢明です。
テストデータは、実際のユースケースを適切に反映していなければなりません。
テストデータのサンプル数が十分でなければ、モデルの性能を適切に評価できません。
テストデータにバイアスがあると、モデルの性能が偏った評価になってしまいます。

## 総括

提示された文章は、機械学習モデルの評価における重要な原則を適切に指摘しており、おおむね正しい内容であると言えます。モデル評価の際には、これらの点に留意する必要があります。

Permalink | 記事への反応(0) | 14:25

■anond:20240529141257

それは単なるホールドアウト分割だろ？

手作業でアノテーションしたきちんとしたテストデータの話をしている

Permalink | 記事への反応(0) | 14:21

■anond:20240529140600

「このテストデータに対し、これ以上の精度が要件」と決めておく

これもおかしいじゃん

Permalink | 記事への反応(1) | 14:15

■anond:20240529140600

ちゃんとしてないよ

トレーニングデータとバリデーションとテストデータとか基本的なことをやってたら「モデルが失敗する細かい条件を見つけ出し」なんてことにならないでしょ

Permalink | 記事への反応(2) | 14:12

■[開発メモ] 事前に精度の許容条件に合意する

何かテキストを分類するようなモデルを作っているとする。

それで、上司にデモを見せる。上司がモデルが失敗する細かい条件を見つけ出し「ダメだよ君ぃ、こんなものをTrueにしちゃうようじゃ」と言う。

これは不毛なやり方である。いつまで経ってもモデルにOK サインが出なくなる。

そこで、予め「このテストデータに対し、これ以上の精度が要件」と決めておくほうが良い。ただし、以下も注意。

現実的な精度で。分野にもよるが、普通は100%の精度のモデルなど存在しない。
テストデータのラベルの情報をモデル開発者に漏らさないこと。csvなどを提出して自動評価する形式が良い。
テストデータは実際のユースケースを適切に反映していること。
テストデータのサンプル数が十分であること。
テストデータにバイアスがないこと(特定の属性に偏っていないこと)。

Permalink | 記事への反応(3) | 13:51