「テスト」を含む日記 RSS

はてなキーワード: テストとは

2024-05-29

anond:20240529164045

言ってないことを言ったことにするのやめてもらっていいすか?

いかブラックボックステストをするために、マニュアルテストデータ作成する

これが俺がずっと言ってることね

anond:20240529163634

はい、交差検証法はホールドアウト分割を繰り返し行う手法です。

## 交差検証法の手順

1. データセットを複数フォールド(部分集合)に分割する。[1][2]

2. 1つのフォールドをテストデータ、残りをトレーニングデータとしてモデルを構築する。[1][2]

3. テストデータモデル評価し、評価指標(精度など)を記録する。[1][3]

4. 2と3を、すべてのフォールドが1回ずつテストデータになるまで繰り返す。[1][2]

5. 各フォールドでの評価指標の平均を最終的な評価値とする。[1][2][3]

まり、交差検証法はホールドアウト分割(トレーニングデータテストデータに分割)を複数回行い、その結果を平均化することで、より信頼性の高い汎化性能評価を行う手法なのです。[1][2][3]

この繰り返しによって、特定データ分割に左右されずに、より客観的評価ができるというメリットがあります。[1][2]

代表的な交差検証法には、k分割交差検証やLOOCV(Leave-One-Out Cross-Validation)などがあり、データ量に応じて使い分けられます。[1][2]

Citations:

[1] https://shoblog.iiyan.net/cross-validation/

[2] https://ja.wikipedia.org/wiki/%E4%BA%A4%E5%B7%AE%E6%A4%9C%E8%A8%BC

[3] https://qiita.com/RyutoYoda/items/4ca997771e99d6c39ddb

[4] https://aiacademy.jp/media/?p=263

[5] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

anond:20240529163634

わかってないのはお前だろ

ホールドアウト分割を繰り返してるんだよ交差検証ってのは

テストデータブラックボックステストってのはそれとは別で、マニュアルアノテーションしてテストデータを作んの

低能にもこの説明でわかったか

anond:20240529163337

はい、Kaggleのようなブラックボックスリーダーボード評価する現場存在します。

## 機械学習モデル評価方法

機械学習モデル評価には、一般的に以下の2つの方法があります

1. **ホールドアウト評価**: 学習データを訓練データテストデータに分割し、テストデータモデル評価する方法。[1]

2. **ブラックボックス評価**: 評価用のデータセットが公開されず、サーバーモデルを提出して評価される方法。Kaggleのコンペティションがこの方式。[1][2]

## ブラックボックス評価の利点

ブラックボックス評価には以下のような利点があります

## ブラックボックス評価現場

まり、Kaggleのようなブラックボックス評価は、機械学習の様々な現場採用されている評価方式の1つであり、特に運用に近い評価が求められる場合有効手段となっています。[1][2][3]

Citations:

[1] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

[2] https://www.kikagaku.co.jp/kikagaku-blog/kaggle-competition/

[3] https://www.kikagaku.co.jp/kikagaku-blog/signate-competition/

[4] https://www.topgate.co.jp/blog/google-service/8707

[5] https://www.jst.go.jp/crds/pdf/2023/RR/CRDS-FY2023-RR-02.pdf

anond:20240529163303

バリデーションとテストと分けたところで、ホールドアウト分割だろ?

交差検証してもホールドアウト分割だろ?

anond:20240529162025

あー

クロスバリデーションでバリデーションセットとテストセットの話なんだよね

バリデーションとテストってさんざ言ってるんだから知ってればわかると思うけど

anond:20240529161624

から期限と一日あたりのモデル送信数に設けるんだよ

それを超えたらテストデータ自体更新する

どちらにせよ、ホールドアウト分割よりは過学習を防げる

anond:20240529161433

「わかりきった話」という言葉のチョイスは間違えたかも知れないが、テストデータが不均衡だと不都合すると言いたかった

anond:20240529161046

ブラックボックステストがありえない?何いってんだお前?

しろブラックボックス以外のテストはできないだろ、頭おかしいのか?

開発者テストデータのラベルを見れる時点で、それはテストではない

anond:20240529160835

コンペみたいにリーダーボード評価するようにするんだよ、知らんのか?

テストデータを「1回しか利用できない」なんてことはなく、ラベル開発者バラさなければいい

anond:20240529160542

君Kaggleしかやった事ないのでは?

ブラックボックステストデータプロダクションではあり得ないぞ

あるとすれば新たに入ってくる生データ

anond:20240529160440

訓練データ分布が、99%がTrue1%Falseってタイプのやつだとするだろ?

それでそのまま評価するにしろF1を使うにしろ実用の精度の評価は難しいんよ

なぜって?「ほぼTrueでいけるやろ」の学習をしがちだから

F1評価するにしても、それは「ランダム分類機よりは汎化性能が高い」ということならわかるが、実用判断だと「Falseの見逃しは減らせ!」ってことが結構ある

そんで、テストデータでTure50%False50%としておけば実用上の性能の評価はやりやすいって話ね

anond:20240529160542

からバリデーションと分けるんだけど

謎のテストデータがどこかにあったら一回しか使えないだろ

anond:20240529160226

お前、ホールドアウト分割したところで実用テストにならんのまず理解してる?

訓練データ分布で話してるよねそれ

anond:20240529155023

不均衡に関しては、テストデータを作る際のラベルの分量のバランスを気をつけろという話ね

いくらAUCF1で良い精度が出たと言っても、実データ分布実用レベルの結果が出ないと話にならんので

anond:20240529154622

そうじゃなくて、正規テストデータを作る場合はラベルバランスをある程度気をつけろという話だと思うが...

anond:20240529142702

なにいってんだこいつ

テストデータのラベル開発者に渡すわけじゃねーだろ

Kaggleとかやったことない初心者

プロダクションに入れたことない初心者

Kaggleって意外にレベル低いのね

anond:20240529135107

## 概要

提示された文章は、機械学習モデル評価方法に関する重要な指摘を含んでおり、おおむね正しい内容だと言えます

## 詳細

### 精度基準の設定

### テストデータ重要

## 総括

提示された文章は、機械学習モデル評価における重要原則を適切に指摘しており、おおむね正しい内容であると言えますモデル評価の際には、これらの点に留意する必要があります

anond:20240529141257

それは単なるホールドアウト分割だろ?

作業アノテーションしたきちんとしたテストデータの話をしている

anond:20240529140600

「このテストデータに対し、これ以上の精度が要件」と決めておく

これもおかしいじゃん

anond:20240529140600

ちゃんとしてないよ

トレーニングデータバリデーションとテストデータとか基本的なことをやってたら「モデルが失敗する細かい条件を見つけ出し」なんてことにならないでしょ

[] 事前に精度の許容条件に合意する

何かテキストを分類するようなモデルを作っているとする。

それで、上司デモを見せる。上司モデルが失敗する細かい条件を見つけ出し「ダメだよ君ぃ、こんなものTrueにしちゃうようじゃ」と言う。

これは不毛なやり方である。いつまで経ってもモデルOKサインが出なくなる。

そこで、予め「このテストデータに対し、これ以上の精度が要件」と決めておくほうが良い。ただし、以下も注意。

都知事選挙

都知事は実績、というと、実績なんかないという人たちがいる。

一方では対立候補は実績というとあまりにも皆さんには事業仕分けが思い起こされるのが困ったところだ。

小生の立場をいうと、立憲全員が嫌いではないがこのひとはちょっと勉強が足りてないことを感じるひとだ。

政治家としての思いみたいなものを感じない。まあそれは都知事も同じでテレビキャスターなどから出てきた人共通かもしれない。

神奈川もそうだし、ほかにもいますな。

まあどちらにしても、”やったことはやったこと”として、やったことで得をしているひともいることは見逃してはいけないと思う。

例えば東京五輪レガシーもあるひとたちにとっては非常に得なレガシーになっている。

例えば晴海選手村の跡地を買ったひとやそのための交通などの整備によって恩恵を受けているひとたちはいる。

また、高校生無償化などは、当然限られた財源でやる以上何を削ったのかも明らかにすべきことだ。

それがマスコミ報道では全く伝わってこない。なぜ?もし何も削ってないならいいけど、そんなことはあるのだろうか?

高校生英語テストにしても、得をしたひとはいるわけですよ。ようはそういうことを明らかにしていくことで、都知事は誰のための政治をこの8年間やってきたのかが明らかになるでしょう。

ただ実績がないというのではなく、そういう”誰にプラスとなって誰にマイナスなのか”を明らかにしてほしいですね

ログイン ユーザー登録
ようこそ ゲスト さん