「テスト」を含む日記

はてなキーワード: テストとは

2024-05-31

■増田ってAAどうだっけ？ってテスト

　　　 ∧∧　　／￣￣￣￣￣

　　　(,,ﾟДﾟ)＜　ﾎｲｸｴﾝｵﾁﾀﾆﾎﾝｼﾈ!!!

　　 ⊂　　⊃　＼＿＿＿＿＿

　　～|　　|

　　　し`J

AA記法なんでつかえないんだろ

Permalink | 記事への反応(0) | 16:45

■

(^q^)あーうー光をどうにゅううんした

結論から言うと別に速くなかった

結局(^q^)あーうー光のモデムの時点で100mbsリンクらしく、テストすると90しか出ない

(^q^)じぇいこむが200出ていたことを考えるとここは劣化である

だがアップロードも90なのでここは改善である

(^q^)じぇいこむは10だったし稀によく(^q^)あうあうあーして(^q^)ぱしへろんだすｗｗｗｗｗｗｗだったので、まあ、(^q^)あーうー光はそこに期待

別部屋の同居人と同時に動画見たときとかの挙動が心配

Permalink | 記事への反応(0) | 11:14

■[開発メモ] 施策 実施前と実施後の比較を目視確認できるようにする

モデルAは特徴量を10000個使っていたが、追加で4000個の特徴量を付与したモデルBを作ったとする。

モデルAとモデルBをテストデータを使ってテストすることも可能だが、使用感を確かめるなどの目的の場合は、入出力を明確化してデモにするとわかりやすかったりする。

例えばそれは「検索エンジン」のモデルだったりするわけだが、モデルAとBを切り替えるボタンを検索エンジンのデモに用意しておき、検証可能にしておくのである。

具体的には、検索クエリを入力し、その結果をモデルAとモデルBで比較できるようにするということだ。

それにより、各モデルがどのように異なる結果を生成するか、また新たに追加された特徴量が結果にどのように影響を与えるかを直接確認できる。

ただし、このデモを設計する際には、結果を解釈するのを助けるために、各モデルの主要な特徴と動作原理についての説明も提供する。

これにより、モデルの選択とその結果に対する理解を深めることができる。

Permalink | 記事への反応(0) | 08:52

■anond:20240530235634

そうだな。パッチテストの類がそのうち出たら良いな。

CBDは知ってる？

Permalink | 記事への反応(0) | 00:11

2024-05-30

■

野比のび太っていつも0点取ってるし

誰かに「幽霊だー！」とか言われても

「なんで僕の昨日のテストの結果知ってるの！？」

とか返しそう

それでいつの間にかそばにいた野比ママに

「まあ、また0点とったのね！」って

叱られてそう

Permalink | 記事への反応(1) | 10:00

2024-05-29

■陸海軍がドローン（無人機 全般を指す意味で）に覆われつつあるけど人間の兵士なにするの？

スパイ・整備・EMP下での肉弾戦ぐらいしか使い道ないよね？

でも自衛隊にはそれ全部無理じゃね？

社会に溶け込む能力が低いからスパイには向いてないし、情報漏洩しまくりだから対スパイにも弱い。

機械の整備は最低限を除けば会社任せな上に、儲からなすぎて会社が次々撤退してる。

オタクやデブばっかりで懸垂１回出来ればセーフみたいなグダグダの体力テストやってる現状。

もう終わりだね。

完全に使い物にならない人達の集まりだ。

全員クビにしてPMC雇ったほうが早いよ。

Permalink | 記事への反応(1) | 20:37

■anond:20240529164210

じゃあマニュアルでテストデータ作っててください

Permalink | 記事への反応(1) | 16:44

■anond:20240529164045

言ってないことを言ったことにするのやめてもらっていいすか？

いいか、ブラックボックステストをするために、マニュアルでテストデータを作成する

これが俺がずっと言ってることね

Permalink | 記事への反応(1) | 16:42

■anond:20240529163634

はい、交差検証法はホールドアウト分割を繰り返し行う手法です。

## 交差検証法の手順

1. データセットを複数のフォールド(部分集合)に分割する。[1][2]

2. 1つのフォールドをテストデータ、残りをトレーニングデータとしてモデルを構築する。[1][2]

3. テストデータでモデルを評価し、評価指標(精度など)を記録する。[1][3]

4. 2と3を、すべてのフォールドが1回ずつテストデータになるまで繰り返す。[1][2]

5. 各フォールドでの評価指標の平均を最終的な評価値とする。[1][2][3]

つまり、交差検証法はホールドアウト分割(トレーニングデータとテストデータに分割)を複数回行い、その結果を平均化することで、より信頼性の高い汎化性能評価を行う手法なのです。[1][2][3]

この繰り返しによって、特定のデータ分割に左右されずに、より客観的な評価ができるというメリットがあります。[1][2]

代表的な交差検証法には、k分割交差検証やLOOCV(Leave-One-Out Cross-Validation)などがあり、データ量に応じて使い分けられます。[1][2]

Citations:

[1] https://shoblog.iiyan.net/cross-validation/

[2] https://ja.wikipedia.org/wiki/%E4%BA%A4%E5%B7%AE%E6%A4%9C%E8%A8%BC

[3] https://qiita.com/RyutoYoda/items/4ca997771e99d6c39ddb

[4] https://aiacademy.jp/media/?p=263

[5] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

Permalink | 記事への反応(1) | 16:39

■anond:20240529163634

わかってないのはお前だろ

ホールドアウト分割を繰り返してるんだよ交差検証ってのは

テストデータのブラックボックステストってのはそれとは別で、マニュアルでアノテーションしてテストデータを作んの

低能にもこの説明でわかったか？

Permalink | 記事への反応(0) | 16:38

■anond:20240529163337

はい、Kaggleのようなブラックボックスのリーダーボードで評価する現場は存在します。

## 機械学習モデルの評価方法

機械学習モデルの評価には、一般的に以下の2つの方法があります。

1. **ホールドアウト評価**: 学習データを訓練データとテストデータに分割し、テストデータでモデルを評価する方法。[1]

2. **ブラックボックス評価**: 評価用のデータセットが公開されず、サーバーにモデルを提出して評価される方法。Kaggleのコンペティションがこの方式。[1][2]

## ブラックボックス評価の利点

ブラックボックス評価には以下のような利点があります。

**データリークのリスクが低い**: テストデータが公開されないため、過学習を防げる。[1]
**実運用に近い評価が可能**: 実際の運用時と同様に、未知のデータに対する汎化性能を評価できる。[1]
**不正を防げる**: 事前にテストデータを知ることができないため、不正な方法で高い評価を得ることが難しい。[2]

## ブラックボックス評価の現場例

**機械学習コンペティション**: Kaggleのほか、SIGNATEやTENSORFLOW COMMUNITYなどのプラットフォームでもブラックボックス評価が行われている。[3]

**企業内の機械学習モデル評価**: 実運用に近い評価が求められる場合に、ブラックボックス評価が採用されることがある。[1]

**学術分野の機械学習モデル評価**: 公平性を期すため、ブラックボックス評価が行われることがある。[1]

つまり、Kaggleのようなブラックボックス評価は、機械学習の様々な現場で採用されている評価方式の1つであり、特に実運用に近い評価が求められる場合に有効な手段となっています。[1][2][3]

Citations:

[1] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

[2] https://www.kikagaku.co.jp/kikagaku-blog/kaggle-competition/

[3] https://www.kikagaku.co.jp/kikagaku-blog/signate-competition/

[4] https://www.topgate.co.jp/blog/google-service/8707

[5] https://www.jst.go.jp/crds/pdf/2023/RR/CRDS-FY2023-RR-02.pdf

Permalink | 記事への反応(0) | 16:36

■anond:20240529163303

バリデーションとテストと分けたところで、ホールドアウト分割だろ？

交差検証してもホールドアウト分割だろ？

Permalink | 記事への反応(1) | 16:34

■anond:20240529162025

あー

クロスバリデーションでバリデーションセットとテストセットの話なんだよね

バリデーションとテストってさんざ言ってるんだから知ってればわかると思うけど

Permalink | 記事への反応(1) | 16:33

■anond:20240529161624

だから期限と一日あたりのモデル送信数に設けるんだよ

それを超えたらテストデータ自体を更新する

どちらにせよ、ホールドアウト分割よりは過学習を防げる

Permalink | 記事への反応(1) | 16:20

■anond:20240529161433

「わかりきった話」という言葉のチョイスは間違えたかも知れないが、テストデータが不均衡だと不都合すると言いたかった

Permalink | 記事への反応(0) | 16:18

■anond:20240529161046

ブラックボックスのテストがありえない？何いってんだお前？

むしろブラックボックス以外のテストはできないだろ、頭おかしいのか？

開発者がテストデータのラベルを見れる時点で、それはテストではない

Permalink | 記事への反応(1) | 16:13

■anond:20240529160835

コンペみたいにリーダーボードで評価するようにするんだよ、知らんのか？

テストデータを「1回しか利用できない」なんてことはなく、ラベルを開発者にバラさなければいい

Permalink | 記事への反応(1) | 16:11

■anond:20240529160542

君Kaggleしかやった事ないのでは？

ブラックボックスのテストデータはプロダクションではあり得ないぞ

あるとすれば新たに入ってくる生データ

Permalink | 記事への反応(1) | 16:10

■anond:20240529160440

訓練データの分布が、99%がTrueで1%がFalseってタイプのやつだとするだろ？

それでそのまま評価するにしろ、F1を使うにしろ、実用の精度の評価は難しいんよ

なぜって？「ほぼTrueでいけるやろ」の学習をしがちだから

F1で評価するにしても、それは「ランダム分類機よりは汎化性能が高い」ということならわかるが、実用判断だと「Falseの見逃しは減らせ！」ってことが結構ある

そんで、テストデータでTure50%False 50%としておけば実用上の性能の評価はやりやすいって話ね

Permalink | 記事への反応(1) | 16:10

■anond:20240529160542

だからバリデーションと分けるんだけど

謎のテストデータがどこかにあったら一回しか使えないだろ

Permalink | 記事への反応(1) | 16:08

■anond:20240529160226

お前、ホールドアウト分割したところで実用のテストにならんのまず理解してる？

訓練データの分布で話してるよねそれ

Permalink | 記事への反応(2) | 16:05

■anond:20240529155239

いやバランス弄ってテストデータ作ってる時点でテストデータじゃないから

実データを分けるんだよ

Permalink | 記事への反応(1) | 16:02

■anond:20240529155023

不均衡に関しては、テストデータを作る際のラベルの分量のバランスを気をつけろという話ね

いくら AUCやF1で良い精度が出たと言っても、実データの分布で実用レベルの結果が出ないと話にならんので

Permalink | 記事への反応(1) | 15:52

■anond:20240529154622

そうじゃなくて、正規のテストデータを作る場合はラベルのバランスをある程度気をつけろという話だと思うが...

Permalink | 記事への反応(1) | 15:50

■anond:20240529142702

なにいってんだこいつ
テストデータのラベルを開発者に渡すわけじゃねーだろ
Kaggleとかやったことない初心者

プロダクションに入れたことない初心者

Kaggleって意外にレベル低いのね

Permalink | 記事への反応(0) | 14:28