生データというのは、そういうもの。
3割ぐらいがノイズ。
へたすりゃ9割ノイズ。
ここから、目的とする対象群をどうやって抽出するか?とその抽出はほんとうにランダムサンプリングに近い母集団での抽出と言えるか?ノイズを切り落とす時に恣意的になりすぎていないか?
ものすごく大変
なにがしたいかによって、切り落とすデータが違う。まちがえて切り落とすと違うデータになっちまう。
Permalink | 記事への反応(1) | 10:14
ツイートシェア
対象とする要素を持つ、母集団でのランダムサンプリングはランダムか?