https://honeshabri.hatenablog.com/entry/The_Honest_Truth_About_Dishonesty
この件ですが。
ダン・アリエリーが主犯だとすると、捏造があまりにも杜撰すぎませんか。
そもそも論文を書くにあたって偽のデータをこしらえなきゃいけないモチベーション、インセンティブは何なのかというところから考えると、
のどちらかだと思うんです。
上記記事のブコメでは①の推測も散見されましたが、これは明らかにおかしいでしょう。
①がモチベーションになるためには、そもそも不正の無い状態で生の実験をやって、その結果が思っている結論と合わない、じゃあ捏造しようというプロセスを踏むはずです。そうであれば今回のデータの捏造方法はおかしくないですか?
去年のデータは半分だけ使って、そのコピーを乱数で揺らして二倍に。今年のデータは去年プラス乱数。謎ですよね。結論に合わない実験データが既にあるのであればそれを結論に合わせて弄っていくだけのはずです。余計な手間をかけて杜撰にしていると思いませんか?
②のデータが手に入らなかったについては不正を行うに至る状況としては理解できます。しかしそうであれば保険会社に協力を仰いだ意味はなんなのか?協力したという保険会社自体が存在しなかった?いやいやそれなら、去年の半分のデータはどこから来たのかということになります。
結局不正を行うモチベーションがいまいち掴めないんですよね。おまけに杜撰でもある。隠し通すつもりならふつう一様乱数なんて使わないでしょう。
わざわざ杜撰なやり方でデータを捏造し、そのデータを自分で公開する。案の定そこから不正がバレる。そんなに彼は無能の極みみたいな人なんですか?ちょっとそうとは思えません。
それに比べれば本しゃぶり氏の提示した「保険会社の作業者面倒くさがった説」の方が遥かに結果に対する説明力が高い。一様乱数というのが特にこの説の補強になっています。Excelでrandと入力して吐き出されるのは、一様乱数ですので。
ところでこの説に対しては「ダン・アリエリー本人は何故一目でそんな杜撰なデータを見抜けなかったのか。見抜けたはずだ」という反論が多く見られますね。
ただこれってそこまで簡単に見抜けるというほどでもないと思うんですよ。
出てきたデータ自体が一様乱数と言うなら並べた時にわかって当然だとは思います。
ただ、今回疑いの根拠となった一様分布だという話は「年間走行距離」、すなわち「今年ー去年」の値なんですよね。直接収集したデータは去年の累計値と今年の累計値なんです。
まあ今年の値が去年の値に一様乱数を加算して作られているのだから、そりゃ差分が一様分布になりますよね。
ここで理解してほしいのは、実験自体にはこの「差分」の値は登場していないということです。
去年のデータは実データをダブルにして作られているのだからまともな分布になっている可能性が高い。今年のデータはそのまともな分布に一様分布を足し合わせている。去年のデータが十分大きい場合、これもあまり変な分布に見えなかったとしても仕方がないことではないでしょうか?
結局これが変なデータだと気づくためには、実験本体には何ら関係ない「個人ごとに差分をとる」という計算操作を実施しなければいけないわけです。
それをするっていうのはどういう時でしょうか?そう、「初めからデータを疑っている時」です。
公開されたデータを見た検証者たちは当然疑いの目をもってそれをチェックします(それが検証ですから)。データの不備も考えるし、著者の捏造も視野に入れます。だから差分でも何でもとって分布をチェックするでしょう。
一方でダン・アリエリーはどうだったのでしょう。協力パートナーである保険会社から出てきたデータをわざわざ「今年のデータは去年のデータに乱数を足しているかもしれない」などと考えて引き算をしてみるのでしょうか。まあ研究者ならするべきだったのでしょうが、しなかったとしても責められはしないだろうと思います。