統計モデリングで癌の5年生存率データから良い病院を探すは乱暴すぎ

はてブにあがっていた、

だが、かなり乱暴じゃないか？

以下では病院ごとの生存率や手術率を比較するために、癌種t・病院hにおける男性比率を0.5・平均年齢を60・平均進行度を2.5（おおよそステージIIに相当）に仮に固定して議論をすすめます。

これは無茶がありすぎ。

肝細胞がん
進行期症例数
I 28
II 120
III 153
IV 50
子宮頚がん
進行期症例数
I期 425
II期 139
III期 120
IV期 46

癌種における進行度の分散が全然違うし、症例数そのものも違うし、それぞれの癌種の生存確率も違う。

この仮定を置いた時点で、どのようなモデルをつくろうが、単純に難病を受け入れる病院が不利になるに決まっている。

少なくとも各病院の患者のステージ別、癌種別人数位は推計してからモデル化しないと。

なんでみんな素直に称賛しているのかさっぱりわからない。

そもそも固定値として仮定に置いている、男性比率・年齢・進行度こそが５年生存率の主要な説明変数であり、病院ごとの技術の差なんてそれらと比較すると説明力１０％もないんでないの？

選挙予測でいうと、過疎の選挙区と千代田区の住民年齢構成比を全国平均を割り当てて自民党得票率を予測しているようなものだろ。当たるわけないよね。

モデリングの方法自体　理解ができない場合、それだけですごいと思ってしまうのか？

2018-02-03