2018-02-03

統計モデリングで癌の5年生存データから良い病院を探すは乱暴すぎ

はてブにあがっていた、

http://statmodeling.hatenablog.com/entry/best-hospitals-for-cancers

だが、かなり乱暴じゃないか

以下では病院ごとの生存率や手術率を比較するために、癌種t・病院hにおける男性比率を0.5・平均年齢を60・平均進行度を2.5(おおよそステージIIに相当)に仮に固定して議論をすすめます

これは無茶がありすぎ。

例えばがんセンター中央病院の実績。

https://www.ncc.go.jp/jp/about/disclosere/result_h/index.html

細胞がん

進行期 症例

I 28

II 120

III 153

IV 50

子宮頚がん

進行期 症例

I期 425

II期 139

III期 120

IV期 46

癌種における進行度の分散全然違うし、症例数そのものも違うし、それぞれの癌種の生存確率も違う。

この仮定を置いた時点で、どのようなモデルをつくろうが、単純に難病を受け入れる病院が不利になるに決まっている。

少なくとも各病院患者ステージ別、癌種別人数位は推計してからモデル化しないと。

なんでみんな素直に称賛しているのかさっぱりわからない。

そもそも固定値として仮定に置いている、男性比率・年齢・進行度こそが5年生存率の主要な説明変数であり、病院ごとの技術の差なんてそれらと比較すると説明力10%もないんでないの?

選挙予測でいうと、過疎の選挙区千代田区住民年齢構成比を全国平均を割り当てて自民党得票率を予測しているようなものだろ。当たるわけないよね。

モデリング方法自体 理解ができない場合、それだけですごいと思ってしまうのか?

  • よく内容見てない(見る必要もないと思ってみていない)けど、こういうものに近い立場からすると、こういう病院比較みたいなのはやってほしくないことの第3位以内に入ることなん...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん