2020-11-09

〇〇グラフは駄目、とか言ってる奴はそもそも何もわかっちゃいない

データグラフ化する技術統計一種と言える。

統計とは大量データを少量化する技術総称である

何十万とある生データを直接見せられても人間は正しく理解できない。

平均値中央値、最頻値、分散、最大値、最小値、四分点、ヒストグラム、そして各種グラフ・・・

何十万の生データをこれらの両手で収まるような数値群に集約することで、ようやく人間にもそのデータの形が見えるようになる。

当然、その過程情報は失われる。

何十万のデータがせいぜい十程度の数値に収まるのだから、そこには膨大な情報の欠落があるのを、当然と思えない人はおかしい。

勿論、単なる膨大な欠落とはならないよう、取捨選択された情報は極力、元データの特徴を抑えたものにする必要がある。

平均値をはじめとする各種統計量は、基本的にはその観点で優秀なものが使われている。

しかし、どうしても元の情報量は欠落してしまう。それは統計を用いる限りどうすることもできない。

最終的に見せる値が少ないほどそれは顕著で、どの統計量を見せるかによって、データの印象も変ってしまう。

からといってすぐ、じゃあ統計詐欺だ、という方向に走るのもおかしい。

そもそも大量の生データ人間には理解できないという前提を理解すべきなのだ

理解できない」を元の情報量を代償にしながら「ちょっと理解できる」にするのが統計だ。

グラフも、基本的にはこれと全く同じ。元データじゃ人間には何が書いてあるのかわからいから、せめて情報量を絞って、イラストレーションして大枠だけなんとか伝えようとした結果だ。

情報量を絞るのだから、当然その過程で欠落は起きるし、生データのうち一部だけの印象を見せることしかできない。

から様々なグラフ選択したり、工夫を用いてどうにかそれぞれの生データの特徴を最も優秀に表すことができそうな形を模索するのだ。

このデータ重要なのは平均値くらいだな・・・とか、このデータは散らばり具合も見せないと分からないな・・・とか言うのと基本的には同じだ。

それを、自衛意識が高すぎるのか、被害妄想か、「この種類のグラフはどんな状況でもとにかく駄目!」とか言うのは筋が悪すぎる。

まあ3D円グラフとかどう考えても絶対擁護できないものもあるが、そんなものはごくわずしかない悪例であって、大概は「何が何でも全く使うタイミングが無い」というグラフはない。

元のデータの特徴に合わせてなんとか人間理解しうるような様々な形態を取捨選択してできたグラフなのだということを、理解すべきだろう。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん