何十万とある生データを直接見せられても人間は正しく理解できない。
平均値、中央値、最頻値、分散、最大値、最小値、四分点、ヒストグラム、そして各種グラフ・・・
何十万の生データをこれらの両手で収まるような数値群に集約することで、ようやく人間にもそのデータの形が見えるようになる。
何十万のデータがせいぜい十程度の数値に収まるのだから、そこには膨大な情報の欠落があるのを、当然と思えない人はおかしい。
勿論、単なる膨大な欠落とはならないよう、取捨選択された情報は極力、元データの特徴を抑えたものにする必要がある。
平均値をはじめとする各種統計量は、基本的にはその観点で優秀なものが使われている。
しかし、どうしても元の情報量は欠落してしまう。それは統計を用いる限りどうすることもできない。
最終的に見せる値が少ないほどそれは顕著で、どの統計量を見せるかによって、データの印象も変ってしまう。
だからといってすぐ、じゃあ統計は詐欺だ、という方向に走るのもおかしい。
そもそも大量の生データは人間には理解できないという前提を理解すべきなのだ。
「理解できない」を元の情報量を代償にしながら「ちょっと理解できる」にするのが統計だ。
グラフも、基本的にはこれと全く同じ。元データじゃ人間には何が書いてあるのかわからないから、せめて情報量を絞って、イラストレーションして大枠だけなんとか伝えようとした結果だ。
情報量を絞るのだから、当然その過程で欠落は起きるし、生データのうち一部だけの印象を見せることしかできない。
だから様々なグラフを選択したり、工夫を用いてどうにかそれぞれの生データの特徴を最も優秀に表すことができそうな形を模索するのだ。
このデータは重要なのは平均値くらいだな・・・とか、このデータは散らばり具合も見せないと分からないな・・・とか言うのと基本的には同じだ。
それを、自衛の意識が高すぎるのか、被害妄想か、「この種類のグラフはどんな状況でもとにかく駄目!」とか言うのは筋が悪すぎる。
まあ3D円グラフとかどう考えても絶対に擁護できないものもあるが、そんなものはごくわずかしかない悪例であって、大概は「何が何でも全く使うタイミングが無い」というグラフはない。
元のデータの特徴に合わせてなんとか人間が理解しうるような様々な形態を取捨選択してできたグラフなのだということを、理解すべきだろう。