ケンブリッジアナリティカが、心理学的データ等を利用して政治工作をしていたというニュースが結構前にあった。
ユーザーが持つ興味というのは、相関行列から求めることができる。
ユーザー×アイテム、といった行列はユーザーがどのアイテムに興味を持つかを表し、これを複数のユーザー間で比較して相関を求め、ユーザー×ユーザーに変換することができる。
このような相関行列は、ユーザーをさらにクラスタに分類することができる。
ユーザーが興味を持つアイテムから、IQ、MBTI、Big5、政治志向などを予測するロジスティック回帰モデルを学習させる。
そしてそのような予測から得たユーザー×パーソナリティの行列も援用して、ターゲティング広告の内容を決定する。
このモデルの問題点は、パーソナリティ予測の性能が低いことだ。
ケンブリッジアナリティカがやろうとしていたのは、政治志向があやふやな「説得可能」な人々を見つけ出し、トランプ派へ誘導することである。
ところが、予測精度が低ければ「政治志向があやふや」であるという予測は占いのようになってしまう。
仮に予測精度が高かったとしても、「政治志向があやふやだから説得可能性が高い」という前提が疑わしい。
結局、ケンブリッジアナリティカの問題は「個人情報を間違った方法で利用していること」である。
スキャンダルがかっこ悪いから、自分たちがすごいことをしていると見せかけるために、「俺達は政治を誘導することに成功した」などというハッタリをかましているだけである。