情報通信研究機構(NICT、理事長: 徳田 英幸)脳情報通信融合研究センター(CiNet)の研究グループは、ソーシャルネットワーキングサービス(SNS)の情報から、どの程度個人のパーソナリティが推定可能かを調べた結果、外向性やIQといった幅広いパーソナリティを推定することに成功しました。
今回、研究グループは、SNSの一つであるTwitterの情報と被験者が答えたパーソナリティの情報に、データへの過度の適応を避けやすいという特徴を持つAIの一手法であるcomponent-wise gradient boostingを適用し、学習を行いました。その結果、例えば、ツイート数や'いいね'をした人数など、Twitterのネットワークに関する情報は外向性など社会性に関するパーソナリティを推定すること、また、ツイートに使用される言語の情報はメンタルヘルスに関するパーソナリティを推定することが分かりました。
結果を詳細に分析すると、ネットワーク情報が、Big5の外向性、共感性、自閉傾向など社会性に関するパーソナリティをよく推定し、言語統計情報と使用単語に関する言語情報が、不安傾向、うつ傾向、統合失調傾向などメンタルヘルスや社会経済的地位、喫煙/飲酒に関係するパーソナリティを推定しました。一方で、時間情報による推定はこれらの情報に比べると困難でしたが、IQは4種類全ての情報から推定できました。
1文の文字数のばらつき(文章の長さ_ばらつき)が統合失調症傾向などの推定に正の寄与をすることが分かります。Twitterにおける表現の長さのばらつきがメンタルヘルスの状態を反映するのが興味深い点です。またポジティブな意味の単語の頻度(ポジティブ語の頻度)とネガティブな意味の単語の頻度(ネガティブ語の頻度)も多くのパーソナリティの推定に寄与しました。
図9に使用単語情報からの推定結果を示します。単語統計情報と類似してメンタルヘルス及びIQとともに、知性と飲酒喫煙を推定しました。図にどのような単語が飲酒、強迫神経症傾向の推定に寄与したかを示します。前者では飲む、終電、歩く、時刻表といった単語が、後者では時間、優先度といった単語が寄与していることが分かります。
ネットワーク情報は社会性、人生の満足度を推定し、単語情報(単語統計情報と単語使用情報を合わせたもの)は、メンタルヘルス、知性、飲酒喫煙を推定することが確認できます。一方で、現段階では行動抑制/賦活や行動経済に関する推定は難しいことも見て取れます。
研究の主題ではないのでしょうが、「一方で、現段階では行動抑制/賦活や行動経済に関する推定は難しいことも見て取れます。」SNSマーケティングは無理です、と (笑)。