Di Cook氏が説くApophenia(データ妄想癖)の避け方

こんにちは、CTO長谷川です。

突然ですが、質問です。晴れた日の午後に芝生の上に寝そべって雲を見ながら、雲の形が他の何かに見える連想ゲームをしたことはありますか?表題のApopheniaとは、まさにそういう意味で、「特に繋がりがないのに意味もなく連想してしまう」ことをさします。ドイツ心理学者のクラウス・コンラッド氏が「統合失調症の前駆症状」という論文の中で使った言葉です。

Cumulus_clouds_panorama.jpg

RStudio::ConfのトップバッタースピーカーのDi Cook氏はMonash大学の統計学の教授です。彼女によると、Apopheniaは数字や図表を扱う仕事では頻繁に起きる現象です。人間は先入観に基づきデータを見る生き物なので、特にデータにトレンドがなくても、自分のバイアスを裏付ける証拠を見出そうとするため、何の相関性もない図表を見て、相関性があると錯覚してしまう危険性があります。

このApopheniaを避けるための手法を二つ紹介してくれました。[1]

  1. Rorschach protocol: 本物のデータを見る前に、練習として、(ランダムサンプル)を図表化してみて、何の関連性もない時に発生し得る形を知っておく。
  2. Lineup protocol: 20個くらいの偽のチャート(ランダム数値に基づく)の中に本物のデータがあるチャートを埋め込み、他の人間にその20個のうち特徴的な図表があるか尋ねる。警察が証人に犯人を特定してもらう時に、容疑者と一般人を一列に並べ、どの人だったかを特定してもらう手法をLineupということから、同じ原理を統計に応用している。
 Photo: Gramercy Pictures; Courtesy Everett Collection

Photo: Gramercy Pictures; Courtesy Everett Collection

他にも統計におけるTidy Data[2]の重要性や、p値に頼り過ぎることの危険性など、面白い統計話をしていました。Tidy DataはRStudioカンファレンスの重要なテーマの一つだったので、定義を記述しておきます。

  • 各変数が列になっていること
  • 各事象が行になっていること
  • セルが値になっていること

上記の3つの条件を満たすことがTidy Dataの前提で、このような形になっていることが後のデータ分析やモデル化を簡単にします。

  • [1] http://www.dicook.org/files/rstudio/#41
  • [2] Wickham H (2014), "Tidy Data" Journal of Statistical Software