rstudio::conf

Di Cook氏が説くApophenia(データ妄想癖)の避け方

こんにちは、CTO長谷川です。

突然ですが、質問です。晴れた日の午後に芝生の上に寝そべって雲を見ながら、雲の形が他の何かに見える連想ゲームをしたことはありますか?表題のApopheniaとは、まさにそういう意味で、「特に繋がりがないのに意味もなく連想してしまう」ことをさします。ドイツ心理学者のクラウス・コンラッド氏が「統合失調症の前駆症状」という論文の中で使った言葉です。

Cumulus_clouds_panorama.jpg

RStudio::ConfのトップバッタースピーカーのDi Cook氏はMonash大学の統計学の教授です。彼女によると、Apopheniaは数字や図表を扱う仕事では頻繁に起きる現象です。人間は先入観に基づきデータを見る生き物なので、特にデータにトレンドがなくても、自分のバイアスを裏付ける証拠を見出そうとするため、何の相関性もない図表を見て、相関性があると錯覚してしまう危険性があります。

このApopheniaを避けるための手法を二つ紹介してくれました。[1]

  1. Rorschach protocol: 本物のデータを見る前に、練習として、(ランダムサンプル)を図表化してみて、何の関連性もない時に発生し得る形を知っておく。
  2. Lineup protocol: 20個くらいの偽のチャート(ランダム数値に基づく)の中に本物のデータがあるチャートを埋め込み、他の人間にその20個のうち特徴的な図表があるか尋ねる。警察が証人に犯人を特定してもらう時に、容疑者と一般人を一列に並べ、どの人だったかを特定してもらう手法をLineupということから、同じ原理を統計に応用している。
Photo: Gramercy Pictures; Courtesy Everett Collection

Photo: Gramercy Pictures; Courtesy Everett Collection

他にも統計におけるTidy Data[2]の重要性や、p値に頼り過ぎることの危険性など、面白い統計話をしていました。Tidy DataはRStudioカンファレンスの重要なテーマの一つだったので、定義を記述しておきます。

  • 各変数が列になっていること
  • 各事象が行になっていること
  • セルが値になっていること

上記の3つの条件を満たすことがTidy Dataの前提で、このような形になっていることが後のデータ分析やモデル化を簡単にします。

  • [1] http://www.dicook.org/files/rstudio/#41
  • [2] Wickham H (2014), "Tidy Data" Journal of Statistical Software

RStudio::Confシリーズ

こんにちは、CTOの長谷川です。 

Rプログラミング言語について開発者が集い最新の事例紹介やツール紹介をする、RStudio::Confというカンファレンスに参加しました。RStudioとは、Rプログラミングをする際に使うアプリです。ワードを起動して文章を書くように、RStudioを起動してRのコードを書き、実行します。2日間に渡り南カリフォルニアのサンディエゴで開催されました。

参加者の登録ブース。無料でTシャツを配布している。 

参加者の登録ブース。無料でTシャツを配布している。 

内容を大きく分類すると、以下の通りです。

  • Rの中でも利用度がかなりたかまっているライブラリである「tidyverse」について
  • Rを使って分析や機械学習のモデルを作る事例紹介 
  • 各エンジニアが独自に開発したパッケージの紹介 

70個以上のプレゼンテーションを2日間でこなすため、3部屋に分かれて実施されました。全部のプレゼンを見ることは物理的に不可能なので、ある程度的を絞って見に行く必要があります。

プレゼンテーションの   予定表 

プレゼンテーションの 予定表 

 大物スピーカーとしては、ggplot2という図表作成のためのパッケージを開発し、tidyverseの中心的人物であるHadley Wickham氏、RStudioの創業者であり近年TensorFlowをRから使えるようにしたJ. J. Allaire氏、StitchFix社のChief Algorithm OfficerであるEric Colson氏などがプレゼンテーションをしていました。

Rはオープンなコミュニティで、言語自体が拡張しやすくできているため、多くのエンジニアが新しいパッケージを開発してはRの有用性を高めていると感じました。例えば、Rで時系列のデータを分析し易くする「tibbletime」や、機械学習のモデルを学習させるときに、クロスバリデーションをし易くするrsampleなどが紹介されていました。 

 オープンなコミュニティのもう一つの利点は、多様性です。R言語を20年以上使っているという人もいれば、使い始めて1年未満という人もいました。私が話した参加者は、例えば教育委員会、保険業界、ファイナンス、メディア、大学教授など、多様な業界から来ていると感じました。

 キーノートの様子。多様な参加者が世界中から集まっている。

 キーノートの様子。多様な参加者が世界中から集まっている。

様々な先進事例やRの使い方についての示唆を得られるカンファレンスでした。1つのブログ記事ではとてもカバーしきれないので、シリーズ化して、プレゼンテーションの中でもとくに面白かったものなどを紹介していきます!講演のタイトルなどはカンファレンスのスケジュールから見れますので、とくに知りたい内容などがあればコメントに入れるか、直接ご連絡ください。乞うご期待。