UBERが作る、「フェイクニュース」を見破るAI

こんにちは、CTOの長谷川です。

Open Data Science Conference(ODSC)はデータサイエンスをテーマに質の高いプレゼンテーションが用意され、参加者も面白い人が多いので注目していたカンファレンスの一つでした。

今年のODSCはパロアルト近辺で開催される上に気になる スピーカーが何人かいるので参加しました。気になるスピーカーとは、テスラでAIのディレクターを務めるAndrej Karpathy氏、UBERでデータサイエンスチームをリードし、Berkleyで教鞭を握るMike Tamir氏、そして弊社でも欠かせないツールとなっているSlackのデータサイエンスチームを作り上げたJosh Wills氏の3名です。

 Andrej Karpathy氏はテスラでのAI開発の現状を解説していました。テスラではモデルの精度が人命に関わるケースがあるため、エッジケースをとにかく追求して質が高い上に超汎用性が高いモデルの開発を目指していると言っていました。またアジャイルの一歩上を行くソフトウェア2.0の開発手法や、データ自体がプログラムの領域に達してきている現状を解説していました。

 フェイクニュースを見破るAIを披露するMike Tamir氏

フェイクニュースを見破るAIを披露するMike Tamir氏

Mike Tamir氏は自然言語処理のディープラーニングモデルを用いて「フェイクニュース」を見破るAIを披露していました。私はSiriでエンジニアをしていた頃は自然言語処理を生業としていたため、ここら辺の内容、特にLSTMなどの手法は馴染みやすかったです。彼は機械学習の本題に入る前に「課題定義」の重要性を説いていました。フェイスブックのようにフェイクニュースを「事実とは異なるニュース」というように定義してしまうと、では事実とは何かといった非常に難しい問題と直面します。そうではなくて、「フェイクニュース」の特徴として、人間の感情を逆撫でして論理的思考能力を停止させるニュースを「フェイクニュース」と定義して、そのような文面を判別する分類器を作るように心がけたようです。

 マイクをつけるJeff Wills氏

マイクをつけるJeff Wills氏

最後にSlackのJeff Willsですが、私は彼がまだClouderaでチーフサイエンティストをしていた時代から知っていたので、面白い発表をするに違いないと踏んでいました。出だしから「今は何だか皆が機械学習は面白いと思い込んでいるようだけど、私は機械学習をいつも苦痛に思っていた」と斜に構えた出だしだったので、さすが肝が据わってるなと思いました。彼はグーグルでアドのランキングなどの仕事もしていたので、グーグルの検索エンジンが3つの層で構成されているという内情を話していました。1つはリアルタイム層、これは新聞記事などの情報の鮮度が重要なデータの索引でドキュメント数は約2,500万。2つ目はコア層で、これが検索の大部分を占める内容で、ドキュメント数は4億以上。最後に「テラグーグル」という層があってなんとドキュメント数が16億もあったらしいです。

というわけで内容も参加者も素晴らしいイベントでした。来年も是非参加したいところです。