深層強化学習の精度は嘘？GoogleのAI研究論文が指摘した評価方法

AI研究で避けられない「統計的な不確実性」にどう対処すべきか

今週のテーマ：評価方法

パロアルトインサイトの長谷川です。論文に書かれている実験結果であれば、「正しい」と無条件に信じたいところです。しかし、ナマモノであるAIには「統計的な誤差」があるため、実際には論文の数字を鵜呑みにはできません。これまで見て見ぬ振りをされてきたこの問題に、Googleが正面から取り組みました。

シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。今回取り上げるのは、過去のAI研究の統計的な不確実性を検証した論文です。

この記事から得られる３つのナレッジ

・深層強化学習アルゴリズムの評価方法
・統計的な不確実性を抑える手段
・テスト実行回数を増やすことの問題点

論文データ：

今回のディスカッション対象の論文を紹介します。

タイトル：Deep Reinforcement Learning at the Edge of the Statistical Precipice
著者：Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro, Aaron Courville, Marc G. Bellemare
掲載サイト：arXiv
発行日：2021年8月30日
引用数：
URL：https://arxiv.org/abs/2108.13264

この論文を選んだポイント
AI研究における統計的な誤差をどう扱うべきか、今後の議論の出発点となる注目度の高い論文であるため。

この記事に登場する技術キーワード

深層強化学習
- 関連記事「ソニーAIの研究は何がすごいのか？エチケットを理解した深層強化学習」
Atari 100k
IQM（InterQuartile Mean）

深層強化学習における統計的不確実性を検証

Googleが推奨する指標「IQM」

計算リソースの重要性が増すことへの懸念

AIビジネスデザイナーのワンポイントアドバイス

深層強化学習における統計的な不確実性を検証

2021年にGoogleが発表したディスカッション対象の論文は、ある賞を獲得しました。

AI・機械学習分野のトップ学会であるNeurIPSが、特に優れた論文に与える「Outstanding Paper Award（優秀論文賞）」です。高い評価を受けた論文の内容を解説していきましょう。

統計的不確実性の軽視への警鐘

Googleの研究者たちは、深層強化学習の研究成果において「統計的な不確実性」が軽視されていることに、警鐘を鳴らしています。アルゴリズムの評価方法があいまいなせいで、深層強化学習の研究そのものへの信頼が損なわれかねないと懸念しているのです。

統計的な不確実性とは「たまたま良い（悪い）結果が出た」だけなのに、それを正式な結果として採用してしまう可能性を指します。

深層強化学習のアルゴリズムは、相対的な性能によって優劣がつけられることが一般的です。過去の研究よりも優れた成果を出した手法は有望だと判断され、他の研究者によってさらに研究が深められたり、実用化が目指されたりします。

もし統計的な不確実性のせいで、どの手法が優れているかの判断を誤ってしまえば、AI業界全体にとって大きな損失になってしまうでしょう。

深層強化学習で用いられる評価方法

深層強化学習では、最初に「報酬とペナルティ」さえ正しく設定すれば、あとはAIが自ら何度も試しながら学びを深めて、適切な判断ができるようになると考えます。深層学習について詳しくは、過去記事「ソニーAIの研究は何がすごいのか？エチケットを理解した深層強化学習」で解説しました。

深層強化学習では、どのアルゴリズムが優れているかの指標として、ゲームスコアがよく使われます。

ゲームはスコアが明確な数字として取得できるうえ、「高いスコアを取ったら報酬を与える」と学習条件を定めるのが容易です。そのため、強化学習で扱いやすい題材なのです。

なかでも**「Atari games」と呼ばれる1970〜80年代のコンピューターゲームがよく利用されます**。学習の題材とされるゲームの中には、以下のような日本人になじみのあるゲームもあります。

パックマン
スペースインベーダー
ビデオピンボール

（画像引用：https://www.retrogamer.net/top_10/top-ten-atari-2600-games/）

多くの論文で共通して使われている評価指標が「Atari 100k」です。この指標では、AIに26のゲームをそれぞれ2〜3時間のプレーさせて、ゲームスコアを評価します。

「Atari 100k」を利用することで、深層強化学習アルゴリズムどうしの比較が、簡単に行えるのです。

過去の研究の検証

本論文では、「Atari 100k」を指標として利用した過去の研究を再現しました。そして「統計的な不確実性のせいで成果の解釈に誤解が生まれている」という仮説が正しいかを検証したのです。

https://www.paloaltoinsight.com/membership-checkout/?level=4

　PAIoneerPRO会員に登録 ▷　
PAIoneer PRO
詳細はこちら

　会員の方はログイン▷　

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏（CEO）が2017年に創業したシリコンバレー発のAI企業。

社名：パロアルトインサイトLLC
設立：2017年
所在：米国カリフォルニア州（シリコンバレー）
メンバー数：17名（2021年9月現在）

パロアルトインサイトHP：www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com

＜CEO 石角友愛（いしずみともえ）＞

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。データサイエンティストのネットワークを構築し、日本企業に対して最新のAI戦略提案からAI開発まで一貫したAI支援を提供。東急ホテルズ＆リゾーツ株式会社が擁する3名のDXアドバイザーの一員として中長期DX戦略について助言を行う。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授（AI企業戦略）及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート＆テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ！」内「マイ！Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ　ChatGPTとリスキリング』（日経BP）『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』（ディスカヴァー・トゥエンティワン）、『経験ゼロから始めるAI時代の新キャリアデザイン』（KADOKAWA）、『才能の見つけ方　天才の育て方』（文藝春秋）など多数。

実践型教育ＡＩプログラム「ＡＩと私」：https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com