ドラえもんは実現できる？強化学習のゴッドファーザーが言及する｢汎用人工知能｣で産業はどう変わるか - ビジネスインサイダー寄稿記事掲載

｢強化学習のゴッドファーザー｣とも呼ばれる、AI研究の重鎮、リチャード・サットン氏（タップすると2月公開のAIセミナー動画に遷移します）。

Amii Intelligenceの｢AI Seminar: Feb 11, 2022 – Rich Sutton｣より

こんにちは。パロアルトインサイトCEO・AIビジネスデザイナーの石角友愛です。

みなさんは、AGIという言葉を聞いたことがあるでしょうか。

スタンフォード大学で機械学習を教えていたアンドリュー・ング（Andrew Ng）教授によると、AIの種別には、特定の目的のための｢特化型人工知能｣（Narrow AI＝ANI、狭いAIと呼ばれることもある）と、人間と同等の能力を持つ｢汎用人工知能｣（Artificial General Intelligence=AGI）があります。

AGIは汎用人工知能と呼ばれるもので、イメージとしては漫画｢ドラえもん｣のように話せば何でも理解して、答えを出してくれたり、仕事を肩代わりできる人工知能を指す。まだ現実的なものとして実用化された例はない。

画像作成：パロアルトインサイト

AGI（汎用人工知能）は人間のような認知能力を持ち、過去の経験や知識を元に環境の変化に適応することができると考えられています。さらに、想像力、表現力、予測力、計画力なども持ち合わせることができると言われています。

しかし、AGIの研究開発はANI（特化型人工知能）と比べると遅れており、現在、ビジネスの現場で活用されているほとんどのAIがANIです。ANIは、局所的なタスクや作業を学び、極めてうまくこなすため、予測や処理などをするツールとして、需要予測モデルなどの形で使われています。

例えば、コンサルティングファームのガートナーが2021年に発表したAIハイプサイクルを見ると、AGIはまだ黎明期にあり、技術が成熟するのに10年以上かかるであろうと予想しています。AGIの実現は遠い未来の話であるとされていることがわかります。

ガートナーが2021年に発表したAIハイプサイクルの図。

出典：Gartner｢The 4 Trends That Prevail on the Gartner Hype Cycle for AI, 2021｣

今までのアメリカのIT業界では、AIといえばANIを指して話すことが多かったのですが、最近ではAGIの話をする人が徐々に増えています。

そのきっかけをつくったのが、グーグル傘下のAI会社DeepMindが2021年5月に発表したポジションペーパー｢Reward is Enough（報酬で十分）｣です。この論文の中で、近い将来にAGIが身近になる可能性をDeepMindが提唱しているのです。

ポジションペーパーとは、学術論文とは違い、｢数学的な証明や実験に基づく仮説の証明がなく、文章だけで仮説を提示する論文｣のことです。

この論文の執筆者は、AI研究の重鎮であり｢強化学習のゴッドファーザー｣として知られるリチャード・サットン氏と、サットン氏の元教え子であり、AlphaGo開発の中心人物であるデイビッド・シルバー氏です。

このセンセーショナルな論文は、AI研究者の間で大きな論争を巻き起こし、AGIを語るきっかけをつくりました。論文発表から約1年経った今、ビジネスにおける影響を考察したいと思います。

汎用人工知能を作るには｢報酬｣設計だけで十分？

Shutterstock

このポジションペーパーの中で、DeepMind社はAGIを実現するためには｢（AIに）報酬を与えるだけで十分である｣と仮説を立てています。

報酬とは、強化学習の中心概念であり、報酬を最大化することで、AIは様々な知識を習得できるようになります（報酬とは｢アメと鞭｣のアメのことを指します。特定の行動を取るとアメがもらえるとわかれば、同じ行動を繰り返すようになり行動が強化されていくことを、心理学では強化学習と呼び、AIの強化学習の基本コンセプトになっています）。

例えば、論文の中にキッチンAIロボットの例が登場します。通常は、キッチンロボットが台所の清潔さを最大化するためには、以下のような細かいスキルが必要とされると考えられます。

・知覚（清潔な食器と汚れた食器を区別するスキル）
・知識（食器を理解するスキル）
・運動制御（食器を操作するスキル）
・記憶（食器の位置を思い出すスキル）
・言語（対話から将来台所が汚れる可能性のある状況を予測するスキル）
・社会知能（幼児が台所で暴れるような混乱を減らすよう促すスキル）

この時、キッチンロボットに対して、｢台所を清潔に保つ｣という最終目標に対してのみ報酬を与えれば、上記のような細分化された個々の能力が、報酬の最大化という唯一の目標に対する解として理解されるため、なぜそのような能力が必要なのかかえって深い理解を与える可能性があると著者は提唱しています。

一方、個々の細分化された能力ごとに学習させると、｢台所を清潔に保つ｣という全体像として見た時に｢なぜ｣個別の能力が大事なのか、という問いが脇に追いやられると著者は述べています。

それぞれの細分化された目標のためにではなく、1つの目標のために個々の能力を実装することで、結果的に｢どのように能力を統合するかという問題にも答えることになる｣ということです。

このように、細かい条件設定なしに、最終ゴールのみを設定して報酬を与えることでAGIがつくれるという仮説なので、｢Reward is Enough（報酬で十分）｣というわけです。

論文の冒頭で著者は、

｢報酬を最大化するために試行錯誤の経験を通じて学習するエージェントは、これらの能力の全てではないにしても、そのほとんどを示す行動を学習することができ、したがって、強力な強化学習エージェントがAGIの解決策を構成することができることを示唆するものである。｣（ポジションペーパーより）

と述べていることから、最終ゴールの報酬を最大化させるアプローチこそがAGI実現の可能性を高めるというという仮説であることが分かります。

メタ社AI研究所の重鎮、ルカン氏は｢不十分だ｣と異論

勿論、この論文には多くのAI研究者が異論を唱えました。

例えば、異論を唱えた一人は、ニューヨーク大学教授でMeta（元Facebook）の人工知能研究所チーフサイエンティストのヤン・ルカン氏。

彼は2018年にコンピューター科学におけるノーベル賞とも言われるチューリング賞を受賞した人物ですが、自身のTwitterで “Reward is *clearly* not enough. （報酬が十分ではないのは明らかだ）” と反論し、｢世の中にはさまざまな課題があり、それぞれの課題を解決するには、異なる知能（インテリジェンス）が必要である｣と述べています。

Reward is *clearly* not enough. https://t.co/LX95cVsWyS

— Yann LeCun (@ylecun) June 28, 2021

1. That there are many different types of problems and their solutions require different types of intelligence.
2. That human intelligence is not good at everything. Humans suck at many tasks, like playing go, chess, and poker, calculating integrals, reasoning logically. #noAGI

— Yann LeCun (@ylecun) June 12, 2021

https://www.paloaltoinsight.com/membership-checkout/?level=4

　PAIoneerPRO会員に登録 ▷　
PAIoneer PRO
詳細はこちら

すでに会員ですか？ここでログイン

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏（CEO）が2017年に創業したシリコンバレー発のAI企業。

社名：パロアルトインサイトLLC
設立：2017年
所在：米国カリフォルニア州（シリコンバレー）
メンバー数：17名（2021年9月現在）

パロアルトインサイトHP：www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com

＜CEO 石角友愛（いしずみともえ）＞

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。東急ホテルズ&リゾーツのDXアドバイザーとして中長期DX戦略への助言を行うなど、多くの日本企業に対して最新のDX戦略提案からAI開発まで一貫したAI・DX支援を提供する。2024年より一般社団法人人工知能学会理事及び東京都AI戦略会議　専門家委員メンバーに就任。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授（AI企業戦略）及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート＆テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ！」内「マイ！Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ　ChatGPTとリスキリング』（日経BP）『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』（ディスカヴァー・トゥエンティワン）、『経験ゼロから始めるAI時代の新キャリアデザイン』（KADOKAWA）、『才能の見つけ方　天才の育て方』（文藝春秋）など多数。

実践型教育ＡＩプログラム「ＡＩと私」：https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com