強化学習を用いて開発されたDeepMindの対話AI「Sparrow」を解説

「人のフィードバックを反映させた強化学習」による改善

今週のテーマ：技術開発

パロアルトインサイトの嶋崎です。さまざまな分野でAIの実用化が進んでいますが、なかでも「対話AI」は身近な存在です。Webサイトなどに設置されたチャットボットを利用した経験のある方は多いでしょう。

2022年9月、DeepMindが対話AIに関する新たな研究成果を発表しました。有用性を高めつつ、害のある回答を抑制することに成功した「Sparrow」について解説します。

シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。今回取り上げるのは、DeepMindによる新たな対話AIとその学習手法です。

?この記事から得られる３つのナレッジ
・大規模言語モデルの現状の課題
・有用性を高めるためのSparrowのアプローチ
・人のフィードバックを反映させた強化学習の手法

論文データ：

今回のディスカッション対象の論文をご紹介します。

タイトル：Improving alignment of dialogue agents via targeted human judgements
著者：Amelia Glaese et al.
掲載サイト：DeepMind公式サイト
発行日：2022年9月20日
引用数：
URL：https://storage.googleapis.com/deepmind-media/DeepMind.com/Authors-Notes/sparrow/sparrow-final.pdf

?この論文を選んだポイント
実用化が進む対話AIにおいて、新たな学習アプローチで成果を出した研究であるため。

?この記事に登場する技術キーワード

LLM（Large Language Model）

InstructGPT

‣関連記事「自然言語処理モデルGPT-3を越えた「InstructGPT」」

LaMDA

‣関連記事「AIは感情を持ったのか？Google エンジニアの主張とは」

強化学習

大規模言語モデルの課題

2022年9月にDeepMindが発表した「Sparrow」は、大規模言語モデル（Large Language Models：LLM）の一種です。まずはLLMについて解説します。

大規模言語モデル（LLM）とは

LLMは事前に学習した文章に基づいて、単語を予測するモデルです。LLMを用いることで、たとえばAIは以下のタスクを行えます。

⚙LLM が可能なタスク

文章の要約
翻訳
対話
質問応答

AIはチャットで人と会話できますが、文章の意味を理解しているわけではありません。文脈から統計的に適当な単語を推測し、出力するというのが、LLM内部の仕組みです。

LLMについては、過去記事「大規模言語モデルとは？一般企業も注目のオープンソース「BLOOM」を解説」でも詳しく紹介しました。ぜひあわせてお読みください。

LLMが抱える課題

LLMはAI研究における大きな成果であり、すでにチャットボットなどの形で、ビジネスにも応用されています。しかし、LLMは以下のような文章を生み出す場合があることが知られています。

⚠️LLM によって生み出される文章のリスク

差別的
不正確
捏造されている
安全でない行動を促す

こうした「人にとって有害な文章」を生み出さないようにすることが、LLMが抱える大きな課題です。

2020年に「GPT-3」を発表して注目を集めたOpenAIもこの課題の解決に取り組んでおり、2022年1月には改良版の「InstructGPT」を開発しました。詳しくは過去記事「自然言語処理モデルGPT-3を越えた「InstructGPT」」で解説しています。

Sparrowは有用性を高めつつ制約を加えた対話AI

「Sparrow」の研究が進められた目的と、その特徴を解説します。

研究の目的

人にとってより有用で、無害な対話AIを開発する目的で、Sparrowの研究は進められました。対話AIの学習方法を改善することで、前章で紹介したLLMの課題に対処しようとしています。

幅広い用途に使える汎用性の高さがあるInstructGPTとは異なり、Sparrowの用途は限定されています。チャットによる対話に特化しており、さらに雑談のような会話は対象とせず、「情報探索型」のやり取りに焦点を当てているのです。成功基準を明確にし、評価を行いやすくすることが、研究対象を限定した狙いです。

なおSparrowは、DeepMindが2022年5月に発表した「Dialogue-Prompted Chinchilla：DPC」と呼ばれるLLMをベースに開発されています。

情報源の明示

https://www.paloaltoinsight.com/membership-checkout/?level=4

　PAIoneerPRO会員に登録 ▷　
PAIoneer PRO
詳細はこちら

すでに会員ですか？ここでログイン

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏（CEO）が2017年に創業したシリコンバレー発のAI企業。

社名：パロアルトインサイトLLC
設立：2017年
所在：米国カリフォルニア州（シリコンバレー）
メンバー数：17名（2021年9月現在）

パロアルトインサイトHP：www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com

＜CEO 石角友愛（いしずみともえ）＞

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。東急ホテルズ&リゾーツのDXアドバイザーとして中長期DX戦略への助言を行うなど、多くの日本企業に対して最新のDX戦略提案からAI開発まで一貫したAI・DX支援を提供する。2024年より一般社団法人人工知能学会理事及び東京都AI戦略会議　専門家委員メンバーに就任。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授（AI企業戦略）及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート＆テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ！」内「マイ！Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ　ChatGPTとリスキリング』（日経BP）『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』（ディスカヴァー・トゥエンティワン）、『経験ゼロから始めるAI時代の新キャリアデザイン』（KADOKAWA）、『才能の見つけ方　天才の育て方』（文藝春秋）など多数。

実践型教育ＡＩプログラム「ＡＩと私」：https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com