人間を説得し交渉するかつてないAI「CICERO」の可能性

人間を説得し交渉するかつてないAI「CICERO」の可能性複雑な意思決定や、戦略策定におけるAIの潜在的な能力の高さが明らかに今週のテーマ：技術開発 DeepMindが2016年に発表した「AlphaGo」が世界トップレベルのプロ棋士に勝ったことから、今では囲碁や将棋といった対人ボードゲームを極める上で、AIはもはや必要不可欠なツールとなっています。これまで、AIの応用は難しいと考えられていた複数人が参加する戦略的なボードゲーム「Diplomacy」において、Meta AIが開発したAI「CICERO」が好成績を残したと発表され話題になりました。 ?この記事から得られる３つのナレッジ・Meta AIが発表した「CICERO」・AIが交渉や説得をするまでの思考プロセス・人間と会話し、説得できるAIの発展可能性 ? この記事に登場する技術キーワード・強化学習関連記事「AIが囲碁で人間に勝つ。その事実のどこが凄いのか」関連記事「ソニーAIの研究は何がすごいのか？エチケットを理解した深層強化学習」関連記事「強化学習の可能性を広げたDeepNashとは」目次 AIでは操作が困難とされていたDiplomacyとは CICEROの技術と特徴大量の整備されたデータセットからAIを学習ゲームプレイ中のCICEROの思考プロセス Meta AIは、独自のAIシステム「CICERO」を発表しました。これは複雑な交渉ゲームとして人気の高い「Diplomacy」上で、最適な意思決定を行うことのできるシステムです。これまでもAIがボードゲームをマスターし、人間に勝利した例はいくつも知られています。囲碁では「AlphaGo」がトッププロに勝利したり、日本の将棋界でも藤井聡太プロがAIを活用して研鑽を積み多くのタイトルを獲得していることから、今では多くのプロがトレーニングに使用しているという話はご存知のことかと思います。今回のCICEROは、囲碁や将棋のような対人型ボードゲームでなく、より複雑な要素を用いるゲームであるDiplomacyで人間の上位プレイヤーと同等の成績を残したとして注目されています。プレイ状況や、プレイヤーとの対話の履歴、言語や文型の知識など、さまざまな情報を活用して稼働するこのシステムは、AIとしての応用性が明確になっている段階ではありませんが、プロ・アマが混在する中で上位10％以内に入るなどの好成績を上げています。 AIでは操作が困難とされていたDiplomacyとは CICEROがプレイするDiplomacyは、7人のプレイヤーが地図上で駒を動かしてヨーロッパの支配権を競い合うというゲームです。参加する複数のプレイヤーが同時に行動するだけでなく、各ターンの前に短い交渉時間が設けられ、プレイヤーが2人で話し合い、同盟を組んだり、ライバルを追い詰めるために結託したりする戦略性の高さが特徴です。交渉後、どの駒を動かすか、他のプレイヤーとの約束を守るか、反故にするかを決定する必要があります。数十年前からAIを用いてプレイするプロジェクトはありましたが、自然言語を使いながら人間を相手に複雑な交渉するAIエージェントとしての機能を備えている必要があるため、ほぼ不可能なチャレンジと見なされてきました。 CICEROの技術と特徴囲碁や将棋、チェス、ポーカーのような1対1のゲームでは強化学習という、自分自身のコピーと何度も対戦させることで最適な手法を学習させる方法が使われてきました。しかし今回のように他者の協力を伴うゲームにおいてはこの手法は用いることができず、現実の人間が実際にどのように行動するかをモデル化する必要があったと言います。 Diplomacyでは、囲碁や将棋のように駒をどう動かすか以上に、プレイヤーがどのように他の人と話すかが重要な意味を持ちます。その点で、CICEROは、他のプレーヤーと戦略を練る際に、他のプレイヤーとの対話と矛盾しないような計画を立て、明確で説得力のある話し方をするように注力して学習させたと言います。例えば、あるデモゲームでは、ひとりのプレイヤーには盤面の一部ですぐに支援を求め、別のプレイヤーにはゲームの後半で同盟を検討するように迫ったと言います。下のイメージ画像の対話ではCICEROは3人の異なるプレイヤーを相手にそれぞれに異なる手を提案することで戦略を実行しようとしており、2件目の対話では、なぜ協力すべきなのか、それがどのように相互利益になるのかを相手プレイヤーに伝えており、3件目の対話でCICEROは、相手に情報を求めると同時に、将来の動きのための土台を築くためのテキストを送っています。大量の整備されたデータセットからAIを学習 CICEROの開発にあたっては、多くの実用的なAIと同様に機械学習技術が大いに使われており、他のプレイヤーと適切にコミュニケーションするための準備で、過去のDiplomacyの膨大なデータを使い様々な学習データパーツも活用しています。このシステムは最終的に、典型的な深層学習システムに見られるよりもはるかに多様で、かなりの量の手作業で構築されたデータを用いて学習されたといいます。具体的には、主に以下の4つのクラスの特注データを元に構成されているといいます。オンラインプラットフォームでプレイされた125,300のDiplomacyのデータセット（そのうち40,400件は対話を含み、合計1290万通の個別メッセージが含まれていた）何十億もの単語を学習したと思われる大規模な言語モデルを、ゲーム対話のコーパス（自然言語の文章を構造化し大規模に集積したもの）でさらに微調整。 CICEROの予備バージョンで作成されたメッセージの品質を評価するために、専門家が作成した数千の注釈。手作業で作成された合成データセットの膨大なコレクション。（無効なメッセージを除外するフィルタを学習するために、手作業で無効なメッセージのコレクションを作成するなどしています。） https://garymarcus.substack.com/p/what-does-meta-ais-diplomacy-winning 言語モデルの多くは、テキストを理解するのではなく、コーパスに基づいて最も確率の高い言葉の並びを選択するだけです。そのため、たとえ事実が正確であっても、説得力はあるものの最終的には意味のない文章が出来上がってしまうこともあります。しかし、CICEROは、会話から特定の情報を導き出し、特定の目標に向かって共同作業を行うように訓練されています。もし、対戦相手がCICEROにドイツを攻撃するつもりだと言えば、その情報をターンの戦略モデルに取り入れながら、CICEROも自分の目標に合った戦略的なアイデアを他のプレイヤーに提案することができます。またCICEROの設計者は、このAIを完全に正直なものにし、その計画を比較的率直に示すように設計したと言います。初心者がカジュアルに遊ぶときは、最適な動きをしたり長期的な戦略を立てるような戦術的な熟練がないため、嘘をつく能力が有用に作用しますが、研究をすすめるにあたり、高いレベルのプレイでは、正直さはより有用であることが証明されたといいます。以下の動画で、Diplomacyの世界チャンピオンであるAndrew Goff氏も、CICEROを対戦相手として参加したゲームの感想を語っています。 https://youtu.be/kexYmcu1Zro ゲームプレイ中のCICEROの思考プロセスステップ1 ボードの状態と現在の対話の履歴を使用して、CICEROは皆が何をするかについて最初の予測を立てます。ステップ2 CICEROは、プランニングを用いてその予測を繰り返し精緻化し、その予測を用いて自身とパートナーの意図を形成していきます。ステップ 3 ボードの状態、ユーザーとの対話、その意図をもとに、複数のメッセージ候補を生成します。ステップ 4 複数のメッセージ候補をフィルタリングし、無意味なものを減らします。価値を最大化し、自分の意図との一貫性を確保したものを絞り込みアウトプットします。さらに、人間とモデルが生成したテキストを区別するために訓練された分類器など、いくつかのフィルタリング機構を用いて、対話の質を向上させることで、これまでのメッセージとの一貫性を保ち、健全であることを保証していると言います。終わりに現段階では、ボードゲームのプレイ結果から得られた研究結果の1つ過ぎませんが、今回のCICEROの成功は、複雑な意思決定や、戦略策定におけるAIの潜在的な能力をあらわにしました。CICEROには優れた戦略的推論アルゴリズムや会話エージェントが採用されていますが、両方のモデルが効果的な方法でまとめられたAIはこれが初めてのことです。 CICERO がもたらす影響を考慮して、Meta はモデルと関連する研究をオープンソース化しており、今後はより優れた会話AIエージェントを作成するために応用されることも考えられています。世に出回っている会話AI エージェントは、単純なクエリには応答できますが、CICEROの背後にあるテクノロジーを応用することにより、独特なコンテキストの手がかりや、会話のポイントを理解しながら、人間との本格的な会話を実行できる可能性を秘めています。ここ数年で、AI研究は劇的な発展を遂げていますので、この研究の発展が想像以上に広範囲へと及ぶ可能性も考えられます。今後人間とAIが協業するパートナーとして共に複雑な意思決定を抱える問題解決に取り組む未来への期待も持つことができますね。弊社では、AI活用に関するご相談を受け付けています。もしAIについてお困りのことがありましたら、ぜひお気軽にお問い合わせください。お問い合わせはこちらから。https://www.paloaltoinsight.com/contact/…

https://www.paloaltoinsight.com/membership-checkout/?level=4

　PAIoneerPRO会員に登録 ▷　
PAIoneer PRO
詳細はこちら

すでに会員ですか？ここでログイン

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏（CEO）が2017年に創業したシリコンバレー発のAI企業。

社名：パロアルトインサイトLLC
設立：2017年
所在：米国カリフォルニア州（シリコンバレー）
メンバー数：17名（2021年9月現在）

パロアルトインサイトHP：www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com

＜CEO 石角友愛（いしずみともえ）＞

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。東急ホテルズ&リゾーツのDXアドバイザーとして中長期DX戦略への助言を行うなど、多くの日本企業に対して最新のDX戦略提案からAI開発まで一貫したAI・DX支援を提供する。2024年より一般社団法人人工知能学会理事及び東京都AI戦略会議　専門家委員メンバーに就任。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授（AI企業戦略）及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート＆テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ！」内「マイ！Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ　ChatGPTとリスキリング』（日経BP）『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』（ディスカヴァー・トゥエンティワン）、『経験ゼロから始めるAI時代の新キャリアデザイン』（KADOKAWA）、『才能の見つけ方　天才の育て方』（文藝春秋）など多数。

実践型教育ＡＩプログラム「ＡＩと私」：https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで：info@paloaltoinsight.com