アメリカ最新AI情報満載!セミナーや講演情報など交えて毎週水曜配信 無料ニュースレター 下記へメールアドレスを入力し無料で登録
CLOSE
パロアルトインサイト/ PALO ALTO INSIGHT, LLC.
ブログBLOG
パロアルトインサイト/PALO ALTO INSIGHT, LLC. > ブログ > 強化学習のビジネスへの応用
強化学習のビジネスへの応用
2020/04/14 ブログ 
by 長谷川貴久 

こんにちは、CTOの長谷川です。

私はパロアルトインサイトのCTOを務める傍ら、ジョージア工科大学の修士生に向けて強化学習の教授補佐もしています。

AlphaGoに用いられたことで知名度を得た強化学習ですが、実際のビジネスの現場へ応用することは可能なのかと、経営者の方から聞かれることが良くあります。

AlphaGo開発チームリードでもあるDavid Silver氏は強化学習のことを「意思決定の科学」と呼んでいます。機械にも教えられるくらい意思決定プロセスをモデル化し学習可能にすることを指しています。ビジネスの現場は意思決定の連続なので、この「意思決定の科学」をビジネスの現場に応用し、莫大な価値を生み出すことは十分可能です。その一つの例が「レコメンダーシステム」です。Eコマースのサイトなどで「おすすめ商品」をおすすめする機能のことです。このレコメンデーションには、強化学習の基礎系であるバンディット問題として定義付けて良いレコメンデーションに結びつけるやり方があります。

バンディット問題とは、カジノのスロットマシンを選ぶときをシミュレーションしたモデルのことです。例えば10台のスロットマシンが置かれたカジノで、それぞれのスロットマシン毎にペイアウトが違う状況があるとします。カジノを訪れた客は、どのスロットが一番ペイアウトが良いのか分からないので、試行錯誤をするしかありません。例えば3番の台が一番ペイアウトが良いとします。あなたならばどうやって一番ペイアウトが高いスロットマシンを探し当てますか?

上記の問題は「探索と搾取(Exploration vs Exploitation)のジレンマ」が重要課題となります。例えば、2番目に座った台が4番で、たまたま良い具合に当たる台だったらどうするか、という問題です。他の8台のうちにより良い台が隠れているかもしれないから「探索」するか、今の台で満足だから「搾取」するか、という2択に迫られます。なお、ここで我々は一番良い台が3番であることを知っているので、「後悔」という概念を数値化できます。この状況でいう「後悔」とは、「最初から一番良い出玉率だった3番に座ることによって得られただろうペイアウト 引くことの 実際に4番に座って出たペイアウト」ということになります。

この例で、David Silver氏が強化学習のことを意思決定の科学と表現している理由がわかる気がします。「後悔」などというあたかもフワフワした人間的概念を数値化してしまうので、そういうところが強化学習の魅力だと私は思います。

さて、このバンディット問題に当てはめると、レコメンデーションシステムの「後悔」も数値化できます。レコメンデーションシステムの後悔は、例えばサバ好きな客にピザを勧めた場合の売り上げ(もしくは利益)の損失の総額です。そしてレコメンデーションシステムにもバンディット問題のやり方を当てはめて、しっかりとリターンが高いレコメンデーションを計算することが可能です。

パロアルトインサイトでは、強化学習はもちろんのこと、様々なディープラーニングの手法を活用してクライアント企業の利益を飛躍的に伸ばすプロジェクトを多数導入した実績があります。ご興味がある方はぜひお問い合わせください。

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。

社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)

パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

石角友愛
<CEO 石角友愛(いしずみともえ)>

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。データサイエンティストのネットワークを構築し、日本企業に対して最新のAI戦略提案からAI開発まで一貫したAI支援を提供。東急ホテルズ&リゾーツ株式会社が擁する3名のDXアドバイザーの一員として中長期DX戦略について助言を行う。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ!」内「マイ!Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ ChatGPTとリスキリング』(日経BP)『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。

実践型教育AIプログラム「AIと私」:https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

 

※石角友愛の著書一覧

NEWSLETTERパロアルトインサイトの
無料ニュースレター

毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。

BACK TO BLOG
« »
PAGE TOP