アメリカ最新AI情報満載!セミナーや講演情報など交えて毎週水曜配信 無料ニュースレター 下記へメールアドレスを入力し無料で登録
CLOSE
パロアルトインサイト/ PALO ALTO INSIGHT, LLC.

ブログBLOG

パロアルトインサイト/PALO ALTO INSIGHT, LLC. > ブログ > 機械学習のモデルとは何か

機械学習のモデルとは何か

2019/07/22 ブログ 
by 長谷川貴久 

AIのことを勉強されている経営者の方から、「モデルとはなんですか」と聞かれることがあります。

モデルとは

機械学習におけるモデルの位置付けと種類
機械学習におけるモデルの位置付けと種類

機械学習のモデルとは、上記の図にあるように、コンピュータが分かる形の入力値を受け取り、何かしらの評価・判定をして出力値を出すものです。機械学習やAIにおいては中心的な役割を担う頭脳です。そして近年ではディープラーニングの台頭により実に様々なモデルの精度が飛躍的に改善されつつあります。例えば、人間が話している音声を受け取り、それを文字にするモデルはSiriなどの音声認識アシスタントを可能としましたし、道の画像の中で車線や他の自動車を認識するモデルは自動運転を可能としています。

パロアルトインサイトでは、例えば以下のようなモデルを開発した実績があります。

モデル作りのためのデータの重要性

モデルを開発するために必要なものは、膨大な教師データです。例えば子供に言葉を教える作業などはこれに似ています。猫の絵がついたカードを見せて「これは猫」みたいなことを毎日繰り返しているうちに、猫というものが分かるようになります。人間は特徴を掴むのが物凄くうまいので、子供は同じカードを繰り返し見せるだけで、猫という概念を理解するようになります。機械はそんなに気が利いたものではありません。機械には最低でも数百種類の猫の画像を、例えばあらゆる角度から取り、様々な色や形のした猫を見せて初めて猫という概念が分かるようになります。その元データを教師データといいます。

先日の「データ無しからの機械学習」のブログ記事にも書きましたが、この教師データを集めるのが大変です。そのような教師データをどうやって集めるかは、プロジェクトにもよりますが、パロアルトインサイトではデータの収集からメタデータの付与もお手伝いさせていただくこともあります。

ちゃんとした教師データが揃わなければ良いモデルはできません。実際にあったプロジェクトの実例として、クライアントが準備したデータをもとにモデルを弊社のデータサイエンティストが作ろうとしていたのですが、どうしてもうまく学習できないという壁に直面していたときがありました。そこでクライアントにデータの出元を聞いたところ、「間に合わなかったのである程度人工的に作りました」と言われました。これには参りました。それまでの数週間の作業が無駄だったということが発覚したからです。

モデルの精度

モデルの良し悪しを図る概念として「精度」があります。それまでの学習の経緯でモデルに見せたことがないテスト問題で、モデルが実際にどの程度良い出力をしているかというテストです。通常は元々あるデータを「これは学習用・これはテスト用」と分けて、テスト用のデータセットでは学習させずに最後にモデルの良し悪しを判別するためにテストするということをします。

一括りに精度といっても、モデルの種類によってその精度の測り方も変わってきます。例えば画像に猫があるかどうかを判別するための分類器であれば、テスト問題の写真10枚中8枚は正解したので、正解率80%という一つの指標を出せます。

しかしことはそう単純ではありません。もう一歩踏み込んで考えると、間違えるパターンは2通りあることに気が付きます。猫がいるのに猫を見逃すパターンと、猫がいないのに猫がいると錯覚するパターンです。正解する方も同様に2パターンあります。もしかしたらこのモデルのユーザーは物凄く猫好きで、多少の錯覚はあっても良いけど、絶対に猫は見逃したくないと思うかもしれません。その場合は単純に正解率だけでモデルを評価していてはその人のニーズにあったモデルではないものができてしまいます

さらに猫がいるかどうかの分類器ではなく、例えば値段を予測するといった数値を予測するモデルの場合、ドンピシャで明日の価格は1056円みたいに当てた場合のみ正解としてしまうとハードルが高すぎます。この場合は正解から平均してどれだけ離れた値を予測するかをベースにモデルを評価します。代表的な指標としてRMSEなどがあります。

汎用性

例えば家の値段を予測するモデルを名古屋のデータだけをベースに作ったとします。このモデルをベースにシリコンバレーの家の値段を正しく予測することは可能でしょうか。非常に難しいです。なのでモデルを作る際には実際に現場でどのように使われるかを想定しながら良い学習用のデータを集めて起こりうる変化を想定しながらモデルを作っていく必要があります。名古屋のデータしか集まらないけど、将来的にはシリコンバレーや東南アジアなどでも応用したいと思うのであれば、それなりの作り方があります。

処理速度

モデルのスピードも重要です。例えば自動運転などのユースケースでは毎秒60フレームという動画のフレームを全てリアルタイムで処理して、出力値を算出するような性能が求められます。ニューラルネットワークはこの面ではかなり優位です。GPUなどの研究開発が進み、ニューラルネットワークが必要とするマトリクス演算を高速で処理することが可能になってきています。また、テスラなどの大手が自社でGPUの開発に乗り出しているのもこういう背景があるからです。

処理速度を考える上でもうひとつ重要なテーマがエッジ対クラウドです。これはつまり機械学習のモデルをどこで生きさせるかという議論です。エッジとはそのモデルが使用されるであろう場面で、組み込み式でやるということです。先ほどの自動運転の例で言うと車にモデルを搭載することを意味します。逆にクラウドとは、どこかのデータセンターやサーバーにモデルを置き、そのモデルの出力値が必要な場合はネットワーク経由で処理を依頼することを意味します。例えばSiriの音声認識などは数年前まではクラウドで処理していました。最近ではエッジに移行しつつあります。

Explainable AI(説明可能なAI)

ここ数年で注目を浴びているテーマで説明可能なAIというものがあります。ディープラーニングをベースにした自動運転の自動車が事故を起こしたことなどを背景に、「なぜそのような判断をしたのか」が問われることがあります。ディープラーニングはここに一つ大きな弱みがあります。物凄く複雑なグラフ処理をしているため、ディープラーニングのモデルがどういう風に考えているかということは簡単に説明がつかないからです。「精度が良いからそれで良い」というのでは済まされない時代になってきたのです。例えば決定木などの機械学習のモデルは物凄く簡単に説明し易いです。良く占いとかである、質問に答えて矢印を辿るみたいな手法で評価するからです。

https://towardsdatascience.com/should-ai-explain-itself-or-should-we-design-explainable-ai-so-that-it-doesnt-have-to-90e75bb6089e
https://towardsdatascience.com/should-ai-explain-itself-or-should-we-design-explainable-ai-so-that-it-doesnt-have-to-90e75bb6089e

上の図はこちらのブログ記事からの転載ですが、説明可能性とモデルの精度にトレードオフがあることを指摘している図です。分かり易いモデル程、精度が落ちてしまうことを示しています。そこで諦めるのではなく、分かり易い且つパワフルなモデルを作ろうというのがXAIの一つの課題になっています。

使えるモデル、使えないモデル

パロアルトインサイトのモットーとして、「現場で使っていただけるAI」というものを掲げていますが、これを実現するためには、やはり闇雲に最先端技術でモデルを作るだけでは意味がありません。しっかりと経営者の方と議論を進めながら、ビジネスにとって一番価値が提供できるところでのAIを導入しなければ使っていただくことができません。また、ここで紹介した、データの集め方、精度、汎用性、処理速度、エッジとクラウドのトレードオフ、説明可能性などを総合的に考えながら設計していく必要があります。使われないディープラーニングのモデルは展示品の高級車のようなものです。うちフェラーリ持ってるよといえばかっこいいですが、車は運転して初めて価値が生まれるものです。いくら最先端のディープラーニングの技術を使ってモデルを作っても、展示品のフェラーリにしては意味がありません。

モデル開発に興味がある方はぜひ一度お問い合わせください。パロアルトインサイトでは「AI診断」という2週間のスピードプロジェクトを通してAI導入のロードマップを描くというサービスも展開しています。

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。

社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)

石角友愛
<CEO 石角友愛(いしずみともえ)>

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。データサイエンティストのネットワークを構築し、日本企業に対して最新のAI戦略提案からAI開発まで一貫したAI支援を提供。AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。また、毎日新聞「石角友愛のシリコンバレー通信」、ITメディア「石角友愛とめぐる、米国リテール最前線」など大手メディアでの寄稿連載を多く持ち、最新のIT業界に関する情報を発信している。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。

パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com
※石角友愛の著書一覧

NEWSLETTERパロアルトインサイトの
無料ニュースレター

毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。

BACK TO BLOG
« »
PAGE TOP