ラベル付けされたデータを使わず学習する自己教師あり学習
パロアルトインサイトの嶋崎です。近年、機械学習のラベル付きデータ不足やコスト面の課題を解消すべく、自己教師あり学習(Self-Supervised Lerning)と呼ばれる手法によって、目覚ましい成果発表が続いています。以前から自然言語の領域で使われていた技術が、画像認識にも応用されてきたのです。そこで今回は「自己教師あり学習」についてご紹介します。
シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。今回取り上げるのは、データのラベル付けコストを減らす手法として注目を集める、AIの学習方法です。
この記事から得られる3つのナレッジ
・自己教師あり学習の概念
・画像認識に自己教師あり学習を応用した実例
・ラベル付け作業の今後の流れ
論文データ:
今回のディスカッション対象の論文をご紹介します。
タイトル:A Simple Framework for Contrastive Learning of Visual Representations
著者:Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton
掲載サイト:arXiv
発行日:2020年7月1日
引用数:
URL:https://arxiv.org/pdf/2002.05709.pdf
この論文を選んだポイント
自己教師あり学習を画像認識に適用した例として広く知られており、かつ学習の仕組みを理解しやすいため。
この記事に登場する技術キーワード
まずは自己教師あり学習(Self-Supervised Lerning)の基礎を解説していきます。
自己教師あり学習の最大のメリットは、ラベル付けされた学習用データが少数で済むことです。
なおラベル付けとは、AIが学びやすいように「この画像に写っているのはイヌ」と示すなど、データの事前処理をすることです。従来の「教師あり学習」ではラベル付けされたデータが大量に必要であり、その問題点は過去の記事でもご紹介しました。
自己教師あり学習(Self-Supervised Learning)では、AIはまずはラベル付けされていないデータ大量のデータから学習します。画像に何が写っているのかわからない状態で、学習を進めるのです。
これにより、AIは特定のものを見分けられるようになっていきます。たとえば、それがイヌだとはわからなくても「こういう特徴を持ったモノがある」とは認識できるようになります。ここまでが自己教師あり学習です。その後「イヌ」というラベルが付いた少数のデータを学ばせることで、「こういう特徴を持ったモノ=イヌ」と見分けることが可能になります。
実際に、自己教師あり学習をしたAIが高い画像認識精度を獲得できたことが、複数の研究グループから発表されました。大量のラベル付きデータを使うことなく、高精度なAIを開発するための手法として、自己教師あり学習は大きな注目を集めています。
AI開発に必要なラベル付きデータを減らす試みとして、前回は「弱教師あり学習」を解説しました。混同しそうになるかと思いますが、自己教師あり学習(Self-Supervised Learning)は「ラベル付きデータがない状態でも学習を進められる」点がユニークです。
弱教師あり学習では、ラベルの付け方の工夫などをすることで、ラベル付きデータを集める困難さを緩和しました。それでも「ラベル付きデータが必要」という点では、従来の教師あり学習の延長線上にある手法でした。
それに対して自己教師あり学習は、ラベル付きデータがない状態で学習の大部分を完了できることから、弱教師あり学習とは違ったアプローチだといえます。
自己教師あり学習は、自然言語の分野でさかんに活用されてきた歴史があります。自己教師あり学習は、AIにデータ中の「構造」を理解させるために適しています。図で表現すると、下図において「緑色の部分が与えられたときに灰色の部分を補う」ことを目指して学習が進められるのです。
(画像引用:https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence/)
AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。
社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)
パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com
2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。東急ホテルズ&リゾーツのDXアドバイザーとして中長期DX戦略への助言を行うなど、多くの日本企業に対して最新のDX戦略提案からAI開発まで一貫したAI・DX支援を提供する。2024年より一般社団法人人工知能学会理事及び東京都AI戦略会議 専門家委員メンバーに就任。
AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。
毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ!」内「マイ!Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。
著書に『AI時代を生き抜くということ ChatGPTとリスキリング』(日経BP)『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。
実践型教育AIプログラム「AIと私」:https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com
※石角友愛の著書一覧
毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。