アメリカ最新AI情報満載!セミナーや講演情報など交えて毎週水曜配信 無料ニュースレター 下記へメールアドレスを入力し無料で登録
CLOSE
パロアルトインサイト/ PALO ALTO INSIGHT, LLC.
ブログBLOG
パロアルトインサイト/PALO ALTO INSIGHT, LLC. > ブログ > 弱教師あり学習によるデータ不足への対処法
弱教師あり学習によるデータ不足への対処法
2022/04/06 ブログ, The Insight 
by kohei 

弱教師あり学習によるデータ不足への対処法

機械学習に必要なデータのラベル付けコストを減らす手段

今週のテーマ:業務効率化

パロアルトインサイトCTOの長谷川です。AIが注目を集めるようになり、多くの企業が機械学習をビジネスに取り入れようとしています。しかし、多くの場合で壁となっているのが、学習用データの不足です。そこで今回は、データ不足への対処法として「弱教師あり学習」というアプローチをご紹介します。

シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。今回取り上げるのは、画像認識AIの学習用データへのラベル付けコストを減らす手法です。

この記事から得られる3つのナレッジ
・データのラベル付けにおける課題
・弱教師あり学習とはどんな手法か
・弱教師あり学習の種類
このトピックを選んだポイント
The Insight 会員限定の3ヶ月に1度の読書会「The Insight Book Club」にて、実際に参加者の方から「高精度ラベル付けとラベル付けコストに関連する技術が知りたい」と要望があったため。

この記事に登場する技術キーワード

  • 教師あり学習
  • ラベル付け
  • 弱教師あり学習
  • 半教師あり学習
  • 転移学習

目次

教師あり学習で必要なデータのラベル付け

弱教師あり学習とは

弱教師あり学習の種類

ベストパーツ社の事例:弱教師あり学習の実践

AIビジネスデザイナーのワンポイントアドバイス


教師あり学習で必要なデータのラベル付け

データから学ぶ機械学習は、「教師あり学習」と「教師なし学習」の大きく2種類に分けられます。そして、教師あり学習に欠かせないのが、データの「ラベル付け」です。

ラベル付けが欠かせない理由

ラベル付けとは、AIに「これが正解ですよ」と教えるための前処理のことです。下の図の「訓練データ」では、個別の画像に対して「りんご」「バナナ」とラベルが付けてあります。

AIの中身である「モデル」は、ラベル付けされたデータを大量に学習することで、画像に何が写っているのかを見分けられるようになっていきます。その後、モデルがある程度できてきたら行うのが、モデルの品質を確かめるためのテストです。

 

テストに使う「テストデータ」もあらかじめラベル付けしておき、訓練データとは別に用意しておきます。テストデータの画像に写っているものを正確に見分けられれば、モデル(画像認識AI)の完成です。

このような学習によって品質の高いモデルを作れるかは、「良い訓練データを用意できるか」に大きく依存しています。正確なラベル付けをされた大量のデータが不可欠なのです。

ラベル付けの課題

ラベル付けされたデータを準備するのは、実はとても大変なことです。多くの企業のAIプロジェクトが、データを十分に用意できないせいで前に進んでいません。

ラベル付けは多くの場合、人が行う必要があります。人が画像を1つずつ見て、「これはりんご」「これはバナナ」とラベル付けをしていくのです。ラベル付けが大変である要因は、主に以下の3つです。

⚠️ ラベル付けの課題

  • 人的コスト:ラベル付けに手間や時間がかかる
  • ラベルミス:人は必ずミスをする
  • 数の不足:そもそもラベルを付けるデータがない </aside>

これらの課題を解決するために、多くの企業が悪戦苦闘しています。例えば、人的コストを減らそうとして、クラウドソーシングで「1枚のラベル付け画像あたり10円」といった報酬でラベル付けが外注されることが多いです。しかし、クラウドソーシングではいいかげんな仕事をする人もいて、「ラベルミス」が増える傾向があります。

 

こうしたラベル付けの課題はThe Insightの過去記事「メタバースや自動運転の世界で必要になる動画を使ったリアルタイム行動予測」も解説しています。「訓練データの確保はAIプロジェクトの成否を左右するほど重要」である点は、ぜひ理解しておきましょう。

弱教師あり学習とは

ラベル付けの課題を解決しようと生み出されたのが「弱教師あり学習」です。弱教師あり学習なら、従来の教師あり学習のような「厳密なラベル付け」を必要としなかったり、訓練データの数が少なく済んだりします。完成するモデルの質にも問題がないことから、注目を集めています。

厳密なラベル付けが不要なため、低コストで大量のデータを集めることが可能となるのが、弱教師あり学習の特徴です。使われる訓練データは「弱教師付きデータ」と呼ばれます。具体的にどのようなラベル付けを行うのか、例を2つご紹介します。

https://www.paloaltoinsight.com/membership-checkout/?level=4
https://www.paloaltoinsight.com/membership-checkout/?level=4

 PAIoneerPRO会員に登録 ▷ 
PAIoneer PRO
詳細はこちら

 会員の方はログイン▷ 

おすすめ/関連記事こちらの記事も合わせてどうぞ

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。

社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)

パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

石角友愛
<CEO 石角友愛(いしずみともえ)>

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。データサイエンティストのネットワークを構築し、日本企業に対して最新のAI戦略提案からAI開発まで一貫したAI支援を提供。東急ホテルズ&リゾーツ株式会社が擁する3名のDXアドバイザーの一員として中長期DX戦略について助言を行う。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ!」内「マイ!Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ ChatGPTとリスキリング』(日経BP)『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。

実践型教育AIプログラム「AIと私」:https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

 

※石角友愛の著書一覧

NEWSLETTERパロアルトインサイトの
無料ニュースレター

毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。

BACK TO BLOG
« »
PAGE TOP