こんにちは、CTOの長谷川です。
「機械学習のモデルを作るためにどれだけのデータが必要ですか」という質問をよくクライアントの経営者の方から聞かれます。ディープラーニングで学習する場合、大体1クラスに付き5,000件程度のデータがあればまずまずのパフォーマンスが発揮されますが、人間レベルの精度を求めるとすると約10,000,000件という大規模なラベル付きデータが必要になります(Goodfellow et al. 2016)。5,000件と10,000,000件の間には大きな隔たりがあります。10,000,000件となるとこれはもう大規模な予算を抱えている大企業か、既にデータ収集の仕組みの中で容易にそのような規模の良質なラベル付きデータがあるケースしかその分量を準備することができません。5000件ですらラベル付きデータを準備するのに苦労するケースが多々あります。例えばパロアルトインサイトが実施するプロジェクトの現場においては、データの機密性が高いことが多いため、アマゾンのメカニカルタークやパートの人材を雇ってラベル付けをさせるということができないケースがあります。
この課題を乗り越えるために、2種類の解決策をパロアルトインサイトでは多用しています。一つはPretrained model、すなわち別のデータで既に学習ができているモデルを活用し、自分たちの用途にチューニングしていくという方法です。これについては、例えばグーグルのBERTモデルなどを活用します。BERTについては、パロアルトインサイトのデータサイエンティスト辻がブログ記事を書いているのでそれをご参照ください。
AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。
社名 :パロアルトインサイトLLC毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。