アメリカ最新AI情報満載!セミナーや講演情報など交えて毎週水曜配信 無料ニュースレター 下記へメールアドレスを入力し無料で登録
CLOSE
パロアルトインサイト/ PALO ALTO INSIGHT, LLC.
ブログBLOG
パロアルトインサイト/PALO ALTO INSIGHT, LLC. > ブログ > 【後編】OpenAIの音声認識モデル「Whisper」のデータセットと学習方法
【後編】OpenAIの音声認識モデル「Whisper」のデータセットと学習方法
2023/06/28 ブログ, PAIoneer PRO, The Insight 
by kohei 

【後編】OpenAIの音声認識モデル「Whisper」のデータセットと学習方法

今週のテーマ:技術開発

OpenAIが音声認識に関する新たなアプローチを提唱した論文「Robust Speech Recognition via Large-Scale Weak Supervision」で紹介された、教師あり学習と教師なし学習の中間に位置する「弱教師あり学習」という新たな手法について紹介します。

前編では、弱教師あり学習についてや、音声認識研究の歴史を紹介しました。後編の今回は、Whisper の学習データセットと学習方法、マルチモーダル学習と弱教師付き音声認識、そして、弱教師あり学習の可能性について紹介します。

💡 この記事から得られる3つのナレッジ

・ダイナミックタイムワーピング
・弱教師学習を用いた音声認識の利点
・音声認識技術の可能性

論文タイトル:Robust Speech Recognition via Large-Scale Weak Supervision
発行日:2022年 9月21日
URL:https://cdn.openai.com/papers/whisper.pdf

目次

68万時間にも及ぶデータセットと学習方法

マルチモーダル学習と弱教師付き音声認識

弱教師あり学習の可能性

 


 

OpenAIの研究者らは論文「Robust Speech Recognition via Large-Scale Weak Supervision」を発表し、弱教師あり学習(weakly supervised learning)を用いた音声処理システムの能力を調査しています。これはインターネット上の存在する680,000時間に及ぶ多言語・多タスクのデータセットを使用したモデルで、標準的なベンチマークにおいて先行する完全教師あり学習の結果と競るほど良好な結果を出しました。後編では、そのモデルがどのようなデータセットで学習されたのか、解説していきます。

68万時間にも及ぶデータセットと学習方法

論文では、このモデルの学習方法としてインターネットから集めた68万時間分の音声データを使って、音声認識モデルを学習する方法が述べられています。このデータセットには多様な言語や状況からの音声とその文章化(トランスクリプト)が含まれています。

研究者たちはこの大量のデータを整理し、音声とトランスクリプトをきちんと結びつける前処理を行います。その一部として、音声をメルスペクトログラム(視覚的に音声を表現する方法)へと変換し、ランダムクロッピングやノイズ注入といったテクニックを用いて音声データの多様性を増やします。そこからさらに、ダイナミックタイムワーピングという技術を使い、音声とトランスクリプトをきちんと整列させていきます。

こうして整理されたデータから特徴を学び取るために、「Conformer」という特殊なニューラルネットワークの設計を使用し、これによって長時間に渡る音声の特徴をより効率的に学び取ることができます。

モデルの学習には、CTC(Connectionist Temporal Classification)という特殊な損失関数を使用しており、入力した音声と、出力するトランスクリプトの間の正確な整列をしなくともに、一連の音声から文章を予測する能力をモデルに学ばせてるといいます。この研究で得られた音声認識モデルは、特別な調整や状況に合わせた変更(ドメイン適応)なしに、いくつかの標準的なベンチマーク(LibriSpeech、CommonVoice、Switchboardなど)で競争力のある結果を得ることができると示されています。

マルチモーダル学習と弱教師付き音声認識

https://www.paloaltoinsight.com/membership-checkout/?level=4
https://www.paloaltoinsight.com/membership-checkout/?level=4

 PAIoneerPRO会員に登録 ▷ 
PAIoneer PRO
詳細はこちら

 会員の方はログイン▷ 

おすすめ/関連記事こちらの記事も合わせてどうぞ

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。

社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)

パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

石角友愛
<CEO 石角友愛(いしずみともえ)>

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。データサイエンティストのネットワークを構築し、日本企業に対して最新のAI戦略提案からAI開発まで一貫したAI支援を提供。東急ホテルズ&リゾーツ株式会社が擁する3名のDXアドバイザーの一員として中長期DX戦略について助言を行う。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ!」内「マイ!Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ ChatGPTとリスキリング』(日経BP)『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。

実践型教育AIプログラム「AIと私」:https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

 

※石角友愛の著書一覧

NEWSLETTERパロアルトインサイトの
無料ニュースレター

毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。

BACK TO BLOG
« »
PAGE TOP