Microsoftが発表したAIモデル「VALL-E」とは
2023年1月上旬、Microsoftの研究者チームが、VALL-Eと呼ばれる音声合成AIモデルを発表しました。このモデルは、たった3秒間の音声サンプルを与えるだけで、サンプルの人間の声を精密に再現することが可能になるといいます。
一度音声サンプルの声を学習したVALL-Eは、その人物が何かを話しているように音声を合成し、話者の感情的なトーンや、アクセントの類似性、音響環境(携帯電話の通話に圧縮された声)さえも維持できるといいます。
この技術は、高品質のテキスト読み上げアプリケーションへの応用や、人が録音した声を後から編集して発言を変更するといった音声編集に使用できるとされています。またChatGPTなど、他のジェネレーティブAIモデルと組み合わせて、全く新しいオーディオコンテンツを作成することも考えられます。
開発の背景にあるのは、Meta AIが開発した2つの技術
Microsoftは、論文でVALL-Eのことを「ニューラルコーデック言語モデル」と呼んでいます。VALL-Eはテキストと音声プロンプトから、個別の音声コーデックコードを生成する仕組みを採用しており、 …続きを読む |