アメリカ最新AI情報満載!セミナーや講演情報など交えて毎週水曜配信 無料ニュースレター 下記へメールアドレスを入力し無料で登録
CLOSE
パロアルトインサイト/ PALO ALTO INSIGHT, LLC.
ブログBLOG
パロアルトインサイト/PALO ALTO INSIGHT, LLC. > ブログ > Microsoft社の画像生成AIにのみ備わった新たな技術
Microsoft社の画像生成AIにのみ備わった新たな技術
2022/08/10 ブログ, The Insight 
by kohei 

Microsoft 社の画像生成AI「NUWA Infinity」にのみ備わった新たな技術を解説

画像の枠外への拡張や動画生成を可能にする新技術

今週のテーマ:技術開発

パロアルトインサイトの長谷川です。2021年に入ってから「文章から画像を生成するAI」が次々と発表されており、ホットな研究分野となっています。弊社ではDALLE2 のベータ版へ招待をもらい実際に使ってみましたが、生成されるアートの精度に驚いています。

そうした中、7月にはMicrosoftが「NUWA-Infinity」を発表しました。他社の後追いにも見えますが、このAIは先行研究にはない強みを持っています。詳しく見ていきましょう。

シリコンバレーから現役データサイエンティストのインサイトをお届けする「The Insight」。今回取り上げるのは、Microsoftが開発した画像生成AI「NUWA-Infinity」です。

?この記事から得られる3つのナレッジ
・NUWA-Infinityは何ができるのか
・他の画像生成AIとの違い
・画像の拡張や動画生成を可能にする技術

論文データ:

今回のディスカッション対象の論文をご紹介します。

タイトル:NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis
著者:Chenfei Wu et al.
掲載サイト:arXiv
発行日:2022年7月20日
引用数:
URL:https://arxiv.org/abs/2207.09814

?この論文を選んだポイント
画像生成AIというホットな分野において、画像の拡張や動画生成を可能にする技術を発表した論文であるため。
?この記事に登場する技術キーワード
  • 拡散法(Diffusion Methods)
関連記事「AIアートの最新技術「DALL·E 2」の創造力の凄さ
関連記事「Googleの最新画像生成AI「Imagen」はDALL·E 2を超えるのか
  • 自己回帰法(Autoregressive Methods)
関連記事「Googleが画像生成AI「Parti」を一般公開しない理由

目次

NUWA-Infinityができること

他の画像生成AIと何が違うのか

NUWA-Infinityの技術的な工夫

NUWA-Infinityの今後の課題

AIビジネスデザイナーのワンポイントアドバイス

NUWA-Infinityができること

NUWA-Infinityは、Microsoftが2021年に発表した「NUWA」の後継AIです。なおNUWAは「Neural visUal World creAtion」の略称です。

まずはNUWA-Infinityが、どんなことができるAIなのかを解説します。

文章から画像を生成

NUWA-Infinityは、与えられた文章から画像を生成できます。

公式サイトでは、入力する文章を自分で変更しつつ、どんな画像が生成されるかを確認できるので、試してみるとよいでしょう。NUWA-Infinityが生成した画像を、各文章ごとに5パターンも見られます。

下図は「山に囲まれた海岸と青空」という文章から作り出された画像の例です。

いろいろな文章のパターンを試してみると、どの画像も文章の意味に合っており、本物の写真のように鮮明であることがわかります。

 

画像の枠外への拡張

NUWA-Infinityは、与えたれた画像を枠外に拡張できます。まるで人が想像力を働かせるようにして、画像の外側にあるものを描き出すのです

下図はクロード・モネの絵画「Garden at Sainte-Adresse」を入力として与えた際に、NUWA-Infinityが枠外の画像を生成して拡張したものです。

オリジナルの絵画にはなかった太陽などが描き足されていますが、全体として違和感はあまり感じないでしょう。あたかも最初からこのサイズの絵画であったかのように自然です。

 

動画の生成

NUWA-Infinityは、静止画だけでなく動画も生成できます。

画像を入力として与えると、その前後の時間に配置する画像を複数作り出します。そして、作り出した画像を時間に沿って並べて再生することで、動画を生成するのです。

下図では、与えられた画像を最初の状態として、NUWA-Infinityがその後の時間の画像を生成して動画にしています。

時間の経過にともなって雲が動き、日差しや影も自然に変化している様子が確認できます。

また、与えられた文章から画像を生成し、さらに生成した画像を入力として動画を作り出すことも可能です。

下図の例では、「ペッパピッグが両親と一緒に泥遊びをしている」という文章から、NUWA-Infinityが動画を生成しました。

なお「ペッパピッグ」は、アニメーション作品とその主人公の名称です。NUWA-Infinityは「ペッパピッグ」という言葉が指すものを認識したうえで、動画を作り出したことがわかります。

他の画像生成AIと何が違うのか

文章から画像を生成するAIについては、2022年に入ってから複数の研究成果が発表されており、「The Insight」でも取り上げてきました。

そうした競合AIと比較して、NUWA-Infinityは何が違うのかを解説します。

https://www.paloaltoinsight.com/membership-checkout/?level=4
https://www.paloaltoinsight.com/membership-checkout/?level=4

 PAIoneerPRO会員に登録 ▷ 
PAIoneer PRO
詳細はこちら

 会員の方はログイン▷ 

おすすめ/関連記事こちらの記事も合わせてどうぞ

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。

社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)

パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

石角友愛
<CEO 石角友愛(いしずみともえ)>

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。データサイエンティストのネットワークを構築し、日本企業に対して最新のAI戦略提案からAI開発まで一貫したAI支援を提供。東急ホテルズ&リゾーツ株式会社が擁する3名のDXアドバイザーの一員として中長期DX戦略について助言を行う。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ!」内「マイ!Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ ChatGPTとリスキリング』(日経BP)『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。

実践型教育AIプログラム「AIと私」:https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

 

※石角友愛の著書一覧

NEWSLETTERパロアルトインサイトの
無料ニュースレター

毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。

BACK TO BLOG
« »
PAGE TOP