アメリカ最新AI情報満載!セミナーや講演情報など交えて毎週水曜配信 無料ニュースレター 下記へメールアドレスを入力し無料で登録
CLOSE
パロアルトインサイト/ PALO ALTO INSIGHT, LLC.
ブログBLOG
パロアルトインサイト/PALO ALTO INSIGHT, LLC. > ブログ > Appleが変革する画像編集、テキスト指示だけで実現するAI「MGIE」の全貌と可能性
Appleが変革する画像編集、テキスト指示だけで実現するAI「MGIE」の全貌と可能性
2024/02/21 ブログ, PAIoneer PRO, The Insight 
by suzuki 

Appleが変革する画像編集、テキスト指示だけで実現するAI「MGIE」の全貌と可能性

今週のテーマ:技術開発

2023年は、AIの分野でGAFAMの中でも沈黙の姿勢を見せていたAppleですが、2024年に入り自然言語の指示に基づいて画像を編集できる新しいオープンソースのAIモデル「MGIE」をリリースしました。Appleが発表した「MGIE」(MLLM-Guided Image Editing)と呼ばれるこの新しいAIモデルは、マルチモーダルな大規模言語モデル(MLLM)を利用してユーザーのテキストからのコマンドを解釈し、ピクセルレベルでの操作を行うことができる、画期的な画像編集ツールです。このモデルは、Photoshopスタイルの修正から、全体的な写真の最適化、ローカル編集など、さまざまな画像の編集を扱うことができ、画像編集の分野において大きな進展を示しています。今回の記事ではMGIEの詳細と、業界に与える影響など解説します。

論文

今回のディスカッション対象の論文をご紹介します。
タイトル:GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS
著者: Tsu-Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang2, Zhe Gan, UC Santa Barbara, Apple
URL:https://arxiv.org/pdf/2309.17102.pdf

目次

MGIEの仕組みと機能について

マルチモーダルなLLMを活用した画像編集の魅力

MGIEがもたらす画像編集の変革

MGIEの利用方法

終わりに


MGIEの仕組みと機能について

MGIEは、マルチモーダル大規模言語モデル(MLLM)を活用しています。マルチモーダル大言語モデルは、テキストと画像など複数のモーダルを理解し、それらの間で情報を統合する能力を持っています。研究では、このMLLMを用いて、自然言語の指示に基づく画像編集を行う新しいフレームワークが提案されています。

このフレームワークにより、MLLMが自然言語での簡単な指示から編集の意図を把握し、適切な背景画像を選択して置き換えることができるようにするなど、画像編集の過程で人間の指示をより深く理解し、意図された編集を正確に実行することが可能となりました。そのため、従来の手法では困難とされてきた複雑で抽象的な編集要求にも対応が可能になっています。

 

https://arxiv.org/pdf/2309.17102.pdf より画像引用

 

この画像は、MLLMがテキスト指示を受け取り、それに基づいて画像を生成する過程を表したフローチャートです。インプットされた画像から、モデルは「砂漠の小屋」の画像を生成するために、「砂丘に囲まれ、サボテンや低木などの植生がある」というテキストの指示を解釈しています。チャートには、テキストを処理し画像へ変換するための複数のステップが行われ、最終的には右下のテキストの説明に合致する画像を出力しています。

マルチモーダルなLLMを活用した画像編集の魅力

https://www.paloaltoinsight.com/membership-checkout/?level=4
https://www.paloaltoinsight.com/membership-checkout/?level=4

 PAIoneerPRO会員に登録 ▷ 
PAIoneer PRO
詳細はこちら

 会員の方はログイン▷ 

パロアルトインサイトについて

AIの活用提案から、ビジネスモデルの構築、AI開発と導入まで一貫した支援を日本企業へ提供する、石角友愛氏(CEO)が2017年に創業したシリコンバレー発のAI企業。

社名 :パロアルトインサイトLLC
設立 :2017年
所在 :米国カリフォルニア州 (シリコンバレー)
メンバー数:17名(2021年9月現在)

パロアルトインサイトHP:www.paloaltoinsight.com
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

石角友愛
<CEO 石角友愛(いしずみともえ)>

2010年にハーバードビジネススクールでMBAを取得したのち、シリコンバレーのグーグル本社で多数のAI関連プロジェクトをシニアストラテジストとしてリード。その後HRテック・流通系AIベンチャーを経てパロアルトインサイトをシリコンバレーで起業。データサイエンティストのネットワークを構築し、日本企業に対して最新のAI戦略提案からAI開発まで一貫したAI支援を提供。東急ホテルズ&リゾーツ株式会社が擁する3名のDXアドバイザーの一員として中長期DX戦略について助言を行う。

AI人材育成のためのコンテンツ開発なども手掛け、順天堂大学大学院医学研究科データサイエンス学科客員教授(AI企業戦略)及び東京大学工学部アドバイザリー・ボードをはじめとして、京都府アート&テクノロジー・ヴィレッジ事業クリエイターを務めるなど幅広く活動している。

毎日新聞、日経xTREND、ITmediaなど大手メディアでの連載を持ち、 DXの重要性を伝える毎週配信ポッドキャスト「Level 5」のMCや、NHKラジオ第1「マイあさ!」内「マイ!Biz」コーナーにレギュラー出演中。「報道ステーション」「NHKクローズアップ現代+」などTV出演も多数。

著書に『AI時代を生き抜くということ ChatGPTとリスキリング』(日経BP)『いまこそ知りたいDX戦略』『いまこそ知りたいAIビジネス』(ディスカヴァー・トゥエンティワン)、『経験ゼロから始めるAI時代の新キャリアデザイン』(KADOKAWA)、『才能の見つけ方 天才の育て方』(文藝春秋)など多数。

実践型教育AIプログラム「AIと私」:https://www.aitowatashi.com/
お問い合わせ、ご質問などはこちらまで:info@paloaltoinsight.com

 

※石角友愛の著書一覧

NEWSLETTERパロアルトインサイトの
無料ニュースレター

毎週水曜日、アメリカの最新AI情報が満載の
ニュースレターを無料でお届け!
その他講演情報やAI導入事例紹介、
ニュースレター登録者対象の
無料オンラインセミナーのご案内などを送ります。

BACK TO BLOG
« »
PAGE TOP