米マイクロソフト、新たなAIモデル発表 モナリザも歌う?

  • このエントリーをはてなブックマークに追加
米マイクロソフト本社/I Ryu/Visual China Group/Getty Images via CNN Newsource

米マイクロソフト本社/I Ryu/Visual China Group/Getty Images via CNN Newsource

ニューヨーク(CNN) 米マイクロソフトは、顔の静止画像と話し声の音声クリップを取り込むと画像の人物が話しているようなリアルな動画を自動生成できる新たな人工知能(AI)モデル「VASA―1」を発表した。

この動画は写真だけでなく漫画や美術作品からも生成でき、リップシンク(口パク)や自然な顔・頭の動きを伴った本物のような仕上がりになる。

研究者らが示したデモ動画ではアニメーション化された「モナリザ」が俳優アン・ハサウェイさんのコミカルなラップを歌っている。

このAIモデルが生成する動画は面白いと同時にやや神経に障るほどリアルだ。マイクロソフトによれば、この技術は教育や「意思疎通に困難を抱える人のアクセシビリティーの向上」、あるいは人間ためのバーチャルコンパニオンの作成に利用できる可能性があるという。一方でこのツールが悪用され、現実の人間になりすますために使われる可能性があることも容易に想像できる。

マイクロソフトは現時点でVASA―1をすぐに一般公開する予定はない。この動きは、マイクロソフトの提携先であるオープンAIが、同社の動画生成AI「ソラ」をめぐる懸念に対処する方法と似ている。オープンAIは2月にソラを紹介したが、現時点ではテスト目的で一部の専門家にのみ公開している。

研究者によると、VASA―1は会話している人々の顔を撮影した数多くのビデオで訓練され、「唇の動き、(唇以外の)表情、視線、まばたきなど」を含む自然な顔や頭の動きを認識するように設計されている。その結果、VASA―1が静止画をアニメーション化すると、より生き生きとした動画になる。

メールマガジン登録
見過ごしていた世界の動き一目でわかる

世界20億を超える人々にニュースを提供する米CNN。「CNN.co.jpメールマガジン」は、世界各地のCNN記者から届く記事を、日本語で毎日皆様にお届けします*。世界の最新情勢やトレンドを把握しておきたい人に有益なツールです。

*平日のみ、年末年始など一部期間除く。

「米国」のニュース

Video

Photo

注目ニュース

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]