米マイクロソフト、新たなＡＩモデル発表　モナリザも歌う？

2024.04.22 Mon posted at 16:00 JST

米マイクロソフト本社/I Ryu/Visual China Group/Getty Images via CNN Newsource

ニューヨーク（ＣＮＮ）米マイクロソフトは、顔の静止画像と話し声の音声クリップを取り込むと画像の人物が話しているようなリアルな動画を自動生成できる新たな人工知能（ＡＩ）モデル「ＶＡＳＡ―１」を発表した。

この動画は写真だけでなく漫画や美術作品からも生成でき、リップシンク（口パク）や自然な顔・頭の動きを伴った本物のような仕上がりになる。

研究者らが示したデモ動画ではアニメーション化された「モナリザ」が俳優アン・ハサウェイさんのコミカルなラップを歌っている。

このＡＩモデルが生成する動画は面白いと同時にやや神経に障るほどリアルだ。マイクロソフトによれば、この技術は教育や「意思疎通に困難を抱える人のアクセシビリティーの向上」、あるいは人間ためのバーチャルコンパニオンの作成に利用できる可能性があるという。一方でこのツールが悪用され、現実の人間になりすますために使われる可能性があることも容易に想像できる。

マイクロソフトは現時点でＶＡＳＡ―１をすぐに一般公開する予定はない。この動きは、マイクロソフトの提携先であるオープンＡＩが、同社の動画生成ＡＩ「ソラ」をめぐる懸念に対処する方法と似ている。オープンＡＩは２月にソラを紹介したが、現時点ではテスト目的で一部の専門家にのみ公開している。

研究者によると、ＶＡＳＡ―１は会話している人々の顔を撮影した数多くのビデオで訓練され、「唇の動き、（唇以外の）表情、視線、まばたきなど」を含む自然な顔や頭の動きを認識するように設計されている。その結果、ＶＡＳＡ―１が静止画をアニメーション化すると、より生き生きとした動画になる。

米マイクロソフト、新たなＡＩモデル発表　モナリザも歌う？

「米国」のニュース

Video

Photo

注目ニュース

編集部セレクト

アクセスランキング