米マイクロソフト、新たなAIモデル発表 モナリザも歌う?
ニューヨーク(CNN) 米マイクロソフトは、顔の静止画像と話し声の音声クリップを取り込むと画像の人物が話しているようなリアルな動画を自動生成できる新たな人工知能(AI)モデル「VASA―1」を発表した。
この動画は写真だけでなく漫画や美術作品からも生成でき、リップシンク(口パク)や自然な顔・頭の動きを伴った本物のような仕上がりになる。
研究者らが示したデモ動画ではアニメーション化された「モナリザ」が俳優アン・ハサウェイさんのコミカルなラップを歌っている。
このAIモデルが生成する動画は面白いと同時にやや神経に障るほどリアルだ。マイクロソフトによれば、この技術は教育や「意思疎通に困難を抱える人のアクセシビリティーの向上」、あるいは人間ためのバーチャルコンパニオンの作成に利用できる可能性があるという。一方でこのツールが悪用され、現実の人間になりすますために使われる可能性があることも容易に想像できる。
マイクロソフトは現時点でVASA―1をすぐに一般公開する予定はない。この動きは、マイクロソフトの提携先であるオープンAIが、同社の動画生成AI「ソラ」をめぐる懸念に対処する方法と似ている。オープンAIは2月にソラを紹介したが、現時点ではテスト目的で一部の専門家にのみ公開している。
研究者によると、VASA―1は会話している人々の顔を撮影した数多くのビデオで訓練され、「唇の動き、(唇以外の)表情、視線、まばたきなど」を含む自然な顔や頭の動きを認識するように設計されている。その結果、VASA―1が静止画をアニメーション化すると、より生き生きとした動画になる。