Googleがたった1枚の写真と音声から「身ぶり手ぶりを交えて話すリアルな動画」を生成するAI「VLOGGER」を発表

Googleがたった1枚の写真と音声から「身ぶり手ぶりを交えて話すリアルな動画」を生成するAI「VLOGGER」を発表 - 画像


Googleの研究チームが、写真1枚と音声を入力することで「音声に合わせて身ぶり手ぶりを交えて話すリアルな動画」を生成できるAIフレームワーク「VLOGGER」を発表しました。
VLOGGER
https://enriccorona.github.io/vlogger/

Googleがたった1枚の写真と音声から「身ぶり手ぶりを交えて話すリアルな動画」を生成するAI「VLOGGER」を発表 - 画像


Google researchers unveil 'VLOGGER', an AI that can bring still photos to life | VentureBeat
https://venturebeat.com/ai/google-researchers-unveil-vlogger-an-ai-that-can-bring-still-photos-to-life/
Google researchers unite to create Vlogger | Cybernews
https://cybernews.com/tech/google-researchers-create-vlogger/
Google Researchで人体3Dと生成AIの研究をしているエンリック・コロナ氏が率いる研究チームは、拡散モデルと呼ばれる機械学習モデルの一種を活用してVLOGGERを開発しました。
VLOGGERで動画を生成するために必要なのは、基となる画像データとそれに合わせる音声データです。最初のネットワークでは、音声データから取得された波形データを基にして、人物の視線・表情・ポーズからなる「body motion controls(ボディ・モーション・コントロール)」が作成されます。次のネットワークでは大規模な画像拡散モデルを拡張し、入力画像からボディ・モーション・コントロールに対応するフレームを生成するという仕組みです。

Googleがたった1枚の写真と音声から「身ぶり手ぶりを交えて話すリアルな動画」を生成するAI「VLOGGER」を発表 - 画像


VLOGGER開発の鍵となったのは、80万人分を超える多様なアイデンティティと合計2200時間を超える動画を含む「MENTOR」というデータセットです。この高精度で膨大なデータセットで訓練することにより、VLOGGERはさまざまな民族・年齢・服装・ポーズ・周辺環境を、バイアスを混ぜずに動画として生成できるようになったとのこと。
流れる音声データに合わせて人物の口や表情、手などが動きます。

Googleがたった1枚の写真と音声から「身ぶり手ぶりを交えて話すリアルな動画」を生成するAI「VLOGGER」を発表 - 画像


研究チームが示したVLOGGERの動画生成例が以下。

生成できる動画は短く、よく見るとぎこちない部分があります。しかし研究チームは、「VLOGGERを3つの異なるベンチマークで評価したところ、提案されたモデルが画質、同一性保持、時間的一貫性において他の最先端の手法を上回っていることが示されました」と主張しました。

また、研究チームは、「先行研究とは対照的に、私たちの手法は各個人のトレーニングを必要とせず、顔検出やトリミングに頼らずに顔や唇だけではない完全な画像を生成し、コミュニケーションする人間を正しく合成するために重要な幅広いシナリオ(目に見える胴体や多様な被験者のアイデンティティ)を考慮しています」と述べています。
テクノロジー系メディアのVentureBeatはVLOGGERについて、「俳優が新しいパフォーマンスをするために自らの詳細な3Dモデルを取得できる」「VRやゲーム用の写実的なアバター作成に利用できる」「魅力的で表現力豊かなバーチャルアシスタントの作成に利用できる」といった可能性があると主張。その一方で、ディープフェイクなどに悪用される危険性もあると指摘し、「このようなAI生成動画がよりリアルで作成も簡単になるほど、フェイクニュースやデジタルコンテンツの捏造(ねつぞう)を巡る課題が悪化する可能性があります」と警告しました。
◆フォーラム開設中
本記事に関連するフォーラムをGIGAZINE公式Discordサーバーに設置しました。誰でも自由に書き込めるので、どしどしコメントしてください!Discordアカウントを持っていない場合は、アカウント作成手順解説記事を参考にアカウントを作成してみてください!
• Discord | "AIモデルリリース系ニュースの自分流の着目点を教えて!「自分のPCで動くか」「どれくらいの性能か」「開発元はどこか」とか何が重要?" | GIGAZINE(ギガジン)
https://discord.com/channels/1037961069903216680/1219572135463354399

ジャンルで探す