テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ - 画像


画像生成AI「Stable Diffusion」を開発するStability AIが、テキストや画像から高解像度の動画を生成できる潜在動画拡散モデル「Stable Video Diffusion」を公開しました。
Stable Video Diffusion のご紹介 — Stability AI Japan
https://ja.stability.ai/blog/stable-video-diffusion

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ - 画像


Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets — Stability AI
https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ - 画像


Stable Video Diffusionは研究プレビューとして公開されており、ソースコードがGitHubリポジトリで公開されています。
GitHub - Stability-AI/generative-models: Generative Models by Stability AI
https://github.com/Stability-AI/generative-models
また、ローカルでモデルを実行するために必要なウェイトはHuggingFaceで確認できます。
stabilityai/stable-video-diffusion-img2vid-xt · Hugging Face
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt
Stable Video Diffusionは、14フレームおよび25フレームを生成できる2種類のImage to Videoモデルとしてリリースされており、3fps~30fpsでカスタマイズ可能なフレームレートで動画を生成が可能です。
「Ice dragon in the mountains(山にいる氷の龍)」と入力するとその通りのアニメーションが生成されます。

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ - 画像


「Astronaut walking on the moon(月を歩く宇宙飛行士)」

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ - 画像


「Two blue jays on the top of building(建物のてっぺんに留まる2羽の青いカケス)」

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ - 画像


Stability AIは、runway ResearchのGEN-2やpika.artのPikaLabsとユーザーによる映像品質の評価(縦軸)を比べた結果として、以下の棒グラフを公開しています。14フレーム生成できるStable Video Diffusion(紫)の場合はこんな感じ。

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ - 画像


25フレーム生成できるStable Video Diffusion XT(紫)の場合が以下。

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ - 画像


Stability AIは「Stable Video Diffusionを、私たちの多様なモデルに加えられたことを嬉しく思います。画像、言語、音声、3D、コードなどのモダリティにまたがるStability AI のポートフォリオは、人間の想像力を最大化させるという Stability AI のミッションの証です」とコメントしています。

ジャンルで探す