最大4096×4096の解像度の画像を数秒以内に自動生成できるAIモデル「Sana」をNVIDIAなどの研究チームがリリース
NVIDIAやマサチューセッツ工科大学(MIT)、精華大学の研究チームが、最大4096×4096の解像度の画像を数秒以内に生成できる画像生成AI「Sana」を発表しました。
[2410.10629] SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
https://arxiv.org/abs/2410.10629
Sana
https://nvlabs.github.io/Sana/
以下は実際にSanaで作成した画像の一例です。「astronaut in a jungle, cold color palette, muted colors, detailed,8k(ジャングルの中の宇宙飛行士、寒色系、ミュートカラー、細かく、8Kで)」というプロンプトだと、こんな感じの画像を生成可能。
「a cyberpunk cat with a neon sign that says "SANA"(『SANA』と書かれたネオンサインとサイバーパンクな猫)」というプロンプトで生成した画像が以下。
「portrait photo of a girl, photograph, highly detailed face, depth of field(少女のポートレート写真、写実的に、非常に詳細な顔、被写界深度を加えて)」というプロンプトを入力すると、リアルな人物の画像が生成されました。
Sanaの開発チームによると、画像を8倍までしか圧縮できない従来のオートエンコーダーと異なり、Sanaでは画像を最大32倍圧縮可能なオートエンコーダーのトレーニングを実施することで、潜在的なトークンの数を効果的に減らしつつ、効率的なトレーニングや4K解像度という超高解像度画像の生成を実現しているとのこと。
また、デコーダー専用に言語モデルのGemmaをテキストエンコーダーとして利用することで、プロンプトの理解と推論の性能を強化しています。従来のT5と異なり、Gemmaは優れたテキスト理解力があるため、トレーニングの不安定性に対処しつつ、画像とテキストのアライメントを改善することができるそうです。さらに、サンプリングステップを削減するため「Flow-DPM-Solver」と呼ばれる仕組みを導入しており、この結果サンプリングステップの数を「Flow-Euler-Solver」と比べて28回~50回から14回~20回へと減らし、効率的なキャプションのラベリングと選択を実現しています。
こうした取り組みの結果、Sanaは「Flux」をはじめとする最新の高性能画像生成AIと同様の競争力を有しながらも、100倍以上高速な画像生成が可能です。開発チームによると、パラメーターサイズが6億の「SANA-0.6B」はメモリ容量が16GBのGPU搭載ノートPCでも展開可能で、1024×1024の解像度の画像を生成するのに1秒もかからないとされています。以下はSanaの画像生成にかかる時間を比較したグラフで、パラメーターサイズが16億の「SANA-1.6B」は1024×1024の画像を1.2秒で生成可能。4096×4096の画像は15.9秒で生成することができます。さらに、SANA-0.6Bは1024×1024の画像を0.9秒で生成できるほか、4096×4096の画像をわずか9.6秒で生成可能です。
Sanaと各種画像生成AIの性能を比較した表が以下。Sanaの各モデルがスループットの面でほかの画像生成AIよりも高い性能を残していることが報告されています。
なお、記事作成時点でSanaのソースコードは「近日公開予定」とのことです。
10/17 20:00
GIGAZINE