画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴
画像生成AIのStable Diffusionを開発するStability AIが、「Stable Diffusion 3.5」のオープンリリースを2024年10月22日(火)に発表しました。このStable Diffusion 3.5には複数のモデルが含まれ、すべてStability AI Community Licenseの下で商用・非商用を問わず無料で利用可能となっています。
Stable Diffusion 3.5 のご紹介 — Stability AI Japan
https://ja.stability.ai/blog/introducing-stable-diffusion-3-5
Stability AIは「(2024年)6月にStable Diffusion 3シリーズの最初のオープンリリースであるStable Diffusion 3 Mediumを公開しました。しかしこのリリースは、我々の基準や、コミュニティの期待を十分に満たすものではありませんでした」と述べています。そこで、コミュニティからの貴重なフィードバックを受け、早急な修正ではなく、ビジュアルメディアの変革というミッションを前進させるバージョンを開発するための時間を取ったとのこと。
Stability AIは、Stable Diffusion 3.5は「カスタマイズ性」「効率的なパフォーマンス」「多様な出力」「多彩なスタイル」において優位性を発揮し、テキストプロンプトへの準拠と画質において最高水準のパフォーマンスを維持しながら、市場で最もカスタマイズ可能で利用しやすいイメージモデルのひとつとなっているとアピールしています。
特にカスタマイズ性を優先したことで、同じプロンプトからの出力結果でも、シードによっては大きなばらつきが生じる可能性があり、特定性のないプロンプトでは出力の不確実性が増大して見た目のレベルにばらつきが生じる可能性があるとのこと。Stability AIは「これは意図的なもの」としています。
Stable Diffusion 3.5には、「Stable Diffusion 3.5 Large」「Stable Diffusion 3.5 Large Turbo」「Stable Diffusion 3.5 Medium」の3モデルが用意されています。
「Stable Diffusion 3.5 Large」のパラメータ数は80億で、Stable Diffusion 3シリーズの中で最も強力なモデルであるStable Diffusion 3.5 Largeは優れた品質と迅速な適合性を持ち、1メガピクセルの解像度でのプロフェッショナルな使用事例に適しているとのこと。Stable Diffusion 3.5 LargeのモデルはHugging Faceの以下のリポジトリで公開されています。
stabilityai/stable-diffusion-3.5-large · Hugging Face
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
「Stable Diffusion 3.5 Large Turbo」はStable Diffusion 3.5 Largeの蒸留版であり、わずか4ステップで高画質な画像生成を可能で、Stable Diffusion 3.5 Largeよりもはるかに高速であることが特徴。Stable Diffusion 3.5 Large TurboのモデルはHugging Faceの以下のリポジトリで公開されています。
stabilityai/stable-diffusion-3.5-large-turbo · Hugging Face
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
「Stable Diffusion 3.5 Medium」はパラメーター数26億で、Stable Diffusion 3シリーズの基礎技術であるマルチモーダル拡散Transformer(MMDiT)アーキテクチャを改良したMMDiT-Xアーキテクチャが採用されています。さらにトレーニング方法も改良され、カスタマイズのしやすさと画質を両立。Stable Diffusion 3.5 Mediumは、コンシューマー向けハードウェアで「箱から出してすぐに使える」ように設計されているそうで、0.25~2メガピクセルの解像度の画像を生成可能。
以下はStable Diffusion 3.5シリーズと他の画像生成AIモデルで、プロンプト順守率(Prompt Adherence)と美的クオリティ(Aesthetic Queality)のイロレーティングスコアを比較した棒グラフです。Stable Diffusion 3.5 Largeの結果は、Stable Diffusionのオリジナル開発者が手がけた画像生成AI「Flux」(パラメータ数120億)よりもプロンプト順守率が高く、美的クオリティはこれまでのStable Diffusionシリーズを上回っていることがわかります。
Stable Diffusion 3.5シリーズのモデルはHugging Faceで公開されるほか、Stability AI APIをはじめ、複数のAIプラットフォームで提供されます。なお、Stable Diffusion 3.5 LargeとStable Diffusion 3.5 Large Turboは記事作成時点ですでにリリース済みですが、Stable Diffusion 3.5 Mediumは少し遅れて2024年10月29日(火)にリリースされます。
10/23 10:55
GIGAZINE