Stable Diffusion 3 Mediumがオープンリリースされる、比較的小型で個人利用に最適なモデルに
画像生成AI「Stable Diffusion」を開発するStability AIが、「Stable Diffusion 3 Medium」のモデルを公開したと発表しました。
最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表 — Stability AI Japan
https://ja.stability.ai/blog/stable-diffusion-3-medium
stabilityai/stable-diffusion-3-medium · Hugging Face
https://huggingface.co/stabilityai/stable-diffusion-3-medium
Stable Diffusion 3は2024年2月に発表されたモデルで、指定した文字を画像内に違和感なく描写したり、複数の被写体を高精細に描写したりといった特徴で話題となりました。
高画質画像生成AI「Stable Diffusion 3」発表、画像生成AIが苦手とする「指定した文字の描写」「複数の被写体の描写」などを高精度に実現可能 - GIGAZINE
Stable Diffusion 3 Mediumはパラメータ数20億の比較的小さいサイズのモデルで、個人向けシステムや企業向けGPUで動作させるのに最適だとのこと。Stability AIはStable Diffusion 3 Mediumの特徴として以下を挙げています。
・全体的な品質とフォトリアリズム
ディテール、カラー、ライティングに優れ、フォトリアリスティックな出力と、柔軟なスタイルでの高品質な出力を可能にします。16チャンネルVAEなどの工夫により、手や顔のリアルさなど、他モデルにありがちな落とし穴にも対応しました。
・プロンプトの理解
空間的推論、構成要素、アクション、スタイルを含む、長く複雑なプロンプトを理解します。3つのテキストエンコーダーをすべて、または組み合わせて使用することで、パフォーマンスと効率をトレードオフすることができます。
・テキスト生成
Diffusion Transformer architectureにより、スペル、カーニング、文字組み、スペーシングのミスを低減し、これまでにないテキスト品質を実現します。
・リソース効率
低いVRAMフットプリントにより、標準的なコンシューマー向けGPUでパフォーマンスを低下させることなく実行することができます。
・ファインチューニング
小さなデータセットから微妙なディテールを理解することができ、カスタマイズに最適です。
また、Stability AIはNVIDIAやAMDとのコラボレーションを発表。NVIDIA RTX GPUとTensorRTを活用することで、Stable Diffusion 3 Mediumを含むすべてのStable Diffusion モデルのパフォーマンスが強化されたとのこと。特にTensorRTに最適化されたバージョンは、従来と比較してパフォーマンスが50%向上すると主張しています。
また、AMD製のAPUやコンシューマー向けGPU、MI-300XエンタープライズGPUなどさまざまなAMDデバイス向けに、Stable Diffusion 3 Mediumの推論を最適化しているとStability AIは発表しました。
Stable Diffusion 3 Mediumのモデルデータは、オンラインAIプラットフォームのHugging Faceで公開されており、記事作成時点でオープンな非商用ライセンスと低コストなクリエイターライセンスの下で利用可能になっています。
また、Stable Diffusion 3 Mediumのオープンリリースと同時に、Stable Diffusion 3 MediumのAPIも利用可能となっており、チャットボットの「Stable Assistant」や、Discord上で動作する「Stable Artisan」で利用できるとのこと。どちらも利用するには月額有料のサブスクリプションプランに登録する必要がありますが、3日間の無料トライアルが可能となっています。
06/13 10:55
GIGAZINE