文字を正しく出力できる画像生成AI「Stable Diffusion 3」がAPI経由で利用可能に


高画質画像生成AI「Stable Diffusion 3」のAPIが2024年4月17日に公開されました。Stable Diffusion 3は既存のAIでは失敗することの多い「文字の出力」を得意としています。
Stable Diffusion 3 API のご紹介 — Stability AI Japan
https://ja.stability.ai/blog/stable-diffusion-3-api
Stable Diffusion 3はStability AIが開発する画像生成AIで、DALL-E 3やMidjourney v6といった画像生成AIと比べてプロンプトに対する忠実性が高いことが人間による評価で確かめられています。また、Stable Diffusion 3はプロンプトの指示通りに文字を出力できることを大きな特徴としており、狙い通りの文章を好みの見た目で描画することができます。
高画質画像生成AI「Stable Diffusion 3」発表、画像生成AIが苦手とする「指定した文字の描写」「複数の被写体の描写」などを高精度に実現可能 - GIGAZINE


新たに、Stability AIは「Stable Diffusion 3」と「Stable Diffusion 3 Turbo」のAPIをStability AI Developer Platform上で公開しました。APIはクレジット制で、100メガピクセルの画像を1枚生成するごとに「Stable Diffusion 3」は6.5クレジット、「Stable Diffusion 3 Turbo」は4クレジットを消費します。各APIの詳細は以下のリンク先で確認できます。
Stability AI - Developer Platform
https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post


Stability AIはStable Diffusion 3の作例も複数公開しています。以下の画像は「A red sofa on top of a white building. Graffiti with the text “the best view in the city”.(白いビルの上に赤いソファ。『the best view in the city』という落書き)」というプロンプトで生成したもので、プロンプトの指示通りに壁面に落書きが描画されています。


「A cardboard box with the phrase “they say it's not good to think in here”, the cardboard box is large and sits on a theater stage.(『they say it's not good to think in here』というフレーズが記された段ボール箱、段ボール箱は大きくて、舞台の上にある)」というプロンプトで生成した画像が以下。この画像も正しく文字を生成できています。段ボール箱や背景が細部まで描写されているのも特徴的。


なお、Stability AIは今後もStable Diffusion 3の改善に取り組み、将来的にモデルデータを公開する予定です。

ジャンルで探す