4月17日,stability宣布开放stable diffusion 3以及增强版本stable diffusion 3 Turbo的API。Stable Diffusion 3 使用了类似于 OpenAI Sora 的 Diffusion Transformer 框架,而此前几代 Stable Diffusion 模型仅依赖于扩散架构。

stability官方宣称,SD 3模型在图像生成能力方面,已经解决并超越DALLE-3以及midjourney V6等模型,尤其擅长文字渲染。不过,根据目前取得的消息,stability并没有公布SD 3模型的参数和细节,很可能该模型不再开源。

从官方提供的样本图可以看出,SD 3具备很强的创新能力以及高精度的文本渲染能力。目前已经有开发者创建了基于SD 3 API的可视化操作界面,支持文本转图像、图像转图像功能。

点击链接:https://platform.stability.ai/,就可以申请stability API。

新用户可以获得一定的使用额度,使用完毕后可以在线充值。

然后复制并粘贴API到hacking face的试用界面:Sd3 Api – a Hugging Face Space by latentcat。下方可以输入英文提示词,选择图像的比例以及SD 3、SD 3 Turbo模型,完成图像生成。其中SD 3 Turbo模型的图像生成速度更快。现在SD 3基础模型生成图像的质量已经远超之前发布的SDXL模型。此外,用户可以在SDXL Turbo平台免费使用SD 3模型:Stable Diffusion 3 Free Online:Unleash Creativity with AI (sdxlturbo.ai)

在对话框中输入提示词,即可生成一张1:1比例的图像,生成速度在5秒以内。

如果想要在图像中添加文字,也可以用双引号标注。和SDXL相比,SD 3模型能够生成具备丰富色彩以及高对比度的图像。由SD 3模型生成的图像,细节得到了增强,对提示词的理解能力也更加透彻。此外,SD 3还能够生成照片及真实人像作品,效果非常不错。在动漫图像生成方面,SD 3也有不错的表现,效果已经接近MidjourneyV6模型。


0 条评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注