十分钟读懂Stable Diffusion运行原理

时间：23-10-06 14:22:13

作者：

　　Stable Diffusion是基于潜在扩散模型的高分辨率图像合成方法。它的运作原理源于2022年发表的一篇论文，作者来自慕尼黑大学机器视觉与学习小组和视频领域的公司Runway。该模型是通过使用LAION-Aesthetics数据集进行训练的，这是LAION 5B数据集的一个高质量子集。LAION 5B是世界上第一个大规模公开的图像文本数据集，包含了58.5亿个CLIP过滤后的图像文本对，总共达到了80T的大小。

　　　　 aa2c911f2fff20c18ef997b0596c465d

　　为了训练Stable Diffusion模型，Stability AI提供了4000个A100 Ezra-1 AI超级集群。Stability AI随后发布了Stable Diffusion的1.0开源版本，而Runway公司发布了1.5版本。之后，Stability AI又发布了2.0和2.1版本，不断改进和增强了该模型的功能和性能。

　　然而，由于Stable Diffusion是一个开源模型，想要使用该模型需要通过代码界面进行操作。对于不熟悉编程的用户来说，这种操作门槛相对较高。为了降低使用门槛，开源社区在GitHub上创建了一个名为stable-diffusion-webui的项目，专门为Stable Diffusion编写了Web UI界面。该项目始于2022年8月22日，截至2023年4月1日，有367名贡献者提交了4010次代码。在B站（哔哩哔哩）上，一位UP主使用Gource工具可视化展示了整个项目的提交记录，展现了Stable Diffusion Web UI的开发制作过程。

　　由于这些开源项目的出现，使得Stable Diffusion的使用门槛大大降低。特别值得一提的是，B站UP主秋叶aaaki制作了Stable Diffusion Web UI的汉化版本。现在国内用户可以通过各种汉化整合包来使用该模型，并且这些整合包基本都是基于秋叶大神的版本，并增加了一些模型或插件。在这里，我们要特别感谢秋叶大神对Stable Diffusion的贡献。

　　Stable Diffusion是一种基于潜在扩散模型的高分辨率图像合成方法。它通过训练模型使用高质量的LAION-Aesthetics数据集和大规模AI超级集群来实现优秀的性能。为了降低使用门槛，开源社区开发了Stable Diffusion Web UI，并且秋叶大神还制作了汉化版本，使得用户更加方便地使用该模型。这些进展标志着设计师们面临的巨大变革时代的到来，也是AI技术飞速发展所带来的成果之一。