十分钟读懂Stable Diffusion运行原理

时间:23-10-06 14:22:13

作者:

分类:AI软件教程

  Stable Diffusion是基于潜在扩散模型的高分辨率图像合成方法。它的运作原理源于2022年发表的一篇论文,作者来自慕尼黑大学机器视觉与学习小组和视频领域的公司Runway。该模型是通过使用LAION-Aesthetics数据集进行训练的,这是LAION 5B数据集的一个高质量子集。LAION 5B是世界上第一个大规模公开的图像文本数据集,包含了58.5亿个CLIP过滤后的图像文本对,总共达到了80T的大小。

    aa2c911f2fff20c18ef997b0596c465d

  为了训练Stable Diffusion模型,Stability AI提供了4000个A100 Ezra-1 AI超级集群。Stability AI随后发布了Stable Diffusion的1.0开源版本,而Runway公司发布了1.5版本。之后,Stability AI又发布了2.0和2.1版本,不断改进和增强了该模型的功能和性能。

  然而,由于Stable Diffusion是一个开源模型,想要使用该模型需要通过代码界面进行操作。对于不熟悉编程的用户来说,这种操作门槛相对较高。为了降低使用门槛,开源社区在GitHub上创建了一个名为stable-diffusion-webui的项目,专门为Stable Diffusion编写了Web UI界面。该项目始于2022年8月22日,截至2023年4月1日,有367名贡献者提交了4010次代码。在B站(哔哩哔哩)上,一位UP主使用Gource工具可视化展示了整个项目的提交记录,展现了Stable Diffusion Web UI的开发制作过程。

  由于这些开源项目的出现,使得Stable Diffusion的使用门槛大大降低。特别值得一提的是,B站UP主秋叶aaaki制作了Stable Diffusion Web UI的汉化版本。现在国内用户可以通过各种汉化整合包来使用该模型,并且这些整合包基本都是基于秋叶大神的版本,并增加了一些模型或插件。在这里,我们要特别感谢秋叶大神对Stable Diffusion的贡献。

  Stable Diffusion是一种基于潜在扩散模型的高分辨率图像合成方法。它通过训练模型使用高质量的LAION-Aesthetics数据集和大规模AI超级集群来实现优秀的性能。为了降低使用门槛,开源社区开发了Stable Diffusion Web UI,并且秋叶大神还制作了汉化版本,使得用户更加方便地使用该模型。这些进展标志着设计师们面临的巨大变革时代的到来,也是AI技术飞速发展所带来的成果之一。