什么是 扩散模型?

扩散模型是一类生成式深度学习模型,通过逐步对正态分布变量进行去噪来生成数据,逆转前向扩散过程——该过程逐步向训练数据添加高斯噪声直至变成纯噪声。

快速了解

全称扩散概率模型
创建时间2015 年(初始概念)、2020 年(Ho 等人提出 DDPM)、2022 年(Stable Diffusion 公开发布)
规范文档官方规范

工作原理

扩散模型通过两个过程工作:前向扩散过程在多个时间步中逐渐向数据添加噪声,直到数据与随机噪声无法区分;反向去噪过程中,神经网络学习逐步预测并去除噪声。这种方法在去噪扩散概率模型(DDPM)中被形式化,已成为最先进图像生成系统的基础。著名的实现包括 Stable Diffusion、DALL-E 2/3、Midjourney 和 Imagen。潜空间扩散模型在压缩的潜在空间而非像素空间中运行,大幅降低计算需求的同时保持高质量输出。这些模型彻底改变了 AI 生成艺术,并正在扩展到视频、音频和 3D 内容生成领域。

主要特点

  • 迭代去噪过程,逐步将噪声转化为连贯数据
  • 基于马尔可夫链理论,具有数学上可处理的训练目标
  • 潜空间扩散实现高效的高分辨率图像生成
  • 支持通过文本提示、图像或其他模态进行条件生成
  • 生成高度多样化的输出,具有优秀的模式覆盖
  • 通过引导尺度和负面提示实现可控生成

常见用途

  1. 文生图:从自然语言描述创建图像(Stable Diffusion、DALL-E、Midjourney)
  2. 图像编辑与修复:修改特定区域同时保留上下文
  3. 图像到图像转换:风格迁移、超分辨率和着色
  4. 视频生成:从文本或图像提示创建短视频片段(Sora、Runway Gen-2)
  5. 3D 资产生成:为游戏和设计生成 3D 模型和纹理

示例

loading...
Loading code...

常见问题

扩散模型和 GAN 有什么区别?

扩散模型通过迭代去噪步骤生成图像,而 GAN 使用生成器-判别器对抗设置。扩散模型通常产生更高质量和更多样化的输出,训练更稳定,但推理速度较慢。GAN 速度更快,但可能出现模式崩溃和训练不稳定。扩散模型已在很大程度上取代了 GAN 用于高质量图像生成。

扩散模型中的'引导尺度'是什么意思?

引导尺度(无分类器引导)控制生成图像与文本提示的匹配程度。较高的值(7-15)产生更严格匹配提示的图像,但可能失去多样性和自然感。较低的值(1-5)允许更多创意自由,但可能偏离提示。7.5 通常作为平衡的默认值。

什么是负面提示,它们如何工作?

负面提示告诉模型在生成图像中要避免什么(例如,'模糊、低质量、扭曲')。在生成过程中,模型会主动避开负面提示中的概念。它们有助于提高图像质量并排除不需要的元素。常见的负面提示包括质量问题(模糊、噪点)和不需要的内容(多余的肢体、水印)。

什么是潜空间扩散,为什么它很重要?

潜空间扩散在压缩的潜在空间(由 VAE 编码)而非像素空间中运行。这大幅降低了计算需求(8 倍或更多),同时保持高质量输出。Stable Diffusion 使用这种方法,使其能够在消费级 GPU 上运行。潜在空间高效捕获语义信息,使生成更快且更节省内存。

图像生成应该使用多少推理步骤?

更多步骤通常产生更高质量的图像,但需要更长时间。常见范围:20-30 步用于快速草稿,50 步获得良好质量(许多模型的默认值),100+ 步获得最高质量但收益递减。现代调度器(DPM++、Euler)可以用更少的步骤(20-30)获得好结果,而旧方法(DDPM)需要 1000+ 步。

相关工具

相关术语

相关文章