什么是扩散模型？

扩散模型是一类生成式深度学习模型，通过逐步对正态分布变量进行去噪来生成数据，逆转前向扩散过程——该过程逐步向训练数据添加高斯噪声直至变成纯噪声。

快速了解

全称	扩散概率模型
创建时间	2015 年（初始概念）、2020 年（Ho 等人提出 DDPM）、2022 年（Stable Diffusion 公开发布）
规范文档	官方规范

工作原理

扩散模型通过两个过程工作：前向扩散过程在多个时间步中逐渐向数据添加噪声，直到数据与随机噪声无法区分；反向去噪过程中，神经网络学习逐步预测并去除噪声。这种方法在去噪扩散概率模型（DDPM）中被形式化，已成为最先进图像生成系统的基础。著名的实现包括 Stable Diffusion、DALL-E 2/3、Midjourney 和 Imagen。潜空间扩散模型在压缩的潜在空间而非像素空间中运行，大幅降低计算需求的同时保持高质量输出。这些模型彻底改变了 AI 生成艺术，并正在扩展到视频、音频和 3D 内容生成领域。

主要特点

迭代去噪过程，逐步将噪声转化为连贯数据
基于马尔可夫链理论，具有数学上可处理的训练目标
潜空间扩散实现高效的高分辨率图像生成
支持通过文本提示、图像或其他模态进行条件生成
生成高度多样化的输出，具有优秀的模式覆盖
通过引导尺度和负面提示实现可控生成

常见用途

文生图：从自然语言描述创建图像（Stable Diffusion、DALL-E、Midjourney）
图像编辑与修复：修改特定区域同时保留上下文
图像到图像转换：风格迁移、超分辨率和着色
视频生成：从文本或图像提示创建短视频片段（Sora、Runway Gen-2）
3D 资产生成：为游戏和设计生成 3D 模型和纹理

示例

Loading code...

常见问题

扩散模型和 GAN 有什么区别？

扩散模型通过迭代去噪步骤生成图像，而 GAN 使用生成器-判别器对抗设置。扩散模型通常产生更高质量和更多样化的输出，训练更稳定，但推理速度较慢。GAN 速度更快，但可能出现模式崩溃和训练不稳定。扩散模型已在很大程度上取代了 GAN 用于高质量图像生成。

扩散模型中的'引导尺度'是什么意思？

引导尺度（无分类器引导）控制生成图像与文本提示的匹配程度。较高的值（7-15）产生更严格匹配提示的图像，但可能失去多样性和自然感。较低的值（1-5）允许更多创意自由，但可能偏离提示。7.5 通常作为平衡的默认值。

什么是负面提示，它们如何工作？

负面提示告诉模型在生成图像中要避免什么（例如，'模糊、低质量、扭曲'）。在生成过程中，模型会主动避开负面提示中的概念。它们有助于提高图像质量并排除不需要的元素。常见的负面提示包括质量问题（模糊、噪点）和不需要的内容（多余的肢体、水印）。

什么是潜空间扩散，为什么它很重要？

潜空间扩散在压缩的潜在空间（由 VAE 编码）而非像素空间中运行。这大幅降低了计算需求（8 倍或更多），同时保持高质量输出。Stable Diffusion 使用这种方法，使其能够在消费级 GPU 上运行。潜在空间高效捕获语义信息，使生成更快且更节省内存。

图像生成应该使用多少推理步骤？

更多步骤通常产生更高质量的图像，但需要更长时间。常见范围：20-30 步用于快速草稿，50 步获得良好质量（许多模型的默认值），100+ 步获得最高质量但收益递减。现代调度器（DPM++、Euler）可以用更少的步骤（20-30）获得好结果，而旧方法（DDPM）需要 1000+ 步。

什么是扩散模型？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

扩散模型和 GAN 有什么区别？

扩散模型中的'引导尺度'是什么意思？

什么是负面提示，它们如何工作？

什么是潜空间扩散，为什么它很重要？

图像生成应该使用多少推理步骤？

相关工具

图片大小调整

图片压缩

相关术语

生成式AI

深度学习

文生图

生成对抗网络

相关文章

扩散模型如何工作？从DDPM到Stable Diffusion原理详解

深度学习基础：神经网络、训练算法与现代架构详解

生成式AI完全指南：从原理到实践，掌握AI内容创作的核心技术