什么是 扩散模型?

扩散模型是一类生成式深度学习模型,通过逐步对正态分布变量进行去噪来生成数据,逆转前向扩散过程——该过程逐步向训练数据添加高斯噪声直至变成纯噪声。

快速了解

全称扩散概率模型
创建时间2015 年(初始概念)、2020 年(Ho 等人提出 DDPM)、2022 年(Stable Diffusion 公开发布)
规范文档官方规范

工作原理

扩散模型通过两个过程工作:前向扩散过程在多个时间步中逐渐向数据添加噪声,直到数据与随机噪声无法区分;反向去噪过程中,神经网络学习逐步预测并去除噪声。这种方法在去噪扩散概率模型(DDPM)中被形式化,已成为最先进图像生成系统的基础。著名的实现包括 Stable Diffusion、DALL-E 2/3、Midjourney 和 Imagen。潜空间扩散模型在压缩的潜在空间而非像素空间中运行,大幅降低计算需求的同时保持高质量输出。这些模型彻底改变了 AI 生成艺术,并正在扩展到视频、音频和 3D 内容生成领域。

主要特点

  • 迭代去噪过程,逐步将噪声转化为连贯数据
  • 基于马尔可夫链理论,具有数学上可处理的训练目标
  • 潜空间扩散实现高效的高分辨率图像生成
  • 支持通过文本提示、图像或其他模态进行条件生成
  • 生成高度多样化的输出,具有优秀的模式覆盖
  • 通过引导尺度和负面提示实现可控生成

常见用途

  1. 文生图:从自然语言描述创建图像(Stable Diffusion、DALL-E、Midjourney)
  2. 图像编辑与修复:修改特定区域同时保留上下文
  3. 图像到图像转换:风格迁移、超分辨率和着色
  4. 视频生成:从文本或图像提示创建短视频片段(Sora、Runway Gen-2)
  5. 3D 资产生成:为游戏和设计生成 3D 模型和纹理

示例

loading...
Loading code...

常见问题

扩散模型和 GAN 有什么区别?

扩散模型通过迭代去噪步骤生成图像,而 GAN 使用生成器-判别器对抗设置。扩散模型通常产生更高质量和更多样化的输出,训练更稳定,但推理速度较慢。GAN 速度更快,但可能出现模式崩溃和训练不稳定。扩散模型已在很大程度上取代了 GAN 用于高质量图像生成。

扩散模型中的'引导尺度'是什么意思?

引导尺度(无分类器引导)控制生成图像与文本提示的匹配程度。较高的值(7-15)产生更严格匹配提示的图像,但可能失去多样性和自然感。较低的值(1-5)允许更多创意自由,但可能偏离提示。7.5 通常作为平衡的默认值。

什么是负面提示,它们如何工作?

负面提示告诉模型在生成图像中要避免什么(例如,'模糊、低质量、扭曲')。在生成过程中,模型会主动避开负面提示中的概念。它们有助于提高图像质量并排除不需要的元素。常见的负面提示包括质量问题(模糊、噪点)和不需要的内容(多余的肢体、水印)。

什么是潜空间扩散,为什么它很重要?

潜空间扩散在压缩的潜在空间(由 VAE 编码)而非像素空间中运行。这大幅降低了计算需求(8 倍或更多),同时保持高质量输出。Stable Diffusion 使用这种方法,使其能够在消费级 GPU 上运行。潜在空间高效捕获语义信息,使生成更快且更节省内存。

图像生成应该使用多少推理步骤?

更多步骤通常产生更高质量的图像,但需要更长时间。常见范围:20-30 步用于快速草稿,50 步获得良好质量(许多模型的默认值),100+ 步获得最高质量但收益递减。现代调度器(DPM++、Euler)可以用更少的步骤(20-30)获得好结果,而旧方法(DDPM)需要 1000+ 步。

相关工具

相关术语

相关文章

扩散模型如何工作?从DDPM到Stable Diffusion原理详解

全面深度解析现代 AI 图像生成的统治级架构:扩散模型(Diffusion Models)的底层数学核心原理。详细剖析向图像添加高斯噪声的前向破坏扩散(Forward Diffusion)过程,与利用 U-Net 神经网络预测噪声的反向去噪(Reverse Denoising)恢复过程。系统性讲解主流的 DDPM/DDIM 采样算法演进,并深度解析 Stable Diffusion 潜在空间(Latent Space)架构设计。横向对比经典 GAN 和 VAE 模型,涵盖文生图、图生图、Inpainting 局部重绘等丰富应用场景,附带 Hugging Face Diffusers 完整前沿代码实战。

2026-02-21

深度学习基础:神经网络、训练算法与现代架构详解

全面系统深度硬核解析人工智能深度学习(Deep Learning)的底层数学核心原理,深入探讨反向传播算法(Backpropagation)计算图推导、基于微积分的梯度下降(Gradient Descent)优化下降策略、各种前沿常用激活函数(ReLU, GELU, Sigmoid 等)及交叉熵损失函数(Loss Function)的数学推导机制。本教程是入门高级 AI 架构与现代神经网络 Transformer 不可或缺的基础必修课指南。

2026-02-08

注意力机制完全指南:从直觉理解到Transformer核心原理与代码实现

全面深入解析现代深度学习与自然语言处理(NLP)中最具革命性的突破:注意力机制(Attention Mechanism)的核心数学原理。详细剖析自注意力(Self-Attention)、Query-Key-Value(QKV)向量点积计算逻辑、以及强大的多头注意力(Multi-Head Attention)并行特征提取。带您彻底掌握构建现代 Transformer 架构、GPT 和各类 LLM 大语言模型的底层技术基石,文章附带结构清晰的完整纯 Python 工程化代码推导与实现示例。

2026-02-21