什么是 扩散 Transformer(DiT)?

扩散 Transformer(DiT)是一种生成模型架构,用 Transformer 替换扩散模型中传统的 U-Net 骨干网络,实现更优的扩展特性和更高质量的图像与视频生成。

快速了解

全称Diffusion Transformer (DiT)
创建时间2023 年由 William Peebles 和 Saining Xie 提出(Meta/UC Berkeley)
规范文档官方规范

工作原理

扩散 Transformer 代表了生成式 AI 中一次关键的架构演进。Peebles 和 Xie 于 2023 年提出 DiT,证明 Transformer 可以作为扩散过程中有效的去噪器,提供比 U-Net 更好的扩展行为。该架构通过带有自适应层归一化(adaLN)的 Transformer 块处理含噪潜空间 Patch。截至 2026 年,DiT 及其变体(MMDiT、SD3 的联合注意力)驱动几乎所有最先进的生成系统,包括 OpenAI 的 Sora、Stability AI 的 Stable Diffusion 3、Black Forest Labs 的 FLUX 2 和字节跳动的 Seedance。核心洞察是 Transformer 已验证的扩展定律可迁移到扩散模型骨干,使质量提升随计算量增加而可预测。

主要特点

  • Transformer 骨干 — 用标准 Transformer 块替换 U-Net 以获得更好的扩展性
  • 基于 Patch 的处理 — 像 Vision Transformer 一样将潜空间表示分割为 Patch
  • 自适应层归一化 (adaLN) — 基于文本、时间步和类别标签调节生成
  • 可预测的扩展 — 遵循类似语言模型的幂律扩展
  • 联合注意力变体 — MMDiT 实现文本和图像 Token 间的跨模态注意力
  • 灵活分辨率 — 比固定 U-Net 架构更自然地处理可变输入尺寸

常见用途

  1. 高分辨率图像生成 — 产出 4K+ 分辨率的逼真图像
  2. 视频生成 — 驱动时序一致的视频合成(Sora、Seedance)
  3. 文字渲染 — 得益于 Transformer 注意力模式,图中文字生成更优
  4. 多模态生成 — 统一架构实现联合图像-文本生成
  5. 图像编辑 — 利用全局上下文实现精确的修复和扩展
  6. 3D 生成 — 扩展到多视角一致的 3D 资产创建

示例

loading...
Loading code...

常见问题

DiT 为什么取代了扩散模型中的 U-Net?

U-Net 是扩散模型的原始骨干,但其不规则架构使扩展难以预测。DiT 证明标准 Transformer 提供更好的扩展定律——将计算量翻倍可靠地提升质量。Transformer 还能更自然地处理可变分辨率,并受益于数十年的优化研究。

哪些产品使用 DiT 架构?

使用 DiT 变体的主要产品包括:OpenAI Sora(视频)、Stable Diffusion 3(图像)、Black Forest Labs 的 FLUX 1/2(图像)、字节跳动 Seedance(视频)、Google Imagen 3 和 Veo(图像/视频)、以及 Midjourney V7。2026 年几乎所有最先进的生成系统都使用基于 Transformer 的扩散骨干。

什么是 MMDiT?

MMDiT(多模态扩散 Transformer)是 Stable Diffusion 3 使用的变体,文本和图像 Token 通过联合自注意力相互关注。与使用交叉注意力进行文本条件化的标准 DiT 不同,MMDiT 将两种模态作为共享序列中的一等 Token 处理,实现更深层的文本-图像对齐。

DiT 模型有多大?

DiT 模型从约 1 亿参数(DiT-S)到 300 亿以上参数(FLUX 2)不等。原始论文测试到 DiT-XL/2(约 6.75 亿参数)。Sora 等生产系统估计为 30-100 亿参数。像语言模型一样,更大的 DiT 模型按幂律扩展持续产出更好的结果。

DiT 能生成视频吗?

可以。Sora 等视频生成系统将 DiT 扩展到 3D,将视频视为时空 Patch。Transformer 联合处理空间和时间维度,使用 3D 注意力模式。这实现了时序连贯的视频生成,同时继承了 DiT 的扩展优势。

相关工具

相关术语

相关文章