什么是扩散 Transformer（DiT）？

扩散 Transformer（DiT）是一种生成模型架构，用 Transformer 替换扩散模型中传统的 U-Net 骨干网络，实现更优的扩展特性和更高质量的图像与视频生成。

快速了解

全称	Diffusion Transformer (DiT)
创建时间	2023 年由 William Peebles 和 Saining Xie 提出（Meta/UC Berkeley）
规范文档	官方规范

工作原理

扩散 Transformer 代表了生成式 AI 中一次关键的架构演进。Peebles 和 Xie 于 2023 年提出 DiT，证明 Transformer 可以作为扩散过程中有效的去噪器，提供比 U-Net 更好的扩展行为。该架构通过带有自适应层归一化（adaLN）的 Transformer 块处理含噪潜空间 Patch。截至 2026 年，DiT 及其变体（MMDiT、SD3 的联合注意力）驱动几乎所有最先进的生成系统，包括 OpenAI 的 Sora、Stability AI 的 Stable Diffusion 3、Black Forest Labs 的 FLUX 2 和字节跳动的 Seedance。核心洞察是 Transformer 已验证的扩展定律可迁移到扩散模型骨干，使质量提升随计算量增加而可预测。

主要特点

Transformer 骨干 — 用标准 Transformer 块替换 U-Net 以获得更好的扩展性
基于 Patch 的处理 — 像 Vision Transformer 一样将潜空间表示分割为 Patch
自适应层归一化 (adaLN) — 基于文本、时间步和类别标签调节生成
可预测的扩展 — 遵循类似语言模型的幂律扩展
联合注意力变体 — MMDiT 实现文本和图像 Token 间的跨模态注意力
灵活分辨率 — 比固定 U-Net 架构更自然地处理可变输入尺寸

常见用途

高分辨率图像生成 — 产出 4K+ 分辨率的逼真图像
视频生成 — 驱动时序一致的视频合成（Sora、Seedance）
文字渲染 — 得益于 Transformer 注意力模式，图中文字生成更优
多模态生成 — 统一架构实现联合图像-文本生成
图像编辑 — 利用全局上下文实现精确的修复和扩展
3D 生成 — 扩展到多视角一致的 3D 资产创建

示例

Loading code...

常见问题

DiT 为什么取代了扩散模型中的 U-Net？

U-Net 是扩散模型的原始骨干，但其不规则架构使扩展难以预测。DiT 证明标准 Transformer 提供更好的扩展定律——将计算量翻倍可靠地提升质量。Transformer 还能更自然地处理可变分辨率，并受益于数十年的优化研究。

哪些产品使用 DiT 架构？

使用 DiT 变体的主要产品包括：OpenAI Sora（视频）、Stable Diffusion 3（图像）、Black Forest Labs 的 FLUX 1/2（图像）、字节跳动 Seedance（视频）、Google Imagen 3 和 Veo（图像/视频）、以及 Midjourney V7。2026 年几乎所有最先进的生成系统都使用基于 Transformer 的扩散骨干。

什么是 MMDiT？

MMDiT（多模态扩散 Transformer）是 Stable Diffusion 3 使用的变体，文本和图像 Token 通过联合自注意力相互关注。与使用交叉注意力进行文本条件化的标准 DiT 不同，MMDiT 将两种模态作为共享序列中的一等 Token 处理，实现更深层的文本-图像对齐。

DiT 模型有多大？

DiT 模型从约 1 亿参数（DiT-S）到 300 亿以上参数（FLUX 2）不等。原始论文测试到 DiT-XL/2（约 6.75 亿参数）。Sora 等生产系统估计为 30-100 亿参数。像语言模型一样，更大的 DiT 模型按幂律扩展持续产出更好的结果。

DiT 能生成视频吗？

可以。Sora 等视频生成系统将 DiT 扩展到 3D，将视频视为时空 Patch。Transformer 联合处理空间和时间维度，使用 3D 注意力模式。这实现了时序连贯的视频生成，同时继承了 DiT 的扩展优势。

什么是扩散 Transformer（DiT）？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

DiT 为什么取代了扩散模型中的 U-Net？

哪些产品使用 DiT 架构？

什么是 MMDiT？

DiT 模型有多大？

DiT 能生成视频吗？

相关工具

图片压缩

图片大小调整

相关术语

扩散模型

Transformer模型

文生图

注意力机制

相关文章

扩散模型如何工作？从DDPM到Stable Diffusion原理详解

AI 视频生成实战 2026：Seedance 2.5 vs Sora 2.5 vs Veo 3 深度对比

AI 图片生成工具对比 2026：Midjourney V7 vs Flux 2 vs GPT-Image vs Seedream 选型指南