Question 1

Transformer 为什么能取代 RNN 和 LSTM？

Accepted Answer

Transformer 的优势在于：1）自注意力机制允许并行计算所有位置，而 RNN 必须顺序处理；2）能直接建模任意距离的依赖关系，不受 RNN 的长距离依赖问题困扰；3）训练效率更高，可以充分利用 GPU 并行能力；4）通过多头注意力同时捕获不同类型的关系。这些优势使 Transformer 在性能和效率上全面超越循环架构。

Question 2

什么是自注意力机制？它是如何工作的？

Accepted Answer

自注意力机制让序列中的每个位置都能关注所有其他位置。工作原理：将输入转换为 Query、Key、Value 三个向量，计算 Query 与所有 Key 的相似度得到注意力权重，用权重对 Value 加权求和得到输出。这使模型能动态地根据上下文决定关注哪些信息，而不是固定的局部窗口。

Question 3

编码器-解码器架构和仅解码器架构有什么区别？

Accepted Answer

编码器-解码器架构（如原始 Transformer、T5）：编码器处理输入序列，解码器生成输出序列，适合翻译、摘要等序列到序列任务。仅解码器架构（如 GPT 系列）：只有解码器，自回归生成文本，适合文本生成任务。仅编码器架构（如 BERT）：只有编码器，适合理解任务如分类、问答。

Question 4

位置编码为什么对 Transformer 很重要？

Accepted Answer

Transformer 的自注意力机制本身不包含位置信息——它将输入视为无序集合。位置编码向输入嵌入中注入序列顺序信息，使模型能区分'猫追狗'和'狗追猫'。常见方法包括：正弦位置编码（原始论文）、可学习位置嵌入（BERT）、旋转位置编码 RoPE（LLaMA）等。

Question 5

Transformer 在计算机视觉领域是如何应用的？

Accepted Answer

Vision Transformer（ViT）将图像分割成固定大小的图块（patch），将每个图块线性投影为向量，加上位置编码后输入标准 Transformer 编码器。这种方法在大规模数据集上训练后，性能超越了传统 CNN。后续发展包括 Swin Transformer（层次化结构）、DeiT（数据高效训练）等，Transformer 已成为视觉领域的主流架构之一。

创建时间	2017 年由 Google（Vaswani 等人）提出
规范文档	官方规范

什么是 Transformer模型？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

Transformer 为什么能取代 RNN 和 LSTM？

什么是自注意力机制？它是如何工作的？

编码器-解码器架构和仅解码器架构有什么区别？

位置编码为什么对 Transformer 很重要？

Transformer 在计算机视觉领域是如何应用的？

相关工具

JSON 格式化

相关术语

注意力机制

多模态

上下文窗口

大语言模型

相关文章

Mamba 与状态空间模型 (SSM)：超越 Transformer 的下一代序列建模架构

Transformer架构完全指南：自注意力机制、编码器-解码器与现代大模型原理

注意力机制完全指南：从直觉理解到Transformer核心原理与代码实现