Question 1

什么是 Transformer 模型中的 KV Cache？

Accepted Answer

KV Cache（键值缓存）是一种推理优化技术，存储先前生成步骤中计算的 Key 和 Value 矩阵。在自回归文本生成中，不需要在每一步为所有先前 token 重新计算注意力的键和值，而是直接复用缓存的值。这避免了冗余计算，显著加速了 token 生成。

Question 2

KV Cache 如何影响内存使用？

Accepted Answer

KV Cache 的内存随序列长度、层数和注意力头数线性增长。对于长上下文的大模型，KV 缓存可能消耗大量 GPU 内存。例如，一个 700 亿参数的模型在 128K 上下文长度下，仅 KV 缓存就可能需要数十 GB 内存。分组查询注意力（GQA）、多查询注意力（MQA）和 KV 缓存量化等技术有助于减少这一内存占用。

Question 3

什么是多查询注意力和分组查询注意力？

Accepted Answer

多查询注意力（MQA）和分组查询注意力（GQA）是减少 KV 缓存大小的架构改进。MQA 让所有查询头共享单个键值头，而 GQA 将多个查询头分组共享较少的键值头。这些技术在对模型质量影响最小的情况下显著减少 KV 缓存内存使用，已被 Llama 2 和 Mistral 等现代 LLM 广泛采用。

Question 4

KV Cache 可以量化以节省内存吗？

Accepted Answer

是的，KV 缓存量化是一个活跃的优化方向。对缓存的 Key 和 Value 张量进行 INT8 或 INT4 量化可以在质量损失极小的情况下将内存使用减少 2-4 倍。vLLM 和 TensorRT-LLM 等框架支持 KV 缓存量化，使得在相同硬件上服务更长上下文和更多并发用户成为可能。

Question 5

什么是前缀缓存？它与 KV Cache 有什么关系？

Accepted Answer

前缀缓存是一种将公共提示前缀的 KV 缓存计算一次并在多个请求间共享的技术。这对于许多用户共享相同系统提示或上下文的应用特别有用。通过避免共享前缀的冗余计算，前缀缓存显著提高了吞吐量并减少了生产部署场景中的首 token 生成时间。

全称	Key-Value Cache（键值缓存）
创建时间	作为 Transformer 架构的一部分由 Vaswani 等人于 2017 年引入

什么是 KV Cache？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

什么是 Transformer 模型中的 KV Cache？

KV Cache 如何影响内存使用？

什么是多查询注意力和分组查询注意力？

KV Cache 可以量化以节省内存吗？

什么是前缀缓存？它与 KV Cache 有什么关系？

相关工具

JSON 格式化

相关术语

注意力机制

Transformer模型

上下文窗口

量化

相关文章

大模型推理与 KV Cache 详解：Token 生成的底层逻辑【2026】

大语言模型 (LLM) 推理过程详解：从 Token、KV Cache 到文本生成【2026】

注意力机制完全指南：从直觉理解到Transformer核心原理与代码实现