什么是 KV Cache?

KV Cache(键值缓存)是 Transformer 模型推理中的一种优化技术,通过存储注意力机制中先前计算的 Key 和 Value 矩阵,消除自回归 token 生成过程中的冗余计算,从而显著提升推理速度。

快速了解

全称Key-Value Cache(键值缓存)
创建时间作为 Transformer 架构的一部分由 Vaswani 等人于 2017 年引入

工作原理

全面深入了解 KV Cache(Key-Value Cache)这一现代大语言模型推理中的核心优化技术。在自回归生成过程中,每生成一个新 token 都需要通过自注意力机制关注所有先前的 token。如果不使用缓存,每一步都需要为所有先前 token 重新计算 Key 和 Value 投影,导致计算成本呈二次方增长。KV Cache 通过存储已处理 token 的 Key 和 Value 矩阵来解决这一问题,使得每步只需计算新 token 的投影,将单步计算复杂度从 O(n²) 降至 O(n),从而实现 LLM 的大规模实际部署。

主要特点

  • 在注意力层中缓存所有先前 token 的 Key 和 Value 矩阵
  • 消除自回归生成过程中的冗余计算
  • 内存使用量随序列长度和模型深度线性增长
  • 长上下文场景需要精细的内存管理
  • 兼容多种量化技术以减少缓存大小
  • 支持多查询注意力(MQA)和分组查询注意力(GQA)等高级变体

常见用途

  1. 加速生产推理服务器中的 LLM 文本生成
  2. 降低实时对话式 AI 应用的延迟
  3. 通过连续批处理实现高效批量推理
  4. 使用内存高效的 KV 缓存压缩进行长上下文处理
  5. 通过共享前缀缓存为多个并发用户提供服务

示例

loading...
Loading code...

常见问题

什么是 Transformer 模型中的 KV Cache?

KV Cache(键值缓存)是一种推理优化技术,存储先前生成步骤中计算的 Key 和 Value 矩阵。在自回归文本生成中,不需要在每一步为所有先前 token 重新计算注意力的键和值,而是直接复用缓存的值。这避免了冗余计算,显著加速了 token 生成。

KV Cache 如何影响内存使用?

KV Cache 的内存随序列长度、层数和注意力头数线性增长。对于长上下文的大模型,KV 缓存可能消耗大量 GPU 内存。例如,一个 700 亿参数的模型在 128K 上下文长度下,仅 KV 缓存就可能需要数十 GB 内存。分组查询注意力(GQA)、多查询注意力(MQA)和 KV 缓存量化等技术有助于减少这一内存占用。

什么是多查询注意力和分组查询注意力?

多查询注意力(MQA)和分组查询注意力(GQA)是减少 KV 缓存大小的架构改进。MQA 让所有查询头共享单个键值头,而 GQA 将多个查询头分组共享较少的键值头。这些技术在对模型质量影响最小的情况下显著减少 KV 缓存内存使用,已被 Llama 2 和 Mistral 等现代 LLM 广泛采用。

KV Cache 可以量化以节省内存吗?

是的,KV 缓存量化是一个活跃的优化方向。对缓存的 Key 和 Value 张量进行 INT8 或 INT4 量化可以在质量损失极小的情况下将内存使用减少 2-4 倍。vLLM 和 TensorRT-LLM 等框架支持 KV 缓存量化,使得在相同硬件上服务更长上下文和更多并发用户成为可能。

什么是前缀缓存?它与 KV Cache 有什么关系?

前缀缓存是一种将公共提示前缀的 KV 缓存计算一次并在多个请求间共享的技术。这对于许多用户共享相同系统提示或上下文的应用特别有用。通过避免共享前缀的冗余计算,前缀缓存显著提高了吞吐量并减少了生产部署场景中的首 token 生成时间。

相关工具

相关术语

相关文章

注意力机制完全指南:从直觉理解到Transformer核心原理与代码实现

全面深入解析现代深度学习与自然语言处理(NLP)中最具革命性的突破:注意力机制(Attention Mechanism)的核心数学原理。详细剖析自注意力(Self-Attention)、Query-Key-Value(QKV)向量点积计算逻辑、以及强大的多头注意力(Multi-Head Attention)并行特征提取。带您彻底掌握构建现代 Transformer 架构、GPT 和各类 LLM 大语言模型的底层技术基石,文章附带结构清晰的完整纯 Python 工程化代码推导与实现示例。

2026-02-21

上下文窗口与Token完全指南:LLM分词原理、计数方法与成本优化策略

深入解析大语言模型(LLM)中至关重要的Token(词元)和上下文窗口(Context Window)核心概念。全面剖析BPE、WordPiece等主流分词算法底层原理,对比GPT-4、Claude 3等模型的上下文限制差异,并为您提供精准Token计数计算与API调用成本优化的实战方法和工程经验。

2026-02-21

向量嵌入(Embedding)完全指南:从原理到实践【2026】

深入硬核理解 AI 大语言模型底层基石之一的向量嵌入(Embedding Vector)技术。全景回顾从传统 Word2Vec 到现代基于 Transformer 的 Sentence-Transformers 架构的算法技术演进史。通过最新的 OpenAI 文本嵌入模型(text-embedding-3)实战,带您彻底掌握如何将其应用于企业级语义搜索(Semantic Search)与智能个性化推荐系统开发。文章包含丰富的 Python 代码工程示例和余弦相似度(Cosine Similarity)算法推导详解。

2026-02-21