什么是 上下文预算(Context Budget)?

上下文预算(Context Budget)是在模型有限上下文窗口中,为指令、用户输入、检索证据、记忆、工具数据和预期输出规划 token 分配。

工作原理

上下文预算是决定哪些内容值得进入提示词的工程纪律。即使模型有很大上下文窗口,成本、延迟、注意力和可靠性仍然有限。好的预算会为系统指令、用户输入、检索证据、对话历史、工具结果、输出格式约束和答案本身预留空间。它还定义当请求超过限制时,哪些内容要摘要、压缩、丢弃或重新检索。没有预算,提示词会变得昂贵、嘈杂且难以调试。

主要特点

  • 在相互竞争的上下文需求之间分配有限 token
  • 平衡答案质量、成本、延迟、事实锚定和可靠性
  • 同时包含输入上下文和为生成输出预留的空间
  • 需要截断、摘要、检索和压缩策略
  • 应使用目标模型的分词器进行测量

常见用途

  1. 在长 RAG 提示词中为输出预留空间
  2. 限制检索分块数量,避免噪声上下文堆叠
  3. 为聊天助手预算对话历史
  4. 区分系统指令、用户文档和工具结果
  5. 通过裁剪不必要上下文降低 TTFT

示例

loading...
Loading code...

常见问题

长上下文模型还需要上下文预算吗?

需要。大窗口仍有成本和延迟,模型也可能低估嘈杂或位置不佳的信息。

输出 token 应算进预算吗?

应该。如果提示词占满窗口,模型可能没有足够空间生成所需答案。

RAG 上下文应该如何预算?

优先高质量证据,保留引用,避免重复,并为指令和答案生成保留空间。

没有上下文预算会怎样?

应用常会塞入过多上下文,导致成本、延迟、漏用证据和不可预测行为增加。

相关工具

相关术语

相关文章