什么是 上下文预算(Context Budget)?
上下文预算(Context Budget)是在模型有限上下文窗口中,为指令、用户输入、检索证据、记忆、工具数据和预期输出规划 token 分配。
工作原理
上下文预算是决定哪些内容值得进入提示词的工程纪律。即使模型有很大上下文窗口,成本、延迟、注意力和可靠性仍然有限。好的预算会为系统指令、用户输入、检索证据、对话历史、工具结果、输出格式约束和答案本身预留空间。它还定义当请求超过限制时,哪些内容要摘要、压缩、丢弃或重新检索。没有预算,提示词会变得昂贵、嘈杂且难以调试。
主要特点
- 在相互竞争的上下文需求之间分配有限 token
- 平衡答案质量、成本、延迟、事实锚定和可靠性
- 同时包含输入上下文和为生成输出预留的空间
- 需要截断、摘要、检索和压缩策略
- 应使用目标模型的分词器进行测量
常见用途
- 在长 RAG 提示词中为输出预留空间
- 限制检索分块数量,避免噪声上下文堆叠
- 为聊天助手预算对话历史
- 区分系统指令、用户文档和工具结果
- 通过裁剪不必要上下文降低 TTFT
示例
loading...
Loading code...常见问题
长上下文模型还需要上下文预算吗?
需要。大窗口仍有成本和延迟,模型也可能低估嘈杂或位置不佳的信息。
输出 token 应算进预算吗?
应该。如果提示词占满窗口,模型可能没有足够空间生成所需答案。
RAG 上下文应该如何预算?
优先高质量证据,保留引用,避免重复,并为指令和答案生成保留空间。
没有上下文预算会怎样?
应用常会塞入过多上下文,导致成本、延迟、漏用证据和不可预测行为增加。