什么是 延迟(Latency)?
延迟(Latency)是 AI 系统中从请求到响应或某个里程碑之间经过的时间,例如第一个 token、最后一个 token 或工具结果完成。
工作原理
延迟是用户等待时间,但在 LLM 系统中它有多层含义。一次请求可能花时间在路由、准入控制、排队、分词、预填充、解码、安全检查、工具调用、检索和网络传输上。只报告平均值会隐藏尾部行为;p95 和 p99 延迟通常对产品可靠性更重要。延迟还必须与吞吐量一起解读,因为重批处理可能在提升系统容量的同时增加单个用户等待时间。
主要特点
- 衡量请求、流式里程碑或完成操作所经过的时间
- 端到端测量时包含模型计算和非模型开销
- 应报告 p50、p95、p99 等分位数
- 受提示词长度、输出长度、批处理、排队、硬件和网络影响
- 会与吞吐量、成本,有时也与答案质量形成权衡
常见用途
- 跟踪 AI 助手端到端响应时间
- 区分 TTFT 和完整补全延迟
- 监控部署后的 p95 和 p99 回退
- 为检索、工具调用和模型生成设置 SLO
- 在真实负载下比较服务配置
示例
loading...
Loading code...常见问题
为什么 p95 和 p99 延迟重要?
它们反映尾部行为。即使平均延迟很好,如果许多用户遇到慢尾部,服务仍会显得不可靠。
延迟和 TTFT 一样吗?
不一样。TTFT 是一个延迟里程碑;总延迟衡量完整响应或操作何时完成。
哪些因素会增加 LLM 延迟?
长提示词、长输出、排队、工具调用、检索、冷启动、大模型和低效批处理都可能增加延迟。
应该如何优化延迟?
先测量完整分解,再减少不必要上下文、调优批处理、缓存重复工作、优化路由并设定清晰 SLO。