什么是 延迟(Latency)?

延迟(Latency)是 AI 系统中从请求到响应或某个里程碑之间经过的时间,例如第一个 token、最后一个 token 或工具结果完成。

工作原理

延迟是用户等待时间,但在 LLM 系统中它有多层含义。一次请求可能花时间在路由、准入控制、排队、分词、预填充、解码、安全检查、工具调用、检索和网络传输上。只报告平均值会隐藏尾部行为;p95 和 p99 延迟通常对产品可靠性更重要。延迟还必须与吞吐量一起解读,因为重批处理可能在提升系统容量的同时增加单个用户等待时间。

主要特点

  • 衡量请求、流式里程碑或完成操作所经过的时间
  • 端到端测量时包含模型计算和非模型开销
  • 应报告 p50、p95、p99 等分位数
  • 受提示词长度、输出长度、批处理、排队、硬件和网络影响
  • 会与吞吐量、成本,有时也与答案质量形成权衡

常见用途

  1. 跟踪 AI 助手端到端响应时间
  2. 区分 TTFT 和完整补全延迟
  3. 监控部署后的 p95 和 p99 回退
  4. 为检索、工具调用和模型生成设置 SLO
  5. 在真实负载下比较服务配置

示例

loading...
Loading code...

常见问题

为什么 p95 和 p99 延迟重要?

它们反映尾部行为。即使平均延迟很好,如果许多用户遇到慢尾部,服务仍会显得不可靠。

延迟和 TTFT 一样吗?

不一样。TTFT 是一个延迟里程碑;总延迟衡量完整响应或操作何时完成。

哪些因素会增加 LLM 延迟?

长提示词、长输出、排队、工具调用、检索、冷启动、大模型和低效批处理都可能增加延迟。

应该如何优化延迟?

先测量完整分解,再减少不必要上下文、调优批处理、缓存重复工作、优化路由并设定清晰 SLO。

相关工具

相关术语

相关文章