什么是延迟（Latency）？

延迟（Latency）是 AI 系统中从请求到响应或某个里程碑之间经过的时间，例如第一个 token、最后一个 token 或工具结果完成。

工作原理

延迟是用户等待时间，但在 LLM 系统中它有多层含义。一次请求可能花时间在路由、准入控制、排队、分词、预填充、解码、安全检查、工具调用、检索和网络传输上。只报告平均值会隐藏尾部行为；p95 和 p99 延迟通常对产品可靠性更重要。延迟还必须与吞吐量一起解读，因为重批处理可能在提升系统容量的同时增加单个用户等待时间。

主要特点

衡量请求、流式里程碑或完成操作所经过的时间
端到端测量时包含模型计算和非模型开销
应报告 p50、p95、p99 等分位数
受提示词长度、输出长度、批处理、排队、硬件和网络影响
会与吞吐量、成本，有时也与答案质量形成权衡

常见用途

跟踪 AI 助手端到端响应时间
区分 TTFT 和完整补全延迟
监控部署后的 p95 和 p99 回退
为检索、工具调用和模型生成设置 SLO
在真实负载下比较服务配置

示例

Loading code...

常见问题

为什么 p95 和 p99 延迟重要？

它们反映尾部行为。即使平均延迟很好，如果许多用户遇到慢尾部，服务仍会显得不可靠。

延迟和 TTFT 一样吗？

不一样。TTFT 是一个延迟里程碑；总延迟衡量完整响应或操作何时完成。

哪些因素会增加 LLM 延迟？

长提示词、长输出、排队、工具调用、检索、冷启动、大模型和低效批处理都可能增加延迟。

应该如何优化延迟？

先测量完整分解，再减少不必要上下文、调优批处理、缓存重复工作、优化路由并设定清晰 SLO。

什么是延迟（Latency）？

工作原理

主要特点

常见用途

示例

常见问题

为什么 p95 和 p99 延迟重要？

延迟和 TTFT 一样吗？

哪些因素会增加 LLM 延迟？

应该如何优化延迟？

相关工具

JSON 格式化

AI网站导航

文本分析器

相关术语

首 Token 延迟（TTFT）

吞吐量（Throughput）

预填充（Prefill）

解码阶段（Decode Phase）

相关文章

语音对话AI工程：实时Agent延迟优化与架构【2026】

大语言模型 (LLM) 推理过程详解：从 Token、KV Cache 到文本生成【2026】