什么是 首 Token 延迟(TTFT)?
首 Token 延迟(TTFT)是从发送 LLM 请求到客户端收到第一个生成 token 之间的延迟。
工作原理
TTFT 是 Time to First Token 的缩写。它是流式 LLM 产品中最重要的用户感知延迟指标之一,因为它决定界面多久开始显得有响应。TTFT 不只包含模型计算:请求路由、排队、安全检查、提示词分词、预填充、第一次解码步骤和网络延迟都可能贡献其中。优化 TTFT 通常需要缩短提示词、降低排队时间、缓存常见上下文,并把长上下文负载与延迟敏感聊天隔离。
主要特点
- 衡量第一个流式 token 出现前的启动延迟
- 强烈受预填充成本和输入 token 长度影响
- 包含排队、路由和网络延迟等服务开销
- 对交互式聊天比离线批量生成更重要
- 应与总延迟和每秒 Token 数分开跟踪
常见用途
- 监控 AI 聊天产品的感知响应速度
- 比较长上下文提示词和短提示词的差异
- 发现流量高峰期间的服务排队饱和
- 评估上下文缓存带来的收益
- 为流式 LLM API 设定延迟 SLO
示例
loading...
Loading code...常见问题
TTFT 和总响应延迟一样吗?
不一样。TTFT 衡量第一个 token 何时到达,总延迟衡量完整响应何时结束。
为什么长上下文会增加 TTFT?
模型必须先对所有输入 token 执行预填充,才能生成第一个输出 token。
怎样的 TTFT 算好?
取决于产品预期,但交互式聊天通常需要较低 TTFT,让用户尽快看到进展。
如何改善 TTFT?
减少输入 token、降低排队延迟、缓存共享上下文、优化路由,并使用针对预填充优化的服务引擎。