什么是 首 Token 延迟(TTFT)?

首 Token 延迟(TTFT)是从发送 LLM 请求到客户端收到第一个生成 token 之间的延迟。

工作原理

TTFT 是 Time to First Token 的缩写。它是流式 LLM 产品中最重要的用户感知延迟指标之一,因为它决定界面多久开始显得有响应。TTFT 不只包含模型计算:请求路由、排队、安全检查、提示词分词、预填充、第一次解码步骤和网络延迟都可能贡献其中。优化 TTFT 通常需要缩短提示词、降低排队时间、缓存常见上下文,并把长上下文负载与延迟敏感聊天隔离。

主要特点

  • 衡量第一个流式 token 出现前的启动延迟
  • 强烈受预填充成本和输入 token 长度影响
  • 包含排队、路由和网络延迟等服务开销
  • 对交互式聊天比离线批量生成更重要
  • 应与总延迟和每秒 Token 数分开跟踪

常见用途

  1. 监控 AI 聊天产品的感知响应速度
  2. 比较长上下文提示词和短提示词的差异
  3. 发现流量高峰期间的服务排队饱和
  4. 评估上下文缓存带来的收益
  5. 为流式 LLM API 设定延迟 SLO

示例

loading...
Loading code...

常见问题

TTFT 和总响应延迟一样吗?

不一样。TTFT 衡量第一个 token 何时到达,总延迟衡量完整响应何时结束。

为什么长上下文会增加 TTFT?

模型必须先对所有输入 token 执行预填充,才能生成第一个输出 token。

怎样的 TTFT 算好?

取决于产品预期,但交互式聊天通常需要较低 TTFT,让用户尽快看到进展。

如何改善 TTFT?

减少输入 token、降低排队延迟、缓存共享上下文、优化路由,并使用针对预填充优化的服务引擎。

相关工具

相关术语

相关文章