什么是 每秒 Token 数(Tokens per Second)?

每秒 Token 数(Tokens per Second)是一种吞吐指标,用于衡量 LLM 在解码阶段每秒生成多少输出 token。

工作原理

每秒 Token 数常简称 TPS,是响应开始流式输出后最直观的速度指标。它描述解码阶段的生成速度,但不应与首 Token 延迟或系统总吞吐量混淆。一个模型可能有很高的每秒 Token 数,但如果 TTFT 很高,用户体验仍然差;它也可能有很高聚合吞吐量,但每个单独流都显得很慢。准确报告时应说明 TPS 是按请求、按 GPU、按批次,还是按整个服务统计。

主要特点

  • 衡量解码阶段的输出生成速度
  • 可按请求、用户流、GPU 或整个服务报告
  • 受模型大小、硬件、量化、批处理和输出长度影响
  • 除非明确说明,通常不包含预填充或排队的完整成本
  • 应与 TTFT、延迟和吞吐量一起解读

常见用途

  1. 在相同负载下比较模型服务引擎
  2. 估算用户看到流式文本的速度
  3. 对比量化模型和全精度模型的基准
  4. 跟踪开启连续批处理后的解码性能
  5. 监控生产环境中的生成速度回退

示例

loading...
Loading code...

常见问题

每秒 Token 数越高一定越好吗?

不一定。用户还关心 TTFT、总延迟、答案质量,以及速度是按单请求还是按整体服务统计。

TPS 包含输入提示词处理吗?

通常不包含。TPS 往往只衡量解码速度,因此预填充和排队应单独报告。

为什么不同请求的 TPS 会变化?

它会随输出长度、活跃批大小、硬件负载、KV Cache 压力和采样设置变化。

应如何报告 TPS 基准?

应说明模型、硬件、批大小、输入长度、输出长度、精度、服务引擎,以及 TPS 是单流还是聚合值。

相关工具

相关术语

相关文章