什么是 每秒 Token 数(Tokens per Second)?
每秒 Token 数(Tokens per Second)是一种吞吐指标,用于衡量 LLM 在解码阶段每秒生成多少输出 token。
工作原理
每秒 Token 数常简称 TPS,是响应开始流式输出后最直观的速度指标。它描述解码阶段的生成速度,但不应与首 Token 延迟或系统总吞吐量混淆。一个模型可能有很高的每秒 Token 数,但如果 TTFT 很高,用户体验仍然差;它也可能有很高聚合吞吐量,但每个单独流都显得很慢。准确报告时应说明 TPS 是按请求、按 GPU、按批次,还是按整个服务统计。
主要特点
- 衡量解码阶段的输出生成速度
- 可按请求、用户流、GPU 或整个服务报告
- 受模型大小、硬件、量化、批处理和输出长度影响
- 除非明确说明,通常不包含预填充或排队的完整成本
- 应与 TTFT、延迟和吞吐量一起解读
常见用途
- 在相同负载下比较模型服务引擎
- 估算用户看到流式文本的速度
- 对比量化模型和全精度模型的基准
- 跟踪开启连续批处理后的解码性能
- 监控生产环境中的生成速度回退
示例
loading...
Loading code...常见问题
每秒 Token 数越高一定越好吗?
不一定。用户还关心 TTFT、总延迟、答案质量,以及速度是按单请求还是按整体服务统计。
TPS 包含输入提示词处理吗?
通常不包含。TPS 往往只衡量解码速度,因此预填充和排队应单独报告。
为什么不同请求的 TPS 会变化?
它会随输出长度、活跃批大小、硬件负载、KV Cache 压力和采样设置变化。
应如何报告 TPS 基准?
应说明模型、硬件、批大小、输入长度、输出长度、精度、服务引擎,以及 TPS 是单流还是聚合值。