什么是 吞吐量(Throughput)?
吞吐量(Throughput)是服务系统在单位时间内完成的工作量,例如每秒请求数、每秒输出 token 数或每秒总 token 数。
工作原理
吞吐量描述的是容量,而不只是速度。在 LLM 服务中,团队可以把吞吐量衡量为每秒完成请求数、每秒生成 token 数、每秒输入加输出总 token 数,或每美元有效答案数。系统可以通过激进批处理最大化吞吐量,但这可能增加单个用户延迟。好的容量规划会同时报告吞吐量、延迟分位数、TTFT、输入和输出长度、硬件利用率、错误率和负载组合。
主要特点
- 衡量单位时间完成的工作,而不是单个用户等待时间
- 可用请求、输出 token、总 token 或业务单位表示
- 强烈受批处理、硬件、模型大小、量化和流量形态影响
- 高负载下常与延迟形成权衡
- 需要定义负载场景,基准才有意义
常见用途
- 为生产 LLM API 规划 GPU 容量
- 在相同流量组合下比较服务引擎
- 评估连续批处理和量化收益
- 规划每百万 token 或请求成本
- 发现模型或配置变更后的容量回退
示例
loading...
Loading code...常见问题
吞吐量和每秒 Token 数一样吗?
每秒 Token 数是一种吞吐指标,但吞吐量也可以按请求、批次或完成的有效任务衡量。
更高吞吐量会让延迟变差吗?
会。更大批次可以提升硬件利用率,但可能让单个请求等待更久。
应如何做 LLM 吞吐量基准?
需要使用真实的提示词长度、输出长度、并发、采样设置、硬件和延迟目标。
为什么吞吐量要和延迟一起报告?
如果 p95 或 p99 延迟对产品太高,高吞吐系统仍然可能不可用。