什么是吞吐量（Throughput）？

吞吐量（Throughput）是服务系统在单位时间内完成的工作量，例如每秒请求数、每秒输出 token 数或每秒总 token 数。

工作原理

吞吐量描述的是容量，而不只是速度。在 LLM 服务中，团队可以把吞吐量衡量为每秒完成请求数、每秒生成 token 数、每秒输入加输出总 token 数，或每美元有效答案数。系统可以通过激进批处理最大化吞吐量，但这可能增加单个用户延迟。好的容量规划会同时报告吞吐量、延迟分位数、TTFT、输入和输出长度、硬件利用率、错误率和负载组合。

主要特点

衡量单位时间完成的工作，而不是单个用户等待时间
可用请求、输出 token、总 token 或业务单位表示
强烈受批处理、硬件、模型大小、量化和流量形态影响
高负载下常与延迟形成权衡
需要定义负载场景，基准才有意义

常见用途

为生产 LLM API 规划 GPU 容量
在相同流量组合下比较服务引擎
评估连续批处理和量化收益
规划每百万 token 或请求成本
发现模型或配置变更后的容量回退

示例

Loading code...

常见问题

吞吐量和每秒 Token 数一样吗？

每秒 Token 数是一种吞吐指标，但吞吐量也可以按请求、批次或完成的有效任务衡量。

更高吞吐量会让延迟变差吗？

会。更大批次可以提升硬件利用率，但可能让单个请求等待更久。

应如何做 LLM 吞吐量基准？

需要使用真实的提示词长度、输出长度、并发、采样设置、硬件和延迟目标。

为什么吞吐量要和延迟一起报告？

如果 p95 或 p99 延迟对产品太高，高吞吐系统仍然可能不可用。

什么是吞吐量（Throughput）？

工作原理

主要特点

常见用途

示例

常见问题

吞吐量和每秒 Token 数一样吗？

更高吞吐量会让延迟变差吗？

应如何做 LLM 吞吐量基准？

为什么吞吐量要和延迟一起报告？

相关工具

JSON 格式化

AI网站导航

文本分析器

相关术语

每秒 Token 数（Tokens per Second）

延迟（Latency）

连续批处理（Continuous Batching）

模型服务化（Model Serving）

相关文章

本地大模型部署实战：性能调优与选型决策