Question 1

限流（Rate Limiting）和流控（Throttling）有什么区别？

Accepted Answer

限流（Rate Limiting）通常直接拒绝超出阈值的请求（返回 HTTP 429），属于硬拒绝策略；而流控（Throttling）则是对超量请求进行排队或降速处理，属于柔性降级策略。实际工程中两个术语经常混用，但严格来说：限流侧重于'拒'，流控侧重于'缓'。许多系统会将两者结合——先流控排队，队列溢出后再硬性限流。

Question 2

常见的速率限制算法有哪些？

Accepted Answer

四种主要算法是：固定窗口（固定间隔重置的简单计数器，窗口边界可能有突发问题）、滑动窗口（当前和前一个窗口的加权组合，更平滑的限制）、令牌桶（令牌以固定速率累积，允许受控突发）和漏桶（以恒定速率处理请求，超出的排队或拒绝）。令牌桶因其在简单性和突发友好性之间的平衡而最受欢迎。

Question 3

客户端收到 429 限流错误后应如何处理？

Accepted Answer

最佳实践包括：读取 Retry-After 或 X-RateLimit-Reset 响应头了解何时可以重试、实现带抖动的指数退避避免惊群效应、缓存响应以减少不必要的请求、尽可能将多个操作批量合并为单个请求，以及主动监控使用量以保持在限制阈值以下。

Question 4

速率限制应该在哪一层实现？

Accepted Answer

速率限制可在多个层面实现：在 API 网关层（最常见，集中执行）、在应用层（对每个端点进行细粒度限制）、在负载均衡器或 CDN 边缘层（用于 DDoS 防护），或使用 Redis 等分布式存储（跨多个服务器实例实现一致的限制）。纵深防御建议在多层实现。

Question 5

如何选择合适的速率限制阈值？

Accepted Answer

首先分析后端容量和典型使用模式。根据基础设施可持续处理的能力设定限制，并预留突发空间。为不同用户等级考虑不同层级。监控 429 响应率——如果合法用户频繁触发限制，说明设置过紧；如果后端仍然被压垮，说明设置过松。使用渐进式上线并根据实际流量数据调整。

全称	速率限制（API 限流）
创建时间	概念在互联网早期确立，标准化响应头于 2021 年通过 IETF 提案
规范文档	官方规范

什么是速率限制？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

限流（Rate Limiting）和流控（Throttling）有什么区别？

常见的速率限制算法有哪些？

客户端收到 429 限流错误后应如何处理？

速率限制应该在哪一层实现？

如何选择合适的速率限制阈值？

相关工具

JSON 格式化

相关术语

API 网关

OpenTelemetry

REST接口

上下文预算（Context Budget）

相关文章

LLM Gateway 架构设计：统一模型路由、限流与成本管控