什么是 模型服务化(Model Serving)?
模型服务化(Model Serving)是在生产环境中把机器学习模型或语言模型部署到 API 或服务后面,使应用可以在运行时可靠调用它们的实践。
工作原理
模型服务化把训练好或下载好的模型变成可靠的运行时服务。对 LLM 来说,服务化包括加载模型权重、管理 GPU 显存、分词、请求路由、批处理、流式输出、安全检查、可观测性、自动扩缩容和故障处理。目标不只是让模型能回答,而是让它在真实流量、成本、延迟、隐私和可靠性约束下可预测地回答。服务化设计往往决定一个有潜力的模型能否成为可用产品。
主要特点
- 通过 API、队列或应用服务暴露模型能力
- 管理扩缩容、路由、批处理、缓存和监控等运行时问题
- 对 LLM 来说,需要处理分词、KV Cache、流式输出和 GPU 利用率
- 平衡延迟、吞吐量、成本、可靠性和安全
- 需要限流、发布策略和可观测性等运维控制
常见用途
- 在聊天补全 API 后部署开源权重 LLM
- 在不同模型版本或提供商之间路由请求
- 在流量高峰期间自动扩展推理 worker
- 监控延迟、错误率、token 使用量和 GPU 利用率
- 服务嵌入模型、重排器、分类器和生成模型
示例
loading...
Loading code...常见问题
模型服务化和模型训练有什么区别?
训练创建或适配模型权重;服务化在生产环境运行这些权重,让应用可以可靠调用模型。
LLM 服务化为什么困难?
LLM 服务化需要管理大权重、GPU 显存、变长序列、流式输出、KV Cache 和高请求成本。
模型服务化只是 API 吗?
不是。API 是接口,服务化还包括扩缩容、可观测性、路由、批处理、安全和故障恢复。
模型服务化应该监控什么?
应监控延迟、TTFT、吞吐量、错误、token 使用量、排队时间、GPU 利用率、缓存使用和输出安全信号。