什么是 模型服务化(Model Serving)?

模型服务化(Model Serving)是在生产环境中把机器学习模型或语言模型部署到 API 或服务后面,使应用可以在运行时可靠调用它们的实践。

工作原理

模型服务化把训练好或下载好的模型变成可靠的运行时服务。对 LLM 来说,服务化包括加载模型权重、管理 GPU 显存、分词、请求路由、批处理、流式输出、安全检查、可观测性、自动扩缩容和故障处理。目标不只是让模型能回答,而是让它在真实流量、成本、延迟、隐私和可靠性约束下可预测地回答。服务化设计往往决定一个有潜力的模型能否成为可用产品。

主要特点

  • 通过 API、队列或应用服务暴露模型能力
  • 管理扩缩容、路由、批处理、缓存和监控等运行时问题
  • 对 LLM 来说,需要处理分词、KV Cache、流式输出和 GPU 利用率
  • 平衡延迟、吞吐量、成本、可靠性和安全
  • 需要限流、发布策略和可观测性等运维控制

常见用途

  1. 在聊天补全 API 后部署开源权重 LLM
  2. 在不同模型版本或提供商之间路由请求
  3. 在流量高峰期间自动扩展推理 worker
  4. 监控延迟、错误率、token 使用量和 GPU 利用率
  5. 服务嵌入模型、重排器、分类器和生成模型

示例

loading...
Loading code...

常见问题

模型服务化和模型训练有什么区别?

训练创建或适配模型权重;服务化在生产环境运行这些权重,让应用可以可靠调用模型。

LLM 服务化为什么困难?

LLM 服务化需要管理大权重、GPU 显存、变长序列、流式输出、KV Cache 和高请求成本。

模型服务化只是 API 吗?

不是。API 是接口,服务化还包括扩缩容、可观测性、路由、批处理、安全和故障恢复。

模型服务化应该监控什么?

应监控延迟、TTFT、吞吐量、错误、token 使用量、排队时间、GPU 利用率、缓存使用和输出安全信号。

相关工具

相关术语

相关文章