什么是 模型推理?

模型推理(Inference)是使用已训练好的模型对新的、未见过的数据进行预测或生成输出的过程,代表了将学习到的模式应用于实际输入的部署阶段,期间不更新模型参数。

快速了解

创建时间机器学习基础概念,起源于 1950 年代
规范文档官方规范

工作原理

模型推理是训练之后的运行阶段,机器学习模型应用其学习到的权重和偏置来处理新输入并产生预测结果。与涉及计算密集型反向传播和梯度更新的训练不同,推理仅执行网络的前向传播。这一区别使推理显著更快且资源消耗更少。现代推理优化技术包括量化(降低数值精度)、剪枝(移除不必要的连接)、知识蒸馏(将知识转移到更小的模型)和批处理(同时处理多个输入)。推理可以部署在各种平台上,包括云服务器、边缘设备、移动手机以及 GPU、TPU 和 NPU 等专用硬件加速器。

主要特点

  • 仅执行前向传播,无反向传播或权重更新
  • 延迟优化是实时应用的首要关注点
  • 批处理以最大化吞吐量和硬件利用率
  • 模型量化将精度从 FP32 降低到 INT8 或更低
  • 通过优化模型加载和缓存实现内存效率
  • 在控制温度和采样时输出具有确定性

常见用途

  1. 推荐系统和欺诈检测的实时预测服务
  2. 在物联网设备、智能手机和嵌入式系统上的边缘部署
  3. 作为云托管端点提供模型预测的 API 服务
  4. 包括自动驾驶汽车和机器人在内的自主系统
  5. 聊天机器人和虚拟助手等交互式 AI 应用

示例

loading...
Loading code...

常见问题

机器学习中训练和推理有什么区别?

训练是通过使用标注数据和反向传播来调整模型参数的教学过程。推理是使用训练好的模型对新数据进行预测,而不更新参数。训练计算量大且通常只执行一次,而推理更快且在生产环境中反复执行。

为什么大语言模型的推理优化很重要?

由于模型规模大和自回归生成方式,LLM 推理成本高昂。每个 token 都需要完整的前向传播,内存带宽往往成为瓶颈。量化、KV 缓存、批处理和推测解码等优化技术可以将成本降低 2-10 倍,同时保持输出质量。

什么是量化?它如何加速推理?

量化将模型权重的数值精度从 32 位浮点(FP32)降低到更低精度,如 INT8 或 INT4。这减少了内存使用并提高了吞吐量,因为更小的数据类型需要更少的内存带宽,并且可以利用更快的整数运算,通常质量损失很小。

什么是 LLM 推理中的 KV 缓存?

KV 缓存(键值缓存)在自回归生成期间存储先前 token 的键和值张量。如果没有缓存,每个新 token 都需要重新计算所有先前 token 的注意力。KV 缓存用内存换取计算,显著加速生成,但需要仔细的内存管理。

批处理大小如何影响推理性能?

更大的批处理大小通过同时处理多个请求来提高硬件利用率和吞吐量。但是,它们会增加单个请求的延迟并需要更多内存。最佳批处理大小需要平衡吞吐量需求、延迟约束和可用 GPU 内存。连续批处理允许动态调整批大小。

相关工具

相关术语

相关文章