什么是 张量并行(Tensor Parallelism)?

张量并行(Tensor Parallelism)是一种模型并行策略,它把大型神经网络张量及其计算拆分到多个加速器上。

工作原理

当模型层或权重矩阵过大,单张 GPU 难以高效承载时,就会使用张量并行。它不是把不同层放到不同设备上,而是在一个层内部拆分操作,例如把矩阵乘法分布到多个加速器。张量并行常用于大型 LLM 的推理和训练,但它会引入通信开销,因为设备之间需要交换部分结果。好的张量并行配置取决于模型架构、互联带宽、GPU 数量、批大小和服务延迟目标。

主要特点

  • 把张量和层内计算拆分到多张 GPU 上
  • 支持服务或训练超过单设备显存或算力限制的模型
  • 需要 all-reduce 或 all-gather 等集合通信
  • 性能高度依赖互联带宽和拓扑
  • 常与流水线并行、数据并行或专家并行结合

常见用途

  1. 服务无法放入单张 GPU 的大型 LLM
  2. 提升计算密集模型的推理吞吐量
  3. 使用 vLLM 或类似引擎进行多 GPU 部署
  4. 跨加速器训练大型 Transformer 模型
  5. 平衡模型规模、延迟和硬件成本

示例

loading...
Loading code...

常见问题

张量并行和数据并行一样吗?

不一样。数据并行在多个设备上复制模型,而张量并行拆分单个张量和计算。

为什么张量并行需要高速互联?

设备在层计算期间必须交换部分结果,通信太慢会抵消计算收益。

张量并行一定能降低延迟吗?

不一定。它能减少单设备计算量,但会增加通信开销,结果取决于模型和硬件。

什么时候需要张量并行?

当模型权重、KV Cache 或计算需求超过单个加速器承载能力时,通常需要张量并行。

相关工具

相关术语

相关文章