什么是 张量并行(Tensor Parallelism)?
张量并行(Tensor Parallelism)是一种模型并行策略,它把大型神经网络张量及其计算拆分到多个加速器上。
工作原理
当模型层或权重矩阵过大,单张 GPU 难以高效承载时,就会使用张量并行。它不是把不同层放到不同设备上,而是在一个层内部拆分操作,例如把矩阵乘法分布到多个加速器。张量并行常用于大型 LLM 的推理和训练,但它会引入通信开销,因为设备之间需要交换部分结果。好的张量并行配置取决于模型架构、互联带宽、GPU 数量、批大小和服务延迟目标。
主要特点
- 把张量和层内计算拆分到多张 GPU 上
- 支持服务或训练超过单设备显存或算力限制的模型
- 需要 all-reduce 或 all-gather 等集合通信
- 性能高度依赖互联带宽和拓扑
- 常与流水线并行、数据并行或专家并行结合
常见用途
- 服务无法放入单张 GPU 的大型 LLM
- 提升计算密集模型的推理吞吐量
- 使用 vLLM 或类似引擎进行多 GPU 部署
- 跨加速器训练大型 Transformer 模型
- 平衡模型规模、延迟和硬件成本
示例
loading...
Loading code...常见问题
张量并行和数据并行一样吗?
不一样。数据并行在多个设备上复制模型,而张量并行拆分单个张量和计算。
为什么张量并行需要高速互联?
设备在层计算期间必须交换部分结果,通信太慢会抵消计算收益。
张量并行一定能降低延迟吗?
不一定。它能减少单设备计算量,但会增加通信开销,结果取决于模型和硬件。
什么时候需要张量并行?
当模型权重、KV Cache 或计算需求超过单个加速器承载能力时,通常需要张量并行。