Question 1

LoRA 是如何工作的？

Accepted Answer

LoRA 冻结预训练模型的原始权重，在 Transformer 的注意力层中注入可训练的低秩分解矩阵。原始权重矩阵 W 保持不变，LoRA 学习一个增量 ΔW = BA，其中 B 和 A 是低秩矩阵。推理时计算 W + ΔW，训练时只更新 B 和 A，大幅减少参数量。

Question 2

LoRA 中的秩（rank）参数如何选择？

Accepted Answer

秩（r）决定了 LoRA 矩阵的表达能力。较小的秩（如 4-8）参数少、训练快，适合简单任务。较大的秩（如 16-64）表达能力更强，适合复杂任务。一般建议从 r=8 或 r=16 开始实验。秩过大会增加过拟合风险和计算成本，过小可能欠拟合。

Question 3

LoRA 和全量微调相比有什么优缺点？

Accepted Answer

LoRA 优点：参数量减少 10000 倍，显存需求降低 3 倍，训练速度快，可以为不同任务维护多个适配器。缺点：对于某些复杂任务可能不如全量微调效果好，需要调整超参数（秩、alpha、目标层）。对于大多数应用场景，LoRA 是更实用的选择。

Question 4

如何在消费级显卡上使用 LoRA 训练大模型？

Accepted Answer

在消费级显卡上训练的技巧：1）使用 QLoRA（量化 + LoRA）进一步降低显存；2）选择较小的秩值（如 r=8）；3）减小批量大小，使用梯度累积；4）使用 8-bit 或 4-bit 量化加载基础模型；5）只训练部分层（如 q_proj 和 v_proj）。24GB 显卡可以训练 7B 模型。

Question 5

LoRA 适配器如何合并和切换？

Accepted Answer

LoRA 适配器可以在推理时动态加载和切换，无需重新加载基础模型。也可以将 LoRA 权重合并到基础模型中（W_new = W + BA），合并后没有额外推理开销。多个 LoRA 适配器可以组合使用，实现多任务能力。PEFT 库提供了方便的 API 来管理适配器。

创建时间	2021 年由微软研究院提出
规范文档	官方规范

什么是 LoRA？

快速了解