什么是 QLoRA？

QLoRA（量化低秩适应）是一种高效的微调技术，结合了 4 位量化和 LoRA 适配器，能够在消费级硬件上微调大型语言模型，同时保持接近全精度的性能。

快速了解

全称	量化低秩适应
创建时间	2023 年由 Tim Dettmers 等人提出

工作原理

全面深入了解 QLoRA (Quantized Low-Rank Adaptation)这一具有突破性的前沿模型微调优化技术。探讨它如何通过将基础大模型权重极致量化到 4 位(4-bit)极低精度，并仅训练小型的低秩适配器矩阵(Low-Rank Adapters)来极大程度地降低显存(VRAM)占用需求。学习该技术如何使数百亿参数规模的 LLM(大语言模型)能够在单张消费级 GPU 显卡上进行全参数微调，从而彻底实现 AI 模型私有化定制训练的平民化。

主要特点

基础模型权重的 4 位 NormalFloat（NF4）量化
双重量化进一步减少内存占用
分页优化器处理内存峰值
以全精度训练的低秩适配器
通过量化权重的反向传播
内存高效的梯度检查点

常见用途

在单个 48GB GPU 上微调 650 亿以上参数的模型
计算预算有限的学术研究
领域特定 LLM 的快速原型设计
基于自定义数据训练的个人 AI 助手
初创公司的经济高效模型定制

示例

Loading code...

常见问题

什么是 QLoRA？

QLoRA（量化低秩适应）是一种高效的微调技术，结合了 4 位量化和 LoRA 适配器。它通过将内存需求减少高达 75%，使大型语言模型能够在消费级硬件上微调，同时保持接近全精度的性能。

QLoRA 与 LoRA 有什么区别？

LoRA 在冻结的基础模型权重之上训练小型适配器矩阵，而 QLoRA 增加了基础模型的 4 位量化。这大大减少了内存使用，允许在相同硬件上微调更大的模型。QLoRA 还引入了 NF4 量化和双重量化以实现最佳效率。

QLoRA 微调需要什么硬件？

QLoRA 使 650 亿以上参数的模型能够在单个 48GB GPU（如 A6000 或 A100）上微调。较小的模型如 70 亿或 130 亿参数可以在具有 24GB 显存的消费级 GPU（RTX 3090/4090）上微调。这比完全微调所需的多个高端 GPU 大大减少。

QLoRA 会影响模型质量吗？

研究表明 QLoRA 实现了与完整 16 位微调相当的性能。4 位量化主要影响存储，而计算使用更高精度。低秩适配器以全精度训练，保留了模型有效学习新任务的能力。

QLoRA 的关键创新是什么？

关键创新包括：针对正态分布权重优化的 NF4（4 位 NormalFloat）量化、量化量化常数的双重量化、使用 CPU 内存处理梯度峰值的分页优化器，以及通过量化权重的高效反向传播。

什么是 QLoRA？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

什么是 QLoRA？

QLoRA 与 LoRA 有什么区别？

QLoRA 微调需要什么硬件？

QLoRA 会影响模型质量吗？

QLoRA 的关键创新是什么？

相关工具

JSON 格式化

相关术语

LoRA

量化

微调

PEFT

相关文章

LLM微调方法对比：全量微调、LoRA与QLoRA怎么选

LoRA微调实战：QLoRA配置与PEFT高效微调指南

什么是模型量化？INT8、GPTQ与AWQ方法详解