Question 1

什么是 AWQ？它是如何工作的？

Accepted Answer

AWQ（激活感知权重量化）是一种在 INT4 精度下保持模型准确率的仅权重量化技术。它通过分析小型校准数据集的激活分布来识别哪些权重通道最为重要。AWQ 并非以更高精度保留关键权重，而是应用逐通道缩放因子，从数学上减少关键权重的量化误差，在无混合精度开销的情况下获得更好的准确率。

Question 2

AWQ 与 GPTQ 相比如何？

Accepted Answer

AWQ 和 GPTQ 都是流行的 INT4 权重量化方法，但方法不同。GPTQ 使用近似二阶方法（基于 OBS）通过权重舍入优化来最小化逐层重建误差。AWQ 则专注于通过激活感知缩放保护关键权重。实际应用中，AWQ 通常能获得略好的困惑度分数，量化速度更快（无需反向传播），并生成更加硬件友好的量化格式。

Question 3

AWQ 能提供怎样的性能提升？

Accepted Answer

AWQ 通常能将模型大小减少约 3-4 倍（从 FP16 到 INT4），同时保持接近原始的准确率。推理速度提升取决于硬件和推理框架，但在支持 INT4 内核的 GPU 上，AWQ INT4 模型通常比 FP16 快 2-3 倍。内存节省使得在相同硬件上运行更大模型或服务更多并发用户成为可能。

Question 4

AWQ 需要什么校准数据？

Accepted Answer

AWQ 仅需一个小型校准数据集来分析激活分布并识别关键权重通道。通常，来自通用文本语料库（如 C4 或 Pile 的子集）的几百个样本就足够了。校准过程速度快，不涉及任何梯度计算或反向传播，使得 AWQ 比需要优化的方法快得多。

Question 5

哪些框架支持 AWQ 模型？

Accepted Answer

AWQ 模型在 LLM 推理生态系统中得到广泛支持。主要框架包括 vLLM（高吞吐量推理服务）、TensorRT-LLM（NVIDIA 优化推理）、Hugging Face Transformers（通过 AutoAWQ 集成）、llama.cpp（CPU 和边缘部署）以及 text-generation-inference（TGI）。热门 LLM 的预量化 AWQ 模型已在 Hugging Face Hub 上提供。

全称	激活感知权重量化
创建时间	2023 年由 Ji Lin 等人（MIT）提出

什么是 AWQ？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

什么是 AWQ？它是如何工作的？

AWQ 与 GPTQ 相比如何？

AWQ 能提供怎样的性能提升？

AWQ 需要什么校准数据？

哪些框架支持 AWQ 模型？

相关工具

JSON 格式化

相关术语

量化

QLoRA

微调

LoRA

相关文章

什么是模型量化？INT8、GPTQ与AWQ方法详解

LLM微调方法对比：全量微调、LoRA与QLoRA怎么选

LoRA微调实战：QLoRA配置与PEFT高效微调指南