INT8量化和INT4量化有什么区别？

INT8量化将权重用8位整数存储，模型体积约为原始FP16的一半，精度损失较小，适合对输出质量有较高要求的生产场景。INT4量化则用4位整数存储，压缩率更高（约为FP16的四分之一），但精度损失相对更明显，更适合资源极度受限的边缘部署或对精度要求不苛刻的应用。

GPTQ和AWQ量化方法各有什么优劣？

GPTQ基于逐层二阶信息进行权重量化，在低比特下（如4-bit）能保持较好精度，生态成熟且社区模型资源丰富。AWQ则通过识别和保护对模型输出影响最大的显著权重通道来进行量化，通常在相同比特数下精度表现更优，且量化速度更快，但可用的预量化模型相对较少。

什么时候应该对模型进行量化？

当你的GPU显存不足以加载全精度模型、需要降低推理延迟或部署成本、或者希望在边缘设备和移动端运行大模型时，都应该考虑量化。如果你的硬件资源充足且对输出质量有极致要求，则可以优先使用FP16或BF16全精度推理。

量化会影响模型的输出精度吗？

量化不可避免地会引入一定程度的精度损失，但现代量化方法（如GPTQ、AWQ）已经能将这种损失控制在很小的范围内。对于大多数实际应用场景，INT8量化几乎不影响使用体验，INT4量化在通用对话和文本生成任务中也能保持可接受的质量。

什么是模型量化？INT8、GPTQ与AWQ方法详解

Q: 什么是模型量化？

模型量化是一种模型压缩技术，通过将神经网络权重从高精度浮点数（如FP32）映射为低精度表示（如INT8或INT4），来大幅降低模型的存储体积和推理显存需求。量化后的模型可以在消费级GPU甚至CPU上高效运行，同时尽可能保留原始模型的推理能力。

2026-02-21 - QubitTool技术团队

核心摘要

模型量化是将大语言模型的权重从高精度（如FP32、FP16）转换为低精度（如INT8、INT4）的技术，可大幅减少模型体积和推理所需显存，同时保持较好的模型性能。本指南涵盖量化核心原理、主流量化方法（GPTQ、AWQ、GGUF）、训练后量化与量化感知训练的区别，并提供llama.cpp和bitsandbytes的实战代码。

引言

随着LLaMA、Qwen、Mistral等开源大语言模型的蓬勃发展，越来越多的开发者希望在本地或边缘设备上部署这些模型。然而，一个7B参数的模型以FP16精度加载就需要约14GB显存，这对消费级硬件来说是巨大的挑战。

模型量化（Model Quantization）正是解决这一问题的关键技术。通过量化，你可以：

将7B模型的显存需求从14GB降低到4GB以下
在消费级GPU甚至CPU上运行大模型
加速推理速度，降低部署成本
在移动端和边缘设备上部署AI能力

在本指南中，你将学到：

什么是模型量化，为什么需要量化
INT8、INT4、FP16、BF16等量化类型的区别
训练后量化（PTQ）与量化感知训练（QAT）的对比
GPTQ、AWQ、GGUF等主流量化方法详解
使用llama.cpp和bitsandbytes进行量化的实战代码
量化模型的部署最佳实践

什么是模型量化

量化的基本概念

模型量化是一种模型压缩技术，通过降低模型权重和激活值的数值精度来减少模型大小和计算需求。简单来说，就是用更少的比特位来表示原本需要更多比特位的数值。

flowchart LR A["原始模型 FP32/FP16"] --> B["量化过程"] B --> C["量化模型 INT8/INT4"] C --> D{"部署目标"} D -->|服务器| E["高吞吐推理"] D -->|消费级GPU| F["本地部署"] D -->|边缘设备| G["轻量化运行"]

为什么需要量化

挑战	原始模型的问题	量化的解决方案
显存占用	7B模型FP16需要14GB	INT4量化后仅需约4GB
推理速度	大模型推理延迟高	量化后计算量减少，速度提升
部署成本	需要昂贵的GPU服务器	可在消费级硬件上运行
能耗	高精度计算能耗大	低精度计算更节能
带宽	模型传输和加载慢	模型体积小，加载快

量化的权衡

量化本质上是精度与效率的权衡。降低精度会带来一定的精度损失，但通过合理的量化策略，可以将这种损失控制在可接受范围内。

code

┌─────────────────────────────────────────────────────┐
│              量化精度与效率权衡                       │
├─────────────────────────────────────────────────────┤
│  精度类型  │ 比特位 │ 模型大小 │ 推理速度 │ 精度损失  │
├─────────────────────────────────────────────────────┤
│  FP32     │  32   │  100%   │  基准   │   无     │
│  FP16     │  16   │   50%   │  ~2x   │  极小    │
│  BF16     │  16   │   50%   │  ~2x   │  极小    │
│  INT8     │   8   │   25%   │  ~3x   │   小     │
│  INT4     │   4   │  12.5%  │  ~4x   │   中     │
│  INT2     │   2   │  6.25%  │  ~5x   │   大     │
└─────────────────────────────────────────────────────┘

量化类型详解

浮点精度：FP32、FP16、BF16

FP32（单精度浮点）：标准的32位浮点数，提供最高精度，但占用空间最大。

FP16（半精度浮点）：16位浮点数，精度略有损失，但模型大小减半，是目前LLM训练和推理的主流格式。

BF16（Brain Float 16）：Google提出的16位格式，保留了FP32的指数范围，在深度学习中表现优异。

python

import torch

fp32_tensor = torch.randn(1000, 1000, dtype=torch.float32)
fp16_tensor = fp32_tensor.to(torch.float16)
bf16_tensor = fp32_tensor.to(torch.bfloat16)

print(f"FP32 内存: {fp32_tensor.element_size() * fp32_tensor.numel() / 1024:.2f} KB")
print(f"FP16 内存: {fp16_tensor.element_size() * fp16_tensor.numel() / 1024:.2f} KB")
print(f"BF16 内存: {bf16_tensor.element_size() * bf16_tensor.numel() / 1024:.2f} KB")

整数精度：INT8、INT4

INT8量化：将权重映射到-128到127的整数范围，模型大小减少到原来的1/4，是生产环境中最常用的量化精度。

INT4量化：将权重映射到-8到7的整数范围，模型大小减少到原来的1/8，适合显存极度受限的场景。

flowchart TB subgraph FP16["FP16权重"] F["1.234, -0.567, 2.891, ..."] end subgraph QUANT["量化过程"] S["计算缩放因子 scale"] Z["计算零点 zero_point"] Q["量化公式"] end subgraph INT8["INT8权重"] I["15, -7, 36, ..."] end F --> S S --> Z Z --> Q Q --> I

量化公式

对称量化公式：

code

q = round(x / scale)
x_dequant = q * scale

非对称量化公式：

code

q = round(x / scale) + zero_point
x_dequant = (q - zero_point) * scale

训练后量化 vs 量化感知训练

训练后量化（PTQ）

训练后量化（Post-Training Quantization）是在模型训练完成后直接对权重进行量化，无需重新训练。

flowchart LR A[预训练模型] --> B[校准数据集] B --> C[统计权重分布] C --> D[计算量化参数] D --> E[量化权重] E --> F[量化模型]

优点：

简单快速，无需训练
不需要原始训练数据
适合大多数场景

缺点：

低比特量化（如INT4）可能精度损失较大
对某些模型结构效果不佳

量化感知训练（QAT）

量化感知训练（Quantization-Aware Training）在训练过程中模拟量化效果，让模型学会适应量化带来的精度损失。

优点：

量化后精度损失更小
适合低比特量化

缺点：

需要重新训练
计算成本高
需要训练数据

PTQ vs QAT 对比

维度	PTQ	QAT
训练需求	无需训练	需要训练
时间成本	分钟级	小时/天级
数据需求	少量校准数据	完整训练数据
INT8精度	优秀	优秀
INT4精度	良好	优秀
适用场景	快速部署	追求极致精度

主流量化方法详解

GPTQ量化

GPTQ（GPT Quantization）是一种基于二阶信息的训练后量化方法，专为大语言模型设计。

核心原理：

逐层量化，最小化量化误差
使用Hessian矩阵的近似来指导量化
支持INT4/INT3/INT2等低比特量化

python

from transformers import AutoModelForCausalLM, AutoTokenizer, GPTQConfig

model_id = "meta-llama/Llama-2-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_id)

gptq_config = GPTQConfig(
    bits=4,
    dataset="c4",
    tokenizer=tokenizer,
    group_size=128,
    desc_act=True,
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=gptq_config,
    device_map="auto",
)

model.save_pretrained("./llama-2-7b-gptq")

AWQ量化

AWQ（Activation-aware Weight Quantization）是一种激活感知的权重量化方法，通过保护重要权重来减少精度损失。

核心原理：

观察激活值分布，识别重要权重
对重要权重使用更高精度或特殊处理
在精度和效率间取得更好平衡

python

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = "meta-llama/Llama-2-7b-hf"
quant_path = "./llama-2-7b-awq"

model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

quant_config = {
    "zero_point": True,
    "q_group_size": 128,
    "w_bit": 4,
    "version": "GEMM"
}

model.quantize(tokenizer, quant_config=quant_config)
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

GGUF格式

GGUF（GPT-Generated Unified Format）是llama.cpp项目使用的量化格式，专为CPU推理优化。

特点：

支持多种量化级别（Q2_K到Q8_0）
针对CPU推理高度优化
支持内存映射，加载速度快
跨平台兼容性好

常见GGUF量化级别：

量化类型	比特位	模型大小(7B)	质量
Q2_K	2.5	~2.5GB	较低
Q3_K_M	3.5	~3.3GB	中等
Q4_K_M	4.5	~4.1GB	良好
Q5_K_M	5.5	~4.8GB	优秀
Q6_K	6.5	~5.5GB	接近原始
Q8_0	8	~7.2GB	几乎无损

量化方法对比

flowchart TD A[选择量化方法] --> B{部署环境?} B -->|GPU服务器| C{追求速度还是精度?} B -->|消费级GPU| D["AWQ/GPTQ INT4"] B -->|CPU/边缘设备| E[GGUF格式] C -->|速度优先| F[AWQ] C -->|精度优先| G[GPTQ] D --> H[本地部署方案] E --> I[llama.cpp部署] F --> J["vLLM/TGI部署"] G --> J

llama.cpp量化实战

安装llama.cpp

bash

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

make LLAMA_CUBLAS=1 -j

转换和量化模型

bash

python convert_hf_to_gguf.py /path/to/llama-2-7b --outfile llama-2-7b-f16.gguf --outtype f16

./llama-quantize llama-2-7b-f16.gguf llama-2-7b-q4_k_m.gguf q4_k_m

使用量化模型推理

bash

./llama-cli -m llama-2-7b-q4_k_m.gguf \
    -p "What is machine learning?" \
    -n 256 \
    --temp 0.7 \
    --top-p 0.9

Python绑定使用

python

from llama_cpp import Llama

llm = Llama(
    model_path="./llama-2-7b-q4_k_m.gguf",
    n_ctx=2048,
    n_threads=8,
    n_gpu_layers=35,
)

output = llm(
    "Q: What is model quantization?\nA:",
    max_tokens=256,
    temperature=0.7,
    top_p=0.9,
    stop=["Q:", "\n\n"],
)

print(output["choices"][0]["text"])

bitsandbytes量化实战

安装bitsandbytes

bash

pip install bitsandbytes transformers accelerate

8-bit量化加载

python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_id = "meta-llama/Llama-2-7b-hf"

bnb_config_8bit = BitsAndBytesConfig(
    load_in_8bit=True,
)

model_8bit = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config_8bit,
    device_map="auto",
)

tokenizer = AutoTokenizer.from_pretrained(model_id)

print(f"模型显存占用: {model_8bit.get_memory_footprint() / 1024**3:.2f} GB")

4-bit量化加载（NF4）

python

bnb_config_4bit = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)

model_4bit = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config_4bit,
    device_map="auto",
)

print(f"模型显存占用: {model_4bit.get_memory_footprint() / 1024**3:.2f} GB")

量化模型推理

python

def generate_text(model, tokenizer, prompt, max_length=256):
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_length,
            temperature=0.7,
            top_p=0.9,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id,
        )
    
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response

prompt = "解释什么是模型量化："
result = generate_text(model_4bit, tokenizer, prompt)
print(result)

量化对模型性能的影响

精度影响评估

python

from datasets import load_dataset
from evaluate import load
import numpy as np

def evaluate_quantized_model(model, tokenizer, dataset, num_samples=100):
    perplexity_metric = load("perplexity", module_type="metric")
    
    texts = dataset["text"][:num_samples]
    
    results = perplexity_metric.compute(
        predictions=texts,
        model_id=model,
        add_start_token=False,
    )
    
    return results["mean_perplexity"]

def compare_models(original_model, quantized_model, tokenizer, test_prompts):
    results = []
    
    for prompt in test_prompts:
        original_output = generate_text(original_model, tokenizer, prompt)
        quantized_output = generate_text(quantized_model, tokenizer, prompt)
        
        results.append({
            "prompt": prompt,
            "original": original_output,
            "quantized": quantized_output,
        })
    
    return results

性能基准测试

模型配置	显存占用	推理速度(tokens/s)	困惑度
LLaMA-7B FP16	14GB	25	5.68
LLaMA-7B INT8	7GB	35	5.72
LLaMA-7B INT4 (GPTQ)	4GB	45	5.85
LLaMA-7B INT4 (AWQ)	4GB	50	5.79
LLaMA-7B Q4_K_M (GGUF)	4GB	40 (CPU)	5.82

量化模型部署

使用vLLM部署量化模型

python

from vllm import LLM, SamplingParams

llm = LLM(
    model="TheBloke/Llama-2-7B-GPTQ",
    quantization="gptq",
    dtype="float16",
    gpu_memory_utilization=0.9,
)

sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.9,
    max_tokens=256,
)

prompts = ["What is artificial intelligence?"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(output.outputs[0].text)

使用Ollama部署GGUF模型

bash

ollama create mymodel -f Modelfile

ollama run mymodel "What is model quantization?"

Modelfile示例：

code

FROM ./llama-2-7b-q4_k_m.gguf

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 2048

SYSTEM You are a helpful AI assistant.

部署架构选择

flowchart TD A[量化模型部署] --> B{并发需求} B -->|高并发| C["vLLM/TGI"] B -->|低并发| D{硬件环境} D -->|GPU| E["Transformers + bitsandbytes"] D -->|CPU| F["llama.cpp / Ollama"] C --> G[生产级API服务] E --> H[开发测试环境] F --> I["边缘部署/本地应用"]

实用工具推荐

在模型量化和LLM开发过程中，以下工具可以提升你的工作效率：

JSON格式化工具 - 格式化模型配置文件和量化参数
文本对比工具 - 对比量化前后模型输出差异
进制转换器 - 理解不同精度的二进制表示
百分比计算器 - 计算模型大小、显存需求等

常见问题

量化会损失多少精度？

精度损失取决于量化方法和比特位。INT8量化通常精度损失极小（<1%），INT4量化精度损失约2-5%。使用GPTQ、AWQ等先进方法可以将INT4的精度损失控制在3%以内。对于大多数应用场景，这种损失是可以接受的。

哪种量化方法最好？

没有绝对最好的方法，取决于你的需求。如果追求推理速度，AWQ是不错的选择；如果追求精度，GPTQ表现更好；如果需要在CPU上运行，GGUF格式是最佳选择。建议根据实际场景进行测试对比。

量化模型可以继续微调吗？

可以，但有限制。使用QLoRA技术可以在量化模型上进行参数高效微调。bitsandbytes的4-bit量化模型配合LoRA是目前最流行的低资源微调方案，可以在单张消费级GPU上微调7B甚至13B模型。

INT4和INT8该选哪个？

如果显存充足，优先选择INT8，精度损失更小。如果显存紧张或需要在消费级GPU上运行，INT4是更好的选择。对于13B以上的模型，INT4几乎是必选项，否则显存需求过高。

量化后推理速度一定会提升吗？

不一定。量化后模型体积变小，内存带宽需求降低，但需要额外的反量化计算。在GPU上，INT8/INT4量化通常能提升速度；在CPU上，GGUF格式的量化模型速度提升更明显。实际效果需要根据硬件和模型进行测试。

如何评估量化模型的质量？

常用评估方法包括：困惑度（Perplexity）测试、下游任务基准测试（如MMLU、HellaSwag）、人工评估输出质量。建议准备一个与实际应用场景相关的测试集，对比量化前后的输出差异。

总结

模型量化是将大语言模型部署到资源受限环境的关键技术。通过本指南，你已经了解了：

量化原理：通过降低数值精度减少模型大小和计算需求
量化类型：FP16、BF16、INT8、INT4各有适用场景
PTQ vs QAT：训练后量化快速便捷，量化感知训练精度更高
主流方法：GPTQ精度好、AWQ速度快、GGUF适合CPU部署
实战代码：llama.cpp和bitsandbytes的完整使用示例
部署方案：根据并发需求和硬件环境选择合适的部署架构

掌握模型量化技术，你就能够在有限的硬件资源上部署强大的AI能力，让大语言模型真正走进千家万户。

上一篇:什么是RLHF？ChatGPT如何从人类反馈中学习

下一篇:Ollama 是什么？Ollama 高级实战与本地部署大模型深度解析