什么是 监督微调(SFT)?

监督微调(SFT)是一种监督训练阶段,它在精选的提示词-回答样本上微调预训练语言模型。

工作原理

监督微调通常是预训练之后的第一个对齐步骤。它教模型如何遵循指令、按特定格式回答、使用领域语言,或在目标任务上保持一致行为。SFT 的效果更依赖数据质量、覆盖范围和格式纪律,而不是单纯的数据量。生产环境中,当仅靠提示词无法稳定约束行为时,SFT 很有用;但如果样本噪声大,也可能过拟合、降低通用能力或放大错误。

主要特点

  • 使用带标签的输入-输出样本,而不是偏好比较
  • 把预训练模型适配到目标任务、风格和响应格式
  • 对数据质量、去重和指令清晰度高度敏感
  • 通常先于 RLHF 或 DPO 等偏好优化方法
  • 可通过全量微调或参数高效微调实现

常见用途

  1. 教模型遵循内部客服回答格式
  2. 让 LLM 适配领域术语和工作流
  3. 用精选样本创建任务型助手
  4. 在偏好优化前准备基础模型
  5. 当提示词不够稳定时改善结构化输出

示例

loading...
Loading code...

常见问题

SFT 和预训练有什么区别?

预训练从大规模语料学习通用语言模式;SFT 使用精选样本教授任务行为和指令遵循。

SFT 数据越多越好吗?

不是。低质量或不一致样本会伤害行为。较小但高质量的数据集往往优于更大的噪声数据。

SFT 会替代提示词吗?

不会。SFT 改变模型行为,而提示词仍负责运行时任务上下文、约束和指令。

什么时候应该使用 SFT?

当重复提示词仍无法可靠产生所需风格、schema、领域行为或任务性能时,可以考虑 SFT。

相关工具

相关术语

相关文章

LLM微调方法对比:全量微调、LoRA与QLoRA怎么选

全面系统地掌握现代大语言模型微调(LLM Fine-Tuning)核心底层技术。深度解析全量参数微调(Full Fine-Tuning)、LoRA 及其量化进阶版 QLoRA 等 PEFT(参数高效微调)算法模型的实现原理。本文包含基于 Hugging Face 框架的完整实战训练代码、私有高质量数据集准备清洗指南、以及微调技术与 RAG(检索增强生成)的优劣对比选择策略,助你低成本、高效率地训练定制专属的行业垂直领域 AI 大模型。

2026-02-21

LoRA微调实战:QLoRA配置与PEFT高效微调指南

深入硬核理解 AI 大模型 LoRA(Low-Rank Adaptation/低秩微调)核心前沿技术的底层数学原理。详尽剖析基于低秩矩阵分解的参数更新机制、Alpha(α)与 Rank(r)等关键超参数的科学调优配置策略。结合最新的 QLoRA 量化模型优化技术与主流的 PEFT 训练库,手把手带您完成实战代码编写,彻底掌握如何将模型微调训练的 GPU 显存门槛大幅降低 90% 以上,在消费级显卡上实现专业级别的定制化模型效果。

2026-02-21

小模型崛起:2B/8B 参数模型如何在边缘设备上替代大模型

深度解析小语言模型(SLM)的崛起趋势。对比 Microsoft Phi-4、Google Gemma 3、Qwen3、Llama 3.2 等主流小模型,涵盖边缘设备部署方案、INT4/INT8 量化优化、LoRA 微调实战,以及使用 Ollama 本地部署的完整代码示例。

2026-04-22