什么是监督微调（SFT）？

监督微调（SFT）是一种监督训练阶段，它在精选的提示词-回答样本上微调预训练语言模型。

工作原理

监督微调通常是预训练之后的第一个对齐步骤。它教模型如何遵循指令、按特定格式回答、使用领域语言，或在目标任务上保持一致行为。SFT 的效果更依赖数据质量、覆盖范围和格式纪律，而不是单纯的数据量。生产环境中，当仅靠提示词无法稳定约束行为时，SFT 很有用；但如果样本噪声大，也可能过拟合、降低通用能力或放大错误。

主要特点

使用带标签的输入-输出样本，而不是偏好比较
把预训练模型适配到目标任务、风格和响应格式
对数据质量、去重和指令清晰度高度敏感
通常先于 RLHF 或 DPO 等偏好优化方法
可通过全量微调或参数高效微调实现

常见用途

教模型遵循内部客服回答格式
让 LLM 适配领域术语和工作流
用精选样本创建任务型助手
在偏好优化前准备基础模型
当提示词不够稳定时改善结构化输出

示例

loading...

Loading code...

常见问题

SFT 和预训练有什么区别？

预训练从大规模语料学习通用语言模式；SFT 使用精选样本教授任务行为和指令遵循。

SFT 数据越多越好吗？

不是。低质量或不一致样本会伤害行为。较小但高质量的数据集往往优于更大的噪声数据。

SFT 会替代提示词吗？

不会。SFT 改变模型行为，而提示词仍负责运行时任务上下文、约束和指令。

什么时候应该使用 SFT？

当重复提示词仍无法可靠产生所需风格、schema、领域行为或任务性能时，可以考虑 SFT。

相关工具

AI网站导航

权威、全面且持续更新的 AI 人工智能工具与生态资源导航目录。深度覆盖全球与国内顶尖的大语言模型提供商、开放生态与开源项目、前沿学术研究索引与评测排行榜、以及开发者必备的平台与工具目录等。为你提供快速发现、横向能力对比与高效技术选型的最佳入口。支持精准的关键词搜索与个人收藏分组功能，分类分区清晰易用，助你轻松掌握 AI 时代生产力。

JSON 格式化

免费在线JSON格式化(Format)与美化解析工具，一键快速格式化、语法校验和压缩任意复杂的JSON数据字符串。支持直观的代码语法高亮显示、可折叠的交互式树形视图(Tree View)、最近格式化历史记录保存和一键快速复制结果。广泛适用于前后端API接口调试、日志数据分析、以及各类系统配置文件编辑。无需注册登录，100%纯前端本地处理，绝不泄露您的数据隐私。

文本分析器

免费在线全能文本分析与高级字数统计工具。提供极其详尽的字数、总字符数、句子数、段落数精确统计功能，全面支持多语言智能分词(包含中文字符与英文字词独立识别统计)。提供核心高频关键词提取分析、用户平均阅读时间预估和文本排版特征深度检测。专为职业作家、文案编辑、自媒体运营和学生群体设计的文本内容优化辅助神器，即开即用。

相关术语

微调

微调（Fine-tuning）是一种迁移学习技术，通过在较小的特定任务数据集上继续训练过程，将预训练的机器学习模型适配到特定任务或领域。这种方法利用预训练模型中已捕获的通用知识，同时为专业应用定制其行为。

指令微调（Instruction Tuning）

指令微调（Instruction Tuning）是一种监督微调方法，它用多样化指令-回答样本训练语言模型，使模型学会遵循用户任务。

数据集策划（Dataset Curation）

数据集策划（Dataset Curation）是选择、清洗、组织、标注、去重和验证数据，使其适合模型训练或评估的过程。

PEFT

PEFT（Parameter-Efficient Fine-Tuning，参数高效微调）是一系列技术，通过仅训练一小部分参数来使大型预训练模型适应下游任务，在保持竞争性能的同时大幅降低计算需求。

相关文章

LLM 微调指南【2026】：SFT、LoRA、QLoRA 与评测

系统讲解如何使用监督微调与参数高效方法适配大语言模型，明确何时训练优于提示词或 RAG，如何构建具备授权和防泄漏能力的数据集，避免重复硬件经验数字，固定版本运行实验，并评估能力、安全、回归、隐私与不确定性，覆盖 SFT、LoRA、QLoRA、数据血缘、去重切分、显存测量、基线对照、人工评审和部署治理。

LoRA 微调教程：QLoRA、PEFT 与参数配置实战（2026）

LoRA 微调教程，系统讲解低秩适配原理、rank、alpha、target_modules 与 dropout 参数配置，提供 Hugging Face PEFT 和 QLoRA 训练示例，对比显存占用、全量微调与量化微调差异，并覆盖适配器合并、推理部署、过拟合控制和多任务维护，帮助开发者在目标硬件上评估并定制大语言模型。

小模型崛起：2B/8B 参数模型如何在边缘设备上替代大模型

系统讲解如何评估小语言模型在边缘设备和本地 AI 场景中的适用性。覆盖模型快照、许可证、上下文、Phi-4 Mini、Gemma 3、Qwen3、Ollama、WebLLM、CoreML、llama.cpp、INT4/INT8 量化、GGUF 转换、QLoRA 微调、设备内存、延迟、隐私控制与总成本，并提供部署示例。