什么是 零样本学习?
零样本学习是一种机器学习范式,模型在没有任何任务特定示例的情况下执行任务,仅依靠其预训练知识和自然语言指令来理解和执行新任务。
快速了解
| 创建时间 | 概念源自 2000 年代,LLM 上下文从 2020 年开始 |
|---|---|
| 规范文档 | 官方规范 |
工作原理
零样本学习代表了对模型泛化能力的终极测试。大语言模型可以通过理解自然语言描述来执行从未明确训练过的任务。这种能力作为 GPT-3 等模型规模化的意外特性而出现,已成为评估 LLM 能力的关键基准。零样本性能在不同任务和模型之间差异很大,经过指令微调的模型通常表现更好。
主要特点
- 不需要任务特定的示例
- 依赖预训练知识和指令遵循能力
- 随模型规模提升而涌现的能力
- 在不同任务上的性能差异很大
- 经过指令微调的模型展现更强的零样本能力
- 通用 AI 助手的基础
常见用途
- 无需收集示例的快速原型开发
- 新类别的分类
- 无平行数据的跨语言任务
- 评估模型泛化能力
- 构建灵活的 AI 应用
示例
Loading code...常见问题
零样本学习和小样本学习有什么区别?
零样本学习(Zero-shot)不提供任何示例,模型仅依靠指令和预训练知识执行任务。小样本学习(Few-shot)在提示中提供少量示例(通常 1-5 个),帮助模型理解任务格式和期望输出。一般来说,小样本学习效果更好,但零样本更灵活且不需要准备示例。
为什么大语言模型能够进行零样本学习?
大语言模型在海量文本数据上预训练,学习了丰富的语言模式和世界知识。经过指令微调后,模型学会了遵循自然语言指令。这使得模型能够理解新任务的描述,并利用预训练知识来完成从未明确训练过的任务。模型规模越大,零样本能力通常越强。
如何提高零样本学习的效果?
提高零样本效果的方法包括:1)使用清晰、具体的任务描述;2)指定输出格式和约束;3)提供任务的背景信息;4)使用角色设定(如「你是一个专业的翻译」);5)分解复杂任务为简单步骤;6)选择经过指令微调的模型。
零样本学习有哪些局限性?
零样本学习的局限性包括:1)对复杂或专业任务效果不稳定;2)可能产生格式不符合预期的输出;3)对模糊指令敏感;4)在需要特定领域知识的任务上表现较差;5)不同模型的零样本能力差异很大。对于关键应用,建议使用小样本学习或微调。
零样本学习适合哪些应用场景?
零样本学习适合:1)快速原型开发和概念验证;2)处理长尾或罕见类别的分类;3)跨语言任务(无需平行语料);4)灵活的对话系统;5)探索性数据分析。不适合需要高精度、一致性输出格式或特定领域专业知识的生产环境。