什么是 监督学习?

监督学习是最常见的机器学习方法,通过分析带标签的训练数据学习输入到输出的映射关系。主要分为分类(预测离散类别)和回归(预测连续值)两类任务,常用算法包括决策树、随机森林、支持向量机和神经网络,广泛应用于垃圾邮件检测、图像识别等领域。

快速了解

创建时间概念在 1950-1960 年代形成,现代算法来自 1990 年代
规范文档官方规范

工作原理

监督学习是最常见和最成熟的机器学习方法。算法通过分析已知正确答案的示例,学习从输入特征到输出标签的映射函数。在训练过程中,模型调整其参数以最小化预测与实际标签之间的差异。常见算法包括线性回归、逻辑回归、决策树、随机森林、支持向量机(SVM)和神经网络。监督学习分为两个主要任务:分类(预测离散类别)和回归(预测连续值)。标注数据的质量和数量显著影响模型性能。

主要特点

  • 需要带有已知输入输出对的标注训练数据
  • 学习从特征到标签的映射函数
  • 分为分类和回归任务
  • 性能根据真实标签进行衡量
  • 训练数据有限时容易过拟合
  • 最广泛使用和理解最深的机器学习范式

常见用途

  1. 电子邮件垃圾检测(分类)
  2. 房价预测(回归)
  3. 基于患者数据的医学诊断
  4. 信用风险评估和欺诈检测
  5. 图像分类和目标检测

示例

loading...
Loading code...

常见问题

监督学习和无监督学习有什么区别?

监督学习使用已知正确输出的标注数据,学习为新输入预测标签。无监督学习处理无标签数据,在没有预定义答案的情况下发现隐藏的模式或结构。监督学习用于预测任务,而无监督学习用于聚类、降维和异常检测。

分类和回归有什么区别?

分类预测离散的类别(如垃圾邮件/非垃圾邮件、猫/狗/鸟)。回归预测连续的数值(如房价、温度、股票价格)。选择取决于目标变量是分类变量还是连续变量。

监督学习需要多少标注数据?

数量取决于问题复杂度、模型类型和期望精度。简单模型可能只需数百个示例,而深度学习通常需要数千到数百万个。更多数据通常能提高性能,但收益递减。当标注数据稀缺时,数据增强、迁移学习和主动学习等技术可以提供帮助。

监督学习有哪些常见挑战?

主要挑战包括:获取足够的标注数据(昂贵且耗时)、过拟合(模型记住训练数据)、欠拟合(模型过于简单)、类别不平衡(标签分布不均)、特征工程(选择相关输入)以及泛化能力(在未见数据上表现良好)。

如何评估监督学习模型?

分类任务:准确率、精确率、召回率、F1 分数、ROC-AUC 和混淆矩阵。回归任务:MSE(均方误差)、RMSE、MAE(平均绝对误差)和 R 方。始终使用留出测试集或交叉验证来估计真实世界性能,而非训练准确率。

相关工具

相关术语

相关文章

深度学习基础:神经网络、训练算法与现代架构详解

全面系统深度硬核解析人工智能深度学习(Deep Learning)的底层数学核心原理,深入探讨反向传播算法(Backpropagation)计算图推导、基于微积分的梯度下降(Gradient Descent)优化下降策略、各种前沿常用激活函数(ReLU, GELU, Sigmoid 等)及交叉熵损失函数(Loss Function)的数学推导机制。本教程是入门高级 AI 架构与现代神经网络 Transformer 不可或缺的基础必修课指南。

2026-02-08

神经网络完全指南:从生物神经元到深度学习架构详解

深入浅出地理解现代 AI 的核心:人工神经网络(Neural Networks)底层数学基础与前向/反向传播(Backpropagation)运行原理。详细剖析感知机模型、激活函数(如 ReLU, Sigmoid)、损失函数以及梯度下降算法。通过纯 Python 从零开始手写实现一个简单神经网络,带你彻底打破深度学习算法黑盒,为后续学习 Transformer 等大模型打下坚实基础。

2026-02-21

注意力机制完全指南:从直觉理解到Transformer核心原理与代码实现

全面深入解析现代深度学习与自然语言处理(NLP)中最具革命性的突破:注意力机制(Attention Mechanism)的核心数学原理。详细剖析自注意力(Self-Attention)、Query-Key-Value(QKV)向量点积计算逻辑、以及强大的多头注意力(Multi-Head Attention)并行特征提取。带您彻底掌握构建现代 Transformer 架构、GPT 和各类 LLM 大语言模型的底层技术基石,文章附带结构清晰的完整纯 Python 工程化代码推导与实现示例。

2026-02-21