什么是 监督学习?

监督学习是一种机器学习范式,模型从带标签的训练数据中学习,使用输入输出对来发现模式并对新的未见数据进行预测。

快速了解

创建时间概念在 1950-1960 年代形成,现代算法来自 1990 年代
规范文档官方规范

工作原理

监督学习是最常见和最成熟的机器学习方法。算法通过分析已知正确答案的示例,学习从输入特征到输出标签的映射函数。在训练过程中,模型调整其参数以最小化预测与实际标签之间的差异。常见算法包括线性回归、逻辑回归、决策树、随机森林、支持向量机(SVM)和神经网络。监督学习分为两个主要任务:分类(预测离散类别)和回归(预测连续值)。标注数据的质量和数量显著影响模型性能。

主要特点

  • 需要带有已知输入输出对的标注训练数据
  • 学习从特征到标签的映射函数
  • 分为分类和回归任务
  • 性能根据真实标签进行衡量
  • 训练数据有限时容易过拟合
  • 最广泛使用和理解最深的机器学习范式

常见用途

  1. 电子邮件垃圾检测(分类)
  2. 房价预测(回归)
  3. 基于患者数据的医学诊断
  4. 信用风险评估和欺诈检测
  5. 图像分类和目标检测

示例

loading...
Loading code...

常见问题

监督学习和无监督学习有什么区别?

监督学习使用已知正确输出的标注数据,学习为新输入预测标签。无监督学习处理无标签数据,在没有预定义答案的情况下发现隐藏的模式或结构。监督学习用于预测任务,而无监督学习用于聚类、降维和异常检测。

分类和回归有什么区别?

分类预测离散的类别(如垃圾邮件/非垃圾邮件、猫/狗/鸟)。回归预测连续的数值(如房价、温度、股票价格)。选择取决于目标变量是分类变量还是连续变量。

监督学习需要多少标注数据?

数量取决于问题复杂度、模型类型和期望精度。简单模型可能只需数百个示例,而深度学习通常需要数千到数百万个。更多数据通常能提高性能,但收益递减。当标注数据稀缺时,数据增强、迁移学习和主动学习等技术可以提供帮助。

监督学习有哪些常见挑战?

主要挑战包括:获取足够的标注数据(昂贵且耗时)、过拟合(模型记住训练数据)、欠拟合(模型过于简单)、类别不平衡(标签分布不均)、特征工程(选择相关输入)以及泛化能力(在未见数据上表现良好)。

如何评估监督学习模型?

分类任务:准确率、精确率、召回率、F1 分数、ROC-AUC 和混淆矩阵。回归任务:MSE(均方误差)、RMSE、MAE(平均绝对误差)和 R 方。始终使用留出测试集或交叉验证来估计真实世界性能,而非训练准确率。

相关工具

相关术语

相关文章