什么是 监督学习?
监督学习是一种机器学习范式,模型从带标签的训练数据中学习,使用输入输出对来发现模式并对新的未见数据进行预测。
快速了解
| 创建时间 | 概念在 1950-1960 年代形成,现代算法来自 1990 年代 |
|---|---|
| 规范文档 | 官方规范 |
工作原理
监督学习是最常见和最成熟的机器学习方法。算法通过分析已知正确答案的示例,学习从输入特征到输出标签的映射函数。在训练过程中,模型调整其参数以最小化预测与实际标签之间的差异。常见算法包括线性回归、逻辑回归、决策树、随机森林、支持向量机(SVM)和神经网络。监督学习分为两个主要任务:分类(预测离散类别)和回归(预测连续值)。标注数据的质量和数量显著影响模型性能。
主要特点
- 需要带有已知输入输出对的标注训练数据
- 学习从特征到标签的映射函数
- 分为分类和回归任务
- 性能根据真实标签进行衡量
- 训练数据有限时容易过拟合
- 最广泛使用和理解最深的机器学习范式
常见用途
- 电子邮件垃圾检测(分类)
- 房价预测(回归)
- 基于患者数据的医学诊断
- 信用风险评估和欺诈检测
- 图像分类和目标检测
示例
loading...
Loading code...常见问题
监督学习和无监督学习有什么区别?
监督学习使用已知正确输出的标注数据,学习为新输入预测标签。无监督学习处理无标签数据,在没有预定义答案的情况下发现隐藏的模式或结构。监督学习用于预测任务,而无监督学习用于聚类、降维和异常检测。
分类和回归有什么区别?
分类预测离散的类别(如垃圾邮件/非垃圾邮件、猫/狗/鸟)。回归预测连续的数值(如房价、温度、股票价格)。选择取决于目标变量是分类变量还是连续变量。
监督学习需要多少标注数据?
数量取决于问题复杂度、模型类型和期望精度。简单模型可能只需数百个示例,而深度学习通常需要数千到数百万个。更多数据通常能提高性能,但收益递减。当标注数据稀缺时,数据增强、迁移学习和主动学习等技术可以提供帮助。
监督学习有哪些常见挑战?
主要挑战包括:获取足够的标注数据(昂贵且耗时)、过拟合(模型记住训练数据)、欠拟合(模型过于简单)、类别不平衡(标签分布不均)、特征工程(选择相关输入)以及泛化能力(在未见数据上表现良好)。
如何评估监督学习模型?
分类任务:准确率、精确率、召回率、F1 分数、ROC-AUC 和混淆矩阵。回归任务:MSE(均方误差)、RMSE、MAE(平均绝对误差)和 R 方。始终使用留出测试集或交叉验证来估计真实世界性能,而非训练准确率。