什么是 强化学习?
强化学习(Reinforcement Learning,RL)是一种机器学习方法,智能体通过与环境交互,以奖励或惩罚的形式接收反馈,并通过策略调整其行为以最大化长期累积奖励来学习做出最优决策。
快速了解
| 全称 | Reinforcement Learning |
|---|---|
| 创建时间 | 1980 年代,由 Richard Sutton 和 Andrew Barto 正式确立 |
| 规范文档 | 官方规范 |
工作原理
强化学习受行为心理学启发,基于试错原则运作。智能体观察环境的当前状态,采取行动,并接收一个奖励信号来指示该行动的好坏。智能体的目标是学习一个策略——从状态到行动的映射——以最大化预期累积奖励。核心概念包括:智能体(决策者)、环境(智能体交互的世界)、状态(当前情况)、动作(可用选择)、奖励(反馈信号)和策略(选择行动的方法)。探索与利用的权衡是强化学习的核心问题:智能体必须在尝试新动作以发现更好策略与利用已知好动作之间取得平衡。现代强化学习已被深度强化学习革新,将神经网络与强化学习算法相结合。著名成就包括 AlphaGo 击败世界冠军,以及 RLHF(基于人类反馈的强化学习)成为训练 ChatGPT 等大语言模型的关键技术。
主要特点
- 通过与环境交互的试错方式进行学习
- 处理延迟奖励,行动的后果可能不会立即显现
- 平衡探索(尝试新动作)与利用(使用已知好的动作)
- 不需要标记的训练数据,从经验和反馈中学习
- 优化长期累积奖励而非即时收益
- 通过持续学习适应动态和不确定的环境
常见用途
- 游戏 AI 和策略决策(国际象棋、围棋、Atari、Dota 2)
- 机器人控制、操作和自主导航
- RLHF(基于人类反馈的强化学习)用于训练大语言模型
- 自动驾驶和车辆控制系统
- 资源管理、调度优化和算法交易
示例
Loading code...常见问题
什么是强化学习?
强化学习是一种机器学习方法,智能体通过与环境交互来学习最优决策策略。智能体执行动作后会收到奖励或惩罚反馈,目标是学习一个能够最大化长期累积奖励的策略。
强化学习与监督学习有什么区别?
监督学习需要标记好的训练数据来学习输入到输出的映射;而强化学习不需要标记数据,而是通过试错和奖励信号来学习。强化学习还需要处理延迟奖励和探索-利用权衡等独特挑战。
什么是探索与利用的权衡?
这是强化学习的核心挑战。利用是指使用已知的好策略获取奖励;探索是指尝试新动作以发现可能更好的策略。智能体需要在两者之间取得平衡,过度利用会陷入局部最优,过度探索则效率低下。
强化学习有哪些著名的应用案例?
著名案例包括:AlphaGo 击败围棋世界冠军、OpenAI Five 在 Dota 2 中战胜职业选手、机器人控制和自动驾驶、以及 RLHF 技术用于训练 ChatGPT 等大语言模型使其更符合人类偏好。