1.7 KiB
Executable File
1.7 KiB
Executable File
created, type, tags
| created | type | tags | |
|---|---|---|---|
| 2026-04-28 | concept |
|
强化学习(Reinforcement Learning)
智能体通过与环境交互、试错来学习最优策略
定义
强化学习是机器学习的三大范式之一。智能体(Agent)在环境(Environment)中通过执行动作(Action)获得奖励(Reward),目标是学会最大化累积奖励的策略(Policy)。
核心框架:MDP
状态(State) → 动作(Action) → 奖励(Reward) → 新状态
| 元素 | 说明 |
|---|---|
| 状态(State) | 环境的当前情况 |
| 动作(Action) | 智能体可以执行的操作 |
| 奖励(Reward) | 环境对动作的反馈 |
| 策略(Policy) | 状态到动作的映射 |
| 价值函数(Value) | 从某状态开始的预期累积奖励 |
与监督学习和无监督学习的区别
| 监督学习 | 无监督学习 | 强化学习 |
|---|---|---|
| 有标注数据 | 无标注 | 有延迟奖励 |
| 独立样本 | 发现结构 | 序列决策 |
| 静态训练 | 一次性 | 持续交互 |
关键概念
| 概念 | 说明 |
|---|---|
| 探索 vs 利用 | 尝试新动作 vs 使用已知好动作 |
| 折扣因子(γ) | 未来奖励的折扣程度 |
| Q-Learning | 学习动作-状态价值 |
| 策略梯度 | 直接优化策略 |
| PPO | 目前最常用的 RL 算法 |
在 AI 中的应用
- RLHF(人类反馈强化学习):ChatGPT 等对齐人类偏好的关键技术
- 游戏 AI:AlphaGo、AlphaStar
- 机器人控制:行走、抓取
- 自动驾驶:决策规划
相关概念
基于 AI 基础知识整理