---
created: 2026-04-28
type: concept
tags: [强化学习，RL，奖励函数，策略优化]
---

# 强化学习（Reinforcement Learning）

> 智能体通过与环境交互、试错来学习最优策略

## 定义

强化学习是[[机器学习]]的三大范式之一。智能体（Agent）在环境（Environment）中通过执行动作（Action）获得奖励（Reward），目标是学会最大化累积奖励的策略（Policy）。

## 核心框架：MDP

```
状态(State) → 动作(Action) → 奖励(Reward) → 新状态
```

| 元素 | 说明 |
|------|------|
| 状态（State） | 环境的当前情况 |
| 动作（Action） | 智能体可以执行的操作 |
| 奖励（Reward） | 环境对动作的反馈 |
| 策略（Policy） | 状态到动作的映射 |
| 价值函数（Value） | 从某状态开始的预期累积奖励 |

## 与[[监督学习]]和[[无监督学习]]的区别

| 监督学习 | 无监督学习 | 强化学习 |
|---------|-----------|---------|
| 有标注数据 | 无标注 | 有延迟奖励 |
| 独立样本 | 发现结构 | 序列决策 |
| 静态训练 | 一次性 | 持续交互 |

## 关键概念

| 概念 | 说明 |
|------|------|
| 探索 vs 利用 | 尝试新动作 vs 使用已知好动作 |
| 折扣因子（γ） | 未来奖励的折扣程度 |
| Q-Learning | 学习动作-状态价值 |
| 策略梯度 | 直接优化策略 |
| PPO | 目前最常用的 RL 算法 |

## 在 AI 中的应用

- **RLHF**（人类反馈强化学习）：ChatGPT 等对齐人类偏好的关键技术
- **游戏 AI**：AlphaGo、AlphaStar
- **机器人控制**：行走、抓取
- **自动驾驶**：决策规划

## 相关概念

- [[机器学习]]
- [[监督学习]] / [[无监督学习]]
- [[神经网络]]

---

*基于 AI 基础知识整理*