--- created: 2026-04-28 type: concept tags: [强化学习,RL,奖励函数,策略优化] --- # 强化学习(Reinforcement Learning) > 智能体通过与环境交互、试错来学习最优策略 ## 定义 强化学习是[[机器学习]]的三大范式之一。智能体(Agent)在环境(Environment)中通过执行动作(Action)获得奖励(Reward),目标是学会最大化累积奖励的策略(Policy)。 ## 核心框架:MDP ``` 状态(State) → 动作(Action) → 奖励(Reward) → 新状态 ``` | 元素 | 说明 | |------|------| | 状态(State) | 环境的当前情况 | | 动作(Action) | 智能体可以执行的操作 | | 奖励(Reward) | 环境对动作的反馈 | | 策略(Policy) | 状态到动作的映射 | | 价值函数(Value) | 从某状态开始的预期累积奖励 | ## 与[[监督学习]]和[[无监督学习]]的区别 | 监督学习 | 无监督学习 | 强化学习 | |---------|-----------|---------| | 有标注数据 | 无标注 | 有延迟奖励 | | 独立样本 | 发现结构 | 序列决策 | | 静态训练 | 一次性 | 持续交互 | ## 关键概念 | 概念 | 说明 | |------|------| | 探索 vs 利用 | 尝试新动作 vs 使用已知好动作 | | 折扣因子(γ) | 未来奖励的折扣程度 | | Q-Learning | 学习动作-状态价值 | | 策略梯度 | 直接优化策略 | | PPO | 目前最常用的 RL 算法 | ## 在 AI 中的应用 - **RLHF**(人类反馈强化学习):ChatGPT 等对齐人类偏好的关键技术 - **游戏 AI**:AlphaGo、AlphaStar - **机器人控制**:行走、抓取 - **自动驾驶**:决策规划 ## 相关概念 - [[机器学习]] - [[监督学习]] / [[无监督学习]] - [[神经网络]] --- *基于 AI 基础知识整理*