Files
chill_notes/wiki/Resources/方法论/强化学习.md
2026-04-28 09:42:03 +08:00

1.7 KiB
Executable File
Raw Blame History

created, type, tags
created type tags
2026-04-28 concept
强化学习RL奖励函数策略优化

强化学习Reinforcement Learning

智能体通过与环境交互、试错来学习最优策略

定义

强化学习是机器学习的三大范式之一。智能体Agent在环境Environment中通过执行动作Action获得奖励Reward目标是学会最大化累积奖励的策略Policy

核心框架MDP

状态(State) → 动作(Action) → 奖励(Reward) → 新状态
元素 说明
状态State 环境的当前情况
动作Action 智能体可以执行的操作
奖励Reward 环境对动作的反馈
策略Policy 状态到动作的映射
价值函数Value 从某状态开始的预期累积奖励

监督学习无监督学习的区别

监督学习 无监督学习 强化学习
有标注数据 无标注 有延迟奖励
独立样本 发现结构 序列决策
静态训练 一次性 持续交互

关键概念

概念 说明
探索 vs 利用 尝试新动作 vs 使用已知好动作
折扣因子(γ) 未来奖励的折扣程度
Q-Learning 学习动作-状态价值
策略梯度 直接优化策略
PPO 目前最常用的 RL 算法

在 AI 中的应用

  • RLHF人类反馈强化学习ChatGPT 等对齐人类偏好的关键技术
  • 游戏 AIAlphaGo、AlphaStar
  • 机器人控制:行走、抓取
  • 自动驾驶:决策规划

相关概念


基于 AI 基础知识整理