chill/chill_notes

Files

FNS Service 9f59d3d410 Update from Sync Service

2026-04-28 09:42:03 +08:00

1.7 KiB

Executable File

Raw Blame History

created, type, tags

created

type

tags

2026-04-28

concept

强化学习，RL，奖励函数，策略优化

强化学习（Reinforcement Learning）

智能体通过与环境交互、试错来学习最优策略

定义

强化学习是机器学习的三大范式之一。智能体（Agent）在环境（Environment）中通过执行动作（Action）获得奖励（Reward），目标是学会最大化累积奖励的策略（Policy）。

核心框架：MDP

状态(State) → 动作(Action) → 奖励(Reward) → 新状态

元素	说明
状态（State）	环境的当前情况
动作（Action）	智能体可以执行的操作
奖励（Reward）	环境对动作的反馈
策略（Policy）	状态到动作的映射
价值函数（Value）	从某状态开始的预期累积奖励

与监督学习和无监督学习的区别

监督学习	无监督学习	强化学习
有标注数据	无标注	有延迟奖励
独立样本	发现结构	序列决策
静态训练	一次性	持续交互

关键概念

概念	说明
探索 vs 利用	尝试新动作 vs 使用已知好动作
折扣因子（γ）	未来奖励的折扣程度
Q-Learning	学习动作-状态价值
策略梯度	直接优化策略
PPO	目前最常用的 RL 算法

在 AI 中的应用

RLHF（人类反馈强化学习）：ChatGPT 等对齐人类偏好的关键技术
游戏 AI：AlphaGo、AlphaStar
机器人控制：行走、抓取
自动驾驶：决策规划

相关概念

基于 AI 基础知识整理