From 9f59d3d410972809853f456462ebc4257886eafd Mon Sep 17 00:00:00 2001 From: FNS Service Date: Tue, 28 Apr 2026 09:42:03 +0800 Subject: [PATCH] Update from Sync Service --- .../Obsidian/Obsidian 本地知识库完全指南.md | 2 +- wiki/Resources/方法论/强化学习.md | 62 +++++++++++++++++++ 2 files changed, 63 insertions(+), 1 deletion(-) create mode 100755 wiki/Resources/方法论/强化学习.md diff --git a/wiki/Resources/Obsidian/Obsidian 本地知识库完全指南.md b/wiki/Resources/Obsidian/Obsidian 本地知识库完全指南.md index 63db527..3e1d071 100755 --- a/wiki/Resources/Obsidian/Obsidian 本地知识库完全指南.md +++ b/wiki/Resources/Obsidian/Obsidian 本地知识库完全指南.md @@ -50,7 +50,7 @@ Obsidian 与 Notion 代表了两种截然不同的信息管理哲学。 传统的文件夹式笔记管理是**自上而下**的——你必须事先决定一个笔记应该放在哪个文件夹里。但知识本身是网状的,一个概念可能同时属于多个领域。 -Obsidian 的核心机制是 **[[双向链接]]**。当你在笔记 A 中写下 [[笔记 B]],不仅 A 链接到了 B,B 也自动感知到了来自 A 的引用。随着笔记数量的增长,这些链接编织成一张**知识图谱**。 +Obsidian 的核心机制是 **[[双向链接]]**。当你在笔记 A 中写下 笔记 B,不仅 A 链接到了 B,B 也自动感知到了来自 A 的引用。随着笔记数量的增长,这些链接编织成一张**知识图谱**。 这种**自下而上**的组织方式更接近人类大脑的工作模式:神经元之间通过突触相互连接,没有文件夹,没有层级,只有关系。 diff --git a/wiki/Resources/方法论/强化学习.md b/wiki/Resources/方法论/强化学习.md new file mode 100755 index 0000000..f93dc7c --- /dev/null +++ b/wiki/Resources/方法论/强化学习.md @@ -0,0 +1,62 @@ +--- +created: 2026-04-28 +type: concept +tags: [强化学习,RL,奖励函数,策略优化] +--- + +# 强化学习(Reinforcement Learning) + +> 智能体通过与环境交互、试错来学习最优策略 + +## 定义 + +强化学习是[[机器学习]]的三大范式之一。智能体(Agent)在环境(Environment)中通过执行动作(Action)获得奖励(Reward),目标是学会最大化累积奖励的策略(Policy)。 + +## 核心框架:MDP + +``` +状态(State) → 动作(Action) → 奖励(Reward) → 新状态 +``` + +| 元素 | 说明 | +|------|------| +| 状态(State) | 环境的当前情况 | +| 动作(Action) | 智能体可以执行的操作 | +| 奖励(Reward) | 环境对动作的反馈 | +| 策略(Policy) | 状态到动作的映射 | +| 价值函数(Value) | 从某状态开始的预期累积奖励 | + +## 与[[监督学习]]和[[无监督学习]]的区别 + +| 监督学习 | 无监督学习 | 强化学习 | +|---------|-----------|---------| +| 有标注数据 | 无标注 | 有延迟奖励 | +| 独立样本 | 发现结构 | 序列决策 | +| 静态训练 | 一次性 | 持续交互 | + +## 关键概念 + +| 概念 | 说明 | +|------|------| +| 探索 vs 利用 | 尝试新动作 vs 使用已知好动作 | +| 折扣因子(γ) | 未来奖励的折扣程度 | +| Q-Learning | 学习动作-状态价值 | +| 策略梯度 | 直接优化策略 | +| PPO | 目前最常用的 RL 算法 | + +## 在 AI 中的应用 + +- **RLHF**(人类反馈强化学习):ChatGPT 等对齐人类偏好的关键技术 +- **游戏 AI**:AlphaGo、AlphaStar +- **机器人控制**:行走、抓取 +- **自动驾驶**:决策规划 + +## 相关概念 + +- [[机器学习]] +- [[监督学习]] / [[无监督学习]] +- [[神经网络]] + +--- + +*基于 AI 基础知识整理* \ No newline at end of file