Update from Sync Service

2026-04-28 09:42:03 +08:00
parent e4877a1e0d
commit 9f59d3d410
2 changed files with 63 additions and 1 deletions
--- a/wiki/Resources/Obsidian/Obsidian
+++ b/wiki/Resources/Obsidian/Obsidian
@@ -50,7 +50,7 @@ Obsidian 与 Notion 代表了两种截然不同的信息管理哲学。

 传统的文件夹式笔记管理是**自上而下**的——你必须事先决定一个笔记应该放在哪个文件夹里。但知识本身是网状的，一个概念可能同时属于多个领域。

-Obsidian 的核心机制是 **[[双向链接]]**。当你在笔记 A 中写下 [[笔记 B]]，不仅 A 链接到了 B，B 也自动感知到了来自 A 的引用。随着笔记数量的增长，这些链接编织成一张**知识图谱**。
+Obsidian 的核心机制是 **[[双向链接]]**。当你在笔记 A 中写下 笔记 B，不仅 A 链接到了 B，B 也自动感知到了来自 A 的引用。随着笔记数量的增长，这些链接编织成一张**知识图谱**。

 这种**自下而上**的组织方式更接近人类大脑的工作模式：神经元之间通过突触相互连接，没有文件夹，没有层级，只有关系。

--- a/wiki/Resources/方法论/强化学习.md
+++ b/wiki/Resources/方法论/强化学习.md
@@ -0,0 +1,62 @@
+---
+created: 2026-04-28
+type: concept
+tags: [强化学习，RL，奖励函数，策略优化]
+---
+
+# 强化学习（Reinforcement Learning）
+
+> 智能体通过与环境交互、试错来学习最优策略
+
+## 定义
+
+强化学习是[[机器学习]]的三大范式之一。智能体（Agent）在环境（Environment）中通过执行动作（Action）获得奖励（Reward），目标是学会最大化累积奖励的策略（Policy）。
+
+## 核心框架：MDP
+
+```
+状态(State) → 动作(Action) → 奖励(Reward) → 新状态
+```
+
+| 元素 | 说明 |
+|------|------|
+| 状态（State） | 环境的当前情况 |
+| 动作（Action） | 智能体可以执行的操作 |
+| 奖励（Reward） | 环境对动作的反馈 |
+| 策略（Policy） | 状态到动作的映射 |
+| 价值函数（Value） | 从某状态开始的预期累积奖励 |
+
+## 与[[监督学习]]和[[无监督学习]]的区别
+
+| 监督学习 | 无监督学习 | 强化学习 |
+|---------|-----------|---------|
+| 有标注数据 | 无标注 | 有延迟奖励 |
+| 独立样本 | 发现结构 | 序列决策 |
+| 静态训练 | 一次性 | 持续交互 |
+
+## 关键概念
+
+| 概念 | 说明 |
+|------|------|
+| 探索 vs 利用 | 尝试新动作 vs 使用已知好动作 |
+| 折扣因子（γ） | 未来奖励的折扣程度 |
+| Q-Learning | 学习动作-状态价值 |
+| 策略梯度 | 直接优化策略 |
+| PPO | 目前最常用的 RL 算法 |
+
+## 在 AI 中的应用
+
+- **RLHF**（人类反馈强化学习）：ChatGPT 等对齐人类偏好的关键技术
+- **游戏 AI**：AlphaGo、AlphaStar
+- **机器人控制**：行走、抓取
+- **自动驾驶**：决策规划
+
+## 相关概念
+
+- [[机器学习]]
+- [[监督学习]] / [[无监督学习]]
+- [[神经网络]]
+
+---
+
+*基于 AI 基础知识整理*