Update from Sync Service

2026-04-28 09:32:20 +08:00
parent 9e9194c263
commit 0555a5abfc
2 changed files with 132 additions and 0 deletions
--- a/wiki/Resources/方法论/Transformer架构.md
+++ b/wiki/Resources/方法论/Transformer架构.md
@@ -0,0 +1,68 @@
+---
+created: 2026-04-28
+type: concept
+tags: [Transformer，注意力机制，LLM，深度学习]
+---
+
+# Transformer 架构
+
+> 2017 年 Google 论文《Attention Is All You Need》提出的革命性架构
+
+## 定义
+
+Transformer 是一种基于自注意力机制（Self-Attention）的深度学习架构，完全摒弃了传统的 RNN 和 CNN，成为现代大语言模型（LLM）的基础。
+
+## 核心创新
+
+| 机制 | 说明 |
+|------|------|
+| **自注意力（Self-Attention）** | 序列中每个位置可以关注其他所有位置，捕捉长距离依赖 |
+| **多头注意力（Multi-Head）** | 多组注意力并行工作，捕捉不同类型的关系 |
+| **位置编码（Positional Encoding）** | 为序列添加位置信息（Transformer 本身不感知顺序） |
+| **残差连接 + LayerNorm** | 解决深层网络训练困难 |
+
+## 架构组成
+
+```
+输入 → Embedding + 位置编码
+     → [多头自注意力 → 残差+归一化 → FFN → 残差+归一化] × N 层
+     → 输出
+```
+
+- **Encoder**：理解输入（如 BERT）
+- **Decoder**：生成输出（如 GPT）
+- **Encoder-Decoder**：翻译等任务（如原始 Transformer）
+
+## 衍生模型
+
+| 模型 | 架构 | 用途 |
+|------|------|------|
+| BERT | Encoder-only | 理解/分类 |
+| GPT 系列 | Decoder-only | 生成/对话 |
+| T5 | Encoder-Decoder | 翻译/摘要 |
+| Claude / Llama / Qwen | Decoder-only | 通用对话 |
+
+## 为什么 Transformer 赢了？
+
+| 特性 | 优势 |
+|------|------|
+| 并行计算 | 可以充分利用 GPU，训练效率高 |
+| 长距离依赖 | 不受序列长度限制（理论上） |
+| 可扩展性 | 随参数量/数据量/算力量持续提升 |
+| 通用性 | 同一架构可用于 NLP、视觉、多模态 |
+
+## 局限性
+
+- 注意力复杂度是 O(n²)，长序列成本高
+- 位置编码方案仍在演进（RoPE、ALiBi 等）
+- 缺乏真正的推理能力（只是模式匹配）
+
+## 相关概念
+
+- [[神经网络]]（Transformer 的基础）
+- [[RAG]]（基于 Transformer 的 LLM 应用架构）
+- [[监督学习]] / [[无监督学习]]（训练范式）
+
+---
+
+*整理自 AI 基础知识*