Files
chill_notes/wiki/Resources/方法论/Transformer架构.md
2026-04-28 09:32:20 +08:00

68 lines
2.1 KiB
Markdown
Executable File
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
created: 2026-04-28
type: concept
tags: [Transformer注意力机制LLM深度学习]
---
# Transformer 架构
> 2017 年 Google 论文《Attention Is All You Need》提出的革命性架构
## 定义
Transformer 是一种基于自注意力机制Self-Attention的深度学习架构完全摒弃了传统的 RNN 和 CNN成为现代大语言模型LLM的基础。
## 核心创新
| 机制 | 说明 |
|------|------|
| **自注意力Self-Attention** | 序列中每个位置可以关注其他所有位置,捕捉长距离依赖 |
| **多头注意力Multi-Head** | 多组注意力并行工作,捕捉不同类型的关系 |
| **位置编码Positional Encoding** | 为序列添加位置信息Transformer 本身不感知顺序) |
| **残差连接 + LayerNorm** | 解决深层网络训练困难 |
## 架构组成
```
输入 → Embedding + 位置编码
→ [多头自注意力 → 残差+归一化 → FFN → 残差+归一化] × N 层
→ 输出
```
- **Encoder**:理解输入(如 BERT
- **Decoder**:生成输出(如 GPT
- **Encoder-Decoder**:翻译等任务(如原始 Transformer
## 衍生模型
| 模型 | 架构 | 用途 |
|------|------|------|
| BERT | Encoder-only | 理解/分类 |
| GPT 系列 | Decoder-only | 生成/对话 |
| T5 | Encoder-Decoder | 翻译/摘要 |
| Claude / Llama / Qwen | Decoder-only | 通用对话 |
## 为什么 Transformer 赢了?
| 特性 | 优势 |
|------|------|
| 并行计算 | 可以充分利用 GPU训练效率高 |
| 长距离依赖 | 不受序列长度限制(理论上) |
| 可扩展性 | 随参数量/数据量/算力量持续提升 |
| 通用性 | 同一架构可用于 NLP、视觉、多模态 |
## 局限性
- 注意力复杂度是 O(n²),长序列成本高
- 位置编码方案仍在演进RoPE、ALiBi 等)
- 缺乏真正的推理能力(只是模式匹配)
## 相关概念
- [[神经网络]]Transformer 的基础)
- [[RAG]](基于 Transformer 的 LLM 应用架构)
- [[监督学习]] / [[无监督学习]](训练范式)
---
*整理自 AI 基础知识*