2.1 KiB
Executable File
2.1 KiB
Executable File
created, type, tags
| created | type | tags | |
|---|---|---|---|
| 2026-04-28 | concept |
|
Transformer 架构
2017 年 Google 论文《Attention Is All You Need》提出的革命性架构
定义
Transformer 是一种基于自注意力机制(Self-Attention)的深度学习架构,完全摒弃了传统的 RNN 和 CNN,成为现代大语言模型(LLM)的基础。
核心创新
| 机制 | 说明 |
|---|---|
| 自注意力(Self-Attention) | 序列中每个位置可以关注其他所有位置,捕捉长距离依赖 |
| 多头注意力(Multi-Head) | 多组注意力并行工作,捕捉不同类型的关系 |
| 位置编码(Positional Encoding) | 为序列添加位置信息(Transformer 本身不感知顺序) |
| 残差连接 + LayerNorm | 解决深层网络训练困难 |
架构组成
输入 → Embedding + 位置编码
→ [多头自注意力 → 残差+归一化 → FFN → 残差+归一化] × N 层
→ 输出
- Encoder:理解输入(如 BERT)
- Decoder:生成输出(如 GPT)
- Encoder-Decoder:翻译等任务(如原始 Transformer)
衍生模型
| 模型 | 架构 | 用途 |
|---|---|---|
| BERT | Encoder-only | 理解/分类 |
| GPT 系列 | Decoder-only | 生成/对话 |
| T5 | Encoder-Decoder | 翻译/摘要 |
| Claude / Llama / Qwen | Decoder-only | 通用对话 |
为什么 Transformer 赢了?
| 特性 | 优势 |
|---|---|
| 并行计算 | 可以充分利用 GPU,训练效率高 |
| 长距离依赖 | 不受序列长度限制(理论上) |
| 可扩展性 | 随参数量/数据量/算力量持续提升 |
| 通用性 | 同一架构可用于 NLP、视觉、多模态 |
局限性
- 注意力复杂度是 O(n²),长序列成本高
- 位置编码方案仍在演进(RoPE、ALiBi 等)
- 缺乏真正的推理能力(只是模式匹配)
相关概念
整理自 AI 基础知识