--- created: 2026-04-28 type: concept tags: [Transformer,注意力机制,LLM,深度学习] --- # Transformer 架构 > 2017 年 Google 论文《Attention Is All You Need》提出的革命性架构 ## 定义 Transformer 是一种基于自注意力机制(Self-Attention)的深度学习架构,完全摒弃了传统的 RNN 和 CNN,成为现代大语言模型(LLM)的基础。 ## 核心创新 | 机制 | 说明 | |------|------| | **自注意力(Self-Attention)** | 序列中每个位置可以关注其他所有位置,捕捉长距离依赖 | | **多头注意力(Multi-Head)** | 多组注意力并行工作,捕捉不同类型的关系 | | **位置编码(Positional Encoding)** | 为序列添加位置信息(Transformer 本身不感知顺序) | | **残差连接 + LayerNorm** | 解决深层网络训练困难 | ## 架构组成 ``` 输入 → Embedding + 位置编码 → [多头自注意力 → 残差+归一化 → FFN → 残差+归一化] × N 层 → 输出 ``` - **Encoder**:理解输入(如 BERT) - **Decoder**:生成输出(如 GPT) - **Encoder-Decoder**:翻译等任务(如原始 Transformer) ## 衍生模型 | 模型 | 架构 | 用途 | |------|------|------| | BERT | Encoder-only | 理解/分类 | | GPT 系列 | Decoder-only | 生成/对话 | | T5 | Encoder-Decoder | 翻译/摘要 | | Claude / Llama / Qwen | Decoder-only | 通用对话 | ## 为什么 Transformer 赢了? | 特性 | 优势 | |------|------| | 并行计算 | 可以充分利用 GPU,训练效率高 | | 长距离依赖 | 不受序列长度限制(理论上) | | 可扩展性 | 随参数量/数据量/算力量持续提升 | | 通用性 | 同一架构可用于 NLP、视觉、多模态 | ## 局限性 - 注意力复杂度是 O(n²),长序列成本高 - 位置编码方案仍在演进(RoPE、ALiBi 等) - 缺乏真正的推理能力(只是模式匹配) ## 相关概念 - [[神经网络]](Transformer 的基础) - [[RAG]](基于 Transformer 的 LLM 应用架构) - [[监督学习]] / [[无监督学习]](训练范式) --- *整理自 AI 基础知识*