Files
chill_notes/wiki/Resources/方法论/Transformer架构.md
2026-04-28 09:32:20 +08:00

2.1 KiB
Executable File
Raw Blame History

created, type, tags
created type tags
2026-04-28 concept
Transformer注意力机制LLM深度学习

Transformer 架构

2017 年 Google 论文《Attention Is All You Need》提出的革命性架构

定义

Transformer 是一种基于自注意力机制Self-Attention的深度学习架构完全摒弃了传统的 RNN 和 CNN成为现代大语言模型LLM的基础。

核心创新

机制 说明
自注意力Self-Attention 序列中每个位置可以关注其他所有位置,捕捉长距离依赖
多头注意力Multi-Head 多组注意力并行工作,捕捉不同类型的关系
位置编码Positional Encoding 为序列添加位置信息Transformer 本身不感知顺序)
残差连接 + LayerNorm 解决深层网络训练困难

架构组成

输入 → Embedding + 位置编码
     → [多头自注意力 → 残差+归一化 → FFN → 残差+归一化] × N 层
     → 输出
  • Encoder:理解输入(如 BERT
  • Decoder:生成输出(如 GPT
  • Encoder-Decoder:翻译等任务(如原始 Transformer

衍生模型

模型 架构 用途
BERT Encoder-only 理解/分类
GPT 系列 Decoder-only 生成/对话
T5 Encoder-Decoder 翻译/摘要
Claude / Llama / Qwen Decoder-only 通用对话

为什么 Transformer 赢了?

特性 优势
并行计算 可以充分利用 GPU训练效率高
长距离依赖 不受序列长度限制(理论上)
可扩展性 随参数量/数据量/算力量持续提升
通用性 同一架构可用于 NLP、视觉、多模态

局限性

  • 注意力复杂度是 O(n²),长序列成本高
  • 位置编码方案仍在演进RoPE、ALiBi 等)
  • 缺乏真正的推理能力(只是模式匹配)

相关概念


整理自 AI 基础知识