chill/chill_notes

Files

FNS Service 0555a5abfc Update from Sync Service

2026-04-28 09:32:20 +08:00

2.1 KiB

Executable File

Raw Blame History

created, type, tags

created

type

tags

2026-04-28

concept

Transformer，注意力机制，LLM，深度学习

Transformer 架构

2017 年 Google 论文《Attention Is All You Need》提出的革命性架构

定义

Transformer 是一种基于自注意力机制（Self-Attention）的深度学习架构，完全摒弃了传统的 RNN 和 CNN，成为现代大语言模型（LLM）的基础。

核心创新

机制	说明
自注意力（Self-Attention）	序列中每个位置可以关注其他所有位置，捕捉长距离依赖
多头注意力（Multi-Head）	多组注意力并行工作，捕捉不同类型的关系
位置编码（Positional Encoding）	为序列添加位置信息（Transformer 本身不感知顺序）
残差连接 + LayerNorm	解决深层网络训练困难

架构组成

输入 → Embedding + 位置编码
     → [多头自注意力 → 残差+归一化 → FFN → 残差+归一化] × N 层
     → 输出

Encoder：理解输入（如 BERT）
Decoder：生成输出（如 GPT）
Encoder-Decoder：翻译等任务（如原始 Transformer）

衍生模型

模型	架构	用途
BERT	Encoder-only	理解/分类
GPT 系列	Decoder-only	生成/对话
T5	Encoder-Decoder	翻译/摘要
Claude / Llama / Qwen	Decoder-only	通用对话

为什么 Transformer 赢了？

特性	优势
并行计算	可以充分利用 GPU，训练效率高
长距离依赖	不受序列长度限制（理论上）
可扩展性	随参数量/数据量/算力量持续提升
通用性	同一架构可用于 NLP、视觉、多模态

局限性

注意力复杂度是 O(n²)，长序列成本高
位置编码方案仍在演进（RoPE、ALiBi 等）
缺乏真正的推理能力（只是模式匹配）

相关概念

神经网络（Transformer 的基础）
RAG（基于 Transformer 的 LLM 应用架构）
监督学习 / 无监督学习（训练范式）

整理自 AI 基础知识