Update from Sync Service
This commit is contained in:
64
wiki/Resources/方法论/RAG.md
Executable file
64
wiki/Resources/方法论/RAG.md
Executable file
@@ -0,0 +1,64 @@
|
|||||||
|
---
|
||||||
|
created: 2026-04-28
|
||||||
|
type: concept
|
||||||
|
tags: [RAG,检索增强生成,LLM,知识库]
|
||||||
|
---
|
||||||
|
|
||||||
|
# RAG(检索增强生成)
|
||||||
|
|
||||||
|
> Retrieval-Augmented Generation:先检索相关知识,再生成回答
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
RAG 是一种将外部知识库检索与 LLM 生成相结合的技术架构。它让 LLM 在回答问题前,先从特定知识库中检索相关信息,基于检索到的内容生成更准确、更少幻觉的回答。
|
||||||
|
|
||||||
|
## 工作流程
|
||||||
|
|
||||||
|
```
|
||||||
|
用户提问 → 向量化 → 检索相关知识块 → 组装 Prompt → LLM 生成回答
|
||||||
|
```
|
||||||
|
|
||||||
|
## 核心组件
|
||||||
|
|
||||||
|
| 组件 | 说明 |
|
||||||
|
|------|------|
|
||||||
|
| 文档分块(Chunking) | 将长文档拆分为小块(通常 500-1000 tokens) |
|
||||||
|
| 向量化(Embedding) | 用 embedding 模型将文本转为向量 |
|
||||||
|
| 向量数据库 | 存储和检索向量(如 FAISS、Pinecone、Chroma) |
|
||||||
|
| 检索器 | 根据查询向量找到最相关的知识块 |
|
||||||
|
| LLM | 基于检索到的内容生成回答 |
|
||||||
|
|
||||||
|
## RAG 的演进
|
||||||
|
|
||||||
|
| 版本 | 特点 |
|
||||||
|
|------|------|
|
||||||
|
| Naive RAG | 简单检索+生成,容易遗漏上下文 |
|
||||||
|
| Advanced RAG | 增加重排序、查询扩展、多路召回 |
|
||||||
|
| **GraphRAG** | 引入知识图谱,支持多跳推理和全局理解 |
|
||||||
|
| Agentic RAG | 智能体自主决定何时检索、检索什么 |
|
||||||
|
|
||||||
|
## 优势与劣势
|
||||||
|
|
||||||
|
| 优势 ✅ | 劣势 ⚠️ |
|
||||||
|
|---------|---------|
|
||||||
|
| 减少幻觉 | 检索质量直接影响回答质量 |
|
||||||
|
| 支持实时知识更新 | 文档分块可能割裂上下文 |
|
||||||
|
| 可追溯来源 | 向量相似度≠语义相关性 |
|
||||||
|
| 降低 LLM 训练成本 | 无法回答知识库外的全新问题 |
|
||||||
|
|
||||||
|
## 应用场景
|
||||||
|
|
||||||
|
- 企业内部知识库问答
|
||||||
|
- 客服机器人
|
||||||
|
- 文档智能检索
|
||||||
|
- 法律/医疗专业问答
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
|
||||||
|
- [[知识图谱]](GraphRAG 的基础)
|
||||||
|
- [[神经网络]](embedding 模型的基础)
|
||||||
|
- [[Transformer 架构]](LLM 和 embedding 的共同基础)
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
*整理自知识库参考资料*
|
||||||
68
wiki/Resources/方法论/Transformer架构.md
Executable file
68
wiki/Resources/方法论/Transformer架构.md
Executable file
@@ -0,0 +1,68 @@
|
|||||||
|
---
|
||||||
|
created: 2026-04-28
|
||||||
|
type: concept
|
||||||
|
tags: [Transformer,注意力机制,LLM,深度学习]
|
||||||
|
---
|
||||||
|
|
||||||
|
# Transformer 架构
|
||||||
|
|
||||||
|
> 2017 年 Google 论文《Attention Is All You Need》提出的革命性架构
|
||||||
|
|
||||||
|
## 定义
|
||||||
|
|
||||||
|
Transformer 是一种基于自注意力机制(Self-Attention)的深度学习架构,完全摒弃了传统的 RNN 和 CNN,成为现代大语言模型(LLM)的基础。
|
||||||
|
|
||||||
|
## 核心创新
|
||||||
|
|
||||||
|
| 机制 | 说明 |
|
||||||
|
|------|------|
|
||||||
|
| **自注意力(Self-Attention)** | 序列中每个位置可以关注其他所有位置,捕捉长距离依赖 |
|
||||||
|
| **多头注意力(Multi-Head)** | 多组注意力并行工作,捕捉不同类型的关系 |
|
||||||
|
| **位置编码(Positional Encoding)** | 为序列添加位置信息(Transformer 本身不感知顺序) |
|
||||||
|
| **残差连接 + LayerNorm** | 解决深层网络训练困难 |
|
||||||
|
|
||||||
|
## 架构组成
|
||||||
|
|
||||||
|
```
|
||||||
|
输入 → Embedding + 位置编码
|
||||||
|
→ [多头自注意力 → 残差+归一化 → FFN → 残差+归一化] × N 层
|
||||||
|
→ 输出
|
||||||
|
```
|
||||||
|
|
||||||
|
- **Encoder**:理解输入(如 BERT)
|
||||||
|
- **Decoder**:生成输出(如 GPT)
|
||||||
|
- **Encoder-Decoder**:翻译等任务(如原始 Transformer)
|
||||||
|
|
||||||
|
## 衍生模型
|
||||||
|
|
||||||
|
| 模型 | 架构 | 用途 |
|
||||||
|
|------|------|------|
|
||||||
|
| BERT | Encoder-only | 理解/分类 |
|
||||||
|
| GPT 系列 | Decoder-only | 生成/对话 |
|
||||||
|
| T5 | Encoder-Decoder | 翻译/摘要 |
|
||||||
|
| Claude / Llama / Qwen | Decoder-only | 通用对话 |
|
||||||
|
|
||||||
|
## 为什么 Transformer 赢了?
|
||||||
|
|
||||||
|
| 特性 | 优势 |
|
||||||
|
|------|------|
|
||||||
|
| 并行计算 | 可以充分利用 GPU,训练效率高 |
|
||||||
|
| 长距离依赖 | 不受序列长度限制(理论上) |
|
||||||
|
| 可扩展性 | 随参数量/数据量/算力量持续提升 |
|
||||||
|
| 通用性 | 同一架构可用于 NLP、视觉、多模态 |
|
||||||
|
|
||||||
|
## 局限性
|
||||||
|
|
||||||
|
- 注意力复杂度是 O(n²),长序列成本高
|
||||||
|
- 位置编码方案仍在演进(RoPE、ALiBi 等)
|
||||||
|
- 缺乏真正的推理能力(只是模式匹配)
|
||||||
|
|
||||||
|
## 相关概念
|
||||||
|
|
||||||
|
- [[神经网络]](Transformer 的基础)
|
||||||
|
- [[RAG]](基于 Transformer 的 LLM 应用架构)
|
||||||
|
- [[监督学习]] / [[无监督学习]](训练范式)
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
|
*整理自 AI 基础知识*
|
||||||
Reference in New Issue
Block a user