chill_notes/wiki/Resources/方法论/无监督学习.md

---
created: 2026-04-28
type: concept
tags: [无监督学习，机器学习，AI]
---

# 无监督学习（Unsupervised Learning）

> 从未标注数据中发现隐藏结构和模式

## 定义

无监督学习是机器学习的一种范式，模型在**没有标注答案**的情况下，自行发现数据中的结构、模式或分布规律。

## 核心思想

```
输入数据：{x₁, x₂, ..., xₙ}（没有对应的 y）
目标：发现数据的内在结构
```

## 主要任务

| 任务 | 说明 | 示例 |
|------|------|------|
| **聚类（Clustering）** | 将数据分为相似组 | 客户分群、异常检测 |
| **降维（Dimensionality Reduction）** | 减少特征数量 | 数据可视化（t-SNE、PCA） |
| **密度估计** | 学习数据分布 | 异常值检测 |
| **生成（Generation）** | 学习数据分布并生成新样本 | GAN、VAE、扩散模型 |

## 常见算法

| 算法 | 说明 |
|------|------|
| K-Means | 最经典的聚类算法 |
| DBSCAN | 基于密度的聚类 |
| PCA | 主成分分析，线性降维 |
| t-SNE / UMAP | 非线性降维，可视化 |
| GAN / 扩散模型 | 生成式模型 |
| 自监督学习 | 无监督的表征学习（现代 LLM 预训练的基础） |

## 与监督学习的对比

| [[监督学习]] | 无监督学习 |
|---------|-----------|
| 需要标注数据 | 不需要标注 |
| 目标明确 | 目标开放 |
| 容易评估 | 评估较主观 |
| 分类、回归 | 聚类、降维、生成 |

## 现代 AI 中的应用

- **LLM 预训练**：本质上是通过"预测下一个词"进行自监督学习（无标注数据）
- **Embedding 模型**：无监督学习语义表示
- **知识图谱构建**：从非结构化数据中发现实体和关系

## 相关概念

- [[监督学习]]（另一种学习范式）
- [[神经网络]]（无监督学习的工具）
- [[知识图谱]]（可从无监督学习中构建）

---

*整理自 AI 基础知识*