Files
chill_notes/wiki/Resources/方法论/无监督学习.md
2026-04-28 09:33:03 +08:00

65 lines
1.9 KiB
Markdown
Executable File
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
created: 2026-04-28
type: concept
tags: [无监督学习机器学习AI]
---
# 无监督学习Unsupervised Learning
> 从未标注数据中发现隐藏结构和模式
## 定义
无监督学习是机器学习的一种范式,模型在**没有标注答案**的情况下,自行发现数据中的结构、模式或分布规律。
## 核心思想
```
输入数据:{x₁, x₂, ..., xₙ}(没有对应的 y
目标:发现数据的内在结构
```
## 主要任务
| 任务 | 说明 | 示例 |
|------|------|------|
| **聚类Clustering** | 将数据分为相似组 | 客户分群、异常检测 |
| **降维Dimensionality Reduction** | 减少特征数量 | 数据可视化t-SNE、PCA |
| **密度估计** | 学习数据分布 | 异常值检测 |
| **生成Generation** | 学习数据分布并生成新样本 | GAN、VAE、扩散模型 |
## 常见算法
| 算法 | 说明 |
|------|------|
| K-Means | 最经典的聚类算法 |
| DBSCAN | 基于密度的聚类 |
| PCA | 主成分分析,线性降维 |
| t-SNE / UMAP | 非线性降维,可视化 |
| GAN / 扩散模型 | 生成式模型 |
| 自监督学习 | 无监督的表征学习(现代 LLM 预训练的基础) |
## 与监督学习的对比
| [[监督学习]] | 无监督学习 |
|---------|-----------|
| 需要标注数据 | 不需要标注 |
| 目标明确 | 目标开放 |
| 容易评估 | 评估较主观 |
| 分类、回归 | 聚类、降维、生成 |
## 现代 AI 中的应用
- **LLM 预训练**:本质上是通过"预测下一个词"进行自监督学习(无标注数据)
- **Embedding 模型**:无监督学习语义表示
- **知识图谱构建**:从非结构化数据中发现实体和关系
## 相关概念
- [[监督学习]](另一种学习范式)
- [[神经网络]](无监督学习的工具)
- [[知识图谱]](可从无监督学习中构建)
---
*整理自 AI 基础知识*