From bcdfc6d5d40dc12b144d28a97626e41d420c08f7 Mon Sep 17 00:00:00 2001 From: FNS Service Date: Tue, 5 May 2026 18:22:25 +0800 Subject: [PATCH] Update from Sync Service --- .../AI工程/AIAgent浏览器与数据采集工具调研.md | 97 +++++++++++++++++++ 1 file changed, 97 insertions(+) create mode 100755 wiki/AI工程/AIAgent浏览器与数据采集工具调研.md diff --git a/wiki/AI工程/AIAgent浏览器与数据采集工具调研.md b/wiki/AI工程/AIAgent浏览器与数据采集工具调研.md new file mode 100755 index 0000000..340d486 --- /dev/null +++ b/wiki/AI工程/AIAgent浏览器与数据采集工具调研.md @@ -0,0 +1,97 @@ +# AI Agent 浏览器与数据采集工具调研 + +> 来源: https://mp.weixin.qq.com/s/opVr-6roUTCD5BSBcx4Zag +> 研究日期: 2026-05-05 + +## 文章概要 + +独立开发者 @GoSailGlobal 调研了市面上 18 款主流 AI Agent 浏览器和数据采集工具,按功能与技术路线分为**五大派系**。 + +## 五大派系分类 + +| 派系 | 定位 | 代表工具 | +|------|------|----------| +| **王者派** | 高星标、成熟稳定 | browser-use, MediaCrawler, Scrapling, playwright-mcp | +| **Rust 主权派** | 速度 + 本地控制 | agent-browser, obscura, AutoCLI | +| **MCP 协议派** | IDE 深度集成 | mcp-chrome, browser-tools-mcp, firecrawl-mcp | +| **CLI Hub 派** | 网站转 CLI,复用登录态 | OpenCLI, AutoCLI, feedgrab | +| **极简备胎** | 零安装、临时使用 | r.jina.ai | + +## 核心选型建议 + +| 场景 | 推荐工具 | +|------|----------| +| 临时抓取单 URL 转 Markdown | r.jina.ai | +| 完整自动化任务 | browser-use | +| 复用 Chrome 已登录状态 | mcp-chrome / AutoCLI | +| 国内社媒爬取 | MediaCrawler + feedgrab | +| 多平台社媒采集 | agent-reach + MediaCrawler + feedgrab | +| IDE 内嵌 | playwright-mcp | +| 追求极致速度 | agent-browser(Rust) | + +## 重点工具详解 + +### 王者派(高成熟度首选) + +| 工具 | 说明 | +|------|------| +| **browser-use** | AI Agent 浏览器自动化框架,支持多种 LLM,处理表单/购物/研究 | +| **MediaCrawler** | 国内自媒体爬虫之王,支持小红书/抖音/快手/B站/微博/知乎 | +| **Scrapling** | 自适应网页抓取,擅长反反爬(Cloudflare 等) | +| **playwright-mcp** | Microsoft 出品,MCP 协议浏览器自动化,适合 IDE 内 Agent | +| **agent-reach** | 多平台采集器(Twitter/Reddit/YouTube/GitHub/B 站/小红书),CLI 驱动 | +| **OpenCLI** | 将网站/工具转为 CLI,复用登录态,近期关注暴涨 | + +### Rust 主权派(速度与控制优先) + +| 工具 | 说明 | +|------|------| +| **agent-browser** | Vercel 出品,Rust 实现,高效 headless browser | +| **obscura** | 专为 AI 设计的 Rust headless 浏览器 | +| **AutoCLI** | 复用 Chrome 登录态,支持 55+ 站点,单文件二进制 | + +### MCP 协议派(IDE 深度集成) + +| 工具 | 说明 | +|------|------| +| **mcp-chrome** | 10.7K ⭐,直接操作已登录的 Chrome | +| **browser-tools-mcp** | 7.1K ⭐,看 console | +| **firecrawl-mcp** | 6.2K ⭐,来自 firecrawl 官方 | +| **dev-browser** | 6K ⭐,Claude Skill | +| **browserbase/skills** | 2K ⭐,带网页浏览工具的 Claude Agent SDK | + +### CLI Hub + 极简备胎 + +| 工具 | 说明 | +|------|------| +| **OpenCLI** | 18.7K ⭐,关注数暴涨 | +| **AutoCLI** | 2.5K ⭐,速度极快,内存安全 | +| **feedgrab** | 337 ⭐,中文友好,多平台内容抓取 | +| **jina** | r.jina.ai/URL,零安装转 Markdown | + +## 工具优点共性 + +- ✅ 大多开源免费 +- ✅ 支持登录态复用,绕过部分反爬 +- ✅ 转向 Markdown/结构化输出,适合 LLM 处理 +- ✅ MCP/CLI 趋势明显,提升 Agent 集成度 + +## 潜在挑战 + +- ⚠️ 反爬与合规风险 +- ⚠️ 网站 UI 频繁变化,需定期维护 +- ⚠️ 本地运行需处理代理/环境问题 +- ⚠️ 复杂任务可能需付费云浏览器 + +## 选型框架 + +1. **明确需求**:临时阅读 → r.jina.ai;国内社媒 → MediaCrawler;复杂交互 → browser-use +2. **优先本地/开源**:控制成本与隐私 +3. **组合使用**:agent-reach 多平台采集 + browser-use 自动化 + r.jina.ai 后备 + +## 与我们的关联 + +- **OpenClaw 浏览器工具**:已有 playwright 集成,可考虑引入 MCP 协议支持 +- **MediaCrawler**:可用于社交媒体数据采集(需合规) +- **r.jina.ai**:可作为网页内容提取的备用方案 +- **AutoCLI/OpenCLI**:适合 CLI 驱动的数据采集工作流