3.8 KiB
Executable File
3.8 KiB
Executable File
AI Agent 浏览器与数据采集工具调研
来源: https://mp.weixin.qq.com/s/opVr-6roUTCD5BSBcx4Zag 研究日期: 2026-05-05
文章概要
独立开发者 @GoSailGlobal 调研了市面上 18 款主流 AI Agent 浏览器和数据采集工具,按功能与技术路线分为五大派系。
五大派系分类
| 派系 | 定位 | 代表工具 |
|---|---|---|
| 王者派 | 高星标、成熟稳定 | browser-use, MediaCrawler, Scrapling, playwright-mcp |
| Rust 主权派 | 速度 + 本地控制 | agent-browser, obscura, AutoCLI |
| MCP 协议派 | IDE 深度集成 | mcp-chrome, browser-tools-mcp, firecrawl-mcp |
| CLI Hub 派 | 网站转 CLI,复用登录态 | OpenCLI, AutoCLI, feedgrab |
| 极简备胎 | 零安装、临时使用 | r.jina.ai |
核心选型建议
| 场景 | 推荐工具 |
|---|---|
| 临时抓取单 URL 转 Markdown | r.jina.ai |
| 完整自动化任务 | browser-use |
| 复用 Chrome 已登录状态 | mcp-chrome / AutoCLI |
| 国内社媒爬取 | MediaCrawler + feedgrab |
| 多平台社媒采集 | agent-reach + MediaCrawler + feedgrab |
| IDE 内嵌 | playwright-mcp |
| 追求极致速度 | agent-browser(Rust) |
重点工具详解
王者派(高成熟度首选)
| 工具 | 说明 |
|---|---|
| browser-use | AI Agent 浏览器自动化框架,支持多种 LLM,处理表单/购物/研究 |
| MediaCrawler | 国内自媒体爬虫之王,支持小红书/抖音/快手/B站/微博/知乎 |
| Scrapling | 自适应网页抓取,擅长反反爬(Cloudflare 等) |
| playwright-mcp | Microsoft 出品,MCP 协议浏览器自动化,适合 IDE 内 Agent |
| agent-reach | 多平台采集器(Twitter/Reddit/YouTube/GitHub/B 站/小红书),CLI 驱动 |
| OpenCLI | 将网站/工具转为 CLI,复用登录态,近期关注暴涨 |
Rust 主权派(速度与控制优先)
| 工具 | 说明 |
|---|---|
| agent-browser | Vercel 出品,Rust 实现,高效 headless browser |
| obscura | 专为 AI 设计的 Rust headless 浏览器 |
| AutoCLI | 复用 Chrome 登录态,支持 55+ 站点,单文件二进制 |
MCP 协议派(IDE 深度集成)
| 工具 | 说明 |
|---|---|
| mcp-chrome | 10.7K ⭐,直接操作已登录的 Chrome |
| browser-tools-mcp | 7.1K ⭐,看 console |
| firecrawl-mcp | 6.2K ⭐,来自 firecrawl 官方 |
| dev-browser | 6K ⭐,Claude Skill |
| browserbase/skills | 2K ⭐,带网页浏览工具的 Claude Agent SDK |
CLI Hub + 极简备胎
| 工具 | 说明 |
|---|---|
| OpenCLI | 18.7K ⭐,关注数暴涨 |
| AutoCLI | 2.5K ⭐,速度极快,内存安全 |
| feedgrab | 337 ⭐,中文友好,多平台内容抓取 |
| jina | r.jina.ai/URL,零安装转 Markdown |
工具优点共性
- ✅ 大多开源免费
- ✅ 支持登录态复用,绕过部分反爬
- ✅ 转向 Markdown/结构化输出,适合 LLM 处理
- ✅ MCP/CLI 趋势明显,提升 Agent 集成度
潜在挑战
- ⚠️ 反爬与合规风险
- ⚠️ 网站 UI 频繁变化,需定期维护
- ⚠️ 本地运行需处理代理/环境问题
- ⚠️ 复杂任务可能需付费云浏览器
选型框架
- 明确需求:临时阅读 → r.jina.ai;国内社媒 → MediaCrawler;复杂交互 → browser-use
- 优先本地/开源:控制成本与隐私
- 组合使用:agent-reach 多平台采集 + browser-use 自动化 + r.jina.ai 后备
与我们的关联
- OpenClaw 浏览器工具:已有 playwright 集成,可考虑引入 MCP 协议支持
- MediaCrawler:可用于社交媒体数据采集(需合规)
- r.jina.ai:可作为网页内容提取的备用方案
- AutoCLI/OpenCLI:适合 CLI 驱动的数据采集工作流