Files
chill_notes/wiki/AI工程/AIAgent浏览器与数据采集工具调研.md
2026-05-05 18:22:25 +08:00

3.8 KiB
Executable File
Raw Permalink Blame History

AI Agent 浏览器与数据采集工具调研

来源: https://mp.weixin.qq.com/s/opVr-6roUTCD5BSBcx4Zag 研究日期: 2026-05-05

文章概要

独立开发者 @GoSailGlobal 调研了市面上 18 款主流 AI Agent 浏览器和数据采集工具,按功能与技术路线分为五大派系

五大派系分类

派系 定位 代表工具
王者派 高星标、成熟稳定 browser-use, MediaCrawler, Scrapling, playwright-mcp
Rust 主权派 速度 + 本地控制 agent-browser, obscura, AutoCLI
MCP 协议派 IDE 深度集成 mcp-chrome, browser-tools-mcp, firecrawl-mcp
CLI Hub 派 网站转 CLI复用登录态 OpenCLI, AutoCLI, feedgrab
极简备胎 零安装、临时使用 r.jina.ai

核心选型建议

场景 推荐工具
临时抓取单 URL 转 Markdown r.jina.ai
完整自动化任务 browser-use
复用 Chrome 已登录状态 mcp-chrome / AutoCLI
国内社媒爬取 MediaCrawler + feedgrab
多平台社媒采集 agent-reach + MediaCrawler + feedgrab
IDE 内嵌 playwright-mcp
追求极致速度 agent-browserRust

重点工具详解

王者派(高成熟度首选)

工具 说明
browser-use AI Agent 浏览器自动化框架,支持多种 LLM处理表单/购物/研究
MediaCrawler 国内自媒体爬虫之王,支持小红书/抖音/快手/B站/微博/知乎
Scrapling 自适应网页抓取擅长反反爬Cloudflare 等)
playwright-mcp Microsoft 出品MCP 协议浏览器自动化,适合 IDE 内 Agent
agent-reach 多平台采集器Twitter/Reddit/YouTube/GitHub/B 站/小红书CLI 驱动
OpenCLI 将网站/工具转为 CLI复用登录态近期关注暴涨

Rust 主权派(速度与控制优先)

工具 说明
agent-browser Vercel 出品Rust 实现,高效 headless browser
obscura 专为 AI 设计的 Rust headless 浏览器
AutoCLI 复用 Chrome 登录态,支持 55+ 站点,单文件二进制

MCP 协议派IDE 深度集成)

工具 说明
mcp-chrome 10.7K ,直接操作已登录的 Chrome
browser-tools-mcp 7.1K ,看 console
firecrawl-mcp 6.2K ,来自 firecrawl 官方
dev-browser 6K Claude Skill
browserbase/skills 2K ,带网页浏览工具的 Claude Agent SDK

CLI Hub + 极简备胎

工具 说明
OpenCLI 18.7K ,关注数暴涨
AutoCLI 2.5K ,速度极快,内存安全
feedgrab 337 ,中文友好,多平台内容抓取
jina r.jina.ai/URL零安装转 Markdown

工具优点共性

  • 大多开源免费
  • 支持登录态复用,绕过部分反爬
  • 转向 Markdown/结构化输出,适合 LLM 处理
  • MCP/CLI 趋势明显,提升 Agent 集成度

潜在挑战

  • ⚠️ 反爬与合规风险
  • ⚠️ 网站 UI 频繁变化,需定期维护
  • ⚠️ 本地运行需处理代理/环境问题
  • ⚠️ 复杂任务可能需付费云浏览器

选型框架

  1. 明确需求:临时阅读 → r.jina.ai国内社媒 → MediaCrawler复杂交互 → browser-use
  2. 优先本地/开源:控制成本与隐私
  3. 组合使用agent-reach 多平台采集 + browser-use 自动化 + r.jina.ai 后备

与我们的关联

  • OpenClaw 浏览器工具:已有 playwright 集成,可考虑引入 MCP 协议支持
  • MediaCrawler:可用于社交媒体数据采集(需合规)
  • r.jina.ai:可作为网页内容提取的备用方案
  • AutoCLI/OpenCLI:适合 CLI 驱动的数据采集工作流