Files
chill_notes/AI工程/概念/Computer_Use.md
2026-06-22 11:30:51 +08:00

3.6 KiB
Executable File
Raw Permalink Blame History

Computer Use

相关:测试策略金字塔Browser_UsePlaywrightMCP

定义

Computer Use是Anthropic推出的OS级视觉操作方案让AI可以操作任何桌面应用。

核心思想AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 → 沙箱执行。

核心特征

1. OS级通用

  • 可以操作任何应用
  • 不限于浏览器
  • 桌面级操作

2. 视觉理解

  • 基于截图识别元素
  • 输出坐标和按键
  • 强大的视觉理解能力

3. 沙箱执行

  • 在沙箱环境中执行
  • 安全性高
  • 可控制

原理

AI截取屏幕截图
  ↓
视觉识别元素
  ↓
输出坐标/按键操作
  ↓
沙箱执行
  ↓
返回结果

与其他方案对比

维度 Computer Use Playwright MCP Chrome DevTools MCP Browser Use
原理 AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 通过Playwright访问浏览器Accessibility Tree 通过Chrome DevTools Protocol直接与浏览器引擎通信 Python框架 + PlaywrightAI自主决策循环
抽象层 截图 + 坐标 OS级视觉理解 Accessibility Tree 结构化DOM快照 CDP Protocol DevTools协议原生 DOM + 截图 视觉 + 结构化混合
速度 慢 0.8-2s/步 快 ~0.9s/步 中 ~1.2s/步 中 ~1.5s/步
Token消耗 高 截图编码开销大 高 截图+结构全传 中 按需取数据 极低 CLI模式 ~75 tok/步
JS重页面 高 — 视觉理解 中 — DOM可读 中 — CDP可取 中 — 视觉兜底
跨应用操作 全桌面 仅浏览器 仅浏览器 仅浏览器

使用示例

基本使用

from anthropic import Anthropic

client = Anthropic()

response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[{
        "type": "computer_20241022",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
    }],
    messages=[{
        "role": "user",
        "content": "Open Chrome and go to google.com"
    }]
)

适用场景

  • 桌面应用自动化:操作任何桌面应用
  • 需要跨应用操作:多个应用协同
  • 复杂视觉场景:需要视觉理解
  • 无法使用API的场景没有API的应用

优势

  • 可以操作任何应用:不限于浏览器
  • 可以处理复杂的视觉场景:视觉理解能力强
  • OS级通用:桌面级操作

挑战

  • 速度慢0.8-2s/步
  • Token消耗高:截图编码开销大
  • 依赖视觉识别准确性:可能误识别
  • 成本高Token消耗大

最佳实践

  1. 需要跨应用选Computer UseOS级通用
  2. 复杂视觉场景选Computer Use:视觉理解能力强
  3. 成本敏感不选Computer UseToken消耗高
  4. 速度要求高不选Computer Use:速度慢

方案选择指南

场景 推荐方案 理由
E2E测试 Playwright MCP 速度快,结构化信息丰富
性能分析 Chrome DevTools MCP 可以监控网络和性能
网页自动化 Browser Use Token消耗低AI自主决策
桌面应用 Computer Use 可以操作任何应用
Token成本敏感 Browser Use 极低Token消耗
复杂视觉场景 Computer Use 视觉理解能力强

相关概念