Computer Use

相关：测试策略金字塔、Browser_Use、Playwright、MCP

定义

Computer Use是Anthropic推出的OS级视觉操作方案，让AI可以操作任何桌面应用。

核心思想：AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 → 沙箱执行。

核心特征

1. OS级通用

可以操作任何应用
不限于浏览器
桌面级操作

2. 视觉理解

基于截图识别元素
输出坐标和按键
强大的视觉理解能力

3. 沙箱执行

在沙箱环境中执行
安全性高
可控制

原理

AI截取屏幕截图
  ↓
视觉识别元素
  ↓
输出坐标/按键操作
  ↓
沙箱执行
  ↓
返回结果

与其他方案对比

维度	Computer Use	Playwright MCP	Chrome DevTools MCP	Browser Use
原理	AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作	通过Playwright访问浏览器Accessibility Tree	通过Chrome DevTools Protocol直接与浏览器引擎通信	Python框架 + Playwright，AI自主决策循环
抽象层	截图 + 坐标 OS级视觉理解	Accessibility Tree 结构化DOM快照	CDP Protocol DevTools协议原生	DOM + 截图视觉 + 结构化混合
速度	慢 0.8-2s/步	快 ~0.9s/步	中 ~1.2s/步	中 ~1.5s/步
Token消耗	高截图编码开销大	高截图+结构全传	中按需取数据	极低 CLI模式 ~75 tok/步
JS重页面	高 — 视觉理解	中 — DOM可读	中 — CDP可取	中 — 视觉兜底
跨应用操作	全桌面	仅浏览器	仅浏览器	仅浏览器

使用示例

基本使用

from anthropic import Anthropic

client = Anthropic()

response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    tools=[{
        "type": "computer_20241022",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
    }],
    messages=[{
        "role": "user",
        "content": "Open Chrome and go to google.com"
    }]
)

适用场景

桌面应用自动化：操作任何桌面应用
需要跨应用操作：多个应用协同
复杂视觉场景：需要视觉理解
无法使用API的场景：没有API的应用

优势

可以操作任何应用：不限于浏览器
可以处理复杂的视觉场景：视觉理解能力强
OS级通用：桌面级操作

挑战

速度慢：0.8-2s/步
Token消耗高：截图编码开销大
依赖视觉识别准确性：可能误识别
成本高：Token消耗大

最佳实践

需要跨应用选Computer Use：OS级通用
复杂视觉场景选Computer Use：视觉理解能力强
成本敏感不选Computer Use：Token消耗高
速度要求高不选Computer Use：速度慢

方案选择指南

场景	推荐方案	理由
E2E测试	Playwright MCP	速度快，结构化信息丰富
性能分析	Chrome DevTools MCP	可以监控网络和性能
网页自动化	Browser Use	Token消耗低，AI自主决策
桌面应用	Computer Use	可以操作任何应用
Token成本敏感	Browser Use	极低Token消耗
复杂视觉场景	Computer Use	视觉理解能力强

3.6 KiB Executable File Raw Permalink Blame History Unescape Escape

Computer Use

定义

核心特征

1. OS级通用

2. 视觉理解

3. 沙箱执行

原理

与其他方案对比

使用示例

基本使用

适用场景

优势

挑战

最佳实践

方案选择指南

相关概念

3.6 KiB

Executable File

Raw Permalink Blame History