# Computer Use > 相关:[[测试策略金字塔]]、[[Browser_Use]]、[[Playwright]]、[[MCP]] ## 定义 **Computer Use**是Anthropic推出的OS级视觉操作方案,让AI可以操作任何桌面应用。 **核心思想**:AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 → 沙箱执行。 ## 核心特征 ### 1. OS级通用 - 可以操作任何应用 - 不限于浏览器 - 桌面级操作 ### 2. 视觉理解 - 基于截图识别元素 - 输出坐标和按键 - 强大的视觉理解能力 ### 3. 沙箱执行 - 在沙箱环境中执行 - 安全性高 - 可控制 ## 原理 ``` AI截取屏幕截图 ↓ 视觉识别元素 ↓ 输出坐标/按键操作 ↓ 沙箱执行 ↓ 返回结果 ``` ## 与其他方案对比 | 维度 | Computer Use | Playwright MCP | Chrome DevTools MCP | Browser Use | |------|--------------|----------------|---------------------|-------------| | 原理 | AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 | 通过Playwright访问浏览器Accessibility Tree | 通过Chrome DevTools Protocol直接与浏览器引擎通信 | Python框架 + Playwright,AI自主决策循环 | | 抽象层 | 截图 + 坐标 OS级视觉理解 | Accessibility Tree 结构化DOM快照 | CDP Protocol DevTools协议原生 | DOM + 截图 视觉 + 结构化混合 | | 速度 | 慢 0.8-2s/步 | 快 ~0.9s/步 | 中 ~1.2s/步 | 中 ~1.5s/步 | | Token消耗 | 高 截图编码开销大 | 高 截图+结构全传 | 中 按需取数据 | 极低 CLI模式 ~75 tok/步 | | JS重页面 | 高 — 视觉理解 | 中 — DOM可读 | 中 — CDP可取 | 中 — 视觉兜底 | | 跨应用操作 | 全桌面 | 仅浏览器 | 仅浏览器 | 仅浏览器 | ## 使用示例 ### 基本使用 ```python from anthropic import Anthropic client = Anthropic() response = client.messages.create( model="claude-3-5-sonnet-20241022", max_tokens=1024, tools=[{ "type": "computer_20241022", "name": "computer", "display_width_px": 1024, "display_height_px": 768, }], messages=[{ "role": "user", "content": "Open Chrome and go to google.com" }] ) ``` ## 适用场景 - **桌面应用自动化**:操作任何桌面应用 - **需要跨应用操作**:多个应用协同 - **复杂视觉场景**:需要视觉理解 - **无法使用API的场景**:没有API的应用 ## 优势 - **可以操作任何应用**:不限于浏览器 - **可以处理复杂的视觉场景**:视觉理解能力强 - **OS级通用**:桌面级操作 ## 挑战 - **速度慢**:0.8-2s/步 - **Token消耗高**:截图编码开销大 - **依赖视觉识别准确性**:可能误识别 - **成本高**:Token消耗大 ## 最佳实践 1. **需要跨应用选Computer Use**:OS级通用 2. **复杂视觉场景选Computer Use**:视觉理解能力强 3. **成本敏感不选Computer Use**:Token消耗高 4. **速度要求高不选Computer Use**:速度慢 ## 方案选择指南 | 场景 | 推荐方案 | 理由 | |------|---------|------| | E2E测试 | Playwright MCP | 速度快,结构化信息丰富 | | 性能分析 | Chrome DevTools MCP | 可以监控网络和性能 | | 网页自动化 | Browser Use | Token消耗低,AI自主决策 | | 桌面应用 | Computer Use | 可以操作任何应用 | | Token成本敏感 | Browser Use | 极低Token消耗 | | 复杂视觉场景 | Computer Use | 视觉理解能力强 | ## 相关概念 - [[测试策略金字塔]]:Computer Use是测试的工具 - [[Browser_Use]]:Computer Use和Browser Use的对比 - [[Playwright]]:Computer Use和Playwright的对比 - [[MCP]]:Computer Use和MCP的对比