Files
chill_notes/AI工程/概念/Computer_Use.md
2026-06-22 11:30:51 +08:00

121 lines
3.6 KiB
Markdown
Executable File
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Computer Use
> 相关:[[测试策略金字塔]]、[[Browser_Use]]、[[Playwright]]、[[MCP]]
## 定义
**Computer Use**是Anthropic推出的OS级视觉操作方案让AI可以操作任何桌面应用。
**核心思想**AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 → 沙箱执行。
## 核心特征
### 1. OS级通用
- 可以操作任何应用
- 不限于浏览器
- 桌面级操作
### 2. 视觉理解
- 基于截图识别元素
- 输出坐标和按键
- 强大的视觉理解能力
### 3. 沙箱执行
- 在沙箱环境中执行
- 安全性高
- 可控制
## 原理
```
AI截取屏幕截图
视觉识别元素
输出坐标/按键操作
沙箱执行
返回结果
```
## 与其他方案对比
| 维度 | Computer Use | Playwright MCP | Chrome DevTools MCP | Browser Use |
|------|--------------|----------------|---------------------|-------------|
| 原理 | AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 | 通过Playwright访问浏览器Accessibility Tree | 通过Chrome DevTools Protocol直接与浏览器引擎通信 | Python框架 + PlaywrightAI自主决策循环 |
| 抽象层 | 截图 + 坐标 OS级视觉理解 | Accessibility Tree 结构化DOM快照 | CDP Protocol DevTools协议原生 | DOM + 截图 视觉 + 结构化混合 |
| 速度 | 慢 0.8-2s/步 | 快 ~0.9s/步 | 中 ~1.2s/步 | 中 ~1.5s/步 |
| Token消耗 | 高 截图编码开销大 | 高 截图+结构全传 | 中 按需取数据 | 极低 CLI模式 ~75 tok/步 |
| JS重页面 | 高 — 视觉理解 | 中 — DOM可读 | 中 — CDP可取 | 中 — 视觉兜底 |
| 跨应用操作 | 全桌面 | 仅浏览器 | 仅浏览器 | 仅浏览器 |
## 使用示例
### 基本使用
```python
from anthropic import Anthropic
client = Anthropic()
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
tools=[{
"type": "computer_20241022",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
}],
messages=[{
"role": "user",
"content": "Open Chrome and go to google.com"
}]
)
```
## 适用场景
- **桌面应用自动化**:操作任何桌面应用
- **需要跨应用操作**:多个应用协同
- **复杂视觉场景**:需要视觉理解
- **无法使用API的场景**没有API的应用
## 优势
- **可以操作任何应用**:不限于浏览器
- **可以处理复杂的视觉场景**:视觉理解能力强
- **OS级通用**:桌面级操作
## 挑战
- **速度慢**0.8-2s/步
- **Token消耗高**:截图编码开销大
- **依赖视觉识别准确性**:可能误识别
- **成本高**Token消耗大
## 最佳实践
1. **需要跨应用选Computer Use**OS级通用
2. **复杂视觉场景选Computer Use**:视觉理解能力强
3. **成本敏感不选Computer Use**Token消耗高
4. **速度要求高不选Computer Use**:速度慢
## 方案选择指南
| 场景 | 推荐方案 | 理由 |
|------|---------|------|
| E2E测试 | Playwright MCP | 速度快,结构化信息丰富 |
| 性能分析 | Chrome DevTools MCP | 可以监控网络和性能 |
| 网页自动化 | Browser Use | Token消耗低AI自主决策 |
| 桌面应用 | Computer Use | 可以操作任何应用 |
| Token成本敏感 | Browser Use | 极低Token消耗 |
| 复杂视觉场景 | Computer Use | 视觉理解能力强 |
## 相关概念
- [[测试策略金字塔]]Computer Use是测试的工具
- [[Browser_Use]]Computer Use和Browser Use的对比
- [[Playwright]]Computer Use和Playwright的对比
- [[MCP]]Computer Use和MCP的对比