Update from Sync Service
This commit is contained in:
120
AI工程/概念/Computer_Use.md
Executable file
120
AI工程/概念/Computer_Use.md
Executable file
@@ -0,0 +1,120 @@
|
||||
# Computer Use
|
||||
|
||||
> 相关:[[测试策略金字塔]]、[[Browser_Use]]、[[Playwright]]、[[MCP]]
|
||||
|
||||
## 定义
|
||||
|
||||
**Computer Use**是Anthropic推出的OS级视觉操作方案,让AI可以操作任何桌面应用。
|
||||
|
||||
**核心思想**:AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 → 沙箱执行。
|
||||
|
||||
## 核心特征
|
||||
|
||||
### 1. OS级通用
|
||||
- 可以操作任何应用
|
||||
- 不限于浏览器
|
||||
- 桌面级操作
|
||||
|
||||
### 2. 视觉理解
|
||||
- 基于截图识别元素
|
||||
- 输出坐标和按键
|
||||
- 强大的视觉理解能力
|
||||
|
||||
### 3. 沙箱执行
|
||||
- 在沙箱环境中执行
|
||||
- 安全性高
|
||||
- 可控制
|
||||
|
||||
## 原理
|
||||
|
||||
```
|
||||
AI截取屏幕截图
|
||||
↓
|
||||
视觉识别元素
|
||||
↓
|
||||
输出坐标/按键操作
|
||||
↓
|
||||
沙箱执行
|
||||
↓
|
||||
返回结果
|
||||
```
|
||||
|
||||
## 与其他方案对比
|
||||
|
||||
| 维度 | Computer Use | Playwright MCP | Chrome DevTools MCP | Browser Use |
|
||||
|------|--------------|----------------|---------------------|-------------|
|
||||
| 原理 | AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 | 通过Playwright访问浏览器Accessibility Tree | 通过Chrome DevTools Protocol直接与浏览器引擎通信 | Python框架 + Playwright,AI自主决策循环 |
|
||||
| 抽象层 | 截图 + 坐标 OS级视觉理解 | Accessibility Tree 结构化DOM快照 | CDP Protocol DevTools协议原生 | DOM + 截图 视觉 + 结构化混合 |
|
||||
| 速度 | 慢 0.8-2s/步 | 快 ~0.9s/步 | 中 ~1.2s/步 | 中 ~1.5s/步 |
|
||||
| Token消耗 | 高 截图编码开销大 | 高 截图+结构全传 | 中 按需取数据 | 极低 CLI模式 ~75 tok/步 |
|
||||
| JS重页面 | 高 — 视觉理解 | 中 — DOM可读 | 中 — CDP可取 | 中 — 视觉兜底 |
|
||||
| 跨应用操作 | 全桌面 | 仅浏览器 | 仅浏览器 | 仅浏览器 |
|
||||
|
||||
## 使用示例
|
||||
|
||||
### 基本使用
|
||||
```python
|
||||
from anthropic import Anthropic
|
||||
|
||||
client = Anthropic()
|
||||
|
||||
response = client.messages.create(
|
||||
model="claude-3-5-sonnet-20241022",
|
||||
max_tokens=1024,
|
||||
tools=[{
|
||||
"type": "computer_20241022",
|
||||
"name": "computer",
|
||||
"display_width_px": 1024,
|
||||
"display_height_px": 768,
|
||||
}],
|
||||
messages=[{
|
||||
"role": "user",
|
||||
"content": "Open Chrome and go to google.com"
|
||||
}]
|
||||
)
|
||||
```
|
||||
|
||||
## 适用场景
|
||||
|
||||
- **桌面应用自动化**:操作任何桌面应用
|
||||
- **需要跨应用操作**:多个应用协同
|
||||
- **复杂视觉场景**:需要视觉理解
|
||||
- **无法使用API的场景**:没有API的应用
|
||||
|
||||
## 优势
|
||||
|
||||
- **可以操作任何应用**:不限于浏览器
|
||||
- **可以处理复杂的视觉场景**:视觉理解能力强
|
||||
- **OS级通用**:桌面级操作
|
||||
|
||||
## 挑战
|
||||
|
||||
- **速度慢**:0.8-2s/步
|
||||
- **Token消耗高**:截图编码开销大
|
||||
- **依赖视觉识别准确性**:可能误识别
|
||||
- **成本高**:Token消耗大
|
||||
|
||||
## 最佳实践
|
||||
|
||||
1. **需要跨应用选Computer Use**:OS级通用
|
||||
2. **复杂视觉场景选Computer Use**:视觉理解能力强
|
||||
3. **成本敏感不选Computer Use**:Token消耗高
|
||||
4. **速度要求高不选Computer Use**:速度慢
|
||||
|
||||
## 方案选择指南
|
||||
|
||||
| 场景 | 推荐方案 | 理由 |
|
||||
|------|---------|------|
|
||||
| E2E测试 | Playwright MCP | 速度快,结构化信息丰富 |
|
||||
| 性能分析 | Chrome DevTools MCP | 可以监控网络和性能 |
|
||||
| 网页自动化 | Browser Use | Token消耗低,AI自主决策 |
|
||||
| 桌面应用 | Computer Use | 可以操作任何应用 |
|
||||
| Token成本敏感 | Browser Use | 极低Token消耗 |
|
||||
| 复杂视觉场景 | Computer Use | 视觉理解能力强 |
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[测试策略金字塔]]:Computer Use是测试的工具
|
||||
- [[Browser_Use]]:Computer Use和Browser Use的对比
|
||||
- [[Playwright]]:Computer Use和Playwright的对比
|
||||
- [[MCP]]:Computer Use和MCP的对比
|
||||
Reference in New Issue
Block a user