Update from Sync Service

2026-06-22 11:30:51 +08:00
parent eb80b7a8c1
commit 682e3e52df
52 changed files with 10099 additions and 191 deletions
--- a/AI工程/概念/Computer_Use.md
+++ b/AI工程/概念/Computer_Use.md
@@ -0,0 +1,120 @@
+# Computer Use
+
+> 相关：[[测试策略金字塔]]、[[Browser_Use]]、[[Playwright]]、[[MCP]]
+
+## 定义
+
+**Computer Use**是Anthropic推出的OS级视觉操作方案，让AI可以操作任何桌面应用。
+
+**核心思想**：AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 → 沙箱执行。
+
+## 核心特征
+
+### 1. OS级通用
+- 可以操作任何应用
+- 不限于浏览器
+- 桌面级操作
+
+### 2. 视觉理解
+- 基于截图识别元素
+- 输出坐标和按键
+- 强大的视觉理解能力
+
+### 3. 沙箱执行
+- 在沙箱环境中执行
+- 安全性高
+- 可控制
+
+## 原理
+
+```
+AI截取屏幕截图
+  ↓
+视觉识别元素
+  ↓
+输出坐标/按键操作
+  ↓
+沙箱执行
+  ↓
+返回结果
+```
+
+## 与其他方案对比
+
+| 维度 | Computer Use | Playwright MCP | Chrome DevTools MCP | Browser Use |
+|------|--------------|----------------|---------------------|-------------|
+| 原理 | AI截取屏幕截图 → 视觉识别元素 → 输出坐标/按键操作 | 通过Playwright访问浏览器Accessibility Tree | 通过Chrome DevTools Protocol直接与浏览器引擎通信 | Python框架 + Playwright，AI自主决策循环 |
+| 抽象层 | 截图 + 坐标 OS级视觉理解 | Accessibility Tree 结构化DOM快照 | CDP Protocol DevTools协议原生 | DOM + 截图 视觉 + 结构化混合 |
+| 速度 | 慢 0.8-2s/步 | 快 ~0.9s/步 | 中 ~1.2s/步 | 中 ~1.5s/步 |
+| Token消耗 | 高 截图编码开销大 | 高 截图+结构全传 | 中 按需取数据 | 极低 CLI模式 ~75 tok/步 |
+| JS重页面 | 高 — 视觉理解 | 中 — DOM可读 | 中 — CDP可取 | 中 — 视觉兜底 |
+| 跨应用操作 | 全桌面 | 仅浏览器 | 仅浏览器 | 仅浏览器 |
+
+## 使用示例
+
+### 基本使用
+```python
+from anthropic import Anthropic
+
+client = Anthropic()
+
+response = client.messages.create(
+    model="claude-3-5-sonnet-20241022",
+    max_tokens=1024,
+    tools=[{
+        "type": "computer_20241022",
+        "name": "computer",
+        "display_width_px": 1024,
+        "display_height_px": 768,
+    }],
+    messages=[{
+        "role": "user",
+        "content": "Open Chrome and go to google.com"
+    }]
+)
+```
+
+## 适用场景
+
+- **桌面应用自动化**：操作任何桌面应用
+- **需要跨应用操作**：多个应用协同
+- **复杂视觉场景**：需要视觉理解
+- **无法使用API的场景**：没有API的应用
+
+## 优势
+
+- **可以操作任何应用**：不限于浏览器
+- **可以处理复杂的视觉场景**：视觉理解能力强
+- **OS级通用**：桌面级操作
+
+## 挑战
+
+- **速度慢**：0.8-2s/步
+- **Token消耗高**：截图编码开销大
+- **依赖视觉识别准确性**：可能误识别
+- **成本高**：Token消耗大
+
+## 最佳实践
+
+1. **需要跨应用选Computer Use**：OS级通用
+2. **复杂视觉场景选Computer Use**：视觉理解能力强
+3. **成本敏感不选Computer Use**：Token消耗高
+4. **速度要求高不选Computer Use**：速度慢
+
+## 方案选择指南
+
+| 场景 | 推荐方案 | 理由 |
+|------|---------|------|
+| E2E测试 | Playwright MCP | 速度快，结构化信息丰富 |
+| 性能分析 | Chrome DevTools MCP | 可以监控网络和性能 |
+| 网页自动化 | Browser Use | Token消耗低，AI自主决策 |
+| 桌面应用 | Computer Use | 可以操作任何应用 |
+| Token成本敏感 | Browser Use | 极低Token消耗 |
+| 复杂视觉场景 | Computer Use | 视觉理解能力强 |
+
+## 相关概念
+
+- [[测试策略金字塔]]：Computer Use是测试的工具
+- [[Browser_Use]]：Computer Use和Browser Use的对比
+- [[Playwright]]：Computer Use和Playwright的对比
+- [[MCP]]：Computer Use和MCP的对比