chill/chill_notes

Fork 0

Files

FNS Service 8872f26237 Update from Sync Service

2026-04-21 10:49:07 +08:00

4.3 KiB

Executable File

Raw Blame History

title, tags, created, source

title

Harness Engineering

AI Agent = Model + Harness

"The model contains the intelligence and the harness is the system that makes that intelligence useful." — LangChain

核心定义

Harness = 除模型以外的一切——工具、指令、状态管理、验证机制、运行时基础设施

让模型输出从"不可靠"变成"可信赖"的工程体系。

各机构视角

机构	侧重点
LangChain	最宽泛：Harness = 一切非模型的技术层
Anthropic	环境脚手架 + 长任务连续性 + clean state 理念
OpenAI	代码仓库即知识系统，强调"零人工代码"自动化
Thoughtworks	赛博内廷（cybernetic governor），区分"构建者挽具"vs"用户挽具"
HumanLayer	Harness = Context Engineering 的子集，专注上下文窗口管理
Inngest	持久化事件驱动基础设施
学术界（CAR框架）	Control + Agency + Runtime 三元框架

五大大子系统（walkinglabs 综合框架）

1. Instructions（指令）

告诉 Agent 做什么、按什么顺序、读什么文件。采用渐进式披露（Progressive Disclosure），而非巨型文件。

2. State（状态）

追踪已完成什么、正在做什么、接下来是什么。持久化到磁盘，确保会话间连续性。

3. Verification（验证）

只有通过测试才算完成。Agent 不能在无可运行证据的情况下宣告任务完成。

4. Scope（范围）

将 Agent 约束到每次一个功能，防止过度扩展和半途而废。

5. Session Lifecycle（会话生命周期）

开始时初始化
结束时清理
为下一次会话留下清晰的重启路径

两类控制（Thoughtworks）

类型	计算型	推理型
执行	CPU确定性快速	GPU/NPU语义分析
例子	测试/linter/类型检查	LLM as Judge/AI代码审查
特点	结果可靠	成本高但能处理语义判断

前馈导引 + 反馈传感

前馈导引（Feedforward Guides）：在工作前注入上下文（AGENTS.md、技能文件、引导脚本）
反馈传感（Feedback Sensors）：工作后检测问题（静态分析、日志、测试）

三类调控维度（Thoughtworks）

维度	调控内容	例子
可维护性挽具	代码内部质量	重复代码、圈复杂度、测试覆盖率
架构适应性挽具	架构特征	性能要求、可观测性标准、依赖方向规则
行为挽具	功能正确性	规格说明、测试套件、端到端验证

CAR 框架（学术界）

三个维度：

Control（控制） — 哪些指令保持权威
Agency（智能体能力） — 哪些行动可用
Runtime（运行时） — 状态如何延续、故障如何处理

提出 Harness-sensitive 概念：部分 Agent 性能提升可能来自 Harness 改进，而非模型本身。

实测效果（Anthropic）

同一模型 + 同一提示词（构建2D复古游戏编辑器）：

	有Harness	无Harness
成本	$9	更高
时间	20分钟	更长
结果	可运行	无法运行

结论：Harness 改进可能比模型本身带来的性能提升更显著。

核心启示

Harness 是杠杆 — 同一模型，有无 Harness 结果差异巨大
验证即完成 — Agent 不能在无可运行证据的情况下宣告完成
状态持久化 — 会话间的连续性是长任务的关键
Scope 约束 — 防止 Agent 过度扩展和半途而废
渐进式披露 — 指令文件不要堆成巨型文件

与 OpenClaw 的关系

OpenClaw 本身就是一种 Harness 的实现：

AGENTS.md / SOUL.md / USER.md = Instructions 子系统
MEMORY.md / memory/ = State 子系统
HEARTBEAT.md = Verification + Session Lifecycle
Skills 系统 = 工具扩展（Tool Harness）

Harness Engineering 理论可以指导 OpenClaw 的优化方向。

4.3 KiB Executable File Raw Blame History Unescape Escape