Files
chill_notes/实践积累/Harness-Engineering知识体系.md
2026-04-21 10:49:07 +08:00

4.3 KiB
Executable File
Raw Blame History

title, tags, created, source
title tags created source
Harness Engineering 知识体系
AI-Agent
Engineering
Prompt-Engineering
Context-Engineering
2026-04-21 基于11篇原始资料整理OpenAI/Anthropic/Thoughtworks/LangChain/HumanLayer/Inngest/学术界)

Harness Engineering

AI Agent = Model + Harness

"The model contains the intelligence and the harness is the system that makes that intelligence useful." — LangChain

核心定义

Harness = 除模型以外的一切——工具、指令、状态管理、验证机制、运行时基础设施

让模型输出从"不可靠"变成"可信赖"的工程体系。


各机构视角

机构 侧重点
LangChain 最宽泛Harness = 一切非模型的技术层
Anthropic 环境脚手架 + 长任务连续性 + clean state 理念
OpenAI 代码仓库即知识系统,强调"零人工代码"自动化
Thoughtworks 赛博内廷cybernetic governor区分"构建者挽具"vs"用户挽具"
HumanLayer Harness = Context Engineering 的子集,专注上下文窗口管理
Inngest 持久化事件驱动基础设施
学术界CAR框架 Control + Agency + Runtime 三元框架

五大大子系统walkinglabs 综合框架)

1. Instructions指令

告诉 Agent 做什么、按什么顺序、读什么文件。采用渐进式披露Progressive Disclosure而非巨型文件。

2. State状态

追踪已完成什么、正在做什么、接下来是什么。持久化到磁盘,确保会话间连续性。

3. Verification验证

只有通过测试才算完成。Agent 不能在无可运行证据的情况下宣告任务完成。

4. Scope范围

将 Agent 约束到每次一个功能,防止过度扩展和半途而废。

5. Session Lifecycle会话生命周期

  • 开始时初始化
  • 结束时清理
  • 为下一次会话留下清晰的重启路径

两类控制Thoughtworks

类型 计算型 推理型
执行 CPU确定性快速 GPU/NPU语义分析
例子 测试/linter/类型检查 LLM as Judge/AI代码审查
特点 结果可靠 成本高但能处理语义判断

前馈导引 + 反馈传感

  • 前馈导引Feedforward Guides在工作前注入上下文AGENTS.md、技能文件、引导脚本
  • 反馈传感Feedback Sensors工作后检测问题静态分析、日志、测试

三类调控维度Thoughtworks

维度 调控内容 例子
可维护性挽具 代码内部质量 重复代码、圈复杂度、测试覆盖率
架构适应性挽具 架构特征 性能要求、可观测性标准、依赖方向规则
行为挽具 功能正确性 规格说明、测试套件、端到端验证

CAR 框架(学术界)

三个维度:

  • Control控制 — 哪些指令保持权威
  • Agency智能体能力 — 哪些行动可用
  • Runtime运行时 — 状态如何延续、故障如何处理

提出 Harness-sensitive 概念:部分 Agent 性能提升可能来自 Harness 改进,而非模型本身。


实测效果Anthropic

同一模型 + 同一提示词构建2D复古游戏编辑器

有Harness 无Harness
成本 $9 更高
时间 20分钟 更长
结果 可运行 无法运行

结论Harness 改进可能比模型本身带来的性能提升更显著。


核心启示

  1. Harness 是杠杆 — 同一模型,有无 Harness 结果差异巨大
  2. 验证即完成 — Agent 不能在无可运行证据的情况下宣告完成
  3. 状态持久化 — 会话间的连续性是长任务的关键
  4. Scope 约束 — 防止 Agent 过度扩展和半途而废
  5. 渐进式披露 — 指令文件不要堆成巨型文件

与 OpenClaw 的关系

OpenClaw 本身就是一种 Harness 的实现:

  • AGENTS.md / SOUL.md / USER.md = Instructions 子系统
  • MEMORY.md / memory/ = State 子系统
  • HEARTBEAT.md = Verification + Session Lifecycle
  • Skills 系统 = 工具扩展Tool Harness

Harness Engineering 理论可以指导 OpenClaw 的优化方向。