什么是Harness Engineering

Mar 28, 2026

∙ Paid

人类跟AI协作的方式，每年都在被重新定义。

2023年，所有人都在研究怎么跟AI说话。

2025年，发现说什么远不如给它看什么重要。

2026年，连给它看什么都不够了——你得给它造一个世界。

这三次跃迁分别叫：Prompt Engineering、Context Engineering和Harness Engineering。

----

2023年，大家琢磨的核心问题是“怎么措辞”。

把模型当黑箱，用各种咒语般的技巧去试探它的能力边界。Chain-of-Thought、Few-shot、调温度参数，都是这个阶段的产物。

这些做法有效，但极其脆弱。研究发现，仅仅调换一下示例的顺序，准确率就能波动超过40%。

后来人们意识到，问题不在措辞，而在措辞背后：

模型的上下文窗口里到底装了什么，才是真正决定输出质量的东西。

于是到了2025年，问题变了，从“怎么措辞”变成了“给AI看什么信息”。

Anthropic率先指出：你怎么问不是关键，信息本身才是。

这个阶段有一个核心洞察叫Context Rot（上下文腐蚀）：当对话越来越长，早期的信息开始失效、被遗忘、互相干扰，模型的表现会逐渐变差。

上下文是有限资源，必须主动管理。

于是就有了一系列应对技术：按需加载信息（Just-in-Time Context）、主动压缩对话历史、用子Agent分担上下文压力。

方向是对的，但还不够。因为一个根本问题始终悬而未决：

环境设计好了，谁来保证产出是可靠的？

----

2026 年，OpenAI Codex团队在实践中给出了答案。

他们用Codex构建了一个超过百万行代码、但0行手写的内部产品，由此总结出第三个阶段的方法论：Harness Engineering。

newtype