newtype

newtype

什么是Harness Engineering

人类最终的角色,不是写代码,是设计让AI工作的世界。

huangyihe's avatar
huangyihe
Mar 28, 2026
∙ Paid

人类跟AI协作的方式,每年都在被重新定义。

2023年,所有人都在研究怎么跟AI说话。

2025年,发现说什么远不如给它看什么重要。

2026年,连给它看什么都不够了——你得给它造一个世界。

这三次跃迁分别叫:Prompt Engineering、Context Engineering和Harness Engineering。

----

2023年,大家琢磨的核心问题是“怎么措辞”。

把模型当黑箱,用各种咒语般的技巧去试探它的能力边界。Chain-of-Thought、Few-shot、调温度参数,都是这个阶段的产物。

这些做法有效,但极其脆弱。研究发现,仅仅调换一下示例的顺序,准确率就能波动超过40%。

后来人们意识到,问题不在措辞,而在措辞背后:

模型的上下文窗口里到底装了什么,才是真正决定输出质量的东西。

于是到了2025年,问题变了,从“怎么措辞”变成了“给AI看什么信息”。

Anthropic率先指出:你怎么问不是关键,信息本身才是。

这个阶段有一个核心洞察叫Context Rot(上下文腐蚀):当对话越来越长,早期的信息开始失效、被遗忘、互相干扰,模型的表现会逐渐变差。

上下文是有限资源,必须主动管理。

于是就有了一系列应对技术:按需加载信息(Just-in-Time Context)、主动压缩对话历史、用子Agent分担上下文压力。

方向是对的,但还不够。因为一个根本问题始终悬而未决:

环境设计好了,谁来保证产出是可靠的?

----

2026 年,OpenAI Codex团队在实践中给出了答案。

他们用Codex构建了一个超过百万行代码、但0行手写的内部产品,由此总结出第三个阶段的方法论:Harness Engineering。

This post is for paid subscribers

Already a paid subscriber? Sign in
© 2026 Weatherman · Privacy ∙ Terms ∙ Collection notice
Start your SubstackGet the app
Substack is the home for great culture