通用Agent

通用Agent长啥样

Key Takeaway

  • 命令行Agent是AI发展的重要方向,它结合了庞大的工具生态、经典的Unix组合哲学和现代AI调度能力。
  • Unix哲学(一切皆文件、专注做好一件事、程序间协作)与AI模型的ReAct框架(思考与行动循环)高度契合。
  • 通用Agent的核心能力包括感知、思考、行动和循环验证。
  • 大模型负责“思考”,命令行Agent负责“行动”。
  • MCP是实现“感知”和“循环验证”的关键。
  • 通用Agent的“骨架”是一个善于思考的AI大脑,嫁接在拥有海量工具的命令行身躯之上,并辅以MCP的敏锐感知。

Full Content

问你一个问题:

为什么Anthropic和Google这些大厂都在做基于命令行的编程工具?

想象一下,我们花了几十年时间,才从这种满是代码的“小黑窗”,进化到了今天这样漂亮、直观的图形界面。我们已经习惯了用鼠标,但是,诡异的事情发生了:

Anthropic发布的Claude Code,Google发布的Gemini CLI,这些最顶尖的AI工具在一夜之间集体“退化”回了那个“石器时代”。

这究竟是在开历史的倒车,还是这些顶尖高手,看到了我们普通人完全没看懂的未来?

本期视频,我会拆开来跟你们讲透。一旦你理解之后,就能看清楚通用Agent发展方向了。

我建议大家先点个收藏,因为内容可能有点深,需要多琢磨几遍。

首先我们要理解,这些大厂做的Claude Code、Gemini CLI究竟是什么。

一个词:命令行Agent。

为什么要用命令行Agent?它有什么价值?

我认为:

命令行Agent = 庞大的工具生态 + 经典的Unix组合哲学 + 现代的AI调度能力

大家放心,这个公式里的每一个概念我都会详细解释。咱们先从一个最基础的开始,也就是:

命令行是什么东西?

简单来说,在那个上古年代,用户是通过输入一行命令来给计算机下达指令,而不是像我们现在用鼠标在图形化的界面上跟计算机进行交互。

那么,用户在哪里输入命令?在一个叫终端的东西上边。不管你是用Windows还是macOS,都可以找到终端。它其实就是一个界面,用户可以输入,也可以看到计算机的反馈。

接下来,命令输入之后,计算机需要对它进行“翻译”。为什么要翻译?因为语言不通嘛。

我们通过命令行输入的东西,是文本字符串组成的,是给人看的,而机器根本看不懂。于是就了Shell、外壳这个概念,专门负责翻译。

当Shell完成翻译,就会把命令发送到内核,也就是Kernel。

所以,从命令Command Line到终端Terminal、到Shell外壳,最后到Kernel内核,这一串就是非常经典的处理流程。

这套流程中,最先进的地方,就是把外壳和内核分离。为什么要分离?

打个比方,有一家顶级餐厅:

内核就是后厨,可以做出任何菜,但它不直接跟客人说话。

外壳就是金牌服务员,他懂后厨的“行话”,也懂客户的“人话”。客户点菜,他负责翻译、下单给后厨。

而终端就是客户坐的餐桌,它是客户和服务员交流的场所。

所以,“外壳和内核分离”这个天才设计,就好比规定了:服务员不能进后厨做菜,后厨师傅也不能出来点菜。

大家各司其职,餐厅才能高效运转。一是安全,服务员摔倒了(外壳崩溃),不会影响后厨出餐(内核运行)。二是灵活,服务员可以随时根据客户的口味设计新菜单(开发者可以随时开发新命令),而不需要改造整个后厨(修改操作系统)。

这个命令行工具生态,从当年的Unix系统开始,一代一代发展、延续下来,已经变成了一个非常宝贵的资源库。

这就是前边那个等式里边,“庞大的工具生态”的意思。像Claude Code之类的命令行Agent,直接用各种各样的命令行来直接下达命令,效率非常高。

那么,后边的“经典的Unix组合哲学”是什么意思?

Unix是一个非常牛逼的操作系统。它的“子孙后代”无处不在,包括Linux、macOS,以及BSD家族。我特别喜欢它的三条设计哲学:

第一,一切皆文件(Everything is a file)。在Unix里边,无论是硬件设备、进程、还是网络连接,都可以被抽象成文件。然后你就可以用同一套简单的操作,比如open、read、write,来进行统一的交互。

第二,做一件事,并把它做好(Do One Thing and Do It Well)。程序应该保持简单,专注于一个核心功能。于是,命令就是程序;一条命令就专注干好一件事。