通用Agent

Key Takeaway

问你一个问题：

为什么Anthropic和Google这些大厂都在做基于命令行的编程工具？

想象一下，我们花了几十年时间，才从这种满是代码的“小黑窗”，进化到了今天这样漂亮、直观的图形界面。我们已经习惯了用鼠标，但是，诡异的事情发生了：

Anthropic发布的Claude Code，Google发布的Gemini CLI，这些最顶尖的AI工具在一夜之间集体“退化”回了那个“石器时代”。

这究竟是在开历史的倒车，还是这些顶尖高手，看到了我们普通人完全没看懂的未来？

本期视频，我会拆开来跟你们讲透。一旦你理解之后，就能看清楚通用Agent发展方向了。

我建议大家先点个收藏，因为内容可能有点深，需要多琢磨几遍。

首先我们要理解，这些大厂做的Claude Code、Gemini CLI究竟是什么。

一个词：命令行Agent。

为什么要用命令行Agent？它有什么价值？

我认为：

命令行Agent = 庞大的工具生态 + 经典的Unix组合哲学 + 现代的AI调度能力

大家放心，这个公式里的每一个概念我都会详细解释。咱们先从一个最基础的开始，也就是：

命令行是什么东西？

简单来说，在那个上古年代，用户是通过输入一行命令来给计算机下达指令，而不是像我们现在用鼠标在图形化的界面上跟计算机进行交互。

那么，用户在哪里输入命令？在一个叫终端的东西上边。不管你是用Windows还是macOS，都可以找到终端。它其实就是一个界面，用户可以输入，也可以看到计算机的反馈。

接下来，命令输入之后，计算机需要对它进行“翻译”。为什么要翻译？因为语言不通嘛。

我们通过命令行输入的东西，是文本字符串组成的，是给人看的，而机器根本看不懂。于是就了Shell、外壳这个概念，专门负责翻译。

当Shell完成翻译，就会把命令发送到内核，也就是Kernel。

所以，从命令Command Line到终端Terminal、到Shell外壳，最后到Kernel内核，这一串就是非常经典的处理流程。

这套流程中，最先进的地方，就是把外壳和内核分离。为什么要分离？

打个比方，有一家顶级餐厅：

内核就是后厨，可以做出任何菜，但它不直接跟客人说话。

外壳就是金牌服务员，他懂后厨的“行话”，也懂客户的“人话”。客户点菜，他负责翻译、下单给后厨。

而终端就是客户坐的餐桌，它是客户和服务员交流的场所。

所以，“外壳和内核分离”这个天才设计，就好比规定了：服务员不能进后厨做菜，后厨师傅也不能出来点菜。

大家各司其职，餐厅才能高效运转。一是安全，服务员摔倒了（外壳崩溃），不会影响后厨出餐（内核运行）。二是灵活，服务员可以随时根据客户的口味设计新菜单（开发者可以随时开发新命令），而不需要改造整个后厨（修改操作系统）。

这个命令行工具生态，从当年的Unix系统开始，一代一代发展、延续下来，已经变成了一个非常宝贵的资源库。

这就是前边那个等式里边，“庞大的工具生态”的意思。像Claude Code之类的命令行Agent，直接用各种各样的命令行来直接下达命令，效率非常高。

那么，后边的“经典的Unix组合哲学”是什么意思？

Unix是一个非常牛逼的操作系统。它的“子孙后代”无处不在，包括Linux、macOS，以及BSD家族。我特别喜欢它的三条设计哲学：

第一，一切皆文件（Everything is a file）。在Unix里边，无论是硬件设备、进程、还是网络连接，都可以被抽象成文件。然后你就可以用同一套简单的操作，比如open、read、write，来进行统一的交互。

第二，做一件事，并把它做好（Do One Thing and Do It Well）。程序应该保持简单，专注于一个核心功能。于是，命令就是程序；一条命令就专注干好一件事。