上下文

我对2025年AI的判断

Key Takeaway

  • 2025年AI的关键词是Agent,其本质是“任务引擎”,而非简单的“智能体”。
  • AI发展将从“信息引擎”阶段(大模型引领)进入“任务引擎”阶段(Agent引领)。
  • Chatbot只是Agent的初级形态,未来可能被淘汰,因为其缺乏“上下文”信息,限制了任务完成能力。
  • 拥有用户“上下文”的巨头(如Google、Apple)在Agent发展上具有天然优势。
  • Agent的产品形态将从“人造形态”(软件/APP封装)发展到“自造形态”(AI自动生成Agent)。
  • RAG和Agent是AI原生应用的基础技术,理解它们是把握AI时代的关键。

Full Content

2025年,AI的关键词只有一个,就是Agent。不管是搞模型的还是搞应用的,都会把火力集中到Agent这个点上。

单纯比拼模型的阶段已经过去了。注意,我不是说模型不重要了。模型能力肯定还会继续提升。但是,单纯依靠模型去抢市场,早就行不通了。你回顾一下御三家最近这半年的动作就知道了:

Anthropic给Claude添加了Artifacts功能,推出了控制电脑能力,还有MCP协议;

OpenAI也给ChatGPT加上了类似的canvas功能,还上了搜索,虽然做得不怎么好;

Google之前一直很拉跨,最近一次更新直接追平。Gemini的多模态、超长上下文,以及Deep Search功能都非常惊艳。

这三家的动作都是同一个指向、同一个意思:模型即应用。这个应用,就是Agent。

Agent概念,国内吹了得有一年。我看了一圈,好像都没讲明白基本的逻辑,只是停留在“智能体”这个模糊的名字上。我建议大家忘了那些定义,就记住这四个字:

任务引擎。

从底层逻辑来看,AI有一半是在延续互联网的逻辑。

互联网本质上就是信息的组织和分发。从上古时期的雅虎、Google、各种门户,到后来的淘宝、今天的抖音,全都是对各种信息的重新组织、重新分发,最后重新划分地盘。

AI也是这样。大模型能够处理以前难以想象的信息规模,从中提取出有价值的知识和模式。而且,除了文本、图像、视频这些传统形式,AI还可以处理更复杂和抽象的信息,比如知识图谱、语义网络等等。

所以,AI延续了互联网的底层逻辑,继续做信息的组织和分发,而且做得更好。但是,这并不是AI的真正使命。Agent才是AI的真面目。

信息组织和分发侧重于信息的静态方面。而Agent要做的,是对信息进行动态应用,用信息来完成特定任务。

所以我认为,“任务引擎”才是对Agent更准确、更好理解的表述。我特别烦“智能体”这三个字。国内媒体和厂商特别喜欢搞虚头巴脑、说了跟没说一样的概念。

为了方便大家理解,我再做一个提炼和总结:

这一轮AI发展,也就是从GPT-3.5开始的第一阶段,是大模型引领的阶段,特征是“信息引擎”,它是比之前互联网和移动互联网的任何产品都更加强大的“信息引擎”。

从2025年开始,将进入第二阶段,由Agent引领,特征是“任务引擎”。Agent和大模型不是割裂的。正因为有了足够强大的大模型,正因为有了足够强大的“信息引擎”,“任务引擎”才有实现的可能。

OK,理解了Agent,理解了AI发展的底层逻辑之后,下一个问题就来了:Agent长什么样?或者说,它的产品形态是什么样的?

软件和APP都是我们特别熟悉的产品形态。到了AI时代,像ChatGPT一样的聊天机器人会是Agent的标准形态吗?

我认为不是。Chatbot只是最最初级的Agent,甚至这种形态很有可能会被淘汰。

你就想一个问题:Agent要很好地完成任务,最重要的是什么?

就好比一个人一样,要完成领导交代的任务,最关键的是个人能力吗?并不是。最关键的因素是“背景信息”,或者说是“上下文”。

这个任务的前因后果是什么?领导交代这个任务的预期是什么?他的言外之意是什么?如果不搞明白这些,你能力再强有什么用?

Agent也是一个道理。你的生成能力很强,那又怎么样呢?真有什么需求的时候,还得先交代一大堆。比如我要写一篇稿子,我得告诉AI:客户需求是这样的,参考资料是这些,等等。而且99%的人根本想不明白也说不明白。我们今天一直在强调的自然语言交互,其实只适合少数人。

正是这些前置条件限制了我们使用Chatbot。你看现在这些产品的数据,每天有多少活跃用户,每天使用几次,就很能反映出问题。

所以,ChatGPT这种形态就好比当年的移动梦网。这个概念,没经历过那个年代的人肯定都没听过。在移动互联网早期,移动梦网就是一个大超市,囊括了短信、彩信,手机上网也就是WAP,以及百宝箱也就是手机游戏在内的各种信息服务。听起来是不是特别像今天的ChatGPT?

而我们都知道,真正让移动互联网爆发和普及的,是今日头条和抖音这种依靠算法推荐的产品形态。AI如果要爆发和普及,同样需要这种适合普罗大众的“傻瓜产品”。这其中最关键的,就是要补上前边说的“上下文”。

这个东西,是OpenAI天生就没有的。谁有?Google有,Apple有,Meta有,腾讯有,阿里有,字节有。

举个例子,大家来想象一下:Chrome浏览器和Gemini彻底打通了。它本来就有我保存的书签、所有浏览记录,对吧?这些就可以作为非常宝贵的上下文信息,让AI版的Chrome给我提供我真正想要的东西。

这就是我为什么说,像ChatGPT一样的聊天机器人只是最最初级的Agent,而且很有可能会被淘汰的原因。OpenAI现在的领先,只是阶段性的。就像当年的移动梦网一样,后来又有谁还记得它呢?

OK,理解了“上下文”是Agent的关键之后,再来看产品形态。我认为,Agent会有两种形态,对应两个发展阶段。

第一种形态就是现在的“人造形态”。

ChatGPT是Agent,Perplexity是Agent,Cursor是Agent。现在这些Agent都是人造的,都是我们用软件、用APP的外壳,把Agent给封装进去,从而完成特定的任务,比如搜索和编程。

人造Agent数量不会太多,也只是早期阶段的特色。我估计,最多到2026年,就会进入第二阶段,迎来第二种形态——“自造形态”。

所谓“自造形态”,顾名思义,AI会自动生成Agent。因为每个人的每个需求其实都千奇百怪。非要用软件或者APP的形态去事先提取最大公约数、把它们都框起来,只能满足一部分共通的需求。

当刚才提到的“上下文”全面接入之后,各种个性化的需求就可以变成大大小小的任务。从任务出发,AI可以自主生成相应的Agent去处理。这才是AI时代全面到来的样子。

如果你是做投资的,或者搞开发的,可以好好想想我说的这些。我知道公开做判断、下定论,肯定会有很多人喷。没问题,我特别欢迎大家半年、一年后来挖坟,看看谁对谁错。

过去一年我做的几十期视频,大多数都是关于RAG和Agent的。我当时就说,这两项技术是所有应用的基础。要处理更多相关信息,必须用RAG;要执行各种任务,必须用Agent。而且,让AI自动生成Agent,我之前也有出一期,介绍过这样的技术。没记错的话,应该是用微软的框架。

所以当你一直在关注和实践的话,最终得出本期视频的结论是很自然的。站在今天这个时间点回头看,猛然发现,一切都串起来了,而且指向无比清晰。

OK,不多说了。还是那句话,我是国内少数几个能把AI的WHY和HOW讲明白的博主。想链接我,就来我们newtype社群。那咱们下期见!

给AI全局记忆

Key Takeaway

  • “全局记忆”对于提升AI对话连贯性、实现个人助理功能以及构建全球知识共享工具至关重要。
  • OpenMemory项目通过独立存储聊天记录并利用MCP协议,实现了跨客户端和跨对话的AI记忆共享。
  • OpenMemory的功能实现依赖于大模型(用于语义理解和检索)、本地化存储(确保隐私、数据可移植性和扩展性)以及MCP协议(实现不同客户端间的内存共享)。
  • 作者强调了上下文对于AI创造价值的重要性,并指出“全局记忆”领域为创业者提供了开放和发展的机会。
  • 建议将知识库的存储与调用分离,本地存储数据,通过MCP调用,从而获得更自由的模型选择。
  • 智能是吸引用户的手段,而数据才是长期留住用户的关键。

Full Content

虽然我经常喷OpenAI,不过他们关于“全局记忆”的判断和观点我是非常认同的。

往小了说,“全局记忆”关系到对话的连贯性。这是今天AI在体验上的一大痛点。

你回想一下,今天大多数的AI客户端,你每开一个新的对话,是不是就好像在跟一个陌生人对话。因为你们过去交流的,它都不知道,你又得重新聊一遍。

这么搞,效率很低,而且工具感很强,你不会觉得这是个有智能的生命。

往大了说,“全局记忆”不只覆盖所有的历史对话,还可以、也应该包括用户的各种资料,甚至包括更广的知识库。

一旦技术成熟,把AI打造成为一个全面的个人助理、一个全球知识共享工具是很有可能的。这个就是OpenAI的野心。

当然啦,这个愿景有点远。不过站在今天,我们还是可以先体验一下的——通过OpenMemory这个项目。

简单来说,OpenMemory的作用就是把聊天记录单独存储。任意一个客户端里聊的东西都可以存进去。然后通过MCP进行调用。任意一个客户端都可以调用任何记录。我给你们演示一下就明白了。

我已经安装OpenMemory,并且通过SSE的连接方式与客户端ChatWise连上了。可以看到,这个MCP一共有四个tools,分别是添加、查询、检索、删除。

我这边准备了一段话,让AI把这些关于Prompt House的内容保存。LLM接到请求后,通过MCP调用add_memories这个tool,成功把那一段话保存起来了。

这时,在同一个对话框,我提出问题:记忆中都有哪些内容?可以看到,LLM很顺利把刚才保存的那条记录调出来了。

接下来,我们打开一个新的对话框,看看AI是否还“记得”刚才的内容。问题很简单:Prompt House主要解决哪两个问题?通过list_memories和search_memories两个tools,LLM把刚才存进去的内容调出,并基于内容完成回答。

同一个客户端的不同对话框,LLM能够自由存储和调用记忆。那么,跨应用呢?我这边打开Cursor,同样的问题:Prompt House主要解决哪两个问题?Claude Sonnet 4也是使用search_memories这个tool,把记忆取回。

你看,无论是跨对话框还是跨客户端,OpenMemory MCP都能实现记忆的存储和调取。

为了实现这些功能,OpenMemory做了三点:

第一,调用大模型。

要把用户的对话存储起来,首先要做的就是“理解”——先理解语义,才能区分哪些是噪音,哪些是重要信息。

不仅如此,在存储的时候,还需要大模型去区分记忆当中的冲突,完成更新。在检索的时候,也需要大模型在语义层面进行检索,而不只是关键词检索。

默认情况下,OpenMemory用的是OpenAI的模型,需要我们输入OpenAI API Key。不过它也支持别家的模型,包括开源大模型。如果你对隐私安全非常非常重视的话,可以连接Ollama。

第二,本地化存储。

为了让用户放心,OpenMemory把所有信息都存在本地。它采用双数据库架构,一个负责存储记忆的向量嵌入,一个存储结构化元数据。

这么设计的好处,一是完全本地化,敏感信息不会上传到云端;二是数据可移植,可以轻松备份和迁移整个数据目录;三是扩展性高,可以切换不同的大模型提供商,或者用本地模型。

第三,MCP。

任何支持MCP协议的客户端都可以通过SSE连上OpenMemory。它的MCP提供四个工具:添加,检索,查看,删除。

有了这四个工具,不同客户端就可以共享同一个内存。上下文就可以在不同客户端之间无缝传递。

我非常看好“全局记忆”这个方向。虽然巨头在做,但是,创业者也有很大机会。

因为,既然是“全局”,那就不能一家独大,就必须开放。在现阶段,有哪家能做到?这不就给了创业者生存、发育的窗口吗?

而且,现在巨头的主要精力还是放在提升模型能力上。所以,几个月前我就在社群里分享了一个思路:

把知识库的存储和调用分开。存储就放在本地,用Cursor创建一个Milvus向量数据库。调用就通过Milvus MCP。当时看大家挺感兴趣的,我还特意出了一期社群专属视频,介绍怎么搭建。

站在用户的角度看,这套思路的好处是,模型的选择会更加自由。谁的模型牛逼,我就对接过去。

站在做产品的角度看,最终留住用户的,不是智能,而是数据。智能只是一个钩子,把用户吸引过来,完成数据的迁移。

而且,智能要发挥作用、要创造价值,一定离不开上下文。这个就是我之前在社群内说的:Context Matters。

回过头来看,过去几个月我分享的那些零散的思路,还有我最近的尝试,全都串起来了。

OK,不多说了。我要继续做产品去了。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。我所有的感悟和认知,都会在社群内分享。那咱们下期见!

给大模型无限上下文

Key Takeaway

  • 上下文长度是大模型应用的关键限制,提升其难度高。
  • MemGPT将大模型视为操作系统,通过分级内存管理(Main Context + External Context)来解决上下文限制问题。
  • Main Context包含系统指令、对话上下文和工作上下文,External Context包含事件记忆和事实记录。
  • MemGPT能够自主进行上下文信息的检索和编辑,并具备“觉知”能力。
  • MemGPT支持多种后端模型,并可与AutoGen等Agent系统整合,对Multi-Agent System有重要意义。

Full Content

上下文长度是大模型要跨过的第一道槛。

长度太短,就无法开启很多领域的应用,比如医疗GPT。想象一下,医患20轮对话之后,医生就不记得病人的基本情况了,这怎么搞?

所以,上下文长度约等于大模型的内存,是衡量大模型能力的基本指标之一。

但是要提升大模型的上下文长度,难度很高。

一是训练方面。需要更高的算力和显存,还需要更多的长序列数据。

二是推理方面。Transformer模型的自注意力机制(Self-Attention)要求对序列中的每个元素去计算它与其它元素的相关性。这种机制天然决定了上下文长度不可能太长。于是大家又提出了一系列处理长序列的解决方案,这是另一个超大话题,此处不展开。

MemGPT找到了一个天才解法。

LLM = OS

大模型是什么?

MemGPT认为,大模型本质上就是操作系统。所以,上下文就是内存,上下文长度管理就是内存管理。

操作系统是怎么管理内存的?

等级制。CPU缓存(L1、L2和L3)离核心最近,速度最快,但容量最小。按这个逻辑往外推,其次是内存,最后是硬盘。

根据需要,操作系统会在这三个层级之间调配数据:最着急用的,放CPU缓存;暂时用不着的,放硬盘。

既然大模型是操作系统,那采用相同的内存管理方法,没毛病。

MemGPT就是这么干的。

Main Context + External Context

这是MemGPT的运行逻辑:

当有事件发生时,事件信息通过解析器(Parser)进入虚拟“内存”(Virtual Context)。

大模型作为处理器(Processor),对内存中的数据进行调用、确认,然后再通过解析器输出,变成一个行为。

关键点就在Virtual Context上。它分为两个部分:

一、Main Context:就是有原本有长度限制的上下文。Main Context由三部分组成:

  1. System Instructions,系统指令。简单理解就是每次我们在system message里写的“you are a helpful assistant”。这部分只读,并且每次都会被调用,因为它是底层设定。
  2. Conversational Context,对话上下文。采用“先进先出”(FIFO)规则——超过一定长度后,最旧的对话会被抛弃。
  3. Working Context,工作上下文。简单理解就是大模型的笔记本,上边记录着当前的注意事项。

下图就充分说明了Working Context是怎么一回事。

当用户提到了“今天生日”和“最爱的巧克力熔岩蛋糕”两个关键信息时,大模型迅速在笔记本上写下这两点,然后在回复中应用起来。

二、External Context:就是存储在外部的上下文信息,比如存在硬盘里。External Context由两部分组成:

限制大模型的,是输出长度

Key Takeaway

  • 大模型厂商普遍关注上下文长度,但忽略了输出长度的限制。
  • 目前大模型的输出长度普遍在2-3千字,主要原因是缺乏长文本训练素材。
  • 智谱通过增加长输出数据训练,显著提升了模型的输出长度。
  • 文章呼吁厂商应关注并提升模型的输出长度,以满足日常需求。

Full Content

我一直很不理解,怎么所有大模型厂商都在卷上下文长度,但就是没人关注输出长度。

现在要是发个新版本的模型,没个128K的上下文窗口,你都不好意思跟人打招呼。但是,模型的输出长度,也就是一次最多能回复多少字,好像有点停滞不前——两三千字就顶天了。

我拿ChatGPT和Claude做了个测试。我的需求是:

请帮我撰写一个主题为「黑神话·悟空」玄幻小说。小说以孙悟空为核心,讲述一个天庭腐败不堪、祸害三界,孙悟空与妖怪兄弟对抗天庭、拯救苍生的玄幻故事,不少于10000字。

ChatGPT的表现让我非常不满。

丫一上来就摆烂,说什么写10000字太费劲,只能帮我写一部分内容,以及给个大框架,剩下的还是得我自己来。

现在的AI都这么像打工人了吗?

当我要求它继续往下写的时候,ChatGPT就开始敷衍了。它象征性地写了几章,然后就马上宣布整个故事完结了。

真的,我都想骂人了…

相比之下,Claude就好太多了,大家还是订阅Claude吧。

虽然没法一次性输出10000字,但Claude好歹给出了解决办法:分章节输出,一个章节两三千字;用户可以随时给反馈意见。

这个才是AI该有的态度!

我让Claude写了几章。不得不说,它文笔还是不错的,写得有模有样。如果给它具体指导的话,写点小说发表肯定没问题。

这两个例子很有代表性。今天的模型产品,输出长度大概就是2千字。

为什么会这样?

智谱在论文里解释了。核心原因就是,缺少长文本的训练素材。我们给大模型训练用的数据集,很少有超过2千字的材料。所以,它都没见过、没被训练过,那自然写不出来。

为了解决这个问题,智谱的人特意准备了一份长输出的数据,里边的数据长度从2K到32K都有。把它跟通用数据结合,形成完整的数据集,给到两款支持128K上下文窗口的模型做微调,一个是GLM-4-9B,一个是Llama-3.1-8B。效果立竿见影。

我在Google Colab上做了测试,用A100 GPU分别跑两个模型。还是刚才那个写玄幻小说的任务。

GLM-4-9B完成得比较好。我把它写贴到Ulysses里给大家看看。一共1.1万字,分成13章,从世界背景介绍开始,一直到最终大决战、打败天帝。

Llama-3.1-8B的字数没有达标,只有8千多字。不过即使这样,也大大超出平均水平的两三千字。

说实话,当AI把小说写出来的时候,我还是挺震惊、挺兴奋的——毕竟第一次看到输出这么长的内容。之前的典型情况是,我让AI帮我翻译一个论文,或者修改一篇稿子,结果返回了半截就停下来了,这个就非常不爽、不方便了。

如果说,32K的上下文长度算是够用级别的话,那么至少5千字的输出长度才能满足日常需求。

接下来,我会试着用智谱的训练集去多微调几个模型。我也真心希望,国内的厂商别都在那边无脑地追逐超长上下文窗口,把这个当成一个营销噱头,搞得跟手机厂商跑分一样。是时候把输出长度提上来了。

OK,以上就是本期内容。想找我的话,来newtype社群。咱们下期见!