上下文

我对2025年AI的判断 2024-08-31

Key Takeaway

2025年AI的关键词是Agent，其本质是“任务引擎”，而非简单的“智能体”。
AI发展将从“信息引擎”阶段（大模型引领）进入“任务引擎”阶段（Agent引领）。
Chatbot只是Agent的初级形态，未来可能被淘汰，因为其缺乏“上下文”信息，限制了任务完成能力。
拥有用户“上下文”的巨头（如Google、Apple）在Agent发展上具有天然优势。
Agent的产品形态将从“人造形态”（软件/APP封装）发展到“自造形态”（AI自动生成Agent）。
RAG和Agent是AI原生应用的基础技术，理解它们是把握AI时代的关键。

Full Content

2025年，AI的关键词只有一个，就是Agent。不管是搞模型的还是搞应用的，都会把火力集中到Agent这个点上。

单纯比拼模型的阶段已经过去了。注意，我不是说模型不重要了。模型能力肯定还会继续提升。但是，单纯依靠模型去抢市场，早就行不通了。你回顾一下御三家最近这半年的动作就知道了：

Anthropic给Claude添加了Artifacts功能，推出了控制电脑能力，还有MCP协议；

OpenAI也给ChatGPT加上了类似的canvas功能，还上了搜索，虽然做得不怎么好；

Google之前一直很拉跨，最近一次更新直接追平。Gemini的多模态、超长上下文，以及Deep Search功能都非常惊艳。

这三家的动作都是同一个指向、同一个意思：模型即应用。这个应用，就是Agent。

Agent概念，国内吹了得有一年。我看了一圈，好像都没讲明白基本的逻辑，只是停留在“智能体”这个模糊的名字上。我建议大家忘了那些定义，就记住这四个字：

任务引擎。

从底层逻辑来看，AI有一半是在延续互联网的逻辑。

互联网本质上就是信息的组织和分发。从上古时期的雅虎、Google、各种门户，到后来的淘宝、今天的抖音，全都是对各种信息的重新组织、重新分发，最后重新划分地盘。

AI也是这样。大模型能够处理以前难以想象的信息规模，从中提取出有价值的知识和模式。而且，除了文本、图像、视频这些传统形式，AI还可以处理更复杂和抽象的信息，比如知识图谱、语义网络等等。

所以，AI延续了互联网的底层逻辑，继续做信息的组织和分发，而且做得更好。但是，这并不是AI的真正使命。Agent才是AI的真面目。

信息组织和分发侧重于信息的静态方面。而Agent要做的，是对信息进行动态应用，用信息来完成特定任务。

所以我认为，“任务引擎”才是对Agent更准确、更好理解的表述。我特别烦“智能体”这三个字。国内媒体和厂商特别喜欢搞虚头巴脑、说了跟没说一样的概念。

为了方便大家理解，我再做一个提炼和总结：

这一轮AI发展，也就是从GPT-3.5开始的第一阶段，是大模型引领的阶段，特征是“信息引擎”，它是比之前互联网和移动互联网的任何产品都更加强大的“信息引擎”。

从2025年开始，将进入第二阶段，由Agent引领，特征是“任务引擎”。Agent和大模型不是割裂的。正因为有了足够强大的大模型，正因为有了足够强大的“信息引擎”，“任务引擎”才有实现的可能。

OK，理解了Agent，理解了AI发展的底层逻辑之后，下一个问题就来了：Agent长什么样？或者说，它的产品形态是什么样的？

软件和APP都是我们特别熟悉的产品形态。到了AI时代，像ChatGPT一样的聊天机器人会是Agent的标准形态吗？

我认为不是。Chatbot只是最最初级的Agent，甚至这种形态很有可能会被淘汰。

你就想一个问题：Agent要很好地完成任务，最重要的是什么？

就好比一个人一样，要完成领导交代的任务，最关键的是个人能力吗？并不是。最关键的因素是“背景信息”，或者说是“上下文”。

这个任务的前因后果是什么？领导交代这个任务的预期是什么？他的言外之意是什么？如果不搞明白这些，你能力再强有什么用？

Agent也是一个道理。你的生成能力很强，那又怎么样呢？真有什么需求的时候，还得先交代一大堆。比如我要写一篇稿子，我得告诉AI：客户需求是这样的，参考资料是这些，等等。而且99%的人根本想不明白也说不明白。我们今天一直在强调的自然语言交互，其实只适合少数人。

正是这些前置条件限制了我们使用Chatbot。你看现在这些产品的数据，每天有多少活跃用户，每天使用几次，就很能反映出问题。

所以，ChatGPT这种形态就好比当年的移动梦网。这个概念，没经历过那个年代的人肯定都没听过。在移动互联网早期，移动梦网就是一个大超市，囊括了短信、彩信，手机上网也就是WAP，以及百宝箱也就是手机游戏在内的各种信息服务。听起来是不是特别像今天的ChatGPT？

而我们都知道，真正让移动互联网爆发和普及的，是今日头条和抖音这种依靠算法推荐的产品形态。AI如果要爆发和普及，同样需要这种适合普罗大众的“傻瓜产品”。这其中最关键的，就是要补上前边说的“上下文”。

这个东西，是OpenAI天生就没有的。谁有？Google有，Apple有，Meta有，腾讯有，阿里有，字节有。

举个例子，大家来想象一下：Chrome浏览器和Gemini彻底打通了。它本来就有我保存的书签、所有浏览记录，对吧？这些就可以作为非常宝贵的上下文信息，让AI版的Chrome给我提供我真正想要的东西。

这就是我为什么说，像ChatGPT一样的聊天机器人只是最最初级的Agent，而且很有可能会被淘汰的原因。OpenAI现在的领先，只是阶段性的。就像当年的移动梦网一样，后来又有谁还记得它呢？

OK，理解了“上下文”是Agent的关键之后，再来看产品形态。我认为，Agent会有两种形态，对应两个发展阶段。

第一种形态就是现在的“人造形态”。

ChatGPT是Agent，Perplexity是Agent，Cursor是Agent。现在这些Agent都是人造的，都是我们用软件、用APP的外壳，把Agent给封装进去，从而完成特定的任务，比如搜索和编程。

人造Agent数量不会太多，也只是早期阶段的特色。我估计，最多到2026年，就会进入第二阶段，迎来第二种形态——“自造形态”。

所谓“自造形态”，顾名思义，AI会自动生成Agent。因为每个人的每个需求其实都千奇百怪。非要用软件或者APP的形态去事先提取最大公约数、把它们都框起来，只能满足一部分共通的需求。

当刚才提到的“上下文”全面接入之后，各种个性化的需求就可以变成大大小小的任务。从任务出发，AI可以自主生成相应的Agent去处理。这才是AI时代全面到来的样子。

如果你是做投资的，或者搞开发的，可以好好想想我说的这些。我知道公开做判断、下定论，肯定会有很多人喷。没问题，我特别欢迎大家半年、一年后来挖坟，看看谁对谁错。

过去一年我做的几十期视频，大多数都是关于RAG和Agent的。我当时就说，这两项技术是所有应用的基础。要处理更多相关信息，必须用RAG；要执行各种任务，必须用Agent。而且，让AI自动生成Agent，我之前也有出一期，介绍过这样的技术。没记错的话，应该是用微软的框架。

所以当你一直在关注和实践的话，最终得出本期视频的结论是很自然的。站在今天这个时间点回头看，猛然发现，一切都串起来了，而且指向无比清晰。

OK，不多说了。还是那句话，我是国内少数几个能把AI的WHY和HOW讲明白的博主。想链接我，就来我们newtype社群。那咱们下期见！

给AI全局记忆 2024-08-31

Key Takeaway

“全局记忆”对于提升AI对话连贯性、实现个人助理功能以及构建全球知识共享工具至关重要。
OpenMemory项目通过独立存储聊天记录并利用MCP协议，实现了跨客户端和跨对话的AI记忆共享。
OpenMemory的功能实现依赖于大模型（用于语义理解和检索）、本地化存储（确保隐私、数据可移植性和扩展性）以及MCP协议（实现不同客户端间的内存共享）。
作者强调了上下文对于AI创造价值的重要性，并指出“全局记忆”领域为创业者提供了开放和发展的机会。
建议将知识库的存储与调用分离，本地存储数据，通过MCP调用，从而获得更自由的模型选择。
智能是吸引用户的手段，而数据才是长期留住用户的关键。

Full Content

虽然我经常喷OpenAI，不过他们关于“全局记忆”的判断和观点我是非常认同的。

往小了说，“全局记忆”关系到对话的连贯性。这是今天AI在体验上的一大痛点。

你回想一下，今天大多数的AI客户端，你每开一个新的对话，是不是就好像在跟一个陌生人对话。因为你们过去交流的，它都不知道，你又得重新聊一遍。

这么搞，效率很低，而且工具感很强，你不会觉得这是个有智能的生命。

往大了说，“全局记忆”不只覆盖所有的历史对话，还可以、也应该包括用户的各种资料，甚至包括更广的知识库。

一旦技术成熟，把AI打造成为一个全面的个人助理、一个全球知识共享工具是很有可能的。这个就是OpenAI的野心。

当然啦，这个愿景有点远。不过站在今天，我们还是可以先体验一下的——通过OpenMemory这个项目。

简单来说，OpenMemory的作用就是把聊天记录单独存储。任意一个客户端里聊的东西都可以存进去。然后通过MCP进行调用。任意一个客户端都可以调用任何记录。我给你们演示一下就明白了。

我已经安装OpenMemory，并且通过SSE的连接方式与客户端ChatWise连上了。可以看到，这个MCP一共有四个tools，分别是添加、查询、检索、删除。

我这边准备了一段话，让AI把这些关于Prompt House的内容保存。LLM接到请求后，通过MCP调用add_memories这个tool，成功把那一段话保存起来了。

这时，在同一个对话框，我提出问题：记忆中都有哪些内容？可以看到，LLM很顺利把刚才保存的那条记录调出来了。

接下来，我们打开一个新的对话框，看看AI是否还“记得”刚才的内容。问题很简单：Prompt House主要解决哪两个问题？通过list_memories和search_memories两个tools，LLM把刚才存进去的内容调出，并基于内容完成回答。

同一个客户端的不同对话框，LLM能够自由存储和调用记忆。那么，跨应用呢？我这边打开Cursor，同样的问题：Prompt House主要解决哪两个问题？Claude Sonnet 4也是使用search_memories这个tool，把记忆取回。

你看，无论是跨对话框还是跨客户端，OpenMemory MCP都能实现记忆的存储和调取。

为了实现这些功能，OpenMemory做了三点：

第一，调用大模型。

要把用户的对话存储起来，首先要做的就是“理解”——先理解语义，才能区分哪些是噪音，哪些是重要信息。

不仅如此，在存储的时候，还需要大模型去区分记忆当中的冲突，完成更新。在检索的时候，也需要大模型在语义层面进行检索，而不只是关键词检索。

默认情况下，OpenMemory用的是OpenAI的模型，需要我们输入OpenAI API Key。不过它也支持别家的模型，包括开源大模型。如果你对隐私安全非常非常重视的话，可以连接Ollama。

第二，本地化存储。

为了让用户放心，OpenMemory把所有信息都存在本地。它采用双数据库架构，一个负责存储记忆的向量嵌入，一个存储结构化元数据。

这么设计的好处，一是完全本地化，敏感信息不会上传到云端；二是数据可移植，可以轻松备份和迁移整个数据目录；三是扩展性高，可以切换不同的大模型提供商，或者用本地模型。

第三，MCP。

任何支持MCP协议的客户端都可以通过SSE连上OpenMemory。它的MCP提供四个工具：添加，检索，查看，删除。

有了这四个工具，不同客户端就可以共享同一个内存。上下文就可以在不同客户端之间无缝传递。

我非常看好“全局记忆”这个方向。虽然巨头在做，但是，创业者也有很大机会。

因为，既然是“全局”，那就不能一家独大，就必须开放。在现阶段，有哪家能做到？这不就给了创业者生存、发育的窗口吗？

而且，现在巨头的主要精力还是放在提升模型能力上。所以，几个月前我就在社群里分享了一个思路：

把知识库的存储和调用分开。存储就放在本地，用Cursor创建一个Milvus向量数据库。调用就通过Milvus MCP。当时看大家挺感兴趣的，我还特意出了一期社群专属视频，介绍怎么搭建。

站在用户的角度看，这套思路的好处是，模型的选择会更加自由。谁的模型牛逼，我就对接过去。

站在做产品的角度看，最终留住用户的，不是智能，而是数据。智能只是一个钩子，把用户吸引过来，完成数据的迁移。

而且，智能要发挥作用、要创造价值，一定离不开上下文。这个就是我之前在社群内说的：Context Matters。

回过头来看，过去几个月我分享的那些零散的思路，还有我最近的尝试，全都串起来了。

OK，不多说了。我要继续做产品去了。想了解AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。我所有的感悟和认知，都会在社群内分享。那咱们下期见！

给大模型无限上下文 2024-08-31

Key Takeaway

上下文长度是大模型应用的关键限制，提升其难度高。
MemGPT将大模型视为操作系统，通过分级内存管理（Main Context + External Context）来解决上下文限制问题。
Main Context包含系统指令、对话上下文和工作上下文，External Context包含事件记忆和事实记录。
MemGPT能够自主进行上下文信息的检索和编辑，并具备“觉知”能力。
MemGPT支持多种后端模型，并可与AutoGen等Agent系统整合，对Multi-Agent System有重要意义。

Full Content

上下文长度是大模型要跨过的第一道槛。

长度太短，就无法开启很多领域的应用，比如医疗GPT。想象一下，医患20轮对话之后，医生就不记得病人的基本情况了，这怎么搞？

所以，上下文长度约等于大模型的内存，是衡量大模型能力的基本指标之一。

但是要提升大模型的上下文长度，难度很高。

一是训练方面。需要更高的算力和显存，还需要更多的长序列数据。

二是推理方面。Transformer模型的自注意力机制（Self-Attention）要求对序列中的每个元素去计算它与其它元素的相关性。这种机制天然决定了上下文长度不可能太长。于是大家又提出了一系列处理长序列的解决方案，这是另一个超大话题，此处不展开。

MemGPT找到了一个天才解法。

LLM = OS

大模型是什么？

MemGPT认为，大模型本质上就是操作系统。所以，上下文就是内存，上下文长度管理就是内存管理。

操作系统是怎么管理内存的？

等级制。CPU缓存（L1、L2和L3）离核心最近，速度最快，但容量最小。按这个逻辑往外推，其次是内存，最后是硬盘。

根据需要，操作系统会在这三个层级之间调配数据：最着急用的，放CPU缓存；暂时用不着的，放硬盘。

既然大模型是操作系统，那采用相同的内存管理方法，没毛病。

MemGPT就是这么干的。

Main Context + External Context

这是MemGPT的运行逻辑：

当有事件发生时，事件信息通过解析器（Parser）进入虚拟“内存”（Virtual Context）。

大模型作为处理器（Processor），对内存中的数据进行调用、确认，然后再通过解析器输出，变成一个行为。

关键点就在Virtual Context上。它分为两个部分：

一、Main Context：就是有原本有长度限制的上下文。Main Context由三部分组成：

System Instructions，系统指令。简单理解就是每次我们在system message里写的“you are a helpful assistant”。这部分只读，并且每次都会被调用，因为它是底层设定。
Conversational Context，对话上下文。采用“先进先出”（FIFO）规则——超过一定长度后，最旧的对话会被抛弃。
Working Context，工作上下文。简单理解就是大模型的笔记本，上边记录着当前的注意事项。

下图就充分说明了Working Context是怎么一回事。

当用户提到了“今天生日”和“最爱的巧克力熔岩蛋糕”两个关键信息时，大模型迅速在笔记本上写下这两点，然后在回复中应用起来。

二、External Context：就是存储在外部的上下文信息，比如存在硬盘里。External Context由两部分组成：

限制大模型的，是输出长度 2024-08-31

Key Takeaway

大模型厂商普遍关注上下文长度，但忽略了输出长度的限制。
目前大模型的输出长度普遍在2-3千字，主要原因是缺乏长文本训练素材。
智谱通过增加长输出数据训练，显著提升了模型的输出长度。
文章呼吁厂商应关注并提升模型的输出长度，以满足日常需求。

Full Content

我一直很不理解，怎么所有大模型厂商都在卷上下文长度，但就是没人关注输出长度。

现在要是发个新版本的模型，没个128K的上下文窗口，你都不好意思跟人打招呼。但是，模型的输出长度，也就是一次最多能回复多少字，好像有点停滞不前——两三千字就顶天了。

我拿ChatGPT和Claude做了个测试。我的需求是：

请帮我撰写一个主题为「黑神话·悟空」玄幻小说。小说以孙悟空为核心，讲述一个天庭腐败不堪、祸害三界，孙悟空与妖怪兄弟对抗天庭、拯救苍生的玄幻故事，不少于10000字。

ChatGPT的表现让我非常不满。

丫一上来就摆烂，说什么写10000字太费劲，只能帮我写一部分内容，以及给个大框架，剩下的还是得我自己来。

现在的AI都这么像打工人了吗？

当我要求它继续往下写的时候，ChatGPT就开始敷衍了。它象征性地写了几章，然后就马上宣布整个故事完结了。

真的，我都想骂人了…

相比之下，Claude就好太多了，大家还是订阅Claude吧。

虽然没法一次性输出10000字，但Claude好歹给出了解决办法：分章节输出，一个章节两三千字；用户可以随时给反馈意见。

这个才是AI该有的态度！

我让Claude写了几章。不得不说，它文笔还是不错的，写得有模有样。如果给它具体指导的话，写点小说发表肯定没问题。

这两个例子很有代表性。今天的模型产品，输出长度大概就是2千字。

为什么会这样？

智谱在论文里解释了。核心原因就是，缺少长文本的训练素材。我们给大模型训练用的数据集，很少有超过2千字的材料。所以，它都没见过、没被训练过，那自然写不出来。

为了解决这个问题，智谱的人特意准备了一份长输出的数据，里边的数据长度从2K到32K都有。把它跟通用数据结合，形成完整的数据集，给到两款支持128K上下文窗口的模型做微调，一个是GLM-4-9B，一个是Llama-3.1-8B。效果立竿见影。

我在Google Colab上做了测试，用A100 GPU分别跑两个模型。还是刚才那个写玄幻小说的任务。

GLM-4-9B完成得比较好。我把它写贴到Ulysses里给大家看看。一共1.1万字，分成13章，从世界背景介绍开始，一直到最终大决战、打败天帝。

Llama-3.1-8B的字数没有达标，只有8千多字。不过即使这样，也大大超出平均水平的两三千字。

说实话，当AI把小说写出来的时候，我还是挺震惊、挺兴奋的——毕竟第一次看到输出这么长的内容。之前的典型情况是，我让AI帮我翻译一个论文，或者修改一篇稿子，结果返回了半截就停下来了，这个就非常不爽、不方便了。

如果说，32K的上下文长度算是够用级别的话，那么至少5千字的输出长度才能满足日常需求。

接下来，我会试着用智谱的训练集去多微调几个模型。我也真心希望，国内的厂商别都在那边无脑地追逐超长上下文窗口，把这个当成一个营销噱头，搞得跟手机厂商跑分一样。是时候把输出长度提上来了。

OK，以上就是本期内容。想找我的话，来newtype社群。咱们下期见！