Agent

Agent经济，要来了 2024-08-31

Key Takeaway

红杉资本认为AI浪潮的量级远超云计算和移动互联网，将颠覆整个软件市场，并重构服务行业。
AI的机会主要在应用层，创业公司可从垂直领域和复杂人力介入问题切入，利用Agent替代外包业务。
“Agent经济”（Agent Economy）是AI时代新的商业模式，Agent将替代用户进行交互和交易，催生新的通信网络和基础设施需求。
2025年AI的关键词是Agent，它将成为模型和应用集中的焦点。
MCP（模型控制协议）为大模型提供了外部信息和工具，是Agent进化的前提。
Agent的准确率提升和Token费用下降，预示着Agent将迎来爆发式发展。

Full Content

如果你想AI创业，红杉资本最新的Keynote一定要看。他们三个人花了半小时，把AI产业现状以及未来趋势都讲明白了。我帮你们画一下重点，以及谈谈我的感受。

第一，分析框架。

如果你要分析AI或者别的领域的趋势，可以使用红杉这套框架：

What，So What，Why Now，What Now。

整个分析从What、也就是发生了什么开始。比如，今年MCP特别火爆——这是What。那又怎么样呢？会有什么影响吗？这是So What。为什么是现在火爆？MCP是去年底推出的，当时怎么没火？这是Why Now。前因后果都知道了，我们现在该怎么做？这是What Now。

这类分析、思考框架拿起来就能用，很适合新手。类似的东西，还有“现状 - 障碍 - 目标”，这个我在社群里发过，是我过去十几年用得最多的框架。

目标是你要去的地方。现状是你当下所处的位置，是你的出发点。那么，要从这里到达哪里，中间有哪些障碍呢？只要找到障碍，并且找到克服障碍的方法，我们就能达成目标。

我们平时会看到很多机构和大佬做分享。除了他们说了什么之外，我的习惯是，会去分析、倒推他们为什么这么说、这么想，把他们的框架给研究清楚。长期来看，这比他们的观点更有价值。

这算是我的秘诀，免费分享给大家。不用谢。

第二，AI浪潮究竟有多大？

很多人认为，AI堪比过去的向云端转型的机会。但是红杉认为，AI的量级要大得多：

AI不只是服务，还会颠覆整个软件市场。

这一点，我在今年深有感受。Agent真的已经开始重构整个服务行业和软件行业。

而且，AI这个浪潮不仅超大，还非常凶猛。因为，它所需要的算力、网络、数据、分发渠道、人才培养，在过去几波浪潮中都已经铺垫好了。这么多层叠加到一起，把势能全部给到AI，所以AI才会达到今天这么恐怖的发展速度。

我知道，很多人在国内感受不深，还盯着什么电商、外卖、短视频。这让我想起了灾难片的场景。一群游客在沙滩上晒着太阳、喝着鸡尾酒。但是，如果你出海了，在海面上就会看到，一个百米高的超级巨浪已经形成了，并且朝着岸边狂奔而来。

所以，早点准备吧。

第三，AI的机会在哪里？

把AI跟过去的云计算和移动互联网放在一起看。从基础设施开始，列出达到10亿营收规模的企业。可以看到，AI这边还有很多空白。而且，最大的空白区域在应用层。

有一个概念，我提到过好多次：模型即应用。

这个是OpenAI这些公司正在做的事。他们凭借越来越强的模型能力，就像吃豆人一样，正在吃掉越来越多细分赛道，直到成为一个超大的、通用型的怪物。

但是另一边，创业公司也在反击。他们从客户需求出发，专注在特定的垂直领域，聚焦在特定的功能上，处理那些需要大量人力介入的复杂问题。

比如，那些外包业务就可以用Agent来替代。你想嘛，能外包，说明人力成本高，说明有预算，说明结果可衡量——这不就是最需要Agent发挥的地方吗？

所以，有技术是一方面。从技术到客户需求被满足，整条价值链当中，还有很多可以去挖战壕、广积粮的地方。一场全面的竞争已经展开了。

第四，终局长什么样？

大家记住这个新概念：Agent Economy，Agent经济。

过去我们经历过各种经济，比如粉丝经济、共享经济，等等。那么，AI时代将诞生的、新的经济形态、商业模式，就是Agent经济。

Agent会替代用户进行交互、交易。那么，围绕Agent自然要产生新的经济形态，对吧？

顺着这个逻辑往下想的话，今天的网络是以人为出发点的，是面向人的。那么，Agent兴起之后，是不是也得有一张以Agent为主角的通信网络？这个网络该采用什么样的协议？以及，当Agent数量翻个十倍、百倍，需要什么样的基础设施和配套服务？

这一张Agent网络，还有这整个Agent经济的背后，得有多少机会啊？能不兴奋吗？

顺着红杉的判断，我谈一下我的体感。

在今年年初，我发了一个视频，叫做《我对2025年AI的判断》。在开头我就很明确说了：

2025年，AI的关键词只有一个，就是Agent。不管是搞模型的还是搞应用的，都会把火力集中到Agent这个点上。

后来的发展，证明了我的判断。

MCP火爆的原因就在于，它给大模型提供了更多外部信息和工具——这个是进化成Agent的前提。

信息搜集的Deep Research，AI编程的Cursor，都是Agent最好的案例，也是目前AI的杀手级应用。

Agent趋势兴起，从我们社群也能感受到。去年大家在社群内的提问主要是关于RAG、知识库的。到了今年，Agent相关问题明显变多了。

这个趋势的背后，有两条曲线在发挥作用。一条是Token费用。你去对比GPT-3.5、GPT-4时期的费用，和今天的费用就会发现，Token费用已经下降非常非常多了。另一条是Agent的准确率。最多两年，Agent执行任务的准确率就能达到人类的92%。

能力越来越强，成本还越来越低，这个是什么结果不用我多说了吧？

所以我也调整了自己的日程安排。周一和周二我会把本周要更新的视频做完。然后本周剩下的时间，我都会用来开发应用。从简单但是刚需的工具开始，就像播种一样，为自己创造多条现金流来源。

我也建议大家，抓紧行动起来。这么大的机会，人这一辈子能遇到几次？而且还是在年轻或者中年的时候。

AI杀手级应用：Deep Research 2024-08-31

Key Takeaway

Deep Research是AI的杀手级应用，能显著提升职场效率，未来将快速普及。
Deep Research的核心是AI Search的尽头，即AI Research，通过掌握更多信息和控制更多工具实现。
OpenAI的Deep Research效果最佳，但成本高昂；Google Gemini的Deep Research性能不错且性价比高；Perplexity的Deep Search量大但效果一般。
Deep Research通过模型协作和多轮分析，能快速完成深度研究，生成思维导图和深度挖掘。
文章强调Deep Research普及后，将对职场产生巨大影响，并建议用户尽早学习和使用。

Full Content

Deep Research绝对是AI的杀手级应用。用过都说好。可惜用过的人太少，因为成本真的很高，比如OpenAI要收200美金一个月才让你用。所以，这个东西暂时还没有火出圈。如果你是职场新人，或者很想往上爬，趁着这段时间，赶紧用、赶紧学，不开玩笑。

这么说吧，但凡脑子正常的老板用过Deep Research之后，绝对会想把公司里的初级牛马全部干掉。手段不那么狠一些的，也会强制要求全员使用。然后，用不明白的都给我滚蛋。

我演示一下你们就明白了。需求很简单：帮我分析英特尔与台积电合资的可能性，以及美股投资机会。这个是最近美股投资的热门议题，我已经买入了。

接到需求后，ChatGPT会主动做一轮沟通，把需求里的细节明确一下，然后再正式开工。整个过程一般在10分钟左右，它会去查找几十个网页，然后细细地拆解。这个时候大家可以切到别的网页或者刷刷手机。

我对o1 Pro这个生成结果挺满意的，几分钟时间就完成了初步研究。试想一下，一个月1500块招个实习生帮你搜集资料，能做到这个份上，你已经可以偷笑了！

接下来，可以让这个GPT实习生根据前边的内容生成一个思维导图，这样你会有一个全局性的认识。然后，针对其中某些具体的点，再让GPT去做深度挖掘。这我就不演示了。

所以，身为打工人的各位自己掂量一下：当Deep Research全面普及之后，你们在职场当中该如何自处？

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有800多位小伙伴付费加入啦！

回到今天的主题：Deep Research。

目前市面上提供Deep Research产品的厂商主要有三家：OpenAI、Google，以及Perplexity。接下来一定会有更多厂商加入进来。为什么？记住我这句话：

AI Search的尽头，是AI Research。

那么，不管是Search还是Research，又都是为了什么？我前两天在社群里发了这么一段话，我认为：

AI会沿着两条线发展：掌握更多信息，控制更多工具。

其中，搜索、深度研究都是第一条线的关键节点。这是为什么各家都很重视的原因。

动作最快的OpenAI已经把这个产品开放给Pro用户好一段时间了。这一档的月费是200美金，每个月可以用100次的Deep Research。Plus和免费版的用户也别着急，Sam说了，将会向Plus版用户提供每个月10次的额度，免费版用户则是2次。

实话实说，OpenAI的Deep Research是目前效果最好的产品。它不是简单地搜一堆网页，把内容拿回来分析。而是用了大量的模型协作。所以，消耗的Token比别家多太多。它产出的报告，信息密度也是别家的好几倍。不信的话，你去部署那些开源的、所谓的替代品试试就知道了。

但是，很可惜，我不会继续订阅。不是产品的问题，而是降智的问题。

很多人都遇到了降智，特别恶心。这个问题并不是无解。比如，你可以再花一点点钱去搞个静态IP伪装一下。可以是可以，只是那种被歧视的感觉让我非常不爽。我给的美元就不是美元吗？

而且，抛开这些情绪，我判断，这类型产品在三个月内一定会快速普及，成为20美金的标配。

这么考虑下来，我还是会把Gemini当做主力。性能不错，稳定，不恶心人。

我每个月20美金订阅Gemini Advanced，这其中就包括Deep Research的使用权限。这个使用也是有限额的，不过Google没明说，估计是根据用户的使用量来动态调整，满了会提示。

我给大家看一下Gemini这边的效果。跟ChatGPT一样，接到需求后，不会马上开始，而是先做一轮分析，拟定一个方案，跟用户确认好了之后才开工。接着，在几分钟内，它会查找几十甚至上百个网页，直到掌握足够的信息。最后，按照报告的格式进行输出。

没记错的话，Gemini的Deep Research是在1.5的阶段推出的，所以现在是1.5 Pro这个模型，还没更新到2.0。所以，在结果上肯定不如OpenAI那边。但是我相信，等用上Gemini 2.0模型之后，两边的效果一定会齐平。而且，Gemini大概率会提供更多的额度。一是因为搜索上的积累，二是因为Google有TPU。对OpenAI来说，成本才是他们最大的障碍。

OK，ChatGPT和Gemini都聊完了，咱们最后来看看Perplexity。他们是最狠的，给Pro用户每天500次额度，免费用户每天5次。虽然便宜，但是效果也比较一般。

不客气地说：这不是Deep Research，而是Deep Search。

反正我日常都高频使用Perplexity。现在多了一个量大管饱的Deep Search，不用白不用。

AI需要「影分身」 2024-08-31

Key Takeaway

ChatGPT“裸奔”不足以满足生产力需求，部署Agent能显著提升效率。
GPT Researcher是开箱即用的Agent方案，擅长资料搜集和报告生成，成本低廉。
CrewAI是灵活的Agent框架，通过设定Agent、Tool和Task实现自由搭建Agent系统。
大模型存在“单核硬伤”（Degeneration-of-Thought），多Agent协作能有效解决复杂推理问题。
Agent技术在大模型加持下迅速发展，未来将有更多工具和应用出现。

Full Content

ChatGPT会员我是不会再继续订阅了。

轻度体验一下还可以。但如果真要把它当作生产力工具长期使用的话，还是不太行。

咱们来做个对比。同样一个问题：

GPT-4加上联机搜索之后，ChatGPT给出了这样的答案：

你觉得还不错是吧？我给你看看Agent生成的：

也不能说是差距很大，大概就是能用和不能用的区别吧。

所以，从实用的角度来看，我建议大家别再继续用ChatGPT「裸奔」了。花点时间部署一套Agent，能帮你省下非常多时间。

介绍一下我目前在用的两套方案。

GPT Researcher：开箱即用

GPT Researcher是GitHub上的一个项目，主要满足资料搜集、报告生成方面的需求——日常工作刚需，真的能省很多时间。

GPT Researcher搭建了两类Agent：

Planner Agent负责拆解需求、生成尽可能全的问题。Execution Agent拿到问题之后，找到对应的网页、把内容爬下来，再交回给Planner Agent。后者筛选、汇总所有资料，完成调研报告。

这个项目有两点做得很棒：

混合使用GPT-3.5和GPT-4，提升速度、降低成本。一般来说，跑一圈下来需要3分钟，花费0.1美元——真的是白菜价了。
根据需求生成的Agent都是特定领域的。比如，需求是做金融领域的调研，那么生成的Agent就是金融专家。

只需要懂一点点代码就可以使用GPT Researcher。按照GitHub的教程，把仓库克隆到本地，然后一步一步复制粘贴、执行对应的命令。过程中如果提示缺什么Package，那就pip install安装就行。最后打开一个本地网页就可以使用了。

CrewAI：自由搭建

如果你的需求不只是生成调研报告，那就需要使用现成的框架，亲手搭建一套Agent系统了。

我目前在用的Agent框架叫「CrewAI」。看起来跟微软的AutoGen差不多，但你一上手就会发现，CrewAI比AutoGen逻辑更简单、更直观。

在CrewAI里，你只需要设定三个要素：

谁。
用什么。
做什么。

「谁」指的是Agent。多少个Agent，分别以什么角色进行协作，工作目标是什么，他们各自的背景是什么样的，他们用什么模型作为大脑。

「用什么」指的是Tool。最常见的就是搜索工具。你需要把工具分配给具体使用的Agent。

「做什么」指的是Task。一个项目可以分拆成很多个任务。每个任务需要有具体的描述，以及指定由哪些Agent来完成。

一旦理解了这个逻辑之后，CrewAI的设置就变得极其简单。

还以生成调研报告为例，这是我设计的Agent工作流程：

我特意在最开始的需求分析、方案制定环节安排了两个Agent。这么做，Token花得多，时间也更长，不过很有必要。一切都是为了解决一个核心问题：

大模型在复杂推理的时候，特别容易犯轴。

单核的硬伤

为了加强大模型的推理能力，研发人员想了很多办法。比如，大名鼎鼎的思维链（Chain-of-Thought），还有自我反思(Self-Reflection)。

但是，无论怎么给大模型叠Buff，都改不了这个问题，在论文里管它叫「Degeneration-of-Thought」：

当大模型对自己的答案有信心的时候，即使这个答案不正确，它都没法再通过自我反思去产生新的想法。

跟人一样，沉浸在自己的世界里，迷之自信、死不悔改。

造成这个问题的原因有很多。比如在预训练阶段，输入的概念有偏差，或者思考模式有问题，都会产生认知偏差。

有的问题可以通过技术解决，有的不需要。像这个问题，其实人类社会已经有解了，就是大家最最熟悉的：

讨论与协作。

一个人再聪明，认知水平再高，都会有盲点。

有人点拨的话——其实有时都不用点拨，只要跟自己以外的人聊上几句，就能爬出来。

这就是为什么，都是一样的大模型作为底层驱动，「多核」会比「单核」靠谱得多。

2024 Agent

Agent并不是跟着大模型兴起的。早在这一轮AI爆发之前，Agent就已经有好多年的研究了。大模型充当最强大脑，解决了Agent推理的难题，使得Agent突然被所有人关注。

在设计和部署Agent方面，AutoGen之后有了CrewAI，2024年肯定还会有更多团队想来试一试的。

DeepSeek新模型太适合MCP了！ 2024-08-31

Key Takeaway

DeepSeek新模型V3 0324在MCP调用方面表现出色，性价比极高，性能接近Claude-3.7 Sonnet。
DeepSeek模型具备清晰的思考和规划能力，能将用户需求拆解为明确任务，并判断所需工具。
DeepSeek在工具调用能力上显著提升，结合其成本优势，将推动MCP的进一步普及。
文章预测Agent发展趋势将从任务编排模式转向模型自由发挥，以超强模型为核心，搭配海量原子化工具。
DeepSeek的进步，加上MCP协议，预示着AI行业将迎来飞速发展。

Full Content

DeepSeek新出的模型V3 0324可能是跑MCP性价比最高的模型。它在性能上接近Claude-3.7 Sonnet，调用MCP很丝滑，但是成本却低了非常非常多，真的是白菜价了。我给你们看一下就明白了。

这个是我目前用得最多的MCP客户端Cline。DeepSeek最新模型，它已经支持了。我这边选的是付费版。平台虽然也提供免费版，但是不建议用。我前边试过了，速度太慢，而且步骤一多就容易中断，就挺闹心的。所以咱还是老老实实花钱吧。

我的需求很简单：谷歌发布Gemini 2.5模型。这是他们的官方博客。我让DeepSeek帮我把内容扒下来，翻译成中文，并且在开头加上总结，最后存进文档里。

你看，DeepSeek先做了四步规划：

第一，把用户需求拆成明确的任务；

第二，判断需要用哪些工具，包括Tavily MCP里的提取工具，以及写入文件的工具；

第三，当前的环境是，文件已经存在，用户也允许直接进行操作；

第四，给自己设定执行步骤。

这个就是AI比人类强的地方。你想嘛，有几个人能做到这么清晰思考和规划的？

整个过程花了两三分钟，我就不具体展示了。当文档写入完成后，整个任务结束，一共花了0.0358美金。

接下来，咱们加点难度。我让它调用两个MCP：一个是Sequential-thinking，步骤尽可能多。另一个是Tavily，负责联网搜索资料。每一步思考之前，都要搜一次资料，再结合搜到的内容思考。

像这种需求就特别考验模型。因为它既要懂得拆解问题，还得根据实际搜到的信息随时调整思考方向，以及下一步需要搜什么，而且还要频繁调用MCP、不能出错。

我建议大家看完视频也这么去测试，不管是测试模型还是测试客户端都可以。然后你就知道该怎么选了。

咱们回到DeepSeek这边。整个推理过程花了三分多种。DeepSeek一共做了六步思考，最终给出了答案。但是我觉得下边的要点还不够详细，于是让它进一步完善。最终，花了0.039美金，DeepSeek完成了这个回答。

通过这两个例子可以看出，DeepSeek新版本模型在使用MCP方面已经没问题了，而且价格很低。说实话，我这段时间用Claude跑MCP，已经在API上花了十几美金了。日常高频使用的话，真的会肉痛。

高性价比，就是我推荐DeepSeek的原因。官方在公众号文章里介绍了这次小版本升级。模型能力提升包括这几个方面，比如推理任务表现提高、前端开发能力增强、中文写作升级，等等。

其实我最看中的，以及我认为最重要的，是工具调用能力的提升。还是之前说过的逻辑：

AI发展的两条路径，一是获取更多信息，二是调用更多工具。

如果只能处理文本，搞不了多模态，那么AI的世界就是黑白的。这是我看好Gemini的原因。

如果只局限于推理，用不了更多工具，那么AI就只有大脑、没有手脚。这是我看好Claude的原因。

现在DeepSeek终于把工具调用能力提升上来了，叠加它本来就很强的成本优势，肯定能推动MCP进一步普及。

最后，说一下我对今年Agent发展的判断：

以Dify、Coze为代表的任务编排模式会逐渐被取代。这种做法虽然精确度高，但是太费人力，门槛也很高，而且非常限制模型的发挥，所以只适合企业生产环境。

我认为，最优解一定是：人类只需要设定起点，也就是Context、上下文，以及终点，也就是目标。在起点和终点之间一切，都交给模型自由发挥。

一个超强的模型作为单核，搭配海量、原子化的工具，就是AI行业今年发展的重点。

现在，我们已经有Claude和DeepSeek这样的模型了，也有MCP这样的中间层协议了。万事俱备，一切都将飞速展开。

OK，以上就是本期内容。想了解AI，来我们newtype社群。那咱们下期见！

Dify × MCP：让工作流不再是孤岛 2024-08-31

Key Takeaway

Dify新增“双向MCP”功能，允许用户在Dify中添加MCP服务器，并可将Dify工作流转换为MCP服务器对外输出。
该功能解决了工作流“孤岛”问题，使其能融入日常通用场景，极大扩展了Dify的工具范围。
作者重新关注Dify，认为工作流应原子化，作为组件强化特定场景效果。
文章通过Deep Research工作流的演示，展示了Dify与MCP结合后，AI客户端可调用特定MCP服务器解决特定需求，提升效率。
Dify的MCP功能与提示词结合，可实现基于MCP工具和Prompt的工作流自动化，提升个人生产力。

Full Content

Dify最近上了个新功能：双向MCP。这是个非常重要的功能。因为它让原本只针对特定场景的工作流可以融合到我们日常的、通用的使用场景中。

什么叫“双向MCP”？

一个方向是进来，也就是你可以在Dify里边添加现成的MCP服务器。这个好处是，可以极大扩展Dify的工具范围，把越来越丰富的MCP服务器纳入进来。

另一个方向是出去，也就是你可以把自己创建的工作流转换成MCP服务器，对外输出。比如我用AI客户端，把工作流MCP添加进去。平时在对话中就可以直接调用。

这样一来，你搭建了半天的工作流不会被限制在某些使用场景和情况下使用，不再是孤岛。这个是非常大的进步。

哈喽各位好，欢迎回到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我，就来我们newtype社群。这个社群已经运营500天，有超过1500位小伙伴付费加入啦。

回到今天的主题：Dify的MCP功能。

我记得去年就出过视频介绍Dify。但是从那之后，我就不再关注这些工作流平台了。两个原因：

第一，上手难度高。这些工作流看起来好像在画布上随便搭一搭就行，但其实难度挺高的。既要懂技术，还得懂业务。一家公司能有几个这样水平的人？

第二，适用场景窄。每一条工作流都是针对某些场景、解决某些特定问题而存在的。在早期很有用，因为大模型能力不强，所以把人类的经验编排成工作流，去指导模型。但到了今天，你再把固定的工作流硬塞给模型，就有点限制它了。

那我为什么现在会重新捡起Dify，会看中这次的更新？

因为工作流不是变大了，而是变小了。它可以变成一个一个原子化的组件，融入到我的工作流里边来，去强化特定场景下的效果。这个就是MCP服务器应该有的价值。

我给你们演示一下就明白了。

这个是我在Dify里找到的现成工作流，Deep Research。我把里边的模型改成GPT-4.1，然后发布。因为发布之后，才能把MCP服务器功能打开。

点击左边这个按钮，在左下方把这个选项打开，就可以把这个工作流转变成MCP服务器。这一行就是服务器地址。因为我是在本地运行的，所以地址开头是localhost。

打开AI客户端，我这边用的是免费的Cherry Studio。新建一个MCP。连接方式选HTTP。然后把服务器地址填进去就搞定了。

我们来做一个对比。

我先使用模型内置的搜索工具，搜一个问题：什么是Context Engineering？这个是它的回答。

然后我开个新窗口。这次使用刚才接入的Deep Research MCP服务器。还是同样的问题，什么是上下文工程。

稍等几分钟，模型给出了回答。对比两次的输出，可以明显看到，使用了外挂MCP服务器的效果要好得多。

你看，这个就是我刚才说的，到了特定场景、特定需求的时候，你调用特定的MCP服务器去满足、去解决。你不需要换一个工具，还是用原来的AI客户端，这个真的很方便。

我演示用Deep Research是为了让大家好理解。其实工作流是特别定制化的。接下来，我会针对我自己的需求搭好多个工作流，然后统统转化成MCP服务器。

所以，就像我在社群里说的，现在有两套系统可以满足我们的定制化需求：一是提示词，二是基于工作流的MCP服务器。并且，这两套系统还可以用我做的产品——Prompt House进行统一调度。

这样配置下来，我相信，我的个人生产力又会有一次大的提升。

OK，以上就是本期内容。想了解AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。那咱们下期见！

GPT4-V的正确用法 2024-08-31

Key Takeaway

多模态应用是AI赛道的焦点，GPT4-V作为“眼睛”，GPT-Turbo作为“大脑”，自动化工具作为“手脚”，可实现AI像人一样操作浏览器和电脑。
AI操作浏览器通过Puppeteer控制Chrome，实现页面搜索、识别和交互，避免传统Scraping的局限性。
Self-Operating Computer（SOC）项目以GPT4-V为基础，旨在实现人类级别的电脑操作，但目前仍面临鼠标点击精确度等挑战。
文章强调AI多模态能力将带来全新的AI应用，并促使创业者和VC关注这一领域。

Full Content

围绕多模态做应用，是未来半年AI赛道的焦点。

如果真的有硅基生命的话，多模态一定是它梦寐以求的能力。打个比方：

GPT-V作为眼睛。
GPT- Turbo作为大脑。
各种自动化工具作为手脚。

把这三部分组合在一起，AI可以像人一样操作浏览器上网，可以像人一样使用鼠标操作电脑。这是我做这期视频的逻辑。

两个示例：

一、操作浏览器

借助Puppeteer，让AI对Chrome进行控制。大致的步骤是：

AI根据需求，使用Chrome搜索、打开需要的页面。
把页面上的按钮等位置加上红框，标注出来。
截图，并把截图发送给GPT4-V进行识别。
GPT4-V反馈“看到”的内容，回答用户请求。

除了识别页面信息，AI还可以点击链接、打开子页面。

如果你是AI应用的开发者就会明白，这跟过去的逻辑完全不同——过去是通过Scraping的方式，把页面的内容都爬下来。这种方法存在两个问题：

需要分析整个网页的所有数据，包括许多完全不相干的，再从其中找到想要的。速度慢，token消耗大。
很多网站，尤其是国内的网站，有各种“反爬”手段，或者是要求账号登陆。

与其跟网站、软件站在同一个维度上想解决方案，为什么不升维呢？站在人这个更高的维度，对一切进行操控！

二、操作电脑

Self-Operating Computer（以下简称“SOC”）是GitHub上的项目，已经有5.2K颗星。它以GPT4-V作为基本模型，目标是达到human-level的电脑操作水平。

有GPT4作为大脑，SOC的操作很让我惊讶，比如：它知道用macOS里的搜索功能去搜Google Chrome、然后打开，而不是到应用里去翻找。

目前这个项目还比较初级，最大挑战是，GPT4-V模拟鼠标点击位置的错误率有点高。我在测试的时候明显能感觉到，AI真的是在不断尝试、十分费劲地想去点某个按钮。

一旦这个问题解决，OpenAI能再进一步提升GPT4-V的响应速度的话，SOC就基本可用了。通过语音进行交互和控制也是完全可行的。

半年前，我还想着，也许会有越来越多软件开放接口，让AI接入。现在来看，二者完全不在同一个维度上。

人家都会飞了，你护城河挖再深，又有啥用？

也许三个月后，我们就会看到一批全新的AI应用，充分发挥多模态能力。创业者和VC们都得抓紧跟上了。

LLM = OS 2024-08-31

Key Takeaway

大模型被视为凌驾于所有操作系统之上的“操作系统”，具备内存管理（上下文长度）、文件系统（对话历史、知识库）、驱动程序（Function Call）和用户界面（自然语言交互）等组成部分。
OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级，如提升上下文长度、Function Call能力、记忆功能和自然语言交互速度。
大模型的“操作系统”化将导致其“吃掉”大量应用赛道，对创业者而言，生存空间将受到挤压。
文章通过phidata项目示例，展示了Agent、RAG和GPT-4o如何组装成简易操作系统。

Full Content

为什么所有互联网巨头都要搞大模型？

因为大模型是凌驾于所有操作系统之上的操作系统。

你以为你的产品体验足够好，但再好也得用户自己动手。大模型会让绝大多数用户第一次体验到使唤别人的快感。

你以为你的技术护城河够深了，但再深也只是二维的。在大模型这种更高维度的、飞在天上的技术面前，地上的护城河、边界这种东西是特别可笑的。

大模型就是指环王里的至尊魔戒：One ring rules all。

既然是操作系统，那就得有操作系统该有的组成部分。

第一，内存管理。对大模型来说，就是上下文长度。目前主流的内存容量已经从最早的KB到MB，再到以DDR为代表的GB时代。而大模型上下文长度也在飞速提升，现在动不动就200K。

第二，文件系统。对大模型来说，文件系统包含两部分：一个是对话历史记录。没有这个，大模型就记不得你，也不可能成为你的私人助手。另一个是知识库，这个大家都明白。

第三，驱动程序。对于计算机来说，驱动程序是用来控制硬件设备工作的。对大模型来说，驱动程序就是Function Call，函数调用，让大模型能跟现有的操作系统、各种软件和在线服务连接。

第四，用户界面。从最早的命令交互到后来的图形交互，它们都是基于键盘和鼠标做的交互设计。结果大模型一来就是掀桌子，通过自然语言交互就行，甚至还能察言观色。相比文字输入，通过语音和表情，大模型能获得的信息丰富得多了。

刚才说的那些都是我自己总结的理论，之前在知识星球newtype里分享过。而且我发现，OpenAI跟我想的一样——他们就是在按照操作系统的逻辑对GPT和ChatGPT进行更新和升级。

上下文长度不用说了，从GPT-3.5到GPT-4 Turbo，从4K、16K、32K、128K，现在日常使用基本不会再担心长度的问题。

Function Call也不用说了，GPT-4在这方面属于遥遥领先级别。

历史聊天记录方面，2月新出的记忆功能，可以让ChatGPT记住用户希望它记住的东西，比如个人偏好等等。

自然语言交互方面，最新的GPT-4o大家都看到了，反馈速度已经非常快了。据说可以在0.23秒内响应音频输入，接近人类的水平。

你看，OpenAI的野心就是操作系统级别的。而GPT-4o登陆iPhone绝对会是一个里程碑事件。

有同样想法的，不只是OpenAI，我相信这一定会成为行业共识和行动方向。一些开发者已经在这么做了，比如phidata。他们把Agent、RAG和GPT-4o组装在一起，变成一个简易的操作系统。

你可以把你想添加的内容喂给GPT，比如网页或者PDF文档。

你可以问GPT任何最新的事件，它可以联网帮你搜索。

你可以让GPT当你的投资顾问，让它帮你分析，英伟达的股票还值不值得买。

想体验这个项目，非常简单，有手就行。

第一步，把包含所有文件的压缩包下载下来，解压缩。

第二步，创建一个虚拟环境。比如可以用conda创建并激活，两行代码搞定。

第三步，安装需要的Library，记得一定按照这个txt安装，别自己瞎搞，到时版本有冲突就跑不起来了。

第四步，把OpenAI和EXA的API Key通过export这行命令提供给系统。

第五步，打开docker，安装PgVector。

第六步，通过Streamlit把这些代码变成APP跑起来，打开一个本地链接，就能看到刚才演示过的界面和功能了。

这些功能，在几个月前都是单独的一个个项目。比如，RAG是RAG，Agent是Agent。最近一个月，我发现大家突然开始做集成了。

这个背后，既是技术在进步，也是大家的认知在迭代。从我的知识星球里的内容就能看得出来：

最开始大家都是问我本地大模型、知识库的东西，现在问Agent也多起来了。整个水位、大家的水平在提升。

而且我有一个感觉，或者说粗略的判断：

既然大模型属于中心化极强的操作系统，那么它一定会吃掉很多很多应用赛道。对于创业者来说，也许只能等这头怪兽吃得差不多了，才能分到一杯羹。

所以，不着急出手。

OK，以上就是本期内容。咱们下期见！

Replit Agent：AI编程的野心 2024-08-31

Key Takeaway

Replit Agent是一款激进的AI编程工具，能通过Agent完成环境设置、代码撰写和项目部署，实现云端开发。
Replit Agent的模式类似于“厨师服务团队”，用户只需提供需求，Agent负责具体执行，适合快速原型开发。
Replit Agent与Cursor等工具相比，更侧重于自动化，减少人工参与。
Replit Agent支持H5页面等简单项目开发，但对于复杂项目仍有局限性。
文章强调AI编程工具能极大提升效率，但仍需用户具备开发思维，AI目前处于“遇强则强，遇弱则弱”的阶段。

Full Content

大模型火了快两年，没想到，第一个爆发的赛道是AI编程。

最近新出的Replit Agent特别激进。从环境设置、代码撰写到项目部署，它用Agent全部搞定。过程中，有时会询问你的意见，比如这个UI和你预期的样子是不是一样。其它时间Replit Agent都是在埋头干活。

整个开发是在云端完成的，用它的环境，这一点挺省心的。更重要的是，这意味着你随便用什么设备都可以，手机也OK。一旦有想法了，可以快速完成原型开发。然后把整个项目的压缩包下载下来，在本地做进一步处理。

Replit Agent的这种模式让我想起了农村的厨师服务团队，专门搞红白喜事的那种。厨师、厨具、餐具、桌椅，甚至食材和调料，他们全都提供。你就负责吃席就好。

相比之下，Cursor是一种人机Co-work的模式，还是需要人的大量参与。而再早之前的GitHub Copilot就更落后了，我觉得它只能算是一种智能代码补全。

为了测试，我拿Replit做了一个简单的H5页面。用户输入API Key之后，可以选择OpenAI的模型，然后对话。

需求给过去之后，Replit会先做分析，并且还会根据它的理解，给你一些选项，看你要不要也一并完善了。这一步其实是在做需求确认。大家如果服务过甲方就知道，如果需求对不清楚，那这项目大概率会很痛苦。

开工之后，Replit自动做环境的部署，把需要的包都下载、安装，然后编写代码、配置数据库等等。

因为项目比较简单，所以测试过程很顺利。调用OpenAI模型对话一次就成功了。剩下的都是小修小补，比如UI上删除一些不需要的元素，简单说一句就搞定。

Replit虽然不能说中文，但是你用中文它也能懂。不过我还是建议用英文，避免中文翻译成英文有歧义。四级水平的英文就足够和AI交流了，它都懂的。

到了部署环节，其实也没什么好调整的，Replit都帮你设置好了，直接点开始就OK。等进度条走到头，Replit会提供一个链接，那就是咱们的H5页面了。桌面端试了一下，完全正常。在手机上打开，也可以使用。

Replit支持Auto-scale，也就是说，如果访问量大的话，它会自动升级配置，保证项目的运行。在后台可以看到数据分析。如果你自己有域名的话，也可以在后台绑定域名。

看到这里你应该就明白，为什么我说Replit像农村的厨师服务团队了。不过，现在这个团队能力还不太行，搞些小活儿没问题，比如H5这种，碰上复杂点的项目就整不动了。

我在前一天让Replit做一个微信小程序，也是接OpenAI API的聊天机器人。整个过程就挺闹心的。Replit总让我帮它检查这、检查那的，甚至让我帮它看看Python文档有没问题——这谁给谁干活啊。到了部署环节，最后一步死活进行不下去，也找不出原因，然后就卡在这里了。

所以我估计，Replit至少还得花个半年时间去迭代吧。现阶段我就不订阅了，还是继续用Cursor比较靠谱。

给大家看看，我用Cursor把个人博客做出来了。我这些视频的文字稿，还有我日常的阅读清单，都会在博客上发布。后续我准备用Cursor做一个聊天机器人，用上RAG，把我的个人知识库接进去，开放给大家使用。

对于现在这些AI编程工具，我发现有两派观点：一派觉得这些工具都是垃圾，一派觉得这些工具可以替代程序员。这两派我都不赞成。我觉得现在的AI处于中间地带，没法替代，但是可以极大提升效率。如果你是纯小白，那真的很难，至少得具备开发思维。

就像我在上半年的一期视频里说的，AI在这个阶段的特征是八个字：

遇强则强，遇弱则弱。

AI没那么万能，现在只是Copilot，需要Pilot很强才能用起来。你要是没那么强，那就等着，等到普及的那一天，等到离AGI很近的那一天，跟着受益，也可以。

OK，以上就是本期内容。想找我就来newtype社群。那咱们下期见！

像用GPT一样使用开源大模型 2024-08-31

Key Takeaway

LM Studio等工具能让用户像使用GPT一样，通过Python脚本和框架（如LangChain、Llama Index）增强和限制开源大模型。
本地运行开源大模型可以实现知识库、搜索引擎等增强功能，并能根据工作流程限制模型发挥。
LM Studio提供本地服务器功能，模拟OpenAI API接口，使得基于GPT开发的应用可以无缝迁移到开源大模型。
这种本地化解决方案不依赖云端算力，无需支付token费用，为用户提供了开发定制化AI应用的自由。
文章强调了本地部署开源大模型在成本和灵活性方面的优势。

Full Content

在本地跑开源大模型，如果只是用来简单对话，那就没什么意思了。我们肯定是希望像用GPT一样，通过Python脚本，借助LangChain、Llama Index等框架、工具，对大模型进行增强和限制，比如：

增强：通过搭载知识库、搜索引擎，提升大模型信息的及时性，补充某个领域的知识。
限制：根据给定的工作流程、思考路径来处理任务，而非随意发挥。

OpenAI提供API接口，让这一切变得简单许多。其实通过LM Studio这类软件，也可以在开源大模型的使用上，达到同样的效果。

在上期视频中，我介绍了LM Studio的基本用法。

你可以把它简单理解为：就像国内的游戏模拟器平台，把模拟器、游戏库全都打包好了。不需要做复杂的调试，下载好了直接可以玩。

在此基础上，LM Studio还提供了进阶用法：

作为本地服务器，提供类似于OpenAI的API接口服务。

方法很简单：

加载量化版的大模型。
启动本地服务器。
获取本地服务器的端点，设置成config_list中的base_url

如果之前有基于GPT开发应用的话，看到这个代码应该会很亲切。

它基本上就是把调用OpenAI API的部分做个替换：

api_key不需要填真实的，可以用“not-needed”来替代。
model部分，原本选择gpt-3.5或者gpt-4，现在填“local-model”

脚本其它部分都不需要变动。这意味着，之前的Python脚本都可以平移过来，给到开源大模型使用。

比如，使用微软的AutoGen配置Agent，对config_list做一些改动就行，照样导入llm_config。

不依赖云端算力，不用支付token费用，基于LM Studio和开源大模型，完全可以开发一套适合自己需求的本地解决方案，这是最吸引我的地方。

如何搭建一套Agent系统 2024-08-31

Key Takeaway

Agent是AI智能体的核心，用于自动化执行任务，其搭建关键在于明确需求和工作流设计。
Multi-Agent System通过角色分工协作，解决复杂任务，例如Researcher、Editor和Note Taker的组合。
Agent除了大模型作为“大脑”，还需要工具作为“手脚”，如搜索工具（Tavily）和笔记工具（Obsidian）。
搭建Agent系统需要Python脚本，即使编程能力不高，也能通过现有脚本进行修改和拼装。
RAG和Agent是AI原生应用的关键技术，理解并实践它们能提升AI使用效率。

Full Content

我对自己的笔记系统做了一点小升级。

之前的系统只是“离线版”，只能根据已有的内容去生成新内容。

升级之后的系统就是“联机版”：增加了AI搜索、报告生成的功能。而且，全都搞定之后，还会自动生成一条笔记，省得我还要手动贴进Obsidian。

这些功能的背后，是Agent / AI智能体的能力。

我在上期视频介绍了Agent的基本概念。有些小伙伴说，想看看具体的案例。所以这期也算是一个简单的演示，让你知道Agent是怎么搭建的、怎么工作的。

现在虽然有不少工具，比如difi.ai之类的，能让你点几下鼠标就完成搭建。但是，要完全实现自己的需求，完全按照自己的心意来，还是得靠代码。

不过也不用担心，一是网上有很多现成的Python脚本，你稍微改一改、拼装一下，完全可以用；二是它也不要求你有多高的编程能力，看得懂就行。甚至你把它当成英语四级的阅读理解都OK。像我这种小学生水平都能上手，你肯定没问题。

OK，咱们进入正题。

Agent是用来干活儿的。所以，一切的出发点肯定是需求，越明确越好。

我的需求很简单，来自于我日常经常遇到的情况：

当我在Obsidian里整理笔记或者写东西的时候，经常会需要去查点资料。搜到好多个网页之后，我需要创建一条新笔记，把里边有用的内容提取出来，规整一下，变成一个比较有逻辑的东西，存在笔记里边，方便下一步处理。

这些繁琐的、技术含量不高的工作，我希望能交给几个Agent合作完成。

就像我在知识星球newtype里说的，搭建一套Multi-Agent System，最重要的是，你想让它怎么做。

所以，为了满足这个需求，需要三个角色，分别完成三个任务：

Researcher：负责上网查资料，然后把找到的内容汇总成一份报告。 Editor：它的内容能力强、文笔好，负责根据Researcher提供的报告，撰写一篇笔记。 Note Taker：它的任务很简单，就是在Obsidian里创建一条新笔记，然后把Editor写好的东西贴进去。

这是一个非常简单的分工，很好理解。难点在于给Agent配什么工具。

你可以把大模型看作是一个单独的大脑，就像科幻电影里的那种。它只有“思考”能力，没有行为能力。所以，Agent除了装上大模型这个大脑之外，还得拿上工具——咱不能人家不能空手去干，对吧？

根据分工内容，Agent需要用到两个工具：

搜索工具：有了这个，Agent才能联网搜索。笔记工具：Agent需要知道，笔记放在哪个位置，什么格式，以及新笔记的标题该叫啥。

关于搜索工具，今天已经有很多现成的了。比如Google、DuckduckGO，都可以直接用。我这边选择的是Tavily。他们提供的搜索API，专门为大模型和RAG优化过，效果挺好的。直接加两行代码就可以用。

关于笔记工具，这边需要动点脑子，因为Obsidian并没有提供一个接口让其它程序能够接入去创建笔记。不过，解法还是有的：

Obsidian的所有笔记都是md格式的。那么，咱们就直接在笔记所在的文件夹创建一个md格式的文件。也就是说，通过在外部创建笔记的方式，绕开在软件内创建的这一步。

所以，基于这个解法，就有了CustomTools这几行代码，指明了笔记文件夹的位置，以及文件名的规则——按照笔记创建的时间来命名。

当把这些组合在一起之后，就形成了这样一份脚本，包含这几部分：

基础设置，包括API Key是什么，具体的模型用哪个，以及工具的设置。刚才介绍过的那三个Agent，它们分别负责干什么，以及允许它们使用什么工具。分几个子任务完成，以及每一个子任务都由哪些Agent参与。

当把这些拼装完毕之后，运行脚本，等个十几秒，任务就完成了。

以后每次使用，我只需要把这一行修改了，也就是告诉Agent，让它帮我搜什么。

其实我也可以用Gradio添加一个可视化的界面。不过我自己使用就不讲究那么多了。

按照同样的逻辑，我们可以对这个脚本做一些修改。比如，输入一个公众号文章的链接，让Agent读取它，然后把内容全扒下来，做提炼和总结，最后存进笔记里，都可以。

我这边介绍的都是最简单的Workflow，主要是想让大家有个概念。真要是搞大一些的项目，整套系统设计会麻烦得多，会用到更多的工具和大模型，Agent之间以及Agent和用户之间的协作也会复杂起来。

OK以上就是本期内容。希望通过这期和上一期视频，大家能对Agent有一个基本的认知。还是那句话：RAG和Agent是用好AI的关键。大家有什么问题就来知识星球newtype找我。咱们下期见！