Agent

Agent经济,要来了

Key Takeaway

  • 红杉资本认为AI浪潮的量级远超云计算和移动互联网,将颠覆整个软件市场,并重构服务行业。
  • AI的机会主要在应用层,创业公司可从垂直领域和复杂人力介入问题切入,利用Agent替代外包业务。
  • “Agent经济”(Agent Economy)是AI时代新的商业模式,Agent将替代用户进行交互和交易,催生新的通信网络和基础设施需求。
  • 2025年AI的关键词是Agent,它将成为模型和应用集中的焦点。
  • MCP(模型控制协议)为大模型提供了外部信息和工具,是Agent进化的前提。
  • Agent的准确率提升和Token费用下降,预示着Agent将迎来爆发式发展。

Full Content

如果你想AI创业,红杉资本最新的Keynote一定要看。他们三个人花了半小时,把AI产业现状以及未来趋势都讲明白了。我帮你们画一下重点,以及谈谈我的感受。

第一,分析框架。

如果你要分析AI或者别的领域的趋势,可以使用红杉这套框架:

What,So What,Why Now,What Now。

整个分析从What、也就是发生了什么开始。比如,今年MCP特别火爆——这是What。那又怎么样呢?会有什么影响吗?这是So What。为什么是现在火爆?MCP是去年底推出的,当时怎么没火?这是Why Now。前因后果都知道了,我们现在该怎么做?这是What Now。

这类分析、思考框架拿起来就能用,很适合新手。类似的东西,还有“现状 - 障碍 - 目标”,这个我在社群里发过,是我过去十几年用得最多的框架。

目标是你要去的地方。现状是你当下所处的位置,是你的出发点。那么,要从这里到达哪里,中间有哪些障碍呢?只要找到障碍,并且找到克服障碍的方法,我们就能达成目标。

我们平时会看到很多机构和大佬做分享。除了他们说了什么之外,我的习惯是,会去分析、倒推他们为什么这么说、这么想,把他们的框架给研究清楚。长期来看,这比他们的观点更有价值。

这算是我的秘诀,免费分享给大家。不用谢。

第二,AI浪潮究竟有多大?

很多人认为,AI堪比过去的向云端转型的机会。但是红杉认为,AI的量级要大得多:

AI不只是服务,还会颠覆整个软件市场。

这一点,我在今年深有感受。Agent真的已经开始重构整个服务行业和软件行业。

而且,AI这个浪潮不仅超大,还非常凶猛。因为,它所需要的算力、网络、数据、分发渠道、人才培养,在过去几波浪潮中都已经铺垫好了。这么多层叠加到一起,把势能全部给到AI,所以AI才会达到今天这么恐怖的发展速度。

我知道,很多人在国内感受不深,还盯着什么电商、外卖、短视频。这让我想起了灾难片的场景。一群游客在沙滩上晒着太阳、喝着鸡尾酒。但是,如果你出海了,在海面上就会看到,一个百米高的超级巨浪已经形成了,并且朝着岸边狂奔而来。

所以,早点准备吧。

第三,AI的机会在哪里?

把AI跟过去的云计算和移动互联网放在一起看。从基础设施开始,列出达到10亿营收规模的企业。可以看到,AI这边还有很多空白。而且,最大的空白区域在应用层。

有一个概念,我提到过好多次:模型即应用。

这个是OpenAI这些公司正在做的事。他们凭借越来越强的模型能力,就像吃豆人一样,正在吃掉越来越多细分赛道,直到成为一个超大的、通用型的怪物。

但是另一边,创业公司也在反击。他们从客户需求出发,专注在特定的垂直领域,聚焦在特定的功能上,处理那些需要大量人力介入的复杂问题。

比如,那些外包业务就可以用Agent来替代。你想嘛,能外包,说明人力成本高,说明有预算,说明结果可衡量——这不就是最需要Agent发挥的地方吗?

所以,有技术是一方面。从技术到客户需求被满足,整条价值链当中,还有很多可以去挖战壕、广积粮的地方。一场全面的竞争已经展开了。

第四,终局长什么样?

大家记住这个新概念:Agent Economy,Agent经济。

过去我们经历过各种经济,比如粉丝经济、共享经济,等等。那么,AI时代将诞生的、新的经济形态、商业模式,就是Agent经济。

Agent会替代用户进行交互、交易。那么,围绕Agent自然要产生新的经济形态,对吧?

顺着这个逻辑往下想的话,今天的网络是以人为出发点的,是面向人的。那么,Agent兴起之后,是不是也得有一张以Agent为主角的通信网络?这个网络该采用什么样的协议?以及,当Agent数量翻个十倍、百倍,需要什么样的基础设施和配套服务?

这一张Agent网络,还有这整个Agent经济的背后,得有多少机会啊?能不兴奋吗?

顺着红杉的判断,我谈一下我的体感。

在今年年初,我发了一个视频,叫做《我对2025年AI的判断》。在开头我就很明确说了:

2025年,AI的关键词只有一个,就是Agent。不管是搞模型的还是搞应用的,都会把火力集中到Agent这个点上。

后来的发展,证明了我的判断。

MCP火爆的原因就在于,它给大模型提供了更多外部信息和工具——这个是进化成Agent的前提。

信息搜集的Deep Research,AI编程的Cursor,都是Agent最好的案例,也是目前AI的杀手级应用。

Agent趋势兴起,从我们社群也能感受到。去年大家在社群内的提问主要是关于RAG、知识库的。到了今年,Agent相关问题明显变多了。

这个趋势的背后,有两条曲线在发挥作用。一条是Token费用。你去对比GPT-3.5、GPT-4时期的费用,和今天的费用就会发现,Token费用已经下降非常非常多了。另一条是Agent的准确率。最多两年,Agent执行任务的准确率就能达到人类的92%。

能力越来越强,成本还越来越低,这个是什么结果不用我多说了吧?

所以我也调整了自己的日程安排。周一和周二我会把本周要更新的视频做完。然后本周剩下的时间,我都会用来开发应用。从简单但是刚需的工具开始,就像播种一样,为自己创造多条现金流来源。

我也建议大家,抓紧行动起来。这么大的机会,人这一辈子能遇到几次?而且还是在年轻或者中年的时候。

AI杀手级应用:Deep Research

Key Takeaway

  • Deep Research是AI的杀手级应用,能显著提升职场效率,未来将快速普及。
  • Deep Research的核心是AI Search的尽头,即AI Research,通过掌握更多信息和控制更多工具实现。
  • OpenAI的Deep Research效果最佳,但成本高昂;Google Gemini的Deep Research性能不错且性价比高;Perplexity的Deep Search量大但效果一般。
  • Deep Research通过模型协作和多轮分析,能快速完成深度研究,生成思维导图和深度挖掘。
  • 文章强调Deep Research普及后,将对职场产生巨大影响,并建议用户尽早学习和使用。

Full Content

Deep Research绝对是AI的杀手级应用。用过都说好。可惜用过的人太少,因为成本真的很高,比如OpenAI要收200美金一个月才让你用。所以,这个东西暂时还没有火出圈。如果你是职场新人,或者很想往上爬,趁着这段时间,赶紧用、赶紧学,不开玩笑。

这么说吧,但凡脑子正常的老板用过Deep Research之后,绝对会想把公司里的初级牛马全部干掉。手段不那么狠一些的,也会强制要求全员使用。然后,用不明白的都给我滚蛋。

我演示一下你们就明白了。需求很简单:帮我分析英特尔与台积电合资的可能性,以及美股投资机会。这个是最近美股投资的热门议题,我已经买入了。

接到需求后,ChatGPT会主动做一轮沟通,把需求里的细节明确一下,然后再正式开工。整个过程一般在10分钟左右,它会去查找几十个网页,然后细细地拆解。这个时候大家可以切到别的网页或者刷刷手机。

我对o1 Pro这个生成结果挺满意的,几分钟时间就完成了初步研究。试想一下,一个月1500块招个实习生帮你搜集资料,能做到这个份上,你已经可以偷笑了!

接下来,可以让这个GPT实习生根据前边的内容生成一个思维导图,这样你会有一个全局性的认识。然后,针对其中某些具体的点,再让GPT去做深度挖掘。这我就不演示了。

所以,身为打工人的各位自己掂量一下:当Deep Research全面普及之后,你们在职场当中该如何自处?

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!

回到今天的主题:Deep Research。

目前市面上提供Deep Research产品的厂商主要有三家:OpenAI、Google,以及Perplexity。接下来一定会有更多厂商加入进来。为什么?记住我这句话:

AI Search的尽头,是AI Research。

那么,不管是Search还是Research,又都是为了什么?我前两天在社群里发了这么一段话,我认为:

AI会沿着两条线发展:掌握更多信息,控制更多工具。

其中,搜索、深度研究都是第一条线的关键节点。这是为什么各家都很重视的原因。

动作最快的OpenAI已经把这个产品开放给Pro用户好一段时间了。这一档的月费是200美金,每个月可以用100次的Deep Research。Plus和免费版的用户也别着急,Sam说了,将会向Plus版用户提供每个月10次的额度,免费版用户则是2次。

实话实说,OpenAI的Deep Research是目前效果最好的产品。它不是简单地搜一堆网页,把内容拿回来分析。而是用了大量的模型协作。所以,消耗的Token比别家多太多。它产出的报告,信息密度也是别家的好几倍。不信的话,你去部署那些开源的、所谓的替代品试试就知道了。

但是,很可惜,我不会继续订阅。不是产品的问题,而是降智的问题。

很多人都遇到了降智,特别恶心。这个问题并不是无解。比如,你可以再花一点点钱去搞个静态IP伪装一下。可以是可以,只是那种被歧视的感觉让我非常不爽。我给的美元就不是美元吗?

而且,抛开这些情绪,我判断,这类型产品在三个月内一定会快速普及,成为20美金的标配。

这么考虑下来,我还是会把Gemini当做主力。性能不错,稳定,不恶心人。

我每个月20美金订阅Gemini Advanced,这其中就包括Deep Research的使用权限。这个使用也是有限额的,不过Google没明说,估计是根据用户的使用量来动态调整,满了会提示。

我给大家看一下Gemini这边的效果。跟ChatGPT一样,接到需求后,不会马上开始,而是先做一轮分析,拟定一个方案,跟用户确认好了之后才开工。接着,在几分钟内,它会查找几十甚至上百个网页,直到掌握足够的信息。最后,按照报告的格式进行输出。

没记错的话,Gemini的Deep Research是在1.5的阶段推出的,所以现在是1.5 Pro这个模型,还没更新到2.0。所以,在结果上肯定不如OpenAI那边。但是我相信,等用上Gemini 2.0模型之后,两边的效果一定会齐平。而且,Gemini大概率会提供更多的额度。一是因为搜索上的积累,二是因为Google有TPU。对OpenAI来说,成本才是他们最大的障碍。

OK,ChatGPT和Gemini都聊完了,咱们最后来看看Perplexity。他们是最狠的,给Pro用户每天500次额度,免费用户每天5次。虽然便宜,但是效果也比较一般。

不客气地说:这不是Deep Research,而是Deep Search。

反正我日常都高频使用Perplexity。现在多了一个量大管饱的Deep Search,不用白不用。

AI需要「影分身」

Key Takeaway

  • ChatGPT“裸奔”不足以满足生产力需求,部署Agent能显著提升效率。
  • GPT Researcher是开箱即用的Agent方案,擅长资料搜集和报告生成,成本低廉。
  • CrewAI是灵活的Agent框架,通过设定Agent、Tool和Task实现自由搭建Agent系统。
  • 大模型存在“单核硬伤”(Degeneration-of-Thought),多Agent协作能有效解决复杂推理问题。
  • Agent技术在大模型加持下迅速发展,未来将有更多工具和应用出现。

Full Content

ChatGPT会员我是不会再继续订阅了。

轻度体验一下还可以。但如果真要把它当作生产力工具长期使用的话,还是不太行。

咱们来做个对比。同样一个问题:

GPT-4加上联机搜索之后,ChatGPT给出了这样的答案:

你觉得还不错是吧?我给你看看Agent生成的:

也不能说是差距很大,大概就是能用和不能用的区别吧。

所以,从实用的角度来看,我建议大家别再继续用ChatGPT「裸奔」了。花点时间部署一套Agent,能帮你省下非常多时间。

介绍一下我目前在用的两套方案。

GPT Researcher:开箱即用

GPT Researcher是GitHub上的一个项目,主要满足资料搜集、报告生成方面的需求——日常工作刚需,真的能省很多时间。

GPT Researcher搭建了两类Agent:

Planner Agent负责拆解需求、生成尽可能全的问题。Execution Agent拿到问题之后,找到对应的网页、把内容爬下来,再交回给Planner Agent。后者筛选、汇总所有资料,完成调研报告。

这个项目有两点做得很棒:

  1. 混合使用GPT-3.5和GPT-4,提升速度、降低成本。一般来说,跑一圈下来需要3分钟,花费0.1美元——真的是白菜价了。
  2. 根据需求生成的Agent都是特定领域的。比如,需求是做金融领域的调研,那么生成的Agent就是金融专家。

只需要懂一点点代码就可以使用GPT Researcher。按照GitHub的教程,把仓库克隆到本地,然后一步一步复制粘贴、执行对应的命令。过程中如果提示缺什么Package,那就pip install安装就行。最后打开一个本地网页就可以使用了。

CrewAI:自由搭建

如果你的需求不只是生成调研报告,那就需要使用现成的框架,亲手搭建一套Agent系统了。

我目前在用的Agent框架叫「CrewAI」。看起来跟微软的AutoGen差不多,但你一上手就会发现,CrewAI比AutoGen逻辑更简单、更直观。

在CrewAI里,你只需要设定三个要素:

  1. 谁。
  2. 用什么。
  3. 做什么。

「谁」指的是Agent。多少个Agent,分别以什么角色进行协作,工作目标是什么,他们各自的背景是什么样的,他们用什么模型作为大脑。

「用什么」指的是Tool。最常见的就是搜索工具。你需要把工具分配给具体使用的Agent。

「做什么」指的是Task。一个项目可以分拆成很多个任务。每个任务需要有具体的描述,以及指定由哪些Agent来完成。

一旦理解了这个逻辑之后,CrewAI的设置就变得极其简单。

还以生成调研报告为例,这是我设计的Agent工作流程:

我特意在最开始的需求分析、方案制定环节安排了两个Agent。这么做,Token花得多,时间也更长,不过很有必要。一切都是为了解决一个核心问题:

大模型在复杂推理的时候,特别容易犯轴。

单核的硬伤

为了加强大模型的推理能力,研发人员想了很多办法。比如,大名鼎鼎的思维链(Chain-of-Thought),还有自我反思(Self-Reflection)。

但是,无论怎么给大模型叠Buff,都改不了这个问题,在论文里管它叫「Degeneration-of-Thought」:

当大模型对自己的答案有信心的时候,即使这个答案不正确,它都没法再通过自我反思去产生新的想法。

跟人一样,沉浸在自己的世界里,迷之自信、死不悔改。

造成这个问题的原因有很多。比如在预训练阶段,输入的概念有偏差,或者思考模式有问题,都会产生认知偏差。

有的问题可以通过技术解决,有的不需要。像这个问题,其实人类社会已经有解了,就是大家最最熟悉的:

讨论与协作。

一个人再聪明,认知水平再高,都会有盲点。

有人点拨的话——其实有时都不用点拨,只要跟自己以外的人聊上几句,就能爬出来。

这就是为什么,都是一样的大模型作为底层驱动,「多核」会比「单核」靠谱得多。

2024 Agent

Agent并不是跟着大模型兴起的。早在这一轮AI爆发之前,Agent就已经有好多年的研究了。大模型充当最强大脑,解决了Agent推理的难题,使得Agent突然被所有人关注。

在设计和部署Agent方面,AutoGen之后有了CrewAI,2024年肯定还会有更多团队想来试一试的。

DeepSeek新模型太适合MCP了!

Key Takeaway

  • DeepSeek新模型V3 0324在MCP调用方面表现出色,性价比极高,性能接近Claude-3.7 Sonnet。
  • DeepSeek模型具备清晰的思考和规划能力,能将用户需求拆解为明确任务,并判断所需工具。
  • DeepSeek在工具调用能力上显著提升,结合其成本优势,将推动MCP的进一步普及。
  • 文章预测Agent发展趋势将从任务编排模式转向模型自由发挥,以超强模型为核心,搭配海量原子化工具。
  • DeepSeek的进步,加上MCP协议,预示着AI行业将迎来飞速发展。

Full Content

DeepSeek新出的模型V3 0324可能是跑MCP性价比最高的模型。它在性能上接近Claude-3.7 Sonnet,调用MCP很丝滑,但是成本却低了非常非常多,真的是白菜价了。我给你们看一下就明白了。

这个是我目前用得最多的MCP客户端Cline。DeepSeek最新模型,它已经支持了。我这边选的是付费版。平台虽然也提供免费版,但是不建议用。我前边试过了,速度太慢,而且步骤一多就容易中断,就挺闹心的。所以咱还是老老实实花钱吧。

我的需求很简单:谷歌发布Gemini 2.5模型。这是他们的官方博客。我让DeepSeek帮我把内容扒下来,翻译成中文,并且在开头加上总结,最后存进文档里。

你看,DeepSeek先做了四步规划:

第一,把用户需求拆成明确的任务;

第二,判断需要用哪些工具,包括Tavily MCP里的提取工具,以及写入文件的工具;

第三,当前的环境是,文件已经存在,用户也允许直接进行操作;

第四,给自己设定执行步骤。

这个就是AI比人类强的地方。你想嘛,有几个人能做到这么清晰思考和规划的?

整个过程花了两三分钟,我就不具体展示了。当文档写入完成后,整个任务结束,一共花了0.0358美金。

接下来,咱们加点难度。我让它调用两个MCP:一个是Sequential-thinking,步骤尽可能多。另一个是Tavily,负责联网搜索资料。每一步思考之前,都要搜一次资料,再结合搜到的内容思考。

像这种需求就特别考验模型。因为它既要懂得拆解问题,还得根据实际搜到的信息随时调整思考方向,以及下一步需要搜什么,而且还要频繁调用MCP、不能出错。

我建议大家看完视频也这么去测试,不管是测试模型还是测试客户端都可以。然后你就知道该怎么选了。

咱们回到DeepSeek这边。整个推理过程花了三分多种。DeepSeek一共做了六步思考,最终给出了答案。但是我觉得下边的要点还不够详细,于是让它进一步完善。最终,花了0.039美金,DeepSeek完成了这个回答。

通过这两个例子可以看出,DeepSeek新版本模型在使用MCP方面已经没问题了,而且价格很低。说实话,我这段时间用Claude跑MCP,已经在API上花了十几美金了。日常高频使用的话,真的会肉痛。

高性价比,就是我推荐DeepSeek的原因。官方在公众号文章里介绍了这次小版本升级。模型能力提升包括这几个方面,比如推理任务表现提高、前端开发能力增强、中文写作升级,等等。

其实我最看中的,以及我认为最重要的,是工具调用能力的提升。还是之前说过的逻辑:

AI发展的两条路径,一是获取更多信息,二是调用更多工具。

如果只能处理文本,搞不了多模态,那么AI的世界就是黑白的。这是我看好Gemini的原因。

如果只局限于推理,用不了更多工具,那么AI就只有大脑、没有手脚。这是我看好Claude的原因。

现在DeepSeek终于把工具调用能力提升上来了,叠加它本来就很强的成本优势,肯定能推动MCP进一步普及。

最后,说一下我对今年Agent发展的判断:

以Dify、Coze为代表的任务编排模式会逐渐被取代。这种做法虽然精确度高,但是太费人力,门槛也很高,而且非常限制模型的发挥,所以只适合企业生产环境。

我认为,最优解一定是:人类只需要设定起点,也就是Context、上下文,以及终点,也就是目标。在起点和终点之间一切,都交给模型自由发挥。

一个超强的模型作为单核,搭配海量、原子化的工具,就是AI行业今年发展的重点。

现在,我们已经有Claude和DeepSeek这样的模型了,也有MCP这样的中间层协议了。万事俱备,一切都将飞速展开。

OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!

Dify × MCP:让工作流不再是孤岛

Key Takeaway

  • Dify新增“双向MCP”功能,允许用户在Dify中添加MCP服务器,并可将Dify工作流转换为MCP服务器对外输出。
  • 该功能解决了工作流“孤岛”问题,使其能融入日常通用场景,极大扩展了Dify的工具范围。
  • 作者重新关注Dify,认为工作流应原子化,作为组件强化特定场景效果。
  • 文章通过Deep Research工作流的演示,展示了Dify与MCP结合后,AI客户端可调用特定MCP服务器解决特定需求,提升效率。
  • Dify的MCP功能与提示词结合,可实现基于MCP工具和Prompt的工作流自动化,提升个人生产力。

Full Content

Dify最近上了个新功能:双向MCP。这是个非常重要的功能。因为它让原本只针对特定场景的工作流可以融合到我们日常的、通用的使用场景中。

什么叫“双向MCP”?

一个方向是进来,也就是你可以在Dify里边添加现成的MCP服务器。这个好处是,可以极大扩展Dify的工具范围,把越来越丰富的MCP服务器纳入进来。

另一个方向是出去,也就是你可以把自己创建的工作流转换成MCP服务器,对外输出。比如我用AI客户端,把工作流MCP添加进去。平时在对话中就可以直接调用。

这样一来,你搭建了半天的工作流不会被限制在某些使用场景和情况下使用,不再是孤岛。这个是非常大的进步。

哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。这个社群已经运营500天,有超过1500位小伙伴付费加入啦。

回到今天的主题:Dify的MCP功能。

我记得去年就出过视频介绍Dify。但是从那之后,我就不再关注这些工作流平台了。两个原因:

第一,上手难度高。这些工作流看起来好像在画布上随便搭一搭就行,但其实难度挺高的。既要懂技术,还得懂业务。一家公司能有几个这样水平的人?

第二,适用场景窄。每一条工作流都是针对某些场景、解决某些特定问题而存在的。在早期很有用,因为大模型能力不强,所以把人类的经验编排成工作流,去指导模型。但到了今天,你再把固定的工作流硬塞给模型,就有点限制它了。

那我为什么现在会重新捡起Dify,会看中这次的更新?

因为工作流不是变大了,而是变小了。它可以变成一个一个原子化的组件,融入到我的工作流里边来,去强化特定场景下的效果。这个就是MCP服务器应该有的价值。

我给你们演示一下就明白了。

这个是我在Dify里找到的现成工作流,Deep Research。我把里边的模型改成GPT-4.1,然后发布。因为发布之后,才能把MCP服务器功能打开。

点击左边这个按钮,在左下方把这个选项打开,就可以把这个工作流转变成MCP服务器。这一行就是服务器地址。因为我是在本地运行的,所以地址开头是localhost。

打开AI客户端,我这边用的是免费的Cherry Studio。新建一个MCP。连接方式选HTTP。然后把服务器地址填进去就搞定了。

我们来做一个对比。

我先使用模型内置的搜索工具,搜一个问题:什么是Context Engineering?这个是它的回答。

然后我开个新窗口。这次使用刚才接入的Deep Research MCP服务器。还是同样的问题,什么是上下文工程。

稍等几分钟,模型给出了回答。对比两次的输出,可以明显看到,使用了外挂MCP服务器的效果要好得多。

你看,这个就是我刚才说的,到了特定场景、特定需求的时候,你调用特定的MCP服务器去满足、去解决。你不需要换一个工具,还是用原来的AI客户端,这个真的很方便。

我演示用Deep Research是为了让大家好理解。其实工作流是特别定制化的。接下来,我会针对我自己的需求搭好多个工作流,然后统统转化成MCP服务器。

所以,就像我在社群里说的,现在有两套系统可以满足我们的定制化需求:一是提示词,二是基于工作流的MCP服务器。并且,这两套系统还可以用我做的产品——Prompt House进行统一调度。

这样配置下来,我相信,我的个人生产力又会有一次大的提升。

OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

GPT4-V的正确用法

Key Takeaway

  • 多模态应用是AI赛道的焦点,GPT4-V作为“眼睛”,GPT-Turbo作为“大脑”,自动化工具作为“手脚”,可实现AI像人一样操作浏览器和电脑。
  • AI操作浏览器通过Puppeteer控制Chrome,实现页面搜索、识别和交互,避免传统Scraping的局限性。
  • Self-Operating Computer(SOC)项目以GPT4-V为基础,旨在实现人类级别的电脑操作,但目前仍面临鼠标点击精确度等挑战。
  • 文章强调AI多模态能力将带来全新的AI应用,并促使创业者和VC关注这一领域。

Full Content

围绕多模态做应用,是未来半年AI赛道的焦点。

如果真的有硅基生命的话,多模态一定是它梦寐以求的能力。打个比方:

  • GPT-V作为眼睛。
  • GPT- Turbo作为大脑。
  • 各种自动化工具作为手脚。

把这三部分组合在一起,AI可以像人一样操作浏览器上网,可以像人一样使用鼠标操作电脑。这是我做这期视频的逻辑。

两个示例:

一、操作浏览器

借助Puppeteer,让AI对Chrome进行控制。大致的步骤是:

  1. AI根据需求,使用Chrome搜索、打开需要的页面。
  2. 把页面上的按钮等位置加上红框,标注出来。
  3. 截图,并把截图发送给GPT4-V进行识别。
  4. GPT4-V反馈“看到”的内容,回答用户请求。

除了识别页面信息,AI还可以点击链接、打开子页面。

如果你是AI应用的开发者就会明白,这跟过去的逻辑完全不同——过去是通过Scraping的方式,把页面的内容都爬下来。这种方法存在两个问题:

  1. 需要分析整个网页的所有数据,包括许多完全不相干的,再从其中找到想要的。速度慢,token消耗大。
  2. 很多网站,尤其是国内的网站,有各种“反爬”手段,或者是要求账号登陆。

与其跟网站、软件站在同一个维度上想解决方案,为什么不升维呢?站在人这个更高的维度,对一切进行操控!

二、操作电脑

Self-Operating Computer(以下简称“SOC”)是GitHub上的项目,已经有5.2K颗星。它以GPT4-V作为基本模型,目标是达到human-level的电脑操作水平。

有GPT4作为大脑,SOC的操作很让我惊讶,比如:它知道用macOS里的搜索功能去搜Google Chrome、然后打开,而不是到应用里去翻找。

目前这个项目还比较初级,最大挑战是,GPT4-V模拟鼠标点击位置的错误率有点高。我在测试的时候明显能感觉到,AI真的是在不断尝试、十分费劲地想去点某个按钮。

一旦这个问题解决,OpenAI能再进一步提升GPT4-V的响应速度的话,SOC就基本可用了。通过语音进行交互和控制也是完全可行的。

半年前,我还想着,也许会有越来越多软件开放接口,让AI接入。现在来看,二者完全不在同一个维度上。

人家都会飞了,你护城河挖再深,又有啥用?

也许三个月后,我们就会看到一批全新的AI应用,充分发挥多模态能力。创业者和VC们都得抓紧跟上了。

LLM = OS

Key Takeaway

  • 大模型被视为凌驾于所有操作系统之上的“操作系统”,具备内存管理(上下文长度)、文件系统(对话历史、知识库)、驱动程序(Function Call)和用户界面(自然语言交互)等组成部分。
  • OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级,如提升上下文长度、Function Call能力、记忆功能和自然语言交互速度。
  • 大模型的“操作系统”化将导致其“吃掉”大量应用赛道,对创业者而言,生存空间将受到挤压。
  • 文章通过phidata项目示例,展示了Agent、RAG和GPT-4o如何组装成简易操作系统。

Full Content

为什么所有互联网巨头都要搞大模型?

因为大模型是凌驾于所有操作系统之上的操作系统。

你以为你的产品体验足够好,但再好也得用户自己动手。大模型会让绝大多数用户第一次体验到使唤别人的快感。

你以为你的技术护城河够深了,但再深也只是二维的。在大模型这种更高维度的、飞在天上的技术面前,地上的护城河、边界这种东西是特别可笑的。

大模型就是指环王里的至尊魔戒:One ring rules all。

既然是操作系统,那就得有操作系统该有的组成部分。

第一,内存管理。对大模型来说,就是上下文长度。目前主流的内存容量已经从最早的KB到MB,再到以DDR为代表的GB时代。而大模型上下文长度也在飞速提升,现在动不动就200K。

第二,文件系统。对大模型来说,文件系统包含两部分:一个是对话历史记录。没有这个,大模型就记不得你,也不可能成为你的私人助手。另一个是知识库,这个大家都明白。

第三,驱动程序。对于计算机来说,驱动程序是用来控制硬件设备工作的。对大模型来说,驱动程序就是Function Call,函数调用,让大模型能跟现有的操作系统、各种软件和在线服务连接。

第四,用户界面。从最早的命令交互到后来的图形交互,它们都是基于键盘和鼠标做的交互设计。结果大模型一来就是掀桌子,通过自然语言交互就行,甚至还能察言观色。相比文字输入,通过语音和表情,大模型能获得的信息丰富得多了。

刚才说的那些都是我自己总结的理论,之前在知识星球newtype里分享过。而且我发现,OpenAI跟我想的一样——他们就是在按照操作系统的逻辑对GPT和ChatGPT进行更新和升级。

上下文长度不用说了,从GPT-3.5到GPT-4 Turbo,从4K、16K、32K、128K,现在日常使用基本不会再担心长度的问题。

Function Call也不用说了,GPT-4在这方面属于遥遥领先级别。

历史聊天记录方面,2月新出的记忆功能,可以让ChatGPT记住用户希望它记住的东西,比如个人偏好等等。

自然语言交互方面,最新的GPT-4o大家都看到了,反馈速度已经非常快了。据说可以在0.23秒内响应音频输入,接近人类的水平。

你看,OpenAI的野心就是操作系统级别的。而GPT-4o登陆iPhone绝对会是一个里程碑事件。

有同样想法的,不只是OpenAI,我相信这一定会成为行业共识和行动方向。一些开发者已经在这么做了,比如phidata。他们把Agent、RAG和GPT-4o组装在一起,变成一个简易的操作系统。

你可以把你想添加的内容喂给GPT,比如网页或者PDF文档。

你可以问GPT任何最新的事件,它可以联网帮你搜索。

你可以让GPT当你的投资顾问,让它帮你分析,英伟达的股票还值不值得买。

想体验这个项目,非常简单,有手就行。

第一步,把包含所有文件的压缩包下载下来,解压缩。

第二步,创建一个虚拟环境。比如可以用conda创建并激活,两行代码搞定。

第三步,安装需要的Library,记得一定按照这个txt安装,别自己瞎搞,到时版本有冲突就跑不起来了。

第四步,把OpenAI和EXA的API Key通过export这行命令提供给系统。

第五步,打开docker,安装PgVector。

第六步,通过Streamlit把这些代码变成APP跑起来,打开一个本地链接,就能看到刚才演示过的界面和功能了。

这些功能,在几个月前都是单独的一个个项目。比如,RAG是RAG,Agent是Agent。最近一个月,我发现大家突然开始做集成了。

这个背后,既是技术在进步,也是大家的认知在迭代。从我的知识星球里的内容就能看得出来:

最开始大家都是问我本地大模型、知识库的东西,现在问Agent也多起来了。整个水位、大家的水平在提升。

而且我有一个感觉,或者说粗略的判断:

既然大模型属于中心化极强的操作系统,那么它一定会吃掉很多很多应用赛道。对于创业者来说,也许只能等这头怪兽吃得差不多了,才能分到一杯羹。

所以,不着急出手。

OK,以上就是本期内容。咱们下期见!

Replit Agent:AI编程的野心

Key Takeaway

  • Replit Agent是一款激进的AI编程工具,能通过Agent完成环境设置、代码撰写和项目部署,实现云端开发。
  • Replit Agent的模式类似于“厨师服务团队”,用户只需提供需求,Agent负责具体执行,适合快速原型开发。
  • Replit Agent与Cursor等工具相比,更侧重于自动化,减少人工参与。
  • Replit Agent支持H5页面等简单项目开发,但对于复杂项目仍有局限性。
  • 文章强调AI编程工具能极大提升效率,但仍需用户具备开发思维,AI目前处于“遇强则强,遇弱则弱”的阶段。

Full Content

大模型火了快两年,没想到,第一个爆发的赛道是AI编程。

最近新出的Replit Agent特别激进。从环境设置、代码撰写到项目部署,它用Agent全部搞定。过程中,有时会询问你的意见,比如这个UI和你预期的样子是不是一样。其它时间Replit Agent都是在埋头干活。

整个开发是在云端完成的,用它的环境,这一点挺省心的。更重要的是,这意味着你随便用什么设备都可以,手机也OK。一旦有想法了,可以快速完成原型开发。然后把整个项目的压缩包下载下来,在本地做进一步处理。

Replit Agent的这种模式让我想起了农村的厨师服务团队,专门搞红白喜事的那种。厨师、厨具、餐具、桌椅,甚至食材和调料,他们全都提供。你就负责吃席就好。

相比之下,Cursor是一种人机Co-work的模式,还是需要人的大量参与。而再早之前的GitHub Copilot就更落后了,我觉得它只能算是一种智能代码补全。

为了测试,我拿Replit做了一个简单的H5页面。用户输入API Key之后,可以选择OpenAI的模型,然后对话。

需求给过去之后,Replit会先做分析,并且还会根据它的理解,给你一些选项,看你要不要也一并完善了。这一步其实是在做需求确认。大家如果服务过甲方就知道,如果需求对不清楚,那这项目大概率会很痛苦。

开工之后,Replit自动做环境的部署,把需要的包都下载、安装,然后编写代码、配置数据库等等。

因为项目比较简单,所以测试过程很顺利。调用OpenAI模型对话一次就成功了。剩下的都是小修小补,比如UI上删除一些不需要的元素,简单说一句就搞定。

Replit虽然不能说中文,但是你用中文它也能懂。不过我还是建议用英文,避免中文翻译成英文有歧义。四级水平的英文就足够和AI交流了,它都懂的。

到了部署环节,其实也没什么好调整的,Replit都帮你设置好了,直接点开始就OK。等进度条走到头,Replit会提供一个链接,那就是咱们的H5页面了。桌面端试了一下,完全正常。在手机上打开,也可以使用。

Replit支持Auto-scale,也就是说,如果访问量大的话,它会自动升级配置,保证项目的运行。在后台可以看到数据分析。如果你自己有域名的话,也可以在后台绑定域名。

看到这里你应该就明白,为什么我说Replit像农村的厨师服务团队了。不过,现在这个团队能力还不太行,搞些小活儿没问题,比如H5这种,碰上复杂点的项目就整不动了。

我在前一天让Replit做一个微信小程序,也是接OpenAI API的聊天机器人。整个过程就挺闹心的。Replit总让我帮它检查这、检查那的,甚至让我帮它看看Python文档有没问题——这谁给谁干活啊。到了部署环节,最后一步死活进行不下去,也找不出原因,然后就卡在这里了。

所以我估计,Replit至少还得花个半年时间去迭代吧。现阶段我就不订阅了,还是继续用Cursor比较靠谱。

给大家看看,我用Cursor把个人博客做出来了。我这些视频的文字稿,还有我日常的阅读清单,都会在博客上发布。后续我准备用Cursor做一个聊天机器人,用上RAG,把我的个人知识库接进去,开放给大家使用。

对于现在这些AI编程工具,我发现有两派观点:一派觉得这些工具都是垃圾,一派觉得这些工具可以替代程序员。这两派我都不赞成。我觉得现在的AI处于中间地带,没法替代,但是可以极大提升效率。如果你是纯小白,那真的很难,至少得具备开发思维。

就像我在上半年的一期视频里说的,AI在这个阶段的特征是八个字:

遇强则强,遇弱则弱。

AI没那么万能,现在只是Copilot,需要Pilot很强才能用起来。你要是没那么强,那就等着,等到普及的那一天,等到离AGI很近的那一天,跟着受益,也可以。

OK,以上就是本期内容。想找我就来newtype社群。那咱们下期见!

像用GPT一样使用开源大模型

Key Takeaway

  • LM Studio等工具能让用户像使用GPT一样,通过Python脚本和框架(如LangChain、Llama Index)增强和限制开源大模型。
  • 本地运行开源大模型可以实现知识库、搜索引擎等增强功能,并能根据工作流程限制模型发挥。
  • LM Studio提供本地服务器功能,模拟OpenAI API接口,使得基于GPT开发的应用可以无缝迁移到开源大模型。
  • 这种本地化解决方案不依赖云端算力,无需支付token费用,为用户提供了开发定制化AI应用的自由。
  • 文章强调了本地部署开源大模型在成本和灵活性方面的优势。

Full Content

在本地跑开源大模型,如果只是用来简单对话,那就没什么意思了。我们肯定是希望像用GPT一样,通过Python脚本,借助LangChain、Llama Index等框架、工具,对大模型进行增强和限制,比如:

  • 增强:通过搭载知识库、搜索引擎,提升大模型信息的及时性,补充某个领域的知识。
  • 限制:根据给定的工作流程、思考路径来处理任务,而非随意发挥。

OpenAI提供API接口,让这一切变得简单许多。其实通过LM Studio这类软件,也可以在开源大模型的使用上,达到同样的效果。

在上期视频中,我介绍了LM Studio的基本用法。

你可以把它简单理解为:就像国内的游戏模拟器平台,把模拟器、游戏库全都打包好了。不需要做复杂的调试,下载好了直接可以玩。

在此基础上,LM Studio还提供了进阶用法:

作为本地服务器,提供类似于OpenAI的API接口服务。

方法很简单:

  1. 加载量化版的大模型。
  2. 启动本地服务器。
  3. 获取本地服务器的端点,设置成config_list中的base_url

如果之前有基于GPT开发应用的话,看到这个代码应该会很亲切。

它基本上就是把调用OpenAI API的部分做个替换:

  • api_key不需要填真实的,可以用“not-needed”来替代。
  • model部分,原本选择gpt-3.5或者gpt-4,现在填“local-model”

脚本其它部分都不需要变动。这意味着,之前的Python脚本都可以平移过来,给到开源大模型使用。

比如,使用微软的AutoGen配置Agent,对config_list做一些改动就行,照样导入llm_config。

不依赖云端算力,不用支付token费用,基于LM Studio和开源大模型,完全可以开发一套适合自己需求的本地解决方案,这是最吸引我的地方。

如何搭建一套Agent系统

Key Takeaway

  • Agent是AI智能体的核心,用于自动化执行任务,其搭建关键在于明确需求和工作流设计。
  • Multi-Agent System通过角色分工协作,解决复杂任务,例如Researcher、Editor和Note Taker的组合。
  • Agent除了大模型作为“大脑”,还需要工具作为“手脚”,如搜索工具(Tavily)和笔记工具(Obsidian)。
  • 搭建Agent系统需要Python脚本,即使编程能力不高,也能通过现有脚本进行修改和拼装。
  • RAG和Agent是AI原生应用的关键技术,理解并实践它们能提升AI使用效率。

Full Content

我对自己的笔记系统做了一点小升级。

之前的系统只是“离线版”,只能根据已有的内容去生成新内容。

升级之后的系统就是“联机版”:增加了AI搜索、报告生成的功能。而且,全都搞定之后,还会自动生成一条笔记,省得我还要手动贴进Obsidian。

这些功能的背后,是Agent / AI智能体的能力。

我在上期视频介绍了Agent的基本概念。有些小伙伴说,想看看具体的案例。所以这期也算是一个简单的演示,让你知道Agent是怎么搭建的、怎么工作的。

现在虽然有不少工具,比如difi.ai之类的,能让你点几下鼠标就完成搭建。但是,要完全实现自己的需求,完全按照自己的心意来,还是得靠代码。

不过也不用担心,一是网上有很多现成的Python脚本,你稍微改一改、拼装一下,完全可以用;二是它也不要求你有多高的编程能力,看得懂就行。甚至你把它当成英语四级的阅读理解都OK。像我这种小学生水平都能上手,你肯定没问题。

OK,咱们进入正题。

Agent是用来干活儿的。所以,一切的出发点肯定是需求,越明确越好。

我的需求很简单,来自于我日常经常遇到的情况:

当我在Obsidian里整理笔记或者写东西的时候,经常会需要去查点资料。搜到好多个网页之后,我需要创建一条新笔记,把里边有用的内容提取出来,规整一下,变成一个比较有逻辑的东西,存在笔记里边,方便下一步处理。

这些繁琐的、技术含量不高的工作,我希望能交给几个Agent合作完成。

就像我在知识星球newtype里说的,搭建一套Multi-Agent System,最重要的是,你想让它怎么做。

所以,为了满足这个需求,需要三个角色,分别完成三个任务:

Researcher:负责上网查资料,然后把找到的内容汇总成一份报告。 Editor:它的内容能力强、文笔好,负责根据Researcher提供的报告,撰写一篇笔记。 Note Taker:它的任务很简单,就是在Obsidian里创建一条新笔记,然后把Editor写好的东西贴进去。

这是一个非常简单的分工,很好理解。难点在于给Agent配什么工具。

你可以把大模型看作是一个单独的大脑,就像科幻电影里的那种。它只有“思考”能力,没有行为能力。所以,Agent除了装上大模型这个大脑之外,还得拿上工具——咱不能人家不能空手去干,对吧?

根据分工内容,Agent需要用到两个工具:

搜索工具:有了这个,Agent才能联网搜索。 笔记工具:Agent需要知道,笔记放在哪个位置,什么格式,以及新笔记的标题该叫啥。

关于搜索工具,今天已经有很多现成的了。比如Google、DuckduckGO,都可以直接用。我这边选择的是Tavily。他们提供的搜索API,专门为大模型和RAG优化过,效果挺好的。直接加两行代码就可以用。

关于笔记工具,这边需要动点脑子,因为Obsidian并没有提供一个接口让其它程序能够接入去创建笔记。不过,解法还是有的:

Obsidian的所有笔记都是md格式的。那么,咱们就直接在笔记所在的文件夹创建一个md格式的文件。也就是说,通过在外部创建笔记的方式,绕开在软件内创建的这一步。

所以,基于这个解法,就有了CustomTools这几行代码,指明了笔记文件夹的位置,以及文件名的规则——按照笔记创建的时间来命名。

当把这些组合在一起之后,就形成了这样一份脚本,包含这几部分:

基础设置,包括API Key是什么,具体的模型用哪个,以及工具的设置。 刚才介绍过的那三个Agent,它们分别负责干什么,以及允许它们使用什么工具。 分几个子任务完成,以及每一个子任务都由哪些Agent参与。

当把这些拼装完毕之后,运行脚本,等个十几秒,任务就完成了。

以后每次使用,我只需要把这一行修改了,也就是告诉Agent,让它帮我搜什么。

其实我也可以用Gradio添加一个可视化的界面。不过我自己使用就不讲究那么多了。

按照同样的逻辑,我们可以对这个脚本做一些修改。比如,输入一个公众号文章的链接,让Agent读取它,然后把内容全扒下来,做提炼和总结,最后存进笔记里,都可以。

我这边介绍的都是最简单的Workflow,主要是想让大家有个概念。真要是搞大一些的项目,整套系统设计会麻烦得多,会用到更多的工具和大模型,Agent之间以及Agent和用户之间的协作也会复杂起来。

OK以上就是本期内容。希望通过这期和上一期视频,大家能对Agent有一个基本的认知。还是那句话:RAG和Agent是用好AI的关键。大家有什么问题就来知识星球newtype找我。咱们下期见!