AI趋势
Key Takeaway
- 红杉资本认为AI浪潮的量级远超云计算和移动互联网,将颠覆整个软件市场,并重构服务行业。
- AI的机会主要在应用层,创业公司可从垂直领域和复杂人力介入问题切入,利用Agent替代外包业务。
- “Agent经济”(Agent Economy)是AI时代新的商业模式,Agent将替代用户进行交互和交易,催生新的通信网络和基础设施需求。
- 2025年AI的关键词是Agent,它将成为模型和应用集中的焦点。
- MCP(模型控制协议)为大模型提供了外部信息和工具,是Agent进化的前提。
- Agent的准确率提升和Token费用下降,预示着Agent将迎来爆发式发展。
Full Content
如果你想AI创业,红杉资本最新的Keynote一定要看。他们三个人花了半小时,把AI产业现状以及未来趋势都讲明白了。我帮你们画一下重点,以及谈谈我的感受。
第一,分析框架。
如果你要分析AI或者别的领域的趋势,可以使用红杉这套框架:
What,So What,Why Now,What Now。
整个分析从What、也就是发生了什么开始。比如,今年MCP特别火爆——这是What。那又怎么样呢?会有什么影响吗?这是So What。为什么是现在火爆?MCP是去年底推出的,当时怎么没火?这是Why Now。前因后果都知道了,我们现在该怎么做?这是What Now。
这类分析、思考框架拿起来就能用,很适合新手。类似的东西,还有“现状 - 障碍 - 目标”,这个我在社群里发过,是我过去十几年用得最多的框架。
目标是你要去的地方。现状是你当下所处的位置,是你的出发点。那么,要从这里到达哪里,中间有哪些障碍呢?只要找到障碍,并且找到克服障碍的方法,我们就能达成目标。
我们平时会看到很多机构和大佬做分享。除了他们说了什么之外,我的习惯是,会去分析、倒推他们为什么这么说、这么想,把他们的框架给研究清楚。长期来看,这比他们的观点更有价值。
这算是我的秘诀,免费分享给大家。不用谢。
第二,AI浪潮究竟有多大?
很多人认为,AI堪比过去的向云端转型的机会。但是红杉认为,AI的量级要大得多:
AI不只是服务,还会颠覆整个软件市场。
这一点,我在今年深有感受。Agent真的已经开始重构整个服务行业和软件行业。
而且,AI这个浪潮不仅超大,还非常凶猛。因为,它所需要的算力、网络、数据、分发渠道、人才培养,在过去几波浪潮中都已经铺垫好了。这么多层叠加到一起,把势能全部给到AI,所以AI才会达到今天这么恐怖的发展速度。
我知道,很多人在国内感受不深,还盯着什么电商、外卖、短视频。这让我想起了灾难片的场景。一群游客在沙滩上晒着太阳、喝着鸡尾酒。但是,如果你出海了,在海面上就会看到,一个百米高的超级巨浪已经形成了,并且朝着岸边狂奔而来。
所以,早点准备吧。
第三,AI的机会在哪里?
把AI跟过去的云计算和移动互联网放在一起看。从基础设施开始,列出达到10亿营收规模的企业。可以看到,AI这边还有很多空白。而且,最大的空白区域在应用层。
有一个概念,我提到过好多次:模型即应用。
这个是OpenAI这些公司正在做的事。他们凭借越来越强的模型能力,就像吃豆人一样,正在吃掉越来越多细分赛道,直到成为一个超大的、通用型的怪物。
但是另一边,创业公司也在反击。他们从客户需求出发,专注在特定的垂直领域,聚焦在特定的功能上,处理那些需要大量人力介入的复杂问题。
比如,那些外包业务就可以用Agent来替代。你想嘛,能外包,说明人力成本高,说明有预算,说明结果可衡量——这不就是最需要Agent发挥的地方吗?
所以,有技术是一方面。从技术到客户需求被满足,整条价值链当中,还有很多可以去挖战壕、广积粮的地方。一场全面的竞争已经展开了。
第四,终局长什么样?
大家记住这个新概念:Agent Economy,Agent经济。
过去我们经历过各种经济,比如粉丝经济、共享经济,等等。那么,AI时代将诞生的、新的经济形态、商业模式,就是Agent经济。
Agent会替代用户进行交互、交易。那么,围绕Agent自然要产生新的经济形态,对吧?
顺着这个逻辑往下想的话,今天的网络是以人为出发点的,是面向人的。那么,Agent兴起之后,是不是也得有一张以Agent为主角的通信网络?这个网络该采用什么样的协议?以及,当Agent数量翻个十倍、百倍,需要什么样的基础设施和配套服务?
这一张Agent网络,还有这整个Agent经济的背后,得有多少机会啊?能不兴奋吗?
顺着红杉的判断,我谈一下我的体感。
在今年年初,我发了一个视频,叫做《我对2025年AI的判断》。在开头我就很明确说了:
2025年,AI的关键词只有一个,就是Agent。不管是搞模型的还是搞应用的,都会把火力集中到Agent这个点上。
后来的发展,证明了我的判断。
MCP火爆的原因就在于,它给大模型提供了更多外部信息和工具——这个是进化成Agent的前提。
信息搜集的Deep Research,AI编程的Cursor,都是Agent最好的案例,也是目前AI的杀手级应用。
Agent趋势兴起,从我们社群也能感受到。去年大家在社群内的提问主要是关于RAG、知识库的。到了今年,Agent相关问题明显变多了。
这个趋势的背后,有两条曲线在发挥作用。一条是Token费用。你去对比GPT-3.5、GPT-4时期的费用,和今天的费用就会发现,Token费用已经下降非常非常多了。另一条是Agent的准确率。最多两年,Agent执行任务的准确率就能达到人类的92%。
能力越来越强,成本还越来越低,这个是什么结果不用我多说了吧?
所以我也调整了自己的日程安排。周一和周二我会把本周要更新的视频做完。然后本周剩下的时间,我都会用来开发应用。从简单但是刚需的工具开始,就像播种一样,为自己创造多条现金流来源。
我也建议大家,抓紧行动起来。这么大的机会,人这一辈子能遇到几次?而且还是在年轻或者中年的时候。
Key Takeaway
- AI不会替代人,但会使用AI的人将替代不使用AI的人。
- AI赋能个体并非平等过程,早期阶段AI的特点是“遇强则强,遇弱则弱”。
- 少数派(约5%)能用好AI,他们具备“不吹不黑”的态度和“AI视角”。
- 学习使用AI的两个关键方法是:DYOR(Do Your Own Research),即深入研究源头知识;学习Python编程,以便理解AI底层逻辑。
- 文章强调了认知差比技术差更大,以及编程能力在AI时代的重要性。
Full Content
有一个好消息,一个坏消息。
好消息是:AI不会替代你。
坏消息是:用AI的人才会。
所有厂商都在喊:AI for ALL。AI确实能帮到每一个人。但是,AI赋能个体过程一定不是一个平等的过程。
尤其是在现在这个早期阶段,AI技术才刚刚开始产品化,还非常不完善,接触起来很有门槛。所以,AI在这个阶段的特征是八个字:
遇强则强,遇弱则弱。
AI遇到什么样的人会变强?遇到什么样的人会变弱?
以使用ChatGPT为例。我看到的人当中,至少95%是这样的:
没头没脑地贴了几篇文章过去,然后叫AI生成一篇新的文章。拿到结果一看,很不满意,于是下了结论:
AI真垃圾,都是资本吹起来的。
只有少于5%的人会这样做,他们会想明白两件事:
第一,自己到底要的是啥?比如,文章的核心内容是什么,结构是怎样的,风格是怎样的?
第二,AI是怎么执行的?比如,它会怎么思考我们的指令,它都需要什么东西才能把活儿做好,过程中需不需要我们给个反馈、指导一下?
这样的少数派具备两个非常宝贵且重要的品质。
一是态度,用一个流行词来形容就是:
不吹不黑。
他们既不会去神话AI,觉得AI无所不能,也不会完全否定,觉得AI做不到100分就是没价值。
因为现在的AI只能当Copilot,也就是副驾驶。握方向盘的人还是Pilot,也就是用户。所以对于没脑子的Pilot来说,Copilot再强都没用。
这些5%的少数派的态度就是,AI能做多少,就用多少。做得好的地方,该花钱就花钱,不犹豫。做不到的地方,也不焦虑,反正咱又不是模型厂商,AGI能不能实现咱不操心。
二是视角,AI的视角。
大模型是什么?是知识的容器。
训练大模型的过程,是对知识进行压缩的过程。使用大模型的过程,是对知识进行解压的过程。其它的一切,都是从大模型出发去做扩展。比如:
- Fine-tune是什么?是给大模型开个补习班,再学点新知识。
- RAG是什么?是给大模型一堆参考书,要用的时候翻一翻。
- Agent是什么?给大模型一个工具箱、一本操作手册,让它正式上岗去帮我们干活。
如果你读过KK的《科技想要什么》这本书就会有感觉:这绝对是一个不同于我们常规定义的生命体、智能体。这也是我们第一次面对除了人类以外的复杂系统。
所以想要了解并利用好AI的话,一定要转换视角,站在AI的角度、站在系统的角度去窥探和理解。
如果你是那5%的少数派的话,或者你真心想学会怎么用AI的话,我这边有两个建议,都是我自己的经验总结。
我在刚创建知识星球newtype的时候分享过我的经历。其实我没有任何相关背景,最初也不懂编程啥的,完全是从零开始、自学半年。我所用的,就是以下这两个方法。
第一,DYOR,Do Your Own Research。
这句话在币圈很流行,意思是,做好你自己的研究,别都听别人的。对于学习使用AI也适用。
有一个很扎心的事实我不得不说说:关于中国和国外在AI方面的差距,比技术差更大的,是认知差。
从媒体到商业大佬,大家都还在学。尤其是那些大佬,等你真正做了研究就会发现,他们都是一知半解。但是,人家为什么敢出来说、敢出来教?两个原因:
一是为了影响力。在AI这种级别的技术革命面前,所有人都是从新开始,不管你之前有多牛、地位有多高。为了抢个先手,他们当然要主动抛头露面,趁着在上个时代的影响力还有点余温的时候。
二是为了学习。在精英眼中,输出也是一种学习的过程,而且特别有效。所以,看着是他们在教你,其实人家只是对着镜头在背作业。
最先进的、最及时的AI内容都在国外。你只能自己学,没人能手把手教你。
当你开始学之后,这边有一个点要注意:尽可能找到源头。
比如,你看到很多人都在讨论,大模型训练用的高质量数据快不够用了,将会限制模型性能的进一步提升。
如果你只停留在这一步,那只能得到一个其实没什么用的、所谓的观点。如果你肯多问几句,比如:为什么需要海量数据?大模型从这些数据中究竟学的是什么?数据不够的话,合成行不行?让现有的大模型生成数据,给下一代大模型训练,可不可以?
顺着逻辑一路追问下去,并且找到每一个答案,你就能在源头层面把这个问题吃透。
不用纠结要不要很系统地去学习,只需要把每一个点都弄扎实了,一段时间之后你就会发现,这些点都串联成了一张网。而且,它们背后是同一套根本的逻辑。
当你走到这一步,恭喜你,入门了。
第二,学Python。
很多大佬都在吹:不需要学编程了,人人都可以是程序员。
我可以很肯定地跟你说,也许几年之后是这样。但现在,编程还是一个不可替代的能力。
那么,学AI为什么要学Python编程?
Key Takeaway
- ChatGPT“裸奔”不足以满足生产力需求,部署Agent能显著提升效率。
- GPT Researcher是开箱即用的Agent方案,擅长资料搜集和报告生成,成本低廉。
- CrewAI是灵活的Agent框架,通过设定Agent、Tool和Task实现自由搭建Agent系统。
- 大模型存在“单核硬伤”(Degeneration-of-Thought),多Agent协作能有效解决复杂推理问题。
- Agent技术在大模型加持下迅速发展,未来将有更多工具和应用出现。
Full Content
ChatGPT会员我是不会再继续订阅了。
轻度体验一下还可以。但如果真要把它当作生产力工具长期使用的话,还是不太行。
咱们来做个对比。同样一个问题:
GPT-4加上联机搜索之后,ChatGPT给出了这样的答案:
你觉得还不错是吧?我给你看看Agent生成的:
也不能说是差距很大,大概就是能用和不能用的区别吧。
所以,从实用的角度来看,我建议大家别再继续用ChatGPT「裸奔」了。花点时间部署一套Agent,能帮你省下非常多时间。
介绍一下我目前在用的两套方案。
GPT Researcher:开箱即用
GPT Researcher是GitHub上的一个项目,主要满足资料搜集、报告生成方面的需求——日常工作刚需,真的能省很多时间。
GPT Researcher搭建了两类Agent:
Planner Agent负责拆解需求、生成尽可能全的问题。Execution Agent拿到问题之后,找到对应的网页、把内容爬下来,再交回给Planner Agent。后者筛选、汇总所有资料,完成调研报告。
这个项目有两点做得很棒:
- 混合使用GPT-3.5和GPT-4,提升速度、降低成本。一般来说,跑一圈下来需要3分钟,花费0.1美元——真的是白菜价了。
- 根据需求生成的Agent都是特定领域的。比如,需求是做金融领域的调研,那么生成的Agent就是金融专家。
只需要懂一点点代码就可以使用GPT Researcher。按照GitHub的教程,把仓库克隆到本地,然后一步一步复制粘贴、执行对应的命令。过程中如果提示缺什么Package,那就pip install安装就行。最后打开一个本地网页就可以使用了。
CrewAI:自由搭建
如果你的需求不只是生成调研报告,那就需要使用现成的框架,亲手搭建一套Agent系统了。
我目前在用的Agent框架叫「CrewAI」。看起来跟微软的AutoGen差不多,但你一上手就会发现,CrewAI比AutoGen逻辑更简单、更直观。
在CrewAI里,你只需要设定三个要素:
- 谁。
- 用什么。
- 做什么。
「谁」指的是Agent。多少个Agent,分别以什么角色进行协作,工作目标是什么,他们各自的背景是什么样的,他们用什么模型作为大脑。
「用什么」指的是Tool。最常见的就是搜索工具。你需要把工具分配给具体使用的Agent。
「做什么」指的是Task。一个项目可以分拆成很多个任务。每个任务需要有具体的描述,以及指定由哪些Agent来完成。
一旦理解了这个逻辑之后,CrewAI的设置就变得极其简单。
还以生成调研报告为例,这是我设计的Agent工作流程:
我特意在最开始的需求分析、方案制定环节安排了两个Agent。这么做,Token花得多,时间也更长,不过很有必要。一切都是为了解决一个核心问题:
大模型在复杂推理的时候,特别容易犯轴。
单核的硬伤
为了加强大模型的推理能力,研发人员想了很多办法。比如,大名鼎鼎的思维链(Chain-of-Thought),还有自我反思(Self-Reflection)。
但是,无论怎么给大模型叠Buff,都改不了这个问题,在论文里管它叫「Degeneration-of-Thought」:
当大模型对自己的答案有信心的时候,即使这个答案不正确,它都没法再通过自我反思去产生新的想法。
跟人一样,沉浸在自己的世界里,迷之自信、死不悔改。
造成这个问题的原因有很多。比如在预训练阶段,输入的概念有偏差,或者思考模式有问题,都会产生认知偏差。
有的问题可以通过技术解决,有的不需要。像这个问题,其实人类社会已经有解了,就是大家最最熟悉的:
讨论与协作。
一个人再聪明,认知水平再高,都会有盲点。
有人点拨的话——其实有时都不用点拨,只要跟自己以外的人聊上几句,就能爬出来。
这就是为什么,都是一样的大模型作为底层驱动,「多核」会比「单核」靠谱得多。
2024 Agent
Agent并不是跟着大模型兴起的。早在这一轮AI爆发之前,Agent就已经有好多年的研究了。大模型充当最强大脑,解决了Agent推理的难题,使得Agent突然被所有人关注。
在设计和部署Agent方面,AutoGen之后有了CrewAI,2024年肯定还会有更多团队想来试一试的。
Key Takeaway
- OpenAI最新发布的Canvas是ChatGPT的重要更新,提供文本撰写和代码生成功能。
- Canvas借鉴了Claude的Artifacts功能,并具有Grammaly的文本撰写风格。
- AI产业已进入商业落地阶段,白领和程序员是AI替代的重点目标。
- Canvas的文本撰写功能包括总结、扩写、调整风格、检查文本和添加表情符号。
- Canvas的代码生成功能支持编写代码、更改编程语言和修复Bug。
- 文章认为Canvas的推出对创业公司构成威胁,但其功能对已使用Artifacts和Cursor的用户而言并非颠覆性。
Full Content
留给打工人的时间真的不多了。
OpenAI最新发布的Canvas,是ChatGPT最重要的一次更新。它带来两个实打实的功能:文本撰写,和代码生成。
我第一眼看到Canvas就想到了两个产品:
一是Claude。Canvas算是借鉴了它的Artifacts功能。
我之前还在newtype社群里提到过,Artifacts特别像大学老师的黑板。你去请教老师的时候,他从身后拉了一块干净的黑板过来,在上边给你详细讲解和演示。
Artifacts推出之后,获得了所有人一致好评。现在OpenAI也跟进,看来这个功能会成为Chatbot类产品的标配。没准国内大模型厂商已经在开发了。
二是Grammaly。这是一款AI写作辅助工具,日活有3000万。
Canvas的文本撰写很有Grammaly的感觉。后续要更新的话,照着Grammaly抄就好——人家在这方面已经研究得很透彻了。这条赛道这么窄,玩不出什么新东西来。
我之所以说留给打工人的时间不多了,是因为:
整个AI产业已经进入到拼商业落地的阶段。大多数模型厂商都要去卷应用。只有少数能像Deepseek那样一心一意只做模型研发。
那么,往哪个方向去卷,能够向资本证明你的阶段性商业价值呢?
柿子捡软的捏。白领是最容易替代也是最好欺负的一个群体。现在底层的模型能力足够,只需要在产品层多下点功夫,把初级白领淘汰掉是没问题的。
程序员是另一个目标。像代码这种东西,标准化表达,数据量又大,AI学起来没问题。之前我介绍过Cursor和Replit Agent,就是在往这个方向走。
所以,打不过就加入。只有那些从现在开始就全力拥抱AI,并且不断琢磨怎么利用AI的打工人才能活下来。你不需要打赢AI,只需要打赢你的同事。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想要链接我,就来newtype社群。已经500多位小伙伴付费加入啦。
回到今天的主题:ChatGPT Canvas。
目前这个功能还是Beta版,不太成熟。比如,它还不是通用功能,需要专门切到带有这个功能的模型版本。以及,我还遇到了聊着聊着GPT突然改用英文的情况。不过瑕不掩瑜,还是值得上手试一试的。
我先测试了它的文本撰写能力。把上期视频的脚本传上去,要求它根据这个内容写一篇博客文章。
这时,类似Artifacts的界面出现了。GPT-4o很快完成了初稿。注意看,OpenAI在右下角放上了几个定制化的功能,包括调整长度等等。
当我们把长度拉满,GPT会在原来基础上做扩写,最多能增加75%的文字量。
第二个功能,看字面的话,你会认为是按照不同学历水平去撰写他们能看得懂的文章。但其实它就是调整文字风格啦。
比如调到幼儿园级别,那么文章会特别通俗易懂。如果调到最高的博士生级别,那基本就是文绉绉甚至有点不说人话的感觉。
说实话,OpenAI这么设计有点冒犯的意思了。这跟学历完全没关系。这又是何必呢?
后边的两个功能很直接。一个是帮你检查文本,看看哪里有错别字,哪里需要加个小标题,等等。
另一个是在文章里加上emoji表情。Twitter上很多人在夸这个功能。我是无感。我绝对不可能在我写的任何文章里加上emoji。
当然,不用右下角这些设定好的功能也OK。咱们可以选中任何一段内容,直接对GPT下需求。比如,把开头改得更吸引人一些。或者,把结尾再升华一下。
以上就是Canvas的文本撰写能力,很简单,很基础。通过提示词和Agent Workflow就可以实现这样的能力。OpenAI把它们都打包进产品里,而且还搞了添加emoji这样的小噱头来取悦用户。你看,他们还是很鸡贼的。
至于代码生成也是差不多的逻辑。
作为测试,我让GPT帮我写个贪吃蛇的小游戏。同样在右下角的位置出现了可以展开的按钮。其中更改编程语言这个有点意思。比如,我们可以让GPT把它已经生成的代码改成JavaScript、TypeScript等等几个主流的语言。
剩下几个功能很简单,比如修复Bug之类的。我就不详细介绍了,看一眼就懂。
目前Canvas的东西就这些。我猜,一些创业公司肯定要睡不着了。OpenAI这是在拿他们的命给自己换时间。作为用户,我感觉还好。可能是因为之前一直在用Artifacts和Cursor,所以看到这个也没那么兴奋。为了体验Canvas,我开了一个月的会员,不打算续费。之后还是继续用Claude。
OK,以上就是本期视频。想交流AI就来newtype社群。那咱们下期见!
Key Takeaway
- Gemini和Grok是两个被低估的顶级AI应用,它们在不同方面展现出强大的生产力。
- Gemini提供多功能体验,包括快速回答(Flash)、文章创作(Canvas)和深度报告(Deep Research),并能与Google文档和NotebookLM无缝集成,支持深度学习。
- Grok在模型回答上更具“人味”,产品设计简洁,并拥有独特的Twitter数据源,使其在获取用户真实反馈方面具有优势。
- 结合使用Gemini(获取主流媒体信息)和Grok(获取社交媒体信息)可以获得更全面和真实的洞察。
Full Content
有两个顶级AI应用还在被国人忽视。一个是Gemini,一个是Grok。
Gemini我已经推荐得足够多了。你看,过去半年,我在社群内真的是苦口婆心、反复强调。我从1.5的模型开始,用到了2.0、2.5,真的是越用越喜欢。不说那些复杂的,就说日常使用,就像我这个帖子说的:
如果你只想要个快速回答,那直接问Gemini 2.0 Flash。它速度快,推理强,运行还稳定。
如果你想要稍微深入一点,那就把Canvas打开。Gemini 2.0 Flash会按照写文章的标准来回答你。
如果你想要详尽的报告,那把Deep Research打开。Gemini 2.0 Flash会按照报告的标准来输出。
我直接给你们来个演示吧。
比如,我问Gemini:什么是Reasoning model?它很快给出一个简要的回答。
我把Canvas也就是画布打开。再问它同样的问题。这个时候,回答速度稍微慢一些,但是详细程度会高得多。在Canvas里边,你可以对文本进行排版、编辑,也可以选中一段进行提问。也就是说,用这个功能,你可以跟Gemini配合起来完成一篇文章的创作。
如果我把Deep Research打开呢?还是同样的问题——什么是Reasoning model。Gemini会帮我拆解议题,然后查找上百个网页,最终完成深度报告的输出。
你看,就这么简单的三个功能——直接对话、Canvas和Deep Research,覆盖了我们日常使用AI的主要场景。
更进一步,如果你觉得这些回答有价值,还可以把它们保存到Google文档里。
刚才介绍的三个功能,后两个都可以导出到Google文档。然后,就像我前一个视频里介绍的,打开NotebookLM,把Google文档里的相关内容全部导入,然后就可以进行深度学习了。
Gemini还有别的功能,比如画图什么的,我就不多说了。光是刚才我介绍的那些,就足以值回票价。
而且,Google还在不断更新。就在昨天,他们推出了首个混合推理模型——Gemini 2.5 Flash。你可以自主选择要不要打开思考模式,甚至还可以设定要投入多少资源进行思考。这个模型的出现,更加强化我要继续拥抱Gemini的信心。
那么,既然Gemini这么牛逼,还要Grok干嘛呢?三个原因:
第一,从模型回答的感觉上看,Grok 3要比Gemini 2.0好得多。
Gemini 2.0还是有一种生硬感、机械感,这可能就是Google独有的味道吧。而Grok 3的回答就比较有“人味”,所以我会逐渐倾向于多跟它交流。
第二,从产品角度来看,Grok最完整。
就像之前我在社群里说的,Grok没搞那么长的模型列表让用户选择,就两个按钮:深度思考,和深度搜索。没有模型之分,只有模式之分,甚至再到后边连模式都不需要选择了,AI会自主判断。这个才是正道。像OpenAI那种,有点丧心病狂了。
另外,前两天的更新,给Grok补上了Canvas和Workspace功能。Canvas和别家差不多,就是标准的画布。而Workspace,就类似知识库的功能,特别好用。
现在,Grok已经集齐目前的主流功能。产品层面已经相当成熟了。
第三,从数据源角度来看,Grok拥有别家都没有的Twitter数据。
Twitter现在是最有影响力的社交媒体,它的数据对于AI来说很重要。如果能把Twitter所代表的社交媒体数据,和Google那边掌握的主流媒体数据合并起来,那对提升AI的回答质量肯定有帮助。具体怎么做呢?我再演示一下。
其实这个方法我在社群内也分享过。很简单,Grok的Workspace功能除了支持本地文档上传之外,还支持从Google Drive里导入——这个就是关键功能。
我会先用Gemini做一轮Deep Research,把报告导入Google文档。然后,到Grok里添加这些Google文档,并且在Prompt里强调:附件信息只是参考,你要有自己的搜索和判断。另外,Twitter上用户都有哪些反馈?重点看看。
注意看Grok的分析过程。从主流媒体的信息搜集来看,它确实不如Gemini能搜到那么多。其实不只是它,OpenAI的搜索范围也有限。但是,Grok能搜集Twitter上的数据,包括帖子和评论,这个就是它的独有价值。
我之前在公关营销行业干了十几年,非常清楚只有你预算够,绝大部分主流媒体的内容都可以买,或者都可以影响。相比之下,用户的实际使用反馈就相对真实得多。所以,当我想了解的议题涉及到用户口碑的话,我肯定会通过Grok去搜集,并且跟Gemini那边的主流媒体信息进行合并。
刚才介绍的这两款AI工具的使用经验,看起来确实平平无奇,不像很多AI自媒体介绍的那些玩法那么酷炫,但这些都是能帮到你的真东西。如果你觉得有价值,还想了解更多的话,记得加入我们社群。
OK,以上就是本期内容。那咱们下期见!
Key Takeaway
- 多模态应用是AI赛道的焦点,GPT4-V作为“眼睛”,GPT-Turbo作为“大脑”,自动化工具作为“手脚”,可实现AI像人一样操作浏览器和电脑。
- AI操作浏览器通过Puppeteer控制Chrome,实现页面搜索、识别和交互,避免传统Scraping的局限性。
- Self-Operating Computer(SOC)项目以GPT4-V为基础,旨在实现人类级别的电脑操作,但目前仍面临鼠标点击精确度等挑战。
- 文章强调AI多模态能力将带来全新的AI应用,并促使创业者和VC关注这一领域。
Full Content
围绕多模态做应用,是未来半年AI赛道的焦点。
如果真的有硅基生命的话,多模态一定是它梦寐以求的能力。打个比方:
- GPT-V作为眼睛。
- GPT- Turbo作为大脑。
- 各种自动化工具作为手脚。
把这三部分组合在一起,AI可以像人一样操作浏览器上网,可以像人一样使用鼠标操作电脑。这是我做这期视频的逻辑。
两个示例:
一、操作浏览器
借助Puppeteer,让AI对Chrome进行控制。大致的步骤是:
- AI根据需求,使用Chrome搜索、打开需要的页面。
- 把页面上的按钮等位置加上红框,标注出来。
- 截图,并把截图发送给GPT4-V进行识别。
- GPT4-V反馈“看到”的内容,回答用户请求。
除了识别页面信息,AI还可以点击链接、打开子页面。
如果你是AI应用的开发者就会明白,这跟过去的逻辑完全不同——过去是通过Scraping的方式,把页面的内容都爬下来。这种方法存在两个问题:
- 需要分析整个网页的所有数据,包括许多完全不相干的,再从其中找到想要的。速度慢,token消耗大。
- 很多网站,尤其是国内的网站,有各种“反爬”手段,或者是要求账号登陆。
与其跟网站、软件站在同一个维度上想解决方案,为什么不升维呢?站在人这个更高的维度,对一切进行操控!
二、操作电脑
Self-Operating Computer(以下简称“SOC”)是GitHub上的项目,已经有5.2K颗星。它以GPT4-V作为基本模型,目标是达到human-level的电脑操作水平。
有GPT4作为大脑,SOC的操作很让我惊讶,比如:它知道用macOS里的搜索功能去搜Google Chrome、然后打开,而不是到应用里去翻找。
目前这个项目还比较初级,最大挑战是,GPT4-V模拟鼠标点击位置的错误率有点高。我在测试的时候明显能感觉到,AI真的是在不断尝试、十分费劲地想去点某个按钮。
一旦这个问题解决,OpenAI能再进一步提升GPT4-V的响应速度的话,SOC就基本可用了。通过语音进行交互和控制也是完全可行的。
半年前,我还想着,也许会有越来越多软件开放接口,让AI接入。现在来看,二者完全不在同一个维度上。
人家都会飞了,你护城河挖再深,又有啥用?
也许三个月后,我们就会看到一批全新的AI应用,充分发挥多模态能力。创业者和VC们都得抓紧跟上了。
Key Takeaway
- 大模型被视为凌驾于所有操作系统之上的“操作系统”,具备内存管理(上下文长度)、文件系统(对话历史、知识库)、驱动程序(Function Call)和用户界面(自然语言交互)等组成部分。
- OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级,如提升上下文长度、Function Call能力、记忆功能和自然语言交互速度。
- 大模型的“操作系统”化将导致其“吃掉”大量应用赛道,对创业者而言,生存空间将受到挤压。
- 文章通过phidata项目示例,展示了Agent、RAG和GPT-4o如何组装成简易操作系统。
Full Content
为什么所有互联网巨头都要搞大模型?
因为大模型是凌驾于所有操作系统之上的操作系统。
你以为你的产品体验足够好,但再好也得用户自己动手。大模型会让绝大多数用户第一次体验到使唤别人的快感。
你以为你的技术护城河够深了,但再深也只是二维的。在大模型这种更高维度的、飞在天上的技术面前,地上的护城河、边界这种东西是特别可笑的。
大模型就是指环王里的至尊魔戒:One ring rules all。
既然是操作系统,那就得有操作系统该有的组成部分。
第一,内存管理。对大模型来说,就是上下文长度。目前主流的内存容量已经从最早的KB到MB,再到以DDR为代表的GB时代。而大模型上下文长度也在飞速提升,现在动不动就200K。
第二,文件系统。对大模型来说,文件系统包含两部分:一个是对话历史记录。没有这个,大模型就记不得你,也不可能成为你的私人助手。另一个是知识库,这个大家都明白。
第三,驱动程序。对于计算机来说,驱动程序是用来控制硬件设备工作的。对大模型来说,驱动程序就是Function Call,函数调用,让大模型能跟现有的操作系统、各种软件和在线服务连接。
第四,用户界面。从最早的命令交互到后来的图形交互,它们都是基于键盘和鼠标做的交互设计。结果大模型一来就是掀桌子,通过自然语言交互就行,甚至还能察言观色。相比文字输入,通过语音和表情,大模型能获得的信息丰富得多了。
刚才说的那些都是我自己总结的理论,之前在知识星球newtype里分享过。而且我发现,OpenAI跟我想的一样——他们就是在按照操作系统的逻辑对GPT和ChatGPT进行更新和升级。
上下文长度不用说了,从GPT-3.5到GPT-4 Turbo,从4K、16K、32K、128K,现在日常使用基本不会再担心长度的问题。
Function Call也不用说了,GPT-4在这方面属于遥遥领先级别。
历史聊天记录方面,2月新出的记忆功能,可以让ChatGPT记住用户希望它记住的东西,比如个人偏好等等。
自然语言交互方面,最新的GPT-4o大家都看到了,反馈速度已经非常快了。据说可以在0.23秒内响应音频输入,接近人类的水平。
你看,OpenAI的野心就是操作系统级别的。而GPT-4o登陆iPhone绝对会是一个里程碑事件。
有同样想法的,不只是OpenAI,我相信这一定会成为行业共识和行动方向。一些开发者已经在这么做了,比如phidata。他们把Agent、RAG和GPT-4o组装在一起,变成一个简易的操作系统。
你可以把你想添加的内容喂给GPT,比如网页或者PDF文档。
你可以问GPT任何最新的事件,它可以联网帮你搜索。
你可以让GPT当你的投资顾问,让它帮你分析,英伟达的股票还值不值得买。
想体验这个项目,非常简单,有手就行。
第一步,把包含所有文件的压缩包下载下来,解压缩。
第二步,创建一个虚拟环境。比如可以用conda创建并激活,两行代码搞定。
第三步,安装需要的Library,记得一定按照这个txt安装,别自己瞎搞,到时版本有冲突就跑不起来了。
第四步,把OpenAI和EXA的API Key通过export这行命令提供给系统。
第五步,打开docker,安装PgVector。
第六步,通过Streamlit把这些代码变成APP跑起来,打开一个本地链接,就能看到刚才演示过的界面和功能了。
这些功能,在几个月前都是单独的一个个项目。比如,RAG是RAG,Agent是Agent。最近一个月,我发现大家突然开始做集成了。
这个背后,既是技术在进步,也是大家的认知在迭代。从我的知识星球里的内容就能看得出来:
最开始大家都是问我本地大模型、知识库的东西,现在问Agent也多起来了。整个水位、大家的水平在提升。
而且我有一个感觉,或者说粗略的判断:
既然大模型属于中心化极强的操作系统,那么它一定会吃掉很多很多应用赛道。对于创业者来说,也许只能等这头怪兽吃得差不多了,才能分到一杯羹。
所以,不着急出手。
OK,以上就是本期内容。咱们下期见!
Key Takeaway
- Sora的发布标志着视频生成技术达到“能用”级别,其真实度远超同期产品。
- Sora成功的核心在于OpenAI采用了Transformer架构,并将其应用于视频生成,将视频切分为“Spacetime Patch”作为Token。
- Sora结合了Diffusion Model和Transformer的优势,被称为“Diffusion Transformer”。
- OpenAI在Sora的训练和使用阶段,充分利用了DALL.E 3和GPT等自家模型,形成了强大的综合优势。
- Sora的成功表明AI竞争已进入综合赛道,局部优势难以抵挡全面领先,数据将成为下一阶段竞争的关键。
Full Content
视频生成的GPT-3.5时刻来了。
这技术进步实在太快了。一年前的文生视频是这个样子的:
这是当时非常出圈的“威尔史密斯吃意面”。根本没法看,对吧?
一年之后,OpenAI发布Sora,达到了这样的效果:
整个构图、人物的肤色、光影等等,都相当逼真了。
用同样的提示词让Pika生成,一对比就会发现,这差距太大了。留给同行的时间不多了。
视频生成,在能用和不能用之间,有一道非常明显的槛:真实度。这个真实指的是,是否符合我们的常识,符合真实世界的运行规律,比如物理定律。
你看Sora的效果,这是第一次,视频生成达到了能用的级别。比如这个无人机视角的片段,把它用在vlog里,完全没毛病。
不过,比起赞叹Sora有多牛逼,更值得我们关注的,是OpenAI究竟是怎么做到这一切的。
如果你是国内从业者的话,了解完之后,可能会有点绝望:我们真的有可能追上OpenAI吗?
要理解Sora,咱们得先回到2016年6月16日。这一天,OpenAI发布了一篇关于生成式模型的文章。文章开头的几段话很关键:
OpenAI的核心诉求之一,是通过算法和技术,让计算机能够理解我们的世界。
要实现这个目标,生成式模型是最有希望途径之一。
为什么非要“生成”?费曼有一句非常名言:
我没法创造的,我就不理解。
也就是说,如果我能生成极其逼真的视频,那我肯定是足够理解真实世界的。
你看OpenAI最新文章的标题:
Video generation models as world simulator。
把视频生成模型作为世界模拟器,这个思路早在很多很多年前就已经确定了。
然后我们再细看Sora背后的技术就会发现,一切都是这么多年一点一滴积累起来的,是祖上三代的传承。
OpenAI在开发Sora时,跟同行最大的不同是,他们用了Transformer架构。
这个架构能够在大规模数据集上训练,并且微调阶段用的成本也更低,所以特别适合大规模训练。
能够规模化,这是OpenAI做一切事情的前提。他们要的不是学术创新,要的是实实在在地模拟世界、改变世界。
Transformer架构之前在自然语言处理领域取得了很大成功。OpenAI认为,一个关键因素是,使用了Token的概念。
文本被输入之后,被分割成Token。每个Token都被转化成向量,然后发送给模型。这样一来,Transformer模型就能利用自注意力机制去处理,去捕捉Token之间的复杂关系,从而方便进行统一的大规模训练。
那么,当文本换成了视频,Token就变成了Patch。
OpenAI先对视频进行压缩,否则计算量太大吃不消;然后再对压缩后的视频进行切割,变成Spacetime Patch。
这些Patch,在Transformer模型中充当Token的角色,这样就能像之前那样进行训练了。
Sora仍然属于Diffusion Model,扩散模型。给它输入低精度、充满噪音的Patch,它被训练成能够预测原始的、高清的Patch。
OpenAI管Sora叫Diffusion Transformer,因为他们把两者的优势结合起来了,这是Sora成功的技术基础。
不过,这还没完。Sora就是个“富二代”,投在它身上的资源,比同行多多了。
在训练阶段,需要给视频素材配上文本说明,这样模型才知道那是什么东西。为了提升训练质量,OpenAI用自家的DALL.E 3去给视频素材做高质量的文本描述。
在使用阶段,模型生成的效果,取决于用户提示词的精准程度。但是,你没法要求用户表达得明明白白、方便模型去理解。于是,OpenAI用自家的GPT去对用户的提示词做更详细的扩写,然后再交给Sora处理。
所以,当你把Sora能成功的要素都放在一起看,就会明白,这根本不是人家突然放个大招的问题:
文生文、文生视频不是两条技术路线吗?结果OpenAI成功合二为一了。
这说明,在这场竞争中,不存在局部战场,只有综合赛道。你不要想着能在某个领域形成局部优势,把巨头挡在外边。是不是很绝望?
训练阶段,有DALL.E 3帮忙开小灶;使用阶段,有GPT打下手。
有哪家公司的模型能有这样的待遇?是不是很绝望?
大模型研发,属于登月级别的难度,比拼的不是人才密度,是天才密度。人家这帮天才怀揣着“让计算机理解世界”的宏大目标,提前好多年开始行动。一旦领先,就是全面领先。
这就是我们今天要面对的OpenAI。
Key Takeaway
- 写代码的能力是衡量大模型优劣和决定其未来的核心标准。
- 代码能力强的模型智商更高,因为它要求逻辑、精确性和对复杂系统的理解。
- 编程是模型的“复合动作”,能扩展其能力边界,使其泛化到更多领域,是通往AGI的必经之路。
- 代码能力强的模型拥有更发达的“小脑”,能将抽象意图转化为具体行动,实现与数字世界的交互。
- AI编程市场潜力巨大,能优化开发者成本和重构软件生产方式,具有巨大的商业价值。
Full Content
想知道哪个大模型能活到最后?一个标准:写代码的能力。
写不好代码的模型,没有未来。写不好代码的模型,你就不需要再关注了。
这个观点,我前几天在社群内说过。当时是回答一个小伙伴的提问。我知道它看起来很极端、很偏见。但是,这个在圈内已经共识了。不信的话,我给你四个理由。
第一,代码写得越好,模型智商越高。
跟写文章不一样,写代码要求绝对的逻辑、精确的语法和对复杂系统的理解。
自然语言其实有很大的模糊性——一篇文章,怎么写都行,都可以写得很好。而且有很多捷径,比如模仿。咱们小时候都背过很多范文,对吧?
但是代码不同。它是零容错的——一个符号错了,程序就挂了。它还要求逻辑一致,因为每行代码都是系统的一部分。最后,它还是高度抽象的——它是从具体问题抽象出算法,再具体转化成为可执行的代码。
所以,一个能写出优秀代码的模型,它的“智力”肯定不只是是模仿,而是真正理解了抽象概念和规则。
这就是为什么我一直推荐Claude和Gemini的原因。即使你不编程,我也建议你这两款模型二选一,甚至都要。
第二,代码写得越好,模型的能力圈越大。
打个比方,你想通过健身获得一副好身体,那么肯定不能只练局部,而是全都要练,包括深蹲、硬拉、卧推、有氧,以及拉伸。
对模型来说,编程就是这样一个完美的“复合动作”。它不仅仅是单一技能,而是强迫模型同时发展和整合一系列的认知能力。
一旦这些底层能力被锻炼得足够强大,它们就可以被用来处理更多复杂任务。比如,可以被泛化、被应用到法律、金融、科研等领域。
于是,模型的能力边界扩展了。当这个边界扩展到各个方面,AGI就实现了。
第三,代码写得越好,模型的小脑越发达。
今天的模型跟两年前的模型很不一样。
在我看来,两年前的模型更多是一个被动的文本生成器,能够用自然语言对话。但是,它被“锁”在了文本的世界。
而今天的顶级模型,它拥有了代码能力。于是它可以执行一个简单的脚本来分析数据,可以调用复杂的API来控制一个应用程序,等等。
也就是说,它除了具备很强大的大脑之外,还有很发达的小脑,可以把抽象的意图转化成与数字世界交互的具体动作。
而那些代码能力弱的模型,就好比一个只有大脑但小脑发育不全的人。它可能“知道”该做什么,但无法精确控制自己的“肢体”,动作非常笨拙。
这就是为什么所有顶尖的AI公司都在疯狂提升模型的代码能力。他们不仅仅是在教模型“编程”,更是在训练模型的“小脑”,赋予它在数字世界中自由行动的核心能力。
这是通往AGI的必经之路。
第四,代码写得越好,模型越值钱。
这个很简单,咱们来算两笔账。
全球大约有3000万开发者。每人每年的综合成本,包括薪资、福利、设备等等,咱们按10万美元来计算。那么,整个市场的人力成本就是一年3万亿美元。
咱们不说完全替代,就优化个20%,那就是每年6000亿美元。
这还不是最大的市场。全球企业每年在软件和IT服务上的支出已经达到5万亿美元。想象一下,如果软件的生产、维护、迭代方式被AI根本性地重构,那么,这个市场值多少钱?
这就是为什么像Cursor之类的公司估值能飙升那么快的原因。
总结一下,代码写得越好,模型智商越高,能力圈越大,小脑越发达,赚钱能力越强。这些综合起来,不就意味着一个光明的前景吗?
你拿代码能力这个标准去看市面上的模型,去看中国的模型,你心里就有谱了。
OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!
Key Takeaway
- 大模型巨头(OpenAI、Google)的更新正在“吃掉”小厂商和创业者的市场份额。
- OpenAI的GPT-4o通过整合图像生成功能,实现了图文并茂的全新交互体验,拉开了与竞争对手的距离。
- Google的Gemini 2.5 Pro在代码能力和推理能力上显著提升,并具备超大上下文窗口,展现了强大的综合实力。
- 顶级模型正朝着“模型即应用”的方向发展,全面铺开多模态、代码生成、工具调用等能力。
- 文章对AI时代的创业持悲观态度,认为AI的强大和中心化将压缩创业空间,强调人与人之间的关系是AI无法替代的。
Full Content
我现在有一种感觉,大模型已经不是小厂商能玩得了的了。每一次大厂的更新,都会吃掉小厂的份额,也会吃掉一批创业者的机会。你看这两天的OpenAI和Google,我要是干这行的,肯定会觉得很心累、很绝望。
先是OpenAI。他们更新了GPT模型,把最先进的图像生成功能整合进GPT-4o。结果一夜之间,Twitter上全是用ChatGPT生成的吉卜力风格的图片。不止是用户在玩梗,很多大佬也开始加入了。
说实话,这种火爆程度,在AI领域已经有些日子没看到了。奥特曼非常懂传播。因为吉卜力画风本来就有非常广的群众基础。当你把现实的图片转成这种画风之后,那种反转感,特别适合社交媒体传播,想不火都难。
而且,OpenAI这个技术不止是图像生成那么简单,它应该是能理解图片的背景信息。因为有网友发现,这张图的左下角,桌上摆着一份《停火协议》,说明GPT知道原图是什么意思。
这个就是我在之前那期《逆袭のGemini》里说的:
现在AI回答你的问题,可以做到图文并茂。
你有什么图片想生成、想修改的,AI可以做到言出法随。
这种全新的体验,是之前从未有过的。OpenAI这一次更新,干掉了ComfyUI半壁江山,也再次拉开跟其它厂商的距离。
其实郁闷的不止是创业者和小的模型厂商,Google应该也挺不爽的。因为他们在同一时间发布了Gemini 2.5 Pro,结果风头全被抢了。
但是有一说一,这个模型非常非常厉害。
第一,Gemini 2.5 Pro的代码能力有显著提升,已经接近Claude了。你看,我让它写一个100个小球在球体内反弹的脚本,它很容易就搞定了。
第二,Gemini 2.5 Pro的推理能力有显著提升。当推理能力上来之后,加上超大上下文窗口,它给了我一种“全局理解”的惊喜。不管是拿来分析脚本还是翻译PDF,我感觉Gemini 2.5 Pro都比别的模型好使。
你看,这个就是今天全球顶级模型该有的样子。这行业早已经过了单纯拼文本生成的阶段了。
你会强化学习,我也会。你有思维链,我也有。除此之外,我还有更大的上下文窗口,有原生的多模态,能生成和修改图片,能写代码,能调用工具,甚至还能跟用户实时语音和视频。
这么多能力已经全面铺开了。它们只有一个目标,就是把模型变成一个完整的应用。
所以,我其实对AI时代的创业一直持悲观态度。因为AI太强大,又太中心化了。创业者的生存空间会比之前互联网时代少得多。
那么,有什么是AI无法替代的呢?我认为,最终落脚点只能是人。因为只有人,AI无法替代;也只有人与人之间的关系,AI无法生成。
OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!