AI趋势

Agent经济，要来了 2024-08-31

Key Takeaway

红杉资本认为AI浪潮的量级远超云计算和移动互联网，将颠覆整个软件市场，并重构服务行业。
AI的机会主要在应用层，创业公司可从垂直领域和复杂人力介入问题切入，利用Agent替代外包业务。
“Agent经济”（Agent Economy）是AI时代新的商业模式，Agent将替代用户进行交互和交易，催生新的通信网络和基础设施需求。
2025年AI的关键词是Agent，它将成为模型和应用集中的焦点。
MCP（模型控制协议）为大模型提供了外部信息和工具，是Agent进化的前提。
Agent的准确率提升和Token费用下降，预示着Agent将迎来爆发式发展。

Full Content

如果你想AI创业，红杉资本最新的Keynote一定要看。他们三个人花了半小时，把AI产业现状以及未来趋势都讲明白了。我帮你们画一下重点，以及谈谈我的感受。

第一，分析框架。

如果你要分析AI或者别的领域的趋势，可以使用红杉这套框架：

What，So What，Why Now，What Now。

整个分析从What、也就是发生了什么开始。比如，今年MCP特别火爆——这是What。那又怎么样呢？会有什么影响吗？这是So What。为什么是现在火爆？MCP是去年底推出的，当时怎么没火？这是Why Now。前因后果都知道了，我们现在该怎么做？这是What Now。

这类分析、思考框架拿起来就能用，很适合新手。类似的东西，还有“现状 - 障碍 - 目标”，这个我在社群里发过，是我过去十几年用得最多的框架。

目标是你要去的地方。现状是你当下所处的位置，是你的出发点。那么，要从这里到达哪里，中间有哪些障碍呢？只要找到障碍，并且找到克服障碍的方法，我们就能达成目标。

我们平时会看到很多机构和大佬做分享。除了他们说了什么之外，我的习惯是，会去分析、倒推他们为什么这么说、这么想，把他们的框架给研究清楚。长期来看，这比他们的观点更有价值。

这算是我的秘诀，免费分享给大家。不用谢。

第二，AI浪潮究竟有多大？

很多人认为，AI堪比过去的向云端转型的机会。但是红杉认为，AI的量级要大得多：

AI不只是服务，还会颠覆整个软件市场。

这一点，我在今年深有感受。Agent真的已经开始重构整个服务行业和软件行业。

而且，AI这个浪潮不仅超大，还非常凶猛。因为，它所需要的算力、网络、数据、分发渠道、人才培养，在过去几波浪潮中都已经铺垫好了。这么多层叠加到一起，把势能全部给到AI，所以AI才会达到今天这么恐怖的发展速度。

我知道，很多人在国内感受不深，还盯着什么电商、外卖、短视频。这让我想起了灾难片的场景。一群游客在沙滩上晒着太阳、喝着鸡尾酒。但是，如果你出海了，在海面上就会看到，一个百米高的超级巨浪已经形成了，并且朝着岸边狂奔而来。

所以，早点准备吧。

第三，AI的机会在哪里？

把AI跟过去的云计算和移动互联网放在一起看。从基础设施开始，列出达到10亿营收规模的企业。可以看到，AI这边还有很多空白。而且，最大的空白区域在应用层。

有一个概念，我提到过好多次：模型即应用。

这个是OpenAI这些公司正在做的事。他们凭借越来越强的模型能力，就像吃豆人一样，正在吃掉越来越多细分赛道，直到成为一个超大的、通用型的怪物。

但是另一边，创业公司也在反击。他们从客户需求出发，专注在特定的垂直领域，聚焦在特定的功能上，处理那些需要大量人力介入的复杂问题。

比如，那些外包业务就可以用Agent来替代。你想嘛，能外包，说明人力成本高，说明有预算，说明结果可衡量——这不就是最需要Agent发挥的地方吗？

所以，有技术是一方面。从技术到客户需求被满足，整条价值链当中，还有很多可以去挖战壕、广积粮的地方。一场全面的竞争已经展开了。

第四，终局长什么样？

大家记住这个新概念：Agent Economy，Agent经济。

过去我们经历过各种经济，比如粉丝经济、共享经济，等等。那么，AI时代将诞生的、新的经济形态、商业模式，就是Agent经济。

Agent会替代用户进行交互、交易。那么，围绕Agent自然要产生新的经济形态，对吧？

顺着这个逻辑往下想的话，今天的网络是以人为出发点的，是面向人的。那么，Agent兴起之后，是不是也得有一张以Agent为主角的通信网络？这个网络该采用什么样的协议？以及，当Agent数量翻个十倍、百倍，需要什么样的基础设施和配套服务？

这一张Agent网络，还有这整个Agent经济的背后，得有多少机会啊？能不兴奋吗？

顺着红杉的判断，我谈一下我的体感。

在今年年初，我发了一个视频，叫做《我对2025年AI的判断》。在开头我就很明确说了：

2025年，AI的关键词只有一个，就是Agent。不管是搞模型的还是搞应用的，都会把火力集中到Agent这个点上。

后来的发展，证明了我的判断。

MCP火爆的原因就在于，它给大模型提供了更多外部信息和工具——这个是进化成Agent的前提。

信息搜集的Deep Research，AI编程的Cursor，都是Agent最好的案例，也是目前AI的杀手级应用。

Agent趋势兴起，从我们社群也能感受到。去年大家在社群内的提问主要是关于RAG、知识库的。到了今年，Agent相关问题明显变多了。

这个趋势的背后，有两条曲线在发挥作用。一条是Token费用。你去对比GPT-3.5、GPT-4时期的费用，和今天的费用就会发现，Token费用已经下降非常非常多了。另一条是Agent的准确率。最多两年，Agent执行任务的准确率就能达到人类的92%。

能力越来越强，成本还越来越低，这个是什么结果不用我多说了吧？

所以我也调整了自己的日程安排。周一和周二我会把本周要更新的视频做完。然后本周剩下的时间，我都会用来开发应用。从简单但是刚需的工具开始，就像播种一样，为自己创造多条现金流来源。

我也建议大家，抓紧行动起来。这么大的机会，人这一辈子能遇到几次？而且还是在年轻或者中年的时候。

AI不会替代你，但是… 2024-08-31

Key Takeaway

AI不会替代人，但会使用AI的人将替代不使用AI的人。
AI赋能个体并非平等过程，早期阶段AI的特点是“遇强则强，遇弱则弱”。
少数派（约5%）能用好AI，他们具备“不吹不黑”的态度和“AI视角”。
学习使用AI的两个关键方法是：DYOR（Do Your Own Research），即深入研究源头知识；学习Python编程，以便理解AI底层逻辑。
文章强调了认知差比技术差更大，以及编程能力在AI时代的重要性。

Full Content

有一个好消息，一个坏消息。

好消息是：AI不会替代你。

坏消息是：用AI的人才会。

所有厂商都在喊：AI for ALL。AI确实能帮到每一个人。但是，AI赋能个体过程一定不是一个平等的过程。

尤其是在现在这个早期阶段，AI技术才刚刚开始产品化，还非常不完善，接触起来很有门槛。所以，AI在这个阶段的特征是八个字：

遇强则强，遇弱则弱。

AI遇到什么样的人会变强？遇到什么样的人会变弱？

以使用ChatGPT为例。我看到的人当中，至少95%是这样的：

没头没脑地贴了几篇文章过去，然后叫AI生成一篇新的文章。拿到结果一看，很不满意，于是下了结论：

AI真垃圾，都是资本吹起来的。

只有少于5%的人会这样做，他们会想明白两件事：

第一，自己到底要的是啥？比如，文章的核心内容是什么，结构是怎样的，风格是怎样的？

第二，AI是怎么执行的？比如，它会怎么思考我们的指令，它都需要什么东西才能把活儿做好，过程中需不需要我们给个反馈、指导一下？

这样的少数派具备两个非常宝贵且重要的品质。

一是态度，用一个流行词来形容就是：

不吹不黑。

他们既不会去神话AI，觉得AI无所不能，也不会完全否定，觉得AI做不到100分就是没价值。

因为现在的AI只能当Copilot，也就是副驾驶。握方向盘的人还是Pilot，也就是用户。所以对于没脑子的Pilot来说，Copilot再强都没用。

这些5%的少数派的态度就是，AI能做多少，就用多少。做得好的地方，该花钱就花钱，不犹豫。做不到的地方，也不焦虑，反正咱又不是模型厂商，AGI能不能实现咱不操心。

二是视角，AI的视角。

大模型是什么？是知识的容器。

训练大模型的过程，是对知识进行压缩的过程。使用大模型的过程，是对知识进行解压的过程。其它的一切，都是从大模型出发去做扩展。比如：

Fine-tune是什么？是给大模型开个补习班，再学点新知识。
RAG是什么？是给大模型一堆参考书，要用的时候翻一翻。
Agent是什么？给大模型一个工具箱、一本操作手册，让它正式上岗去帮我们干活。

如果你读过KK的《科技想要什么》这本书就会有感觉：这绝对是一个不同于我们常规定义的生命体、智能体。这也是我们第一次面对除了人类以外的复杂系统。

所以想要了解并利用好AI的话，一定要转换视角，站在AI的角度、站在系统的角度去窥探和理解。

如果你是那5%的少数派的话，或者你真心想学会怎么用AI的话，我这边有两个建议，都是我自己的经验总结。

我在刚创建知识星球newtype的时候分享过我的经历。其实我没有任何相关背景，最初也不懂编程啥的，完全是从零开始、自学半年。我所用的，就是以下这两个方法。

第一，DYOR，Do Your Own Research。

这句话在币圈很流行，意思是，做好你自己的研究，别都听别人的。对于学习使用AI也适用。

有一个很扎心的事实我不得不说说：关于中国和国外在AI方面的差距，比技术差更大的，是认知差。

从媒体到商业大佬，大家都还在学。尤其是那些大佬，等你真正做了研究就会发现，他们都是一知半解。但是，人家为什么敢出来说、敢出来教？两个原因：

一是为了影响力。在AI这种级别的技术革命面前，所有人都是从新开始，不管你之前有多牛、地位有多高。为了抢个先手，他们当然要主动抛头露面，趁着在上个时代的影响力还有点余温的时候。

二是为了学习。在精英眼中，输出也是一种学习的过程，而且特别有效。所以，看着是他们在教你，其实人家只是对着镜头在背作业。

最先进的、最及时的AI内容都在国外。你只能自己学，没人能手把手教你。

当你开始学之后，这边有一个点要注意：尽可能找到源头。

比如，你看到很多人都在讨论，大模型训练用的高质量数据快不够用了，将会限制模型性能的进一步提升。

如果你只停留在这一步，那只能得到一个其实没什么用的、所谓的观点。如果你肯多问几句，比如：为什么需要海量数据？大模型从这些数据中究竟学的是什么？数据不够的话，合成行不行？让现有的大模型生成数据，给下一代大模型训练，可不可以？

顺着逻辑一路追问下去，并且找到每一个答案，你就能在源头层面把这个问题吃透。

不用纠结要不要很系统地去学习，只需要把每一个点都弄扎实了，一段时间之后你就会发现，这些点都串联成了一张网。而且，它们背后是同一套根本的逻辑。

当你走到这一步，恭喜你，入门了。

第二，学Python。

很多大佬都在吹：不需要学编程了，人人都可以是程序员。

我可以很肯定地跟你说，也许几年之后是这样。但现在，编程还是一个不可替代的能力。

那么，学AI为什么要学Python编程？

AI需要「影分身」 2024-08-31

Key Takeaway

ChatGPT“裸奔”不足以满足生产力需求，部署Agent能显著提升效率。
GPT Researcher是开箱即用的Agent方案，擅长资料搜集和报告生成，成本低廉。
CrewAI是灵活的Agent框架，通过设定Agent、Tool和Task实现自由搭建Agent系统。
大模型存在“单核硬伤”（Degeneration-of-Thought），多Agent协作能有效解决复杂推理问题。
Agent技术在大模型加持下迅速发展，未来将有更多工具和应用出现。

Full Content

ChatGPT会员我是不会再继续订阅了。

轻度体验一下还可以。但如果真要把它当作生产力工具长期使用的话，还是不太行。

咱们来做个对比。同样一个问题：

GPT-4加上联机搜索之后，ChatGPT给出了这样的答案：

你觉得还不错是吧？我给你看看Agent生成的：

也不能说是差距很大，大概就是能用和不能用的区别吧。

所以，从实用的角度来看，我建议大家别再继续用ChatGPT「裸奔」了。花点时间部署一套Agent，能帮你省下非常多时间。

介绍一下我目前在用的两套方案。

GPT Researcher：开箱即用

GPT Researcher是GitHub上的一个项目，主要满足资料搜集、报告生成方面的需求——日常工作刚需，真的能省很多时间。

GPT Researcher搭建了两类Agent：

Planner Agent负责拆解需求、生成尽可能全的问题。Execution Agent拿到问题之后，找到对应的网页、把内容爬下来，再交回给Planner Agent。后者筛选、汇总所有资料，完成调研报告。

这个项目有两点做得很棒：

混合使用GPT-3.5和GPT-4，提升速度、降低成本。一般来说，跑一圈下来需要3分钟，花费0.1美元——真的是白菜价了。
根据需求生成的Agent都是特定领域的。比如，需求是做金融领域的调研，那么生成的Agent就是金融专家。

只需要懂一点点代码就可以使用GPT Researcher。按照GitHub的教程，把仓库克隆到本地，然后一步一步复制粘贴、执行对应的命令。过程中如果提示缺什么Package，那就pip install安装就行。最后打开一个本地网页就可以使用了。

CrewAI：自由搭建

如果你的需求不只是生成调研报告，那就需要使用现成的框架，亲手搭建一套Agent系统了。

我目前在用的Agent框架叫「CrewAI」。看起来跟微软的AutoGen差不多，但你一上手就会发现，CrewAI比AutoGen逻辑更简单、更直观。

在CrewAI里，你只需要设定三个要素：

谁。
用什么。
做什么。

「谁」指的是Agent。多少个Agent，分别以什么角色进行协作，工作目标是什么，他们各自的背景是什么样的，他们用什么模型作为大脑。

「用什么」指的是Tool。最常见的就是搜索工具。你需要把工具分配给具体使用的Agent。

「做什么」指的是Task。一个项目可以分拆成很多个任务。每个任务需要有具体的描述，以及指定由哪些Agent来完成。

一旦理解了这个逻辑之后，CrewAI的设置就变得极其简单。

还以生成调研报告为例，这是我设计的Agent工作流程：

我特意在最开始的需求分析、方案制定环节安排了两个Agent。这么做，Token花得多，时间也更长，不过很有必要。一切都是为了解决一个核心问题：

大模型在复杂推理的时候，特别容易犯轴。

单核的硬伤

为了加强大模型的推理能力，研发人员想了很多办法。比如，大名鼎鼎的思维链（Chain-of-Thought），还有自我反思(Self-Reflection)。

但是，无论怎么给大模型叠Buff，都改不了这个问题，在论文里管它叫「Degeneration-of-Thought」：

当大模型对自己的答案有信心的时候，即使这个答案不正确，它都没法再通过自我反思去产生新的想法。

跟人一样，沉浸在自己的世界里，迷之自信、死不悔改。

造成这个问题的原因有很多。比如在预训练阶段，输入的概念有偏差，或者思考模式有问题，都会产生认知偏差。

有的问题可以通过技术解决，有的不需要。像这个问题，其实人类社会已经有解了，就是大家最最熟悉的：

讨论与协作。

一个人再聪明，认知水平再高，都会有盲点。

有人点拨的话——其实有时都不用点拨，只要跟自己以外的人聊上几句，就能爬出来。

这就是为什么，都是一样的大模型作为底层驱动，「多核」会比「单核」靠谱得多。

2024 Agent

Agent并不是跟着大模型兴起的。早在这一轮AI爆发之前，Agent就已经有好多年的研究了。大模型充当最强大脑，解决了Agent推理的难题，使得Agent突然被所有人关注。

在设计和部署Agent方面，AutoGen之后有了CrewAI，2024年肯定还会有更多团队想来试一试的。

ChatGPT最重要的更新：Canvas 2024-08-31

Key Takeaway

OpenAI最新发布的Canvas是ChatGPT的重要更新，提供文本撰写和代码生成功能。
Canvas借鉴了Claude的Artifacts功能，并具有Grammaly的文本撰写风格。
AI产业已进入商业落地阶段，白领和程序员是AI替代的重点目标。
Canvas的文本撰写功能包括总结、扩写、调整风格、检查文本和添加表情符号。
Canvas的代码生成功能支持编写代码、更改编程语言和修复Bug。
文章认为Canvas的推出对创业公司构成威胁，但其功能对已使用Artifacts和Cursor的用户而言并非颠覆性。

Full Content

留给打工人的时间真的不多了。

OpenAI最新发布的Canvas，是ChatGPT最重要的一次更新。它带来两个实打实的功能：文本撰写，和代码生成。

我第一眼看到Canvas就想到了两个产品：

一是Claude。Canvas算是借鉴了它的Artifacts功能。

我之前还在newtype社群里提到过，Artifacts特别像大学老师的黑板。你去请教老师的时候，他从身后拉了一块干净的黑板过来，在上边给你详细讲解和演示。

Artifacts推出之后，获得了所有人一致好评。现在OpenAI也跟进，看来这个功能会成为Chatbot类产品的标配。没准国内大模型厂商已经在开发了。

二是Grammaly。这是一款AI写作辅助工具，日活有3000万。

Canvas的文本撰写很有Grammaly的感觉。后续要更新的话，照着Grammaly抄就好——人家在这方面已经研究得很透彻了。这条赛道这么窄，玩不出什么新东西来。

我之所以说留给打工人的时间不多了，是因为：

整个AI产业已经进入到拼商业落地的阶段。大多数模型厂商都要去卷应用。只有少数能像Deepseek那样一心一意只做模型研发。

那么，往哪个方向去卷，能够向资本证明你的阶段性商业价值呢？

柿子捡软的捏。白领是最容易替代也是最好欺负的一个群体。现在底层的模型能力足够，只需要在产品层多下点功夫，把初级白领淘汰掉是没问题的。

程序员是另一个目标。像代码这种东西，标准化表达，数据量又大，AI学起来没问题。之前我介绍过Cursor和Replit Agent，就是在往这个方向走。

所以，打不过就加入。只有那些从现在开始就全力拥抱AI，并且不断琢磨怎么利用AI的打工人才能活下来。你不需要打赢AI，只需要打赢你的同事。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把AI的Why和How讲明白的博主。记得点一波关注，绝对不亏。如果想要链接我，就来newtype社群。已经500多位小伙伴付费加入啦。

回到今天的主题：ChatGPT Canvas。

目前这个功能还是Beta版，不太成熟。比如，它还不是通用功能，需要专门切到带有这个功能的模型版本。以及，我还遇到了聊着聊着GPT突然改用英文的情况。不过瑕不掩瑜，还是值得上手试一试的。

我先测试了它的文本撰写能力。把上期视频的脚本传上去，要求它根据这个内容写一篇博客文章。

这时，类似Artifacts的界面出现了。GPT-4o很快完成了初稿。注意看，OpenAI在右下角放上了几个定制化的功能，包括调整长度等等。

当我们把长度拉满，GPT会在原来基础上做扩写，最多能增加75%的文字量。

第二个功能，看字面的话，你会认为是按照不同学历水平去撰写他们能看得懂的文章。但其实它就是调整文字风格啦。

比如调到幼儿园级别，那么文章会特别通俗易懂。如果调到最高的博士生级别，那基本就是文绉绉甚至有点不说人话的感觉。

说实话，OpenAI这么设计有点冒犯的意思了。这跟学历完全没关系。这又是何必呢？

后边的两个功能很直接。一个是帮你检查文本，看看哪里有错别字，哪里需要加个小标题，等等。

另一个是在文章里加上emoji表情。Twitter上很多人在夸这个功能。我是无感。我绝对不可能在我写的任何文章里加上emoji。

当然，不用右下角这些设定好的功能也OK。咱们可以选中任何一段内容，直接对GPT下需求。比如，把开头改得更吸引人一些。或者，把结尾再升华一下。

以上就是Canvas的文本撰写能力，很简单，很基础。通过提示词和Agent Workflow就可以实现这样的能力。OpenAI把它们都打包进产品里，而且还搞了添加emoji这样的小噱头来取悦用户。你看，他们还是很鸡贼的。

至于代码生成也是差不多的逻辑。

作为测试，我让GPT帮我写个贪吃蛇的小游戏。同样在右下角的位置出现了可以展开的按钮。其中更改编程语言这个有点意思。比如，我们可以让GPT把它已经生成的代码改成JavaScript、TypeScript等等几个主流的语言。

剩下几个功能很简单，比如修复Bug之类的。我就不详细介绍了，看一眼就懂。

目前Canvas的东西就这些。我猜，一些创业公司肯定要睡不着了。OpenAI这是在拿他们的命给自己换时间。作为用户，我感觉还好。可能是因为之前一直在用Artifacts和Cursor，所以看到这个也没那么兴奋。为了体验Canvas，我开了一个月的会员，不打算续费。之后还是继续用Claude。

OK，以上就是本期视频。想交流AI就来newtype社群。那咱们下期见！

Gemini + Grok：最被忽视的AI生产力工具 2024-08-31

Key Takeaway

Gemini和Grok是两个被低估的顶级AI应用，它们在不同方面展现出强大的生产力。
Gemini提供多功能体验，包括快速回答（Flash）、文章创作（Canvas）和深度报告（Deep Research），并能与Google文档和NotebookLM无缝集成，支持深度学习。
Grok在模型回答上更具“人味”，产品设计简洁，并拥有独特的Twitter数据源，使其在获取用户真实反馈方面具有优势。
结合使用Gemini（获取主流媒体信息）和Grok（获取社交媒体信息）可以获得更全面和真实的洞察。

Full Content

有两个顶级AI应用还在被国人忽视。一个是Gemini，一个是Grok。

Gemini我已经推荐得足够多了。你看，过去半年，我在社群内真的是苦口婆心、反复强调。我从1.5的模型开始，用到了2.0、2.5，真的是越用越喜欢。不说那些复杂的，就说日常使用，就像我这个帖子说的：

如果你只想要个快速回答，那直接问Gemini 2.0 Flash。它速度快，推理强，运行还稳定。

如果你想要稍微深入一点，那就把Canvas打开。Gemini 2.0 Flash会按照写文章的标准来回答你。

如果你想要详尽的报告，那把Deep Research打开。Gemini 2.0 Flash会按照报告的标准来输出。

我直接给你们来个演示吧。

比如，我问Gemini：什么是Reasoning model？它很快给出一个简要的回答。

我把Canvas也就是画布打开。再问它同样的问题。这个时候，回答速度稍微慢一些，但是详细程度会高得多。在Canvas里边，你可以对文本进行排版、编辑，也可以选中一段进行提问。也就是说，用这个功能，你可以跟Gemini配合起来完成一篇文章的创作。

如果我把Deep Research打开呢？还是同样的问题——什么是Reasoning model。Gemini会帮我拆解议题，然后查找上百个网页，最终完成深度报告的输出。

你看，就这么简单的三个功能——直接对话、Canvas和Deep Research，覆盖了我们日常使用AI的主要场景。

更进一步，如果你觉得这些回答有价值，还可以把它们保存到Google文档里。

刚才介绍的三个功能，后两个都可以导出到Google文档。然后，就像我前一个视频里介绍的，打开NotebookLM，把Google文档里的相关内容全部导入，然后就可以进行深度学习了。

Gemini还有别的功能，比如画图什么的，我就不多说了。光是刚才我介绍的那些，就足以值回票价。

而且，Google还在不断更新。就在昨天，他们推出了首个混合推理模型——Gemini 2.5 Flash。你可以自主选择要不要打开思考模式，甚至还可以设定要投入多少资源进行思考。这个模型的出现，更加强化我要继续拥抱Gemini的信心。

那么，既然Gemini这么牛逼，还要Grok干嘛呢？三个原因：

第一，从模型回答的感觉上看，Grok 3要比Gemini 2.0好得多。

Gemini 2.0还是有一种生硬感、机械感，这可能就是Google独有的味道吧。而Grok 3的回答就比较有“人味”，所以我会逐渐倾向于多跟它交流。

第二，从产品角度来看，Grok最完整。

就像之前我在社群里说的，Grok没搞那么长的模型列表让用户选择，就两个按钮：深度思考，和深度搜索。没有模型之分，只有模式之分，甚至再到后边连模式都不需要选择了，AI会自主判断。这个才是正道。像OpenAI那种，有点丧心病狂了。

另外，前两天的更新，给Grok补上了Canvas和Workspace功能。Canvas和别家差不多，就是标准的画布。而Workspace，就类似知识库的功能，特别好用。

现在，Grok已经集齐目前的主流功能。产品层面已经相当成熟了。

第三，从数据源角度来看，Grok拥有别家都没有的Twitter数据。

Twitter现在是最有影响力的社交媒体，它的数据对于AI来说很重要。如果能把Twitter所代表的社交媒体数据，和Google那边掌握的主流媒体数据合并起来，那对提升AI的回答质量肯定有帮助。具体怎么做呢？我再演示一下。

其实这个方法我在社群内也分享过。很简单，Grok的Workspace功能除了支持本地文档上传之外，还支持从Google Drive里导入——这个就是关键功能。

我会先用Gemini做一轮Deep Research，把报告导入Google文档。然后，到Grok里添加这些Google文档，并且在Prompt里强调：附件信息只是参考，你要有自己的搜索和判断。另外，Twitter上用户都有哪些反馈？重点看看。

注意看Grok的分析过程。从主流媒体的信息搜集来看，它确实不如Gemini能搜到那么多。其实不只是它，OpenAI的搜索范围也有限。但是，Grok能搜集Twitter上的数据，包括帖子和评论，这个就是它的独有价值。

我之前在公关营销行业干了十几年，非常清楚只有你预算够，绝大部分主流媒体的内容都可以买，或者都可以影响。相比之下，用户的实际使用反馈就相对真实得多。所以，当我想了解的议题涉及到用户口碑的话，我肯定会通过Grok去搜集，并且跟Gemini那边的主流媒体信息进行合并。

刚才介绍的这两款AI工具的使用经验，看起来确实平平无奇，不像很多AI自媒体介绍的那些玩法那么酷炫，但这些都是能帮到你的真东西。如果你觉得有价值，还想了解更多的话，记得加入我们社群。

OK，以上就是本期内容。那咱们下期见！

GPT4-V的正确用法 2024-08-31

Key Takeaway

多模态应用是AI赛道的焦点，GPT4-V作为“眼睛”，GPT-Turbo作为“大脑”，自动化工具作为“手脚”，可实现AI像人一样操作浏览器和电脑。
AI操作浏览器通过Puppeteer控制Chrome，实现页面搜索、识别和交互，避免传统Scraping的局限性。
Self-Operating Computer（SOC）项目以GPT4-V为基础，旨在实现人类级别的电脑操作，但目前仍面临鼠标点击精确度等挑战。
文章强调AI多模态能力将带来全新的AI应用，并促使创业者和VC关注这一领域。

Full Content

围绕多模态做应用，是未来半年AI赛道的焦点。

如果真的有硅基生命的话，多模态一定是它梦寐以求的能力。打个比方：

GPT-V作为眼睛。
GPT- Turbo作为大脑。
各种自动化工具作为手脚。

把这三部分组合在一起，AI可以像人一样操作浏览器上网，可以像人一样使用鼠标操作电脑。这是我做这期视频的逻辑。

两个示例：

一、操作浏览器

借助Puppeteer，让AI对Chrome进行控制。大致的步骤是：

AI根据需求，使用Chrome搜索、打开需要的页面。
把页面上的按钮等位置加上红框，标注出来。
截图，并把截图发送给GPT4-V进行识别。
GPT4-V反馈“看到”的内容，回答用户请求。

除了识别页面信息，AI还可以点击链接、打开子页面。

如果你是AI应用的开发者就会明白，这跟过去的逻辑完全不同——过去是通过Scraping的方式，把页面的内容都爬下来。这种方法存在两个问题：

需要分析整个网页的所有数据，包括许多完全不相干的，再从其中找到想要的。速度慢，token消耗大。
很多网站，尤其是国内的网站，有各种“反爬”手段，或者是要求账号登陆。

与其跟网站、软件站在同一个维度上想解决方案，为什么不升维呢？站在人这个更高的维度，对一切进行操控！

二、操作电脑

Self-Operating Computer（以下简称“SOC”）是GitHub上的项目，已经有5.2K颗星。它以GPT4-V作为基本模型，目标是达到human-level的电脑操作水平。

有GPT4作为大脑，SOC的操作很让我惊讶，比如：它知道用macOS里的搜索功能去搜Google Chrome、然后打开，而不是到应用里去翻找。

目前这个项目还比较初级，最大挑战是，GPT4-V模拟鼠标点击位置的错误率有点高。我在测试的时候明显能感觉到，AI真的是在不断尝试、十分费劲地想去点某个按钮。

一旦这个问题解决，OpenAI能再进一步提升GPT4-V的响应速度的话，SOC就基本可用了。通过语音进行交互和控制也是完全可行的。

半年前，我还想着，也许会有越来越多软件开放接口，让AI接入。现在来看，二者完全不在同一个维度上。

人家都会飞了，你护城河挖再深，又有啥用？

也许三个月后，我们就会看到一批全新的AI应用，充分发挥多模态能力。创业者和VC们都得抓紧跟上了。

LLM = OS 2024-08-31

Key Takeaway

大模型被视为凌驾于所有操作系统之上的“操作系统”，具备内存管理（上下文长度）、文件系统（对话历史、知识库）、驱动程序（Function Call）和用户界面（自然语言交互）等组成部分。
OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级，如提升上下文长度、Function Call能力、记忆功能和自然语言交互速度。
大模型的“操作系统”化将导致其“吃掉”大量应用赛道，对创业者而言，生存空间将受到挤压。
文章通过phidata项目示例，展示了Agent、RAG和GPT-4o如何组装成简易操作系统。

Full Content

为什么所有互联网巨头都要搞大模型？

因为大模型是凌驾于所有操作系统之上的操作系统。

你以为你的产品体验足够好，但再好也得用户自己动手。大模型会让绝大多数用户第一次体验到使唤别人的快感。

你以为你的技术护城河够深了，但再深也只是二维的。在大模型这种更高维度的、飞在天上的技术面前，地上的护城河、边界这种东西是特别可笑的。

大模型就是指环王里的至尊魔戒：One ring rules all。

既然是操作系统，那就得有操作系统该有的组成部分。

第一，内存管理。对大模型来说，就是上下文长度。目前主流的内存容量已经从最早的KB到MB，再到以DDR为代表的GB时代。而大模型上下文长度也在飞速提升，现在动不动就200K。

第二，文件系统。对大模型来说，文件系统包含两部分：一个是对话历史记录。没有这个，大模型就记不得你，也不可能成为你的私人助手。另一个是知识库，这个大家都明白。

第三，驱动程序。对于计算机来说，驱动程序是用来控制硬件设备工作的。对大模型来说，驱动程序就是Function Call，函数调用，让大模型能跟现有的操作系统、各种软件和在线服务连接。

第四，用户界面。从最早的命令交互到后来的图形交互，它们都是基于键盘和鼠标做的交互设计。结果大模型一来就是掀桌子，通过自然语言交互就行，甚至还能察言观色。相比文字输入，通过语音和表情，大模型能获得的信息丰富得多了。

刚才说的那些都是我自己总结的理论，之前在知识星球newtype里分享过。而且我发现，OpenAI跟我想的一样——他们就是在按照操作系统的逻辑对GPT和ChatGPT进行更新和升级。

上下文长度不用说了，从GPT-3.5到GPT-4 Turbo，从4K、16K、32K、128K，现在日常使用基本不会再担心长度的问题。

Function Call也不用说了，GPT-4在这方面属于遥遥领先级别。

历史聊天记录方面，2月新出的记忆功能，可以让ChatGPT记住用户希望它记住的东西，比如个人偏好等等。

自然语言交互方面，最新的GPT-4o大家都看到了，反馈速度已经非常快了。据说可以在0.23秒内响应音频输入，接近人类的水平。

你看，OpenAI的野心就是操作系统级别的。而GPT-4o登陆iPhone绝对会是一个里程碑事件。

有同样想法的，不只是OpenAI，我相信这一定会成为行业共识和行动方向。一些开发者已经在这么做了，比如phidata。他们把Agent、RAG和GPT-4o组装在一起，变成一个简易的操作系统。

你可以把你想添加的内容喂给GPT，比如网页或者PDF文档。

你可以问GPT任何最新的事件，它可以联网帮你搜索。

你可以让GPT当你的投资顾问，让它帮你分析，英伟达的股票还值不值得买。

想体验这个项目，非常简单，有手就行。

第一步，把包含所有文件的压缩包下载下来，解压缩。

第二步，创建一个虚拟环境。比如可以用conda创建并激活，两行代码搞定。

第三步，安装需要的Library，记得一定按照这个txt安装，别自己瞎搞，到时版本有冲突就跑不起来了。

第四步，把OpenAI和EXA的API Key通过export这行命令提供给系统。

第五步，打开docker，安装PgVector。

第六步，通过Streamlit把这些代码变成APP跑起来，打开一个本地链接，就能看到刚才演示过的界面和功能了。

这些功能，在几个月前都是单独的一个个项目。比如，RAG是RAG，Agent是Agent。最近一个月，我发现大家突然开始做集成了。

这个背后，既是技术在进步，也是大家的认知在迭代。从我的知识星球里的内容就能看得出来：

最开始大家都是问我本地大模型、知识库的东西，现在问Agent也多起来了。整个水位、大家的水平在提升。

而且我有一个感觉，或者说粗略的判断：

既然大模型属于中心化极强的操作系统，那么它一定会吃掉很多很多应用赛道。对于创业者来说，也许只能等这头怪兽吃得差不多了，才能分到一杯羹。

所以，不着急出手。

OK，以上就是本期内容。咱们下期见！

Sora：站在OpenAI的肩膀上 2024-08-31

Key Takeaway

Sora的发布标志着视频生成技术达到“能用”级别，其真实度远超同期产品。
Sora成功的核心在于OpenAI采用了Transformer架构，并将其应用于视频生成，将视频切分为“Spacetime Patch”作为Token。
Sora结合了Diffusion Model和Transformer的优势，被称为“Diffusion Transformer”。
OpenAI在Sora的训练和使用阶段，充分利用了DALL.E 3和GPT等自家模型，形成了强大的综合优势。
Sora的成功表明AI竞争已进入综合赛道，局部优势难以抵挡全面领先，数据将成为下一阶段竞争的关键。

Full Content

视频生成的GPT-3.5时刻来了。

这技术进步实在太快了。一年前的文生视频是这个样子的：

这是当时非常出圈的“威尔史密斯吃意面”。根本没法看，对吧？

一年之后，OpenAI发布Sora，达到了这样的效果：

整个构图、人物的肤色、光影等等，都相当逼真了。

用同样的提示词让Pika生成，一对比就会发现，这差距太大了。留给同行的时间不多了。

视频生成，在能用和不能用之间，有一道非常明显的槛：真实度。这个真实指的是，是否符合我们的常识，符合真实世界的运行规律，比如物理定律。

你看Sora的效果，这是第一次，视频生成达到了能用的级别。比如这个无人机视角的片段，把它用在vlog里，完全没毛病。

不过，比起赞叹Sora有多牛逼，更值得我们关注的，是OpenAI究竟是怎么做到这一切的。

如果你是国内从业者的话，了解完之后，可能会有点绝望：我们真的有可能追上OpenAI吗？

要理解Sora，咱们得先回到2016年6月16日。这一天，OpenAI发布了一篇关于生成式模型的文章。文章开头的几段话很关键：

OpenAI的核心诉求之一，是通过算法和技术，让计算机能够理解我们的世界。

要实现这个目标，生成式模型是最有希望途径之一。

为什么非要“生成”？费曼有一句非常名言：

我没法创造的，我就不理解。

也就是说，如果我能生成极其逼真的视频，那我肯定是足够理解真实世界的。

你看OpenAI最新文章的标题：

Video generation models as world simulator。

把视频生成模型作为世界模拟器，这个思路早在很多很多年前就已经确定了。

然后我们再细看Sora背后的技术就会发现，一切都是这么多年一点一滴积累起来的，是祖上三代的传承。

OpenAI在开发Sora时，跟同行最大的不同是，他们用了Transformer架构。

这个架构能够在大规模数据集上训练，并且微调阶段用的成本也更低，所以特别适合大规模训练。

能够规模化，这是OpenAI做一切事情的前提。他们要的不是学术创新，要的是实实在在地模拟世界、改变世界。

Transformer架构之前在自然语言处理领域取得了很大成功。OpenAI认为，一个关键因素是，使用了Token的概念。

文本被输入之后，被分割成Token。每个Token都被转化成向量，然后发送给模型。这样一来，Transformer模型就能利用自注意力机制去处理，去捕捉Token之间的复杂关系，从而方便进行统一的大规模训练。

那么，当文本换成了视频，Token就变成了Patch。

OpenAI先对视频进行压缩，否则计算量太大吃不消；然后再对压缩后的视频进行切割，变成Spacetime Patch。

这些Patch，在Transformer模型中充当Token的角色，这样就能像之前那样进行训练了。

Sora仍然属于Diffusion Model，扩散模型。给它输入低精度、充满噪音的Patch，它被训练成能够预测原始的、高清的Patch。

OpenAI管Sora叫Diffusion Transformer，因为他们把两者的优势结合起来了，这是Sora成功的技术基础。

不过，这还没完。Sora就是个“富二代”，投在它身上的资源，比同行多多了。

在训练阶段，需要给视频素材配上文本说明，这样模型才知道那是什么东西。为了提升训练质量，OpenAI用自家的DALL.E 3去给视频素材做高质量的文本描述。

在使用阶段，模型生成的效果，取决于用户提示词的精准程度。但是，你没法要求用户表达得明明白白、方便模型去理解。于是，OpenAI用自家的GPT去对用户的提示词做更详细的扩写，然后再交给Sora处理。

所以，当你把Sora能成功的要素都放在一起看，就会明白，这根本不是人家突然放个大招的问题：

文生文、文生视频不是两条技术路线吗？结果OpenAI成功合二为一了。

这说明，在这场竞争中，不存在局部战场，只有综合赛道。你不要想着能在某个领域形成局部优势，把巨头挡在外边。是不是很绝望？

训练阶段，有DALL.E 3帮忙开小灶；使用阶段，有GPT打下手。

有哪家公司的模型能有这样的待遇？是不是很绝望？

大模型研发，属于登月级别的难度，比拼的不是人才密度，是天才密度。人家这帮天才怀揣着“让计算机理解世界”的宏大目标，提前好多年开始行动。一旦领先，就是全面领先。

这就是我们今天要面对的OpenAI。

写不好代码的模型，没有未来 2024-08-31

Key Takeaway

写代码的能力是衡量大模型优劣和决定其未来的核心标准。
代码能力强的模型智商更高，因为它要求逻辑、精确性和对复杂系统的理解。
编程是模型的“复合动作”，能扩展其能力边界，使其泛化到更多领域，是通往AGI的必经之路。
代码能力强的模型拥有更发达的“小脑”，能将抽象意图转化为具体行动，实现与数字世界的交互。
AI编程市场潜力巨大，能优化开发者成本和重构软件生产方式，具有巨大的商业价值。

Full Content

想知道哪个大模型能活到最后？一个标准：写代码的能力。

写不好代码的模型，没有未来。写不好代码的模型，你就不需要再关注了。

这个观点，我前几天在社群内说过。当时是回答一个小伙伴的提问。我知道它看起来很极端、很偏见。但是，这个在圈内已经共识了。不信的话，我给你四个理由。

第一，代码写得越好，模型智商越高。

跟写文章不一样，写代码要求绝对的逻辑、精确的语法和对复杂系统的理解。

自然语言其实有很大的模糊性——一篇文章，怎么写都行，都可以写得很好。而且有很多捷径，比如模仿。咱们小时候都背过很多范文，对吧？

但是代码不同。它是零容错的——一个符号错了，程序就挂了。它还要求逻辑一致，因为每行代码都是系统的一部分。最后，它还是高度抽象的——它是从具体问题抽象出算法，再具体转化成为可执行的代码。

所以，一个能写出优秀代码的模型，它的“智力”肯定不只是是模仿，而是真正理解了抽象概念和规则。

这就是为什么我一直推荐Claude和Gemini的原因。即使你不编程，我也建议你这两款模型二选一，甚至都要。

第二，代码写得越好，模型的能力圈越大。

打个比方，你想通过健身获得一副好身体，那么肯定不能只练局部，而是全都要练，包括深蹲、硬拉、卧推、有氧，以及拉伸。

对模型来说，编程就是这样一个完美的“复合动作”。它不仅仅是单一技能，而是强迫模型同时发展和整合一系列的认知能力。

一旦这些底层能力被锻炼得足够强大，它们就可以被用来处理更多复杂任务。比如，可以被泛化、被应用到法律、金融、科研等领域。

于是，模型的能力边界扩展了。当这个边界扩展到各个方面，AGI就实现了。

第三，代码写得越好，模型的小脑越发达。

今天的模型跟两年前的模型很不一样。

在我看来，两年前的模型更多是一个被动的文本生成器，能够用自然语言对话。但是，它被“锁”在了文本的世界。

而今天的顶级模型，它拥有了代码能力。于是它可以执行一个简单的脚本来分析数据，可以调用复杂的API来控制一个应用程序，等等。

也就是说，它除了具备很强大的大脑之外，还有很发达的小脑，可以把抽象的意图转化成与数字世界交互的具体动作。

而那些代码能力弱的模型，就好比一个只有大脑但小脑发育不全的人。它可能“知道”该做什么，但无法精确控制自己的“肢体”，动作非常笨拙。

这就是为什么所有顶尖的AI公司都在疯狂提升模型的代码能力。他们不仅仅是在教模型“编程”，更是在训练模型的“小脑”，赋予它在数字世界中自由行动的核心能力。

这是通往AGI的必经之路。

第四，代码写得越好，模型越值钱。

这个很简单，咱们来算两笔账。

全球大约有3000万开发者。每人每年的综合成本，包括薪资、福利、设备等等，咱们按10万美元来计算。那么，整个市场的人力成本就是一年3万亿美元。

咱们不说完全替代，就优化个20%，那就是每年6000亿美元。

这还不是最大的市场。全球企业每年在软件和IT服务上的支出已经达到5万亿美元。想象一下，如果软件的生产、维护、迭代方式被AI根本性地重构，那么，这个市场值多少钱？

这就是为什么像Cursor之类的公司估值能飙升那么快的原因。

总结一下，代码写得越好，模型智商越高，能力圈越大，小脑越发达，赚钱能力越强。这些综合起来，不就意味着一个光明的前景吗？

你拿代码能力这个标准去看市面上的模型，去看中国的模型，你心里就有谱了。

OK，以上就是本期内容。想了解AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。那咱们下期见！

大模型正在吃掉一切 2024-08-31

Key Takeaway

大模型巨头（OpenAI、Google）的更新正在“吃掉”小厂商和创业者的市场份额。
OpenAI的GPT-4o通过整合图像生成功能，实现了图文并茂的全新交互体验，拉开了与竞争对手的距离。
Google的Gemini 2.5 Pro在代码能力和推理能力上显著提升，并具备超大上下文窗口，展现了强大的综合实力。
顶级模型正朝着“模型即应用”的方向发展，全面铺开多模态、代码生成、工具调用等能力。
文章对AI时代的创业持悲观态度，认为AI的强大和中心化将压缩创业空间，强调人与人之间的关系是AI无法替代的。

Full Content

我现在有一种感觉，大模型已经不是小厂商能玩得了的了。每一次大厂的更新，都会吃掉小厂的份额，也会吃掉一批创业者的机会。你看这两天的OpenAI和Google，我要是干这行的，肯定会觉得很心累、很绝望。

先是OpenAI。他们更新了GPT模型，把最先进的图像生成功能整合进GPT-4o。结果一夜之间，Twitter上全是用ChatGPT生成的吉卜力风格的图片。不止是用户在玩梗，很多大佬也开始加入了。

说实话，这种火爆程度，在AI领域已经有些日子没看到了。奥特曼非常懂传播。因为吉卜力画风本来就有非常广的群众基础。当你把现实的图片转成这种画风之后，那种反转感，特别适合社交媒体传播，想不火都难。

而且，OpenAI这个技术不止是图像生成那么简单，它应该是能理解图片的背景信息。因为有网友发现，这张图的左下角，桌上摆着一份《停火协议》，说明GPT知道原图是什么意思。

这个就是我在之前那期《逆袭のGemini》里说的：

现在AI回答你的问题，可以做到图文并茂。

你有什么图片想生成、想修改的，AI可以做到言出法随。

这种全新的体验，是之前从未有过的。OpenAI这一次更新，干掉了ComfyUI半壁江山，也再次拉开跟其它厂商的距离。

其实郁闷的不止是创业者和小的模型厂商，Google应该也挺不爽的。因为他们在同一时间发布了Gemini 2.5 Pro，结果风头全被抢了。

但是有一说一，这个模型非常非常厉害。

第一，Gemini 2.5 Pro的代码能力有显著提升，已经接近Claude了。你看，我让它写一个100个小球在球体内反弹的脚本，它很容易就搞定了。

第二，Gemini 2.5 Pro的推理能力有显著提升。当推理能力上来之后，加上超大上下文窗口，它给了我一种“全局理解”的惊喜。不管是拿来分析脚本还是翻译PDF，我感觉Gemini 2.5 Pro都比别的模型好使。

你看，这个就是今天全球顶级模型该有的样子。这行业早已经过了单纯拼文本生成的阶段了。

你会强化学习，我也会。你有思维链，我也有。除此之外，我还有更大的上下文窗口，有原生的多模态，能生成和修改图片，能写代码，能调用工具，甚至还能跟用户实时语音和视频。

这么多能力已经全面铺开了。它们只有一个目标，就是把模型变成一个完整的应用。

所以，我其实对AI时代的创业一直持悲观态度。因为AI太强大，又太中心化了。创业者的生存空间会比之前互联网时代少得多。

那么，有什么是AI无法替代的呢？我认为，最终落脚点只能是人。因为只有人，AI无法替代；也只有人与人之间的关系，AI无法生成。

OK，以上就是本期内容。想了解AI，来我们newtype社群。那咱们下期见！