Blog
Key Takeaway
- ChatGPT“裸奔”不足以满足生产力需求,部署Agent能显著提升效率。
- GPT Researcher是开箱即用的Agent方案,擅长资料搜集和报告生成,成本低廉。
- CrewAI是灵活的Agent框架,通过设定Agent、Tool和Task实现自由搭建Agent系统。
- 大模型存在“单核硬伤”(Degeneration-of-Thought),多Agent协作能有效解决复杂推理问题。
- Agent技术在大模型加持下迅速发展,未来将有更多工具和应用出现。
Full Content
ChatGPT会员我是不会再继续订阅了。
轻度体验一下还可以。但如果真要把它当作生产力工具长期使用的话,还是不太行。
咱们来做个对比。同样一个问题:
GPT-4加上联机搜索之后,ChatGPT给出了这样的答案:
你觉得还不错是吧?我给你看看Agent生成的:
也不能说是差距很大,大概就是能用和不能用的区别吧。
所以,从实用的角度来看,我建议大家别再继续用ChatGPT「裸奔」了。花点时间部署一套Agent,能帮你省下非常多时间。
介绍一下我目前在用的两套方案。
GPT Researcher:开箱即用
GPT Researcher是GitHub上的一个项目,主要满足资料搜集、报告生成方面的需求——日常工作刚需,真的能省很多时间。
GPT Researcher搭建了两类Agent:
Planner Agent负责拆解需求、生成尽可能全的问题。Execution Agent拿到问题之后,找到对应的网页、把内容爬下来,再交回给Planner Agent。后者筛选、汇总所有资料,完成调研报告。
这个项目有两点做得很棒:
- 混合使用GPT-3.5和GPT-4,提升速度、降低成本。一般来说,跑一圈下来需要3分钟,花费0.1美元——真的是白菜价了。
- 根据需求生成的Agent都是特定领域的。比如,需求是做金融领域的调研,那么生成的Agent就是金融专家。
只需要懂一点点代码就可以使用GPT Researcher。按照GitHub的教程,把仓库克隆到本地,然后一步一步复制粘贴、执行对应的命令。过程中如果提示缺什么Package,那就pip install安装就行。最后打开一个本地网页就可以使用了。
CrewAI:自由搭建
如果你的需求不只是生成调研报告,那就需要使用现成的框架,亲手搭建一套Agent系统了。
我目前在用的Agent框架叫「CrewAI」。看起来跟微软的AutoGen差不多,但你一上手就会发现,CrewAI比AutoGen逻辑更简单、更直观。
在CrewAI里,你只需要设定三个要素:
- 谁。
- 用什么。
- 做什么。
「谁」指的是Agent。多少个Agent,分别以什么角色进行协作,工作目标是什么,他们各自的背景是什么样的,他们用什么模型作为大脑。
「用什么」指的是Tool。最常见的就是搜索工具。你需要把工具分配给具体使用的Agent。
「做什么」指的是Task。一个项目可以分拆成很多个任务。每个任务需要有具体的描述,以及指定由哪些Agent来完成。
一旦理解了这个逻辑之后,CrewAI的设置就变得极其简单。
还以生成调研报告为例,这是我设计的Agent工作流程:
我特意在最开始的需求分析、方案制定环节安排了两个Agent。这么做,Token花得多,时间也更长,不过很有必要。一切都是为了解决一个核心问题:
大模型在复杂推理的时候,特别容易犯轴。
单核的硬伤
为了加强大模型的推理能力,研发人员想了很多办法。比如,大名鼎鼎的思维链(Chain-of-Thought),还有自我反思(Self-Reflection)。
但是,无论怎么给大模型叠Buff,都改不了这个问题,在论文里管它叫「Degeneration-of-Thought」:
当大模型对自己的答案有信心的时候,即使这个答案不正确,它都没法再通过自我反思去产生新的想法。
跟人一样,沉浸在自己的世界里,迷之自信、死不悔改。
造成这个问题的原因有很多。比如在预训练阶段,输入的概念有偏差,或者思考模式有问题,都会产生认知偏差。
有的问题可以通过技术解决,有的不需要。像这个问题,其实人类社会已经有解了,就是大家最最熟悉的:
讨论与协作。
一个人再聪明,认知水平再高,都会有盲点。
有人点拨的话——其实有时都不用点拨,只要跟自己以外的人聊上几句,就能爬出来。
这就是为什么,都是一样的大模型作为底层驱动,「多核」会比「单核」靠谱得多。
2024 Agent
Agent并不是跟着大模型兴起的。早在这一轮AI爆发之前,Agent就已经有好多年的研究了。大模型充当最强大脑,解决了Agent推理的难题,使得Agent突然被所有人关注。
在设计和部署Agent方面,AutoGen之后有了CrewAI,2024年肯定还会有更多团队想来试一试的。
Key Takeaway
- OpenAI最新发布的Canvas是ChatGPT的重要更新,提供文本撰写和代码生成功能。
- Canvas借鉴了Claude的Artifacts功能,并具有Grammaly的文本撰写风格。
- AI产业已进入商业落地阶段,白领和程序员是AI替代的重点目标。
- Canvas的文本撰写功能包括总结、扩写、调整风格、检查文本和添加表情符号。
- Canvas的代码生成功能支持编写代码、更改编程语言和修复Bug。
- 文章认为Canvas的推出对创业公司构成威胁,但其功能对已使用Artifacts和Cursor的用户而言并非颠覆性。
Full Content
留给打工人的时间真的不多了。
OpenAI最新发布的Canvas,是ChatGPT最重要的一次更新。它带来两个实打实的功能:文本撰写,和代码生成。
我第一眼看到Canvas就想到了两个产品:
一是Claude。Canvas算是借鉴了它的Artifacts功能。
我之前还在newtype社群里提到过,Artifacts特别像大学老师的黑板。你去请教老师的时候,他从身后拉了一块干净的黑板过来,在上边给你详细讲解和演示。
Artifacts推出之后,获得了所有人一致好评。现在OpenAI也跟进,看来这个功能会成为Chatbot类产品的标配。没准国内大模型厂商已经在开发了。
二是Grammaly。这是一款AI写作辅助工具,日活有3000万。
Canvas的文本撰写很有Grammaly的感觉。后续要更新的话,照着Grammaly抄就好——人家在这方面已经研究得很透彻了。这条赛道这么窄,玩不出什么新东西来。
我之所以说留给打工人的时间不多了,是因为:
整个AI产业已经进入到拼商业落地的阶段。大多数模型厂商都要去卷应用。只有少数能像Deepseek那样一心一意只做模型研发。
那么,往哪个方向去卷,能够向资本证明你的阶段性商业价值呢?
柿子捡软的捏。白领是最容易替代也是最好欺负的一个群体。现在底层的模型能力足够,只需要在产品层多下点功夫,把初级白领淘汰掉是没问题的。
程序员是另一个目标。像代码这种东西,标准化表达,数据量又大,AI学起来没问题。之前我介绍过Cursor和Replit Agent,就是在往这个方向走。
所以,打不过就加入。只有那些从现在开始就全力拥抱AI,并且不断琢磨怎么利用AI的打工人才能活下来。你不需要打赢AI,只需要打赢你的同事。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想要链接我,就来newtype社群。已经500多位小伙伴付费加入啦。
回到今天的主题:ChatGPT Canvas。
目前这个功能还是Beta版,不太成熟。比如,它还不是通用功能,需要专门切到带有这个功能的模型版本。以及,我还遇到了聊着聊着GPT突然改用英文的情况。不过瑕不掩瑜,还是值得上手试一试的。
我先测试了它的文本撰写能力。把上期视频的脚本传上去,要求它根据这个内容写一篇博客文章。
这时,类似Artifacts的界面出现了。GPT-4o很快完成了初稿。注意看,OpenAI在右下角放上了几个定制化的功能,包括调整长度等等。
当我们把长度拉满,GPT会在原来基础上做扩写,最多能增加75%的文字量。
第二个功能,看字面的话,你会认为是按照不同学历水平去撰写他们能看得懂的文章。但其实它就是调整文字风格啦。
比如调到幼儿园级别,那么文章会特别通俗易懂。如果调到最高的博士生级别,那基本就是文绉绉甚至有点不说人话的感觉。
说实话,OpenAI这么设计有点冒犯的意思了。这跟学历完全没关系。这又是何必呢?
后边的两个功能很直接。一个是帮你检查文本,看看哪里有错别字,哪里需要加个小标题,等等。
另一个是在文章里加上emoji表情。Twitter上很多人在夸这个功能。我是无感。我绝对不可能在我写的任何文章里加上emoji。
当然,不用右下角这些设定好的功能也OK。咱们可以选中任何一段内容,直接对GPT下需求。比如,把开头改得更吸引人一些。或者,把结尾再升华一下。
以上就是Canvas的文本撰写能力,很简单,很基础。通过提示词和Agent Workflow就可以实现这样的能力。OpenAI把它们都打包进产品里,而且还搞了添加emoji这样的小噱头来取悦用户。你看,他们还是很鸡贼的。
至于代码生成也是差不多的逻辑。
作为测试,我让GPT帮我写个贪吃蛇的小游戏。同样在右下角的位置出现了可以展开的按钮。其中更改编程语言这个有点意思。比如,我们可以让GPT把它已经生成的代码改成JavaScript、TypeScript等等几个主流的语言。
剩下几个功能很简单,比如修复Bug之类的。我就不详细介绍了,看一眼就懂。
目前Canvas的东西就这些。我猜,一些创业公司肯定要睡不着了。OpenAI这是在拿他们的命给自己换时间。作为用户,我感觉还好。可能是因为之前一直在用Artifacts和Cursor,所以看到这个也没那么兴奋。为了体验Canvas,我开了一个月的会员,不打算续费。之后还是继续用Claude。
OK,以上就是本期视频。想交流AI就来newtype社群。那咱们下期见!
Key Takeaway
- ChatGPT在iPhone上效率不高,因为它没有与系统和其它APP打通,无法自动化运行。
- 利用iPhone的快捷指令功能,可以实现ChatGPT的自动化操作,如自动总结公众号文章、语音问答和内容创作。
- 快捷指令的核心逻辑是:输入(网页文字、语音转文本)-> 处理(ChatGPT总结、回答)-> 输出(Markdown格式笔记到备忘录)。
- 这种自动化工作流能显著提升ChatGPT的使用效率和便捷性,弥补其作为聊天机器人的局限。
- 文章通过“总结GPT”、“问答GPT”和“灵感GPT”三个快捷指令示例,展示了ChatGPT在个人生产力中的应用。
Full Content
ChatGPT在iPhone上还不够好用。主要原因是,它没有跟系统和其它APP打通,没法自动化运行,效率不高。所以,它还只是一个聊天机器人——每次都得打开APP才能用,然后还得输入一堆东西——难怪用户使用频率不高,这也太麻烦了。
在现阶段,要让iPhone上的ChatGPT有用起来,你肯定要用到快捷指令这个功能。我先演示一下我是怎么用的,再详细介绍怎么设置。
我相信大家都很头大这样的事儿:每天要看的公众号文章根本看不过来。怎么搞?
首先,用Google Chrome打开这篇文章。
然后,点击地址栏右边的分享按钮,选择最顶端的快捷指令(我设置的名称叫“总结GPT”)。
最后,稍等一会儿,ChatGPT就会按照我事先设置好的要求,用GPT-4o这个最新的模型,总结文章的核心内容,提炼文章的Key Points,并且在备忘录的指定文件夹里创建一条新笔记,把这些内容都用Markdown格式存进去。
这么做的好处是:
第一,我就不用在APP之间手动切换、各种输入——现在用快捷指令自动化完成,这显然方便多了。
第二,虽然ChatGPT里会有聊天记录,但我还是让它存到备忘录里了。因为备忘录是系统自带的,在iOS和macOS之间同步非常快。这样一来,我回到Mac上就可以直接编辑了。而且它是Markdown格式,我还可以把它贴到写作软件或者笔记软件里进一步处理。
刚才这个是“总结GPT”。按照同样的思路,我还设置了一个“问答GPT”,也是用语音输入。
比如我问:机械键盘的主流轴都有哪些区别?比如红轴、青轴等等。
接到一段语音输入后,这个快捷指令会先把语音转化成文字、给到ChatGPT。
然后,根据我事先的设置,ChatGPT回答完问题之后,同样会用Markdown格式,把内容存到备忘录里,方便我之后查找和编辑。
这两个快捷指令是我平时用得最频繁的。除此之外,还有“灵感GPT”:
当我有任何内容方面的想法时,就像刚才“问答GPT”那样,用语音的方式全部给到GPT。它会把我的那些零散的表述有逻辑地整理一遍,变成一个内容框架,然后往里边做补充和扩展。
你如果看过我上一期视频就会发现,这其实是在用快捷指令去搭建一套简易的Agent Workflow。在新版iOS、新版Siri出来之前,咱们先用这种方式实现AI自动化。
接下来,我拿刚才那个“灵感GPT”给大家详细讲解一下。这三个快捷指令,我已经把iCloud链接分享到知识星球和Patreon里了,newtype社群的小伙伴可以直接拿去用。包括这期视频,我也会在社群内首发,算是给大家的“超前点映”。
就像上期视频里说的那样,一般来说,一套Agent Workflow的起点是用户输入。在“灵感GPT”里,咱们是用语音转成文字,所以要用到“听写文本”这个功能。在“听写文本”的设置中,大家记得点开下拉列表,选择语言,否则会报错。
有了初始输入之后,第二步,咱们要添加一个“文本”,在里边写一段Prompt,把对AI的要求交代清楚,并且把第一步的内容贴在后边,就像我这样。这一整个文本,就是接下来要给到AI去处理的信息。
第三步,添加“询问ChatGPT”,把“文本”加进去。在下拉列表中,把“开始新聊天”勾选上,然后就可以选择要用哪个模型了。
第四步,再添加一个“文本”,把GPT的回答都放进去。你可以在文本的开头添加一些描述,比如我写的是“From GPT”,这样我就知道,这条笔记是AI生成的。
第五步,添加“备忘录”,选择事先创建好的文件夹,让GPT在里边新建一条备忘录,把上一步的文本都存进去,这样就大功告成了。
另外两个快捷指令也是同样的思路。其实这整套Workflow的核心就三个步骤,很好理解:
第一,初始信息从哪来(输入)?是网页里的文字,是语音转文本,还是一张照片?这个需要设置清楚。
第二,你要GPT帮你干啥(处理)?我一般会添加一个“文本”,把固定的指令和每次的需求都放进去。然后把整个文本给到GPT。
第三,你要什么样的结果(输出)?就像我刚才演示的,以备忘录加Markdown做输出。
输入、处理、输出,把这套逻辑想清楚了,你就知道怎么用快捷指令和ChatGPT去搭建一套简易的工作流了。
OK,以上就是本期内容。大家有什么想聊的,可以来newtype找我。那咱们下期见!
Key Takeaway
- Cursor作为编程软件,天生具备RAG能力,能对本地文件进行索引和处理,使其成为强大的知识库应用。
- Cursor与Obsidian的本地化存储特性完美结合,用户可以通过Cursor直接操作和利用Obsidian的笔记文件。
- 通过创建
cursorrules
文档,用户可以自定义Cursor的工作方式,例如优先检索本地文档、进行联网搜索,并调用特定的MCPs(如Markitdown用于PDF转换,Sequential Thinking用于复杂问题拆解)。 - Cursor的Composer功能和聊天功能可以对笔记进行总结、提炼和扩写,充当Obsidian的“超级AI插件”。
- 这种组合工作流能够兼顾本地知识和网络信息,提供逻辑性强的答案,极大提升知识管理和创作效率。
Full Content
最好用的知识库应用,就是Cursor,没有之一!
你们经常看我发的视频就知道,过去一年多,我用了太多太多知识工具。越用越发现:大道至简,用Cursor就可以了。
你想嘛,RAG能力Cursor本来就有。它是个编程软件。既然要编程,肯定得了解所有代码的情况。所以,当Cursor打开文件夹之后,就会对文件夹内的所有文档进行索引和哈希处理。像Markdown之类的文件,它会进行切块、嵌入向量。
所以,知识库应用该有的RAG能力,Cursor天生就有。不管是代码还是纯文本,它都能一样处理。而且,因为它要写代码,所以肯定要有创建文档、修改文档的能力。这就意味着,它可以帮我们直接写笔记、写文章,对吧?
这还没完。Cursor本身具备搜索能力。你不用特意添加什么工具,它就可以联网搜索,甚至直接打开一个网页。
最后,只要出现了最先进的模型,Cursor一定会第一时间支持。所以这20美元的订阅,我个人认为是非常非常划算的。当然,如果你不想用Cursor的模型,也可以填自己的API Key进去。
那么,我们该怎么用Cursor配合自己的文档进行工作呢?
我的经验是,一定要创建一个cursorrules文档。这个文档放在根目录下,用来告诉Cursor必须遵守哪些项目规则。我给你们演示一下。
你看,我在文档里规定了:
第一,回答之前都必须首先检索文件夹内的所有文档,看看有没有相关的内容可以作为上下文。
第二,光查了本地文档还不够,还得联网搜索,这样信息才齐全。
除了这两个基本要求,我还给Cursor配了两个MCP:
如果遇上PDF文档,就用Markitdown这个MCP做转化。不然Cursor就得写个Python脚本进行处理,就非常麻烦了。
如果问题有点复杂,那就用Sequential Thinking进行拆解、组织内容,这样逻辑性才强。
这两个MCP的用途和触发条件,我都给Cursor写明白了。
最后,我还附上了一个示例,包含每一步怎么处理,清清楚楚。AI绝对可以理解。
有了这一大套底层规则,Cursor就知道怎么跟我配合了。
比如我问它:如何在本地部署知识库?
首先,它花了几秒钟思考这个问题。因为我把Thinking选项打开了。
接着,它把文件夹内的文档检索了一遍。
然后,联网搜索,进一步补充信息。
最后,用Sequential Thinking对所有内容进行梳理,把逻辑整理清楚。
你看,使用这种方法,这样的流程跑下来,知识库里的内容和网上的内容都兼顾了,获得的答案逻辑性也很强。这个就是我说Cursor 最强知识库应用的原因。
我刚才演示的规则是我的需求。大家可以根据自己的需求做修改。其实你让Cursor帮你写也是可以的。
OK,以上就是本期内容。想交流AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!
Key Takeaway
- DeepSeek新模型V3 0324在MCP调用方面表现出色,性价比极高,性能接近Claude-3.7 Sonnet。
- DeepSeek模型具备清晰的思考和规划能力,能将用户需求拆解为明确任务,并判断所需工具。
- DeepSeek在工具调用能力上显著提升,结合其成本优势,将推动MCP的进一步普及。
- 文章预测Agent发展趋势将从任务编排模式转向模型自由发挥,以超强模型为核心,搭配海量原子化工具。
- DeepSeek的进步,加上MCP协议,预示着AI行业将迎来飞速发展。
Full Content
DeepSeek新出的模型V3 0324可能是跑MCP性价比最高的模型。它在性能上接近Claude-3.7 Sonnet,调用MCP很丝滑,但是成本却低了非常非常多,真的是白菜价了。我给你们看一下就明白了。
这个是我目前用得最多的MCP客户端Cline。DeepSeek最新模型,它已经支持了。我这边选的是付费版。平台虽然也提供免费版,但是不建议用。我前边试过了,速度太慢,而且步骤一多就容易中断,就挺闹心的。所以咱还是老老实实花钱吧。
我的需求很简单:谷歌发布Gemini 2.5模型。这是他们的官方博客。我让DeepSeek帮我把内容扒下来,翻译成中文,并且在开头加上总结,最后存进文档里。
你看,DeepSeek先做了四步规划:
第一,把用户需求拆成明确的任务;
第二,判断需要用哪些工具,包括Tavily MCP里的提取工具,以及写入文件的工具;
第三,当前的环境是,文件已经存在,用户也允许直接进行操作;
第四,给自己设定执行步骤。
这个就是AI比人类强的地方。你想嘛,有几个人能做到这么清晰思考和规划的?
整个过程花了两三分钟,我就不具体展示了。当文档写入完成后,整个任务结束,一共花了0.0358美金。
接下来,咱们加点难度。我让它调用两个MCP:一个是Sequential-thinking,步骤尽可能多。另一个是Tavily,负责联网搜索资料。每一步思考之前,都要搜一次资料,再结合搜到的内容思考。
像这种需求就特别考验模型。因为它既要懂得拆解问题,还得根据实际搜到的信息随时调整思考方向,以及下一步需要搜什么,而且还要频繁调用MCP、不能出错。
我建议大家看完视频也这么去测试,不管是测试模型还是测试客户端都可以。然后你就知道该怎么选了。
咱们回到DeepSeek这边。整个推理过程花了三分多种。DeepSeek一共做了六步思考,最终给出了答案。但是我觉得下边的要点还不够详细,于是让它进一步完善。最终,花了0.039美金,DeepSeek完成了这个回答。
通过这两个例子可以看出,DeepSeek新版本模型在使用MCP方面已经没问题了,而且价格很低。说实话,我这段时间用Claude跑MCP,已经在API上花了十几美金了。日常高频使用的话,真的会肉痛。
高性价比,就是我推荐DeepSeek的原因。官方在公众号文章里介绍了这次小版本升级。模型能力提升包括这几个方面,比如推理任务表现提高、前端开发能力增强、中文写作升级,等等。
其实我最看中的,以及我认为最重要的,是工具调用能力的提升。还是之前说过的逻辑:
AI发展的两条路径,一是获取更多信息,二是调用更多工具。
如果只能处理文本,搞不了多模态,那么AI的世界就是黑白的。这是我看好Gemini的原因。
如果只局限于推理,用不了更多工具,那么AI就只有大脑、没有手脚。这是我看好Claude的原因。
现在DeepSeek终于把工具调用能力提升上来了,叠加它本来就很强的成本优势,肯定能推动MCP进一步普及。
最后,说一下我对今年Agent发展的判断:
以Dify、Coze为代表的任务编排模式会逐渐被取代。这种做法虽然精确度高,但是太费人力,门槛也很高,而且非常限制模型的发挥,所以只适合企业生产环境。
我认为,最优解一定是:人类只需要设定起点,也就是Context、上下文,以及终点,也就是目标。在起点和终点之间一切,都交给模型自由发挥。
一个超强的模型作为单核,搭配海量、原子化的工具,就是AI行业今年发展的重点。
现在,我们已经有Claude和DeepSeek这样的模型了,也有MCP这样的中间层协议了。万事俱备,一切都将飞速展开。
OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!
Key Takeaway
- Dify新增“双向MCP”功能,允许用户在Dify中添加MCP服务器,并可将Dify工作流转换为MCP服务器对外输出。
- 该功能解决了工作流“孤岛”问题,使其能融入日常通用场景,极大扩展了Dify的工具范围。
- 作者重新关注Dify,认为工作流应原子化,作为组件强化特定场景效果。
- 文章通过Deep Research工作流的演示,展示了Dify与MCP结合后,AI客户端可调用特定MCP服务器解决特定需求,提升效率。
- Dify的MCP功能与提示词结合,可实现基于MCP工具和Prompt的工作流自动化,提升个人生产力。
Full Content
Dify最近上了个新功能:双向MCP。这是个非常重要的功能。因为它让原本只针对特定场景的工作流可以融合到我们日常的、通用的使用场景中。
什么叫“双向MCP”?
一个方向是进来,也就是你可以在Dify里边添加现成的MCP服务器。这个好处是,可以极大扩展Dify的工具范围,把越来越丰富的MCP服务器纳入进来。
另一个方向是出去,也就是你可以把自己创建的工作流转换成MCP服务器,对外输出。比如我用AI客户端,把工作流MCP添加进去。平时在对话中就可以直接调用。
这样一来,你搭建了半天的工作流不会被限制在某些使用场景和情况下使用,不再是孤岛。这个是非常大的进步。
哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。这个社群已经运营500天,有超过1500位小伙伴付费加入啦。
回到今天的主题:Dify的MCP功能。
我记得去年就出过视频介绍Dify。但是从那之后,我就不再关注这些工作流平台了。两个原因:
第一,上手难度高。这些工作流看起来好像在画布上随便搭一搭就行,但其实难度挺高的。既要懂技术,还得懂业务。一家公司能有几个这样水平的人?
第二,适用场景窄。每一条工作流都是针对某些场景、解决某些特定问题而存在的。在早期很有用,因为大模型能力不强,所以把人类的经验编排成工作流,去指导模型。但到了今天,你再把固定的工作流硬塞给模型,就有点限制它了。
那我为什么现在会重新捡起Dify,会看中这次的更新?
因为工作流不是变大了,而是变小了。它可以变成一个一个原子化的组件,融入到我的工作流里边来,去强化特定场景下的效果。这个就是MCP服务器应该有的价值。
我给你们演示一下就明白了。
这个是我在Dify里找到的现成工作流,Deep Research。我把里边的模型改成GPT-4.1,然后发布。因为发布之后,才能把MCP服务器功能打开。
点击左边这个按钮,在左下方把这个选项打开,就可以把这个工作流转变成MCP服务器。这一行就是服务器地址。因为我是在本地运行的,所以地址开头是localhost。
打开AI客户端,我这边用的是免费的Cherry Studio。新建一个MCP。连接方式选HTTP。然后把服务器地址填进去就搞定了。
我们来做一个对比。
我先使用模型内置的搜索工具,搜一个问题:什么是Context Engineering?这个是它的回答。
然后我开个新窗口。这次使用刚才接入的Deep Research MCP服务器。还是同样的问题,什么是上下文工程。
稍等几分钟,模型给出了回答。对比两次的输出,可以明显看到,使用了外挂MCP服务器的效果要好得多。
你看,这个就是我刚才说的,到了特定场景、特定需求的时候,你调用特定的MCP服务器去满足、去解决。你不需要换一个工具,还是用原来的AI客户端,这个真的很方便。
我演示用Deep Research是为了让大家好理解。其实工作流是特别定制化的。接下来,我会针对我自己的需求搭好多个工作流,然后统统转化成MCP服务器。
所以,就像我在社群里说的,现在有两套系统可以满足我们的定制化需求:一是提示词,二是基于工作流的MCP服务器。并且,这两套系统还可以用我做的产品——Prompt House进行统一调度。
这样配置下来,我相信,我的个人生产力又会有一次大的提升。
OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!
Key Takeaway
- Elon Musk起诉Sam Altman和OpenAI,指控其背弃OpenAI创立时“为全人类造福、开源”的价值观,转变为追求利益最大化。
- 诉讼核心在于OpenAI与微软的协议,以及OpenAI是否已实现AGI并将其私有化。
- Elon Musk认为OpenAI的AGI技术(如GPT-4和秘密开发的模型Q)已被Sam Altman控制并输送给微软,背离了非盈利初衷。
- 此次诉讼不仅关乎OpenAI的未来,也可能影响整个AI行业的发展方向和伦理规范。
Full Content
Elon Musk起诉Sam Altman,绝对是今年的年度大戏。
在给加州最高法院的起诉书中,他一个人作为原告,把Sam和OpenAI全给告了。并且,他还申请由陪审团审判。
也就是说,Elon Musk要把Sam和OpenAI从暗处拖到明处——在法庭上,宣誓之后,你自己把一切讲清楚,并且留下记录。内容包括:
- 几个月前的逼宫、造反到底是怎么回事?
- 跟微软之间到底有什么猫腻?
- 神秘项目Q到底有没有实现AGI?
这场审判,不仅会影响到Sam个人、OpenAI和微软两家公司,还会影响整个硅谷,以及AI走向。
这份起诉书有点长,46页。我帮你们先过一遍。Elon Musk的逻辑很简单。他用大白话回答两个问题:
- Why
- Why Now
Why:背弃价值观
很多人认为,利益大于一切。但是,在精英阶层眼中,价值观是第一位的,是不可动摇的。
OpenAI就是一个价值观的产物。
Elon Musk一直坚定地认为,Superman Machine Intelligence,超级机器智能,是全人类最大的威胁。
当深度学习技术取得实质性进展、越来越实用之后,这种威胁越来越临近了。
导火索是2014年Google收购DeepMind。这场收购让Google在AGI这条路上一下领先了。
Elon Musk认为,如果通用人工智能技术被Google这样利欲熏心的公司所掌握,那咱们整个人类社会都要完犊子了。
于是,2015年,他和Altman、Brockman三个人共同决定,创立一个非盈利研究机构:
- 研发通用人工智能技术为的是造福全人类,而非利益最大化——这是宗旨。
- 除非涉及到安全因素,否则研发成果必须开源——Elon Musk起名OpenAI就是这么来的。
OpenAI的诞生,特别有复仇者联盟的感觉:为了全人类,对抗邪恶的Google。
Elon Musk就像钢铁侠一样,在OpenAI起步阶段提供了非常大的帮助,尤其是帮他们招来了全球顶级天才,比如首席科学家。
在初期,OpenAI确实很Open。不过,按照电影剧情的走向,这个时候,该有反转了。
大家留意一下这几个时间点,起诉书里特意强调的:
- 2019年,Sam成为OpenAI的CEO。
- Elon Musk对OpenAI的支持,一直持续到2020年9月14日。
- 几天之后,也就是2020年9月22日,微软入局了。
当时OpenAI向微软提供GPT-3模型。与此同时,OpenAI也公开了GPT-3的训练方法,让其他人也可以打造出类似的模型。
OpenAI和微软的协议中,有一条非常重要:
微软只能获得Pre-AGI技术。
也就是说,当某一天OpenAI真正实现AGI的时候,这个技术是不会给微软的。
那么,谁来决定新研发出来的技术,算不算AGI呢?
董事会。
如果,董事会叛变,把AGI技术定义为非AGI技术,那么就可以在不违反协议的情况下,名正言顺地继续给微软输送技术,换取利益回报。
这个就是Elon Musk为什么非要在现在搞这么一出的原因。
革命队伍里出现叛徒,勾结敌人,要窃取革命果实!
Key Takeaway
- Flux模型结合ComfyUI工作流和网红Lora,能生成高度逼真的AI图片,甚至可以以假乱真。
- Flux模型由Stable Diffusion核心团队开发,生成图片真实度高,且能实现精准控制。
- ComfyUI通过节点式工作流,解决了传统AI图像生成难以精准控制的问题,实现了精细化产出。
- Lora作为“技能包”,能让模型按照特定风格生成图片,并可叠加使用。
- AI图像生成已进入落地期,在电商等领域具有商业应用潜力,且ComfyUI工作流可分享。
Full Content
喜欢在小红书上看美女的小伙伴们请注意:
你们现在看到的,很有可能都是AI生成的。
别说什么平台会识别,你们是不知道,最新技术做出来的图片有多逼真。
比如这张图,你觉得是真的还是假的?
其实啊,这张图是我用AI生成的。准确来说,用的是Flux模型,加上一个简单的ComfyUI工作流。这里边有两个关键点:
第一,Prompt部分,也就是图片的文字描述,我是让Claude生成的。我给了它一张现成的图片,让它用英文详细描述,然后拿过来用。
第二,之所以图片上的小姐姐大家看着这么习惯,那是因为我加上了网红Lora。你可以简单理解为就是一个小插件,让模型按照特定风格去生成。
用这样一个简单的方法就能以假乱真。其实如果你更狠一点,完全可以直接图生图。比如,去小红书找一张符合大家口味的图片,然后让AI照着这个生成。很容易就可以做到姿势、身材、背景都基本一样,但是脸不一样。
以前的模型在局部做得不好,比如手指经常会多了一根。但是今天的模型已经进步非常多了。国内这些平台没法识别。所以有人做号、卖号,靠的就是我刚才演示里用的Flux模型,加上ComfyUI。
先来说说Flux模型。
最近一个多月,这款模型在圈内特别火。很多公司和团队已经实打实用上了,比如在电商领域。
那么,这么牛逼的模型是从哪冒出来的?
大家肯定听说过Stable Diffusion。Flux就是SD的核心团队出来做的。他们成立了一家新公司,叫黑森林实验室。
8月1日,黑森林实验室正式发布Flux模型,包含三个版本:schnell,就是快速版本,配置要求低一些;dev版,质量更高,但配置要求也更高,最好是4090显卡;Pro版,闭源版本,只能通过API调用。
官方版本出来之后,整个社区也是大力支持。比如推出了GGUF版,方便那些显存不够的用户使用Flux。
有了模型之后,下一个问题就是怎么运行。目前最好的方法,就是通过ComfyUI。
传统的AI图像生成,都是通过输入一大串的Prompt,俗称“咒语”。这会带来一个很头大的问题:
没法精准控制AI的生成。
一串文字给过去之后,后边的流程你完全不知道AI是怎么处理的。而且,如果对结果不满意的话,也只能在文字层面修修改改。很多时候,这种做法精确度不够,效率也很低。
于是,ComfyUI来了。它通过一个个节点组成一套工作流。这种节点式界面让用户很清楚了解AI究竟是怎么生成图像的,以及如果有问题的话,又是卡在了哪里。用户可以很精细地控制产出。
举个简单例子。你是做电商的,没钱雇那么多模特帮你拍照,那就换脸呗。你或者你手下的小姑娘先穿样衣拍好照片,然后放到ComfyUI工作流里边,专门针对脸的位置做一个遮罩。这样一来,AI就只针对脸部做生成。它会按照这个轮廓生成一张新的脸,然后再放回原来的位置。
通过这种方法,你就有了一个虚拟模特。是不是有一种画皮的感觉。这么想想还挺吓人的。
如果你觉得生成的图片AI感太强了,看起来太油、太完美了,可以加个Lora。比如,有大佬做了模拟业余摄影的,让图片看着像个外行拍的,这样就真实多了。我刚才演示里用的网红风格的Lora,也是别的大佬做的。我下载下来之后,放到特定的文件夹里,就可以在工作流里选择了。
所以你看,有了ComfyUI,原本一大坨的工作被拆解成了一个个步骤和节点,简单许多,清晰许多,可控性也高了许多。
更爽的是,这些工作流还可以分享。拿到工作流这个JSON文件后,拖到画布里就自动加载了。于是,不管是国内还是国外,有很多人在制作特别专业的工作流。这已经是现成的生意了。
大家在短视频平台上肯定有看到过这样的内容:先给你炫一下生成的图片有多牛,然后展示他搭建的极其复杂的工作流,最后跟你说,想要的话就来加微信。
如果你的机子跑不动也没关系。几乎所有的算力租赁平台都跟创作者有合作,为用户提供现成的镜像,可以直接用。
我就买了别人做的整合包,一共花了一千五。人家全都打包好了,一百多G下载下来,都不需要安装,省了我非常多的时间。
花钱买成品的好处是,很多基础的东西不需要再折腾一遍,理解一下就好了。比如,除了模型之外,Clip是干嘛的,VAE又是干嘛的;几个关键的文件夹都是放什么文件的。
实践和拆解才是重点。把别人的东西吃透了,最后造出自己的东西来。这就是我的天赋,我很清楚。所以这钱该花钱就花,而且绝对能翻倍赚回来。
Flux这一波预示着AI图像生成已经进入落地期了。动作快的人已经开始摘果子了。这也是为什么我等了一年多,到现在才开始研究。我建议大家不管想不想拿这个技术做点生意,最好都了解一下。你想想,当眼见不一定为实的时候,我们的生活会有多大变化。
OK,以上就是本期内容。想找我就来newtype社群。那咱们下期见!
Key Takeaway
- Gemini和Grok是两个被低估的顶级AI应用,它们在不同方面展现出强大的生产力。
- Gemini提供多功能体验,包括快速回答(Flash)、文章创作(Canvas)和深度报告(Deep Research),并能与Google文档和NotebookLM无缝集成,支持深度学习。
- Grok在模型回答上更具“人味”,产品设计简洁,并拥有独特的Twitter数据源,使其在获取用户真实反馈方面具有优势。
- 结合使用Gemini(获取主流媒体信息)和Grok(获取社交媒体信息)可以获得更全面和真实的洞察。
Full Content
有两个顶级AI应用还在被国人忽视。一个是Gemini,一个是Grok。
Gemini我已经推荐得足够多了。你看,过去半年,我在社群内真的是苦口婆心、反复强调。我从1.5的模型开始,用到了2.0、2.5,真的是越用越喜欢。不说那些复杂的,就说日常使用,就像我这个帖子说的:
如果你只想要个快速回答,那直接问Gemini 2.0 Flash。它速度快,推理强,运行还稳定。
如果你想要稍微深入一点,那就把Canvas打开。Gemini 2.0 Flash会按照写文章的标准来回答你。
如果你想要详尽的报告,那把Deep Research打开。Gemini 2.0 Flash会按照报告的标准来输出。
我直接给你们来个演示吧。
比如,我问Gemini:什么是Reasoning model?它很快给出一个简要的回答。
我把Canvas也就是画布打开。再问它同样的问题。这个时候,回答速度稍微慢一些,但是详细程度会高得多。在Canvas里边,你可以对文本进行排版、编辑,也可以选中一段进行提问。也就是说,用这个功能,你可以跟Gemini配合起来完成一篇文章的创作。
如果我把Deep Research打开呢?还是同样的问题——什么是Reasoning model。Gemini会帮我拆解议题,然后查找上百个网页,最终完成深度报告的输出。
你看,就这么简单的三个功能——直接对话、Canvas和Deep Research,覆盖了我们日常使用AI的主要场景。
更进一步,如果你觉得这些回答有价值,还可以把它们保存到Google文档里。
刚才介绍的三个功能,后两个都可以导出到Google文档。然后,就像我前一个视频里介绍的,打开NotebookLM,把Google文档里的相关内容全部导入,然后就可以进行深度学习了。
Gemini还有别的功能,比如画图什么的,我就不多说了。光是刚才我介绍的那些,就足以值回票价。
而且,Google还在不断更新。就在昨天,他们推出了首个混合推理模型——Gemini 2.5 Flash。你可以自主选择要不要打开思考模式,甚至还可以设定要投入多少资源进行思考。这个模型的出现,更加强化我要继续拥抱Gemini的信心。
那么,既然Gemini这么牛逼,还要Grok干嘛呢?三个原因:
第一,从模型回答的感觉上看,Grok 3要比Gemini 2.0好得多。
Gemini 2.0还是有一种生硬感、机械感,这可能就是Google独有的味道吧。而Grok 3的回答就比较有“人味”,所以我会逐渐倾向于多跟它交流。
第二,从产品角度来看,Grok最完整。
就像之前我在社群里说的,Grok没搞那么长的模型列表让用户选择,就两个按钮:深度思考,和深度搜索。没有模型之分,只有模式之分,甚至再到后边连模式都不需要选择了,AI会自主判断。这个才是正道。像OpenAI那种,有点丧心病狂了。
另外,前两天的更新,给Grok补上了Canvas和Workspace功能。Canvas和别家差不多,就是标准的画布。而Workspace,就类似知识库的功能,特别好用。
现在,Grok已经集齐目前的主流功能。产品层面已经相当成熟了。
第三,从数据源角度来看,Grok拥有别家都没有的Twitter数据。
Twitter现在是最有影响力的社交媒体,它的数据对于AI来说很重要。如果能把Twitter所代表的社交媒体数据,和Google那边掌握的主流媒体数据合并起来,那对提升AI的回答质量肯定有帮助。具体怎么做呢?我再演示一下。
其实这个方法我在社群内也分享过。很简单,Grok的Workspace功能除了支持本地文档上传之外,还支持从Google Drive里导入——这个就是关键功能。
我会先用Gemini做一轮Deep Research,把报告导入Google文档。然后,到Grok里添加这些Google文档,并且在Prompt里强调:附件信息只是参考,你要有自己的搜索和判断。另外,Twitter上用户都有哪些反馈?重点看看。
注意看Grok的分析过程。从主流媒体的信息搜集来看,它确实不如Gemini能搜到那么多。其实不只是它,OpenAI的搜索范围也有限。但是,Grok能搜集Twitter上的数据,包括帖子和评论,这个就是它的独有价值。
我之前在公关营销行业干了十几年,非常清楚只有你预算够,绝大部分主流媒体的内容都可以买,或者都可以影响。相比之下,用户的实际使用反馈就相对真实得多。所以,当我想了解的议题涉及到用户口碑的话,我肯定会通过Grok去搜集,并且跟Gemini那边的主流媒体信息进行合并。
刚才介绍的这两款AI工具的使用经验,看起来确实平平无奇,不像很多AI自媒体介绍的那些玩法那么酷炫,但这些都是能帮到你的真东西。如果你觉得有价值,还想了解更多的话,记得加入我们社群。
OK,以上就是本期内容。那咱们下期见!
Key Takeaway
- Gemini 2.0是目前性价比最高的大模型,其Flash-Lite版本价格极低,Flash版本兼顾性能、价格和速度。
- Gemini 2.0 Pro版本上下文窗口提升至200万,适合复杂推理和代码生成。
- Flash Thinking版本具备链式推理能力,适合逻辑推理和多跳问答。
- Gemini 2.0在性能、稳定、速度和价格方面达到平衡,成为作者的主力AI应用。
- 文章强调AI不会替代人,但使用AI的人会替代不使用AI的人。
Full Content
Gemini 2.0是世界上性价比最高的大模型,没有之一。我知道你们在想什么——它比DeepSeek还强。咱们直接来看价格,海外博主已经做好表格了。
Gemini 2.0 Flash-Lite是真的是白菜价:输入只要0.075美金,输出0.3美金。
比它功能多一点的Flash,价格贵一点点:输入0.1美金,输出0.4美金。
再来看DeepSeek:V3输入0.27,输出1.1;R1输入0.55,输出2.19。
谷歌这真的太卷了。要知道,Flash可是支持多模态、支持原生工具使用、有一百万的上下文窗口的最先进的模型。结果它不仅比DeepSeek便宜,而且还压过了GPT-4o mini。看来今年AI竞赛要上强度了。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:性价比之王——Gemini 2.0。
Gemini 2.0是谷歌前几天更新的模型系列,包含Pro和Flash两条线。
Pro很好理解,就是谷歌目前的顶级模型。该有的功能它都有,而且把上下文窗口从一百万提升到了两百万。所以,Pro版本非常适合用来复杂推理、生成代码等等。
而Flash则兼顾了性能、价格和速度,是日常使用的主力模型。其中,Flash还有两个变体:
Flash-Lite砍掉了一点点功能,比如不支持图片和音频的输出,不支持联网搜索,不能执行代码,然后把价格压到最低。所以,如果你需要大规模生成文本的话,那用Lite版最合适。
Flash Thinking顾名思义,就是带上链式推理能力的版本。跟大家很熟悉DeepSeek-R1一样,它在回答之前会先进行多步骤推理。所以对于一些复杂任务,比如需要更强的逻辑推理,或者多跳问答,用Flash Thinking最合适。
前边说Gemini 2.0是性价比之王,我感觉不太准确。因为“性价比”这三个字好像显得它性能不太行的样子。更贴切的称呼应该是“卷王”。我给你们演示一下效果。
先来看看Pro的能力。我给的问题是:
英伟达的CUDA为什么能成功?护城河究竟有多深?AI时代,英伟达的竞争对手有可能赶超或者颠覆吗?
可以看到,Pro虽然比Flash慢,但其实观感上还是很快的。而且它给出的答案,逻辑很清晰,也没什么过多的废话,这一点我真的很喜欢。
再来看Flash Thinking。我来问一个最近讨论特别多的问题:
DeepSeek-R1的成功是否说明,可以不需要英伟达的高算力GPU和CUDA了?
Flash Thinking的思考过程是英文的。它先是拆解了我的问题,得出需要去搜索、调研的关键词,然后再去做相应的搜索。跟Pro一样,它的答案挺干净清爽的。
作为对比,同样的问题我拿去问了DeepSeek-R1。虽然结论差不多,都是具有不可替代性,只是依赖可能会减少,但是思考的过程有挺大差别:
Flash Thinking是先拆解,再搜索。R1直接搜索,再看搜到的网页都讲了什么。从方法的角度来看,我个人是更倾向于先做拆解的。你们觉得呢?
Gemini是我的主力AI应用。最初我是用ChatGPT的。结果在使用过程中遇到各种限制,特别烦。正好Claude 3.5出了,于是就转到Claude那边去。再后来,Claude大面积封号,我三个号都被挂了,于是“逃难”到Gemini,也充了值。
这次2.0的更新,我这几天用下来非常非常满意。不管是哪个版本,都做到了性能、稳定、速度以及价格的平衡。在桌面端用网页版,Pro、Flash和Flash Thinking都有。在手机上就用官方的APP,可以选Pro或者Flash。
只要谷歌那边别出什么幺蛾子,在下一次模型大更新之前,Gemini都会继续是我的日常主力。
我知道,用国外这些产品得跨过好几道门槛。但是,这些门槛其实也帮你筛掉了很多很多人。只要你花点时间、花点钱跨过去了,你就取得巨大领先了。还是那句话:
AI不会替代你,用AI的人,尤其是用先进AI的人才会。
OK,以上就是本期内容。想进一步了解AI,就来我们newtype社群。那咱们下期见!