Blog

AI需要「影分身」 2024-08-31

Key Takeaway

ChatGPT“裸奔”不足以满足生产力需求，部署Agent能显著提升效率。
GPT Researcher是开箱即用的Agent方案，擅长资料搜集和报告生成，成本低廉。
CrewAI是灵活的Agent框架，通过设定Agent、Tool和Task实现自由搭建Agent系统。
大模型存在“单核硬伤”（Degeneration-of-Thought），多Agent协作能有效解决复杂推理问题。
Agent技术在大模型加持下迅速发展，未来将有更多工具和应用出现。

Full Content

ChatGPT会员我是不会再继续订阅了。

轻度体验一下还可以。但如果真要把它当作生产力工具长期使用的话，还是不太行。

咱们来做个对比。同样一个问题：

GPT-4加上联机搜索之后，ChatGPT给出了这样的答案：

你觉得还不错是吧？我给你看看Agent生成的：

也不能说是差距很大，大概就是能用和不能用的区别吧。

所以，从实用的角度来看，我建议大家别再继续用ChatGPT「裸奔」了。花点时间部署一套Agent，能帮你省下非常多时间。

介绍一下我目前在用的两套方案。

GPT Researcher：开箱即用

GPT Researcher是GitHub上的一个项目，主要满足资料搜集、报告生成方面的需求——日常工作刚需，真的能省很多时间。

GPT Researcher搭建了两类Agent：

Planner Agent负责拆解需求、生成尽可能全的问题。Execution Agent拿到问题之后，找到对应的网页、把内容爬下来，再交回给Planner Agent。后者筛选、汇总所有资料，完成调研报告。

这个项目有两点做得很棒：

混合使用GPT-3.5和GPT-4，提升速度、降低成本。一般来说，跑一圈下来需要3分钟，花费0.1美元——真的是白菜价了。
根据需求生成的Agent都是特定领域的。比如，需求是做金融领域的调研，那么生成的Agent就是金融专家。

只需要懂一点点代码就可以使用GPT Researcher。按照GitHub的教程，把仓库克隆到本地，然后一步一步复制粘贴、执行对应的命令。过程中如果提示缺什么Package，那就pip install安装就行。最后打开一个本地网页就可以使用了。

CrewAI：自由搭建

如果你的需求不只是生成调研报告，那就需要使用现成的框架，亲手搭建一套Agent系统了。

我目前在用的Agent框架叫「CrewAI」。看起来跟微软的AutoGen差不多，但你一上手就会发现，CrewAI比AutoGen逻辑更简单、更直观。

在CrewAI里，你只需要设定三个要素：

谁。
用什么。
做什么。

「谁」指的是Agent。多少个Agent，分别以什么角色进行协作，工作目标是什么，他们各自的背景是什么样的，他们用什么模型作为大脑。

「用什么」指的是Tool。最常见的就是搜索工具。你需要把工具分配给具体使用的Agent。

「做什么」指的是Task。一个项目可以分拆成很多个任务。每个任务需要有具体的描述，以及指定由哪些Agent来完成。

一旦理解了这个逻辑之后，CrewAI的设置就变得极其简单。

还以生成调研报告为例，这是我设计的Agent工作流程：

我特意在最开始的需求分析、方案制定环节安排了两个Agent。这么做，Token花得多，时间也更长，不过很有必要。一切都是为了解决一个核心问题：

大模型在复杂推理的时候，特别容易犯轴。

单核的硬伤

为了加强大模型的推理能力，研发人员想了很多办法。比如，大名鼎鼎的思维链（Chain-of-Thought），还有自我反思(Self-Reflection)。

但是，无论怎么给大模型叠Buff，都改不了这个问题，在论文里管它叫「Degeneration-of-Thought」：

当大模型对自己的答案有信心的时候，即使这个答案不正确，它都没法再通过自我反思去产生新的想法。

跟人一样，沉浸在自己的世界里，迷之自信、死不悔改。

造成这个问题的原因有很多。比如在预训练阶段，输入的概念有偏差，或者思考模式有问题，都会产生认知偏差。

有的问题可以通过技术解决，有的不需要。像这个问题，其实人类社会已经有解了，就是大家最最熟悉的：

讨论与协作。

一个人再聪明，认知水平再高，都会有盲点。

有人点拨的话——其实有时都不用点拨，只要跟自己以外的人聊上几句，就能爬出来。

这就是为什么，都是一样的大模型作为底层驱动，「多核」会比「单核」靠谱得多。

2024 Agent

Agent并不是跟着大模型兴起的。早在这一轮AI爆发之前，Agent就已经有好多年的研究了。大模型充当最强大脑，解决了Agent推理的难题，使得Agent突然被所有人关注。

在设计和部署Agent方面，AutoGen之后有了CrewAI，2024年肯定还会有更多团队想来试一试的。

ChatGPT最重要的更新：Canvas 2024-08-31

Key Takeaway

OpenAI最新发布的Canvas是ChatGPT的重要更新，提供文本撰写和代码生成功能。
Canvas借鉴了Claude的Artifacts功能，并具有Grammaly的文本撰写风格。
AI产业已进入商业落地阶段，白领和程序员是AI替代的重点目标。
Canvas的文本撰写功能包括总结、扩写、调整风格、检查文本和添加表情符号。
Canvas的代码生成功能支持编写代码、更改编程语言和修复Bug。
文章认为Canvas的推出对创业公司构成威胁，但其功能对已使用Artifacts和Cursor的用户而言并非颠覆性。

Full Content

留给打工人的时间真的不多了。

OpenAI最新发布的Canvas，是ChatGPT最重要的一次更新。它带来两个实打实的功能：文本撰写，和代码生成。

我第一眼看到Canvas就想到了两个产品：

一是Claude。Canvas算是借鉴了它的Artifacts功能。

我之前还在newtype社群里提到过，Artifacts特别像大学老师的黑板。你去请教老师的时候，他从身后拉了一块干净的黑板过来，在上边给你详细讲解和演示。

Artifacts推出之后，获得了所有人一致好评。现在OpenAI也跟进，看来这个功能会成为Chatbot类产品的标配。没准国内大模型厂商已经在开发了。

二是Grammaly。这是一款AI写作辅助工具，日活有3000万。

Canvas的文本撰写很有Grammaly的感觉。后续要更新的话，照着Grammaly抄就好——人家在这方面已经研究得很透彻了。这条赛道这么窄，玩不出什么新东西来。

我之所以说留给打工人的时间不多了，是因为：

整个AI产业已经进入到拼商业落地的阶段。大多数模型厂商都要去卷应用。只有少数能像Deepseek那样一心一意只做模型研发。

那么，往哪个方向去卷，能够向资本证明你的阶段性商业价值呢？

柿子捡软的捏。白领是最容易替代也是最好欺负的一个群体。现在底层的模型能力足够，只需要在产品层多下点功夫，把初级白领淘汰掉是没问题的。

程序员是另一个目标。像代码这种东西，标准化表达，数据量又大，AI学起来没问题。之前我介绍过Cursor和Replit Agent，就是在往这个方向走。

所以，打不过就加入。只有那些从现在开始就全力拥抱AI，并且不断琢磨怎么利用AI的打工人才能活下来。你不需要打赢AI，只需要打赢你的同事。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把AI的Why和How讲明白的博主。记得点一波关注，绝对不亏。如果想要链接我，就来newtype社群。已经500多位小伙伴付费加入啦。

回到今天的主题：ChatGPT Canvas。

目前这个功能还是Beta版，不太成熟。比如，它还不是通用功能，需要专门切到带有这个功能的模型版本。以及，我还遇到了聊着聊着GPT突然改用英文的情况。不过瑕不掩瑜，还是值得上手试一试的。

我先测试了它的文本撰写能力。把上期视频的脚本传上去，要求它根据这个内容写一篇博客文章。

这时，类似Artifacts的界面出现了。GPT-4o很快完成了初稿。注意看，OpenAI在右下角放上了几个定制化的功能，包括调整长度等等。

当我们把长度拉满，GPT会在原来基础上做扩写，最多能增加75%的文字量。

第二个功能，看字面的话，你会认为是按照不同学历水平去撰写他们能看得懂的文章。但其实它就是调整文字风格啦。

比如调到幼儿园级别，那么文章会特别通俗易懂。如果调到最高的博士生级别，那基本就是文绉绉甚至有点不说人话的感觉。

说实话，OpenAI这么设计有点冒犯的意思了。这跟学历完全没关系。这又是何必呢？

后边的两个功能很直接。一个是帮你检查文本，看看哪里有错别字，哪里需要加个小标题，等等。

另一个是在文章里加上emoji表情。Twitter上很多人在夸这个功能。我是无感。我绝对不可能在我写的任何文章里加上emoji。

当然，不用右下角这些设定好的功能也OK。咱们可以选中任何一段内容，直接对GPT下需求。比如，把开头改得更吸引人一些。或者，把结尾再升华一下。

以上就是Canvas的文本撰写能力，很简单，很基础。通过提示词和Agent Workflow就可以实现这样的能力。OpenAI把它们都打包进产品里，而且还搞了添加emoji这样的小噱头来取悦用户。你看，他们还是很鸡贼的。

至于代码生成也是差不多的逻辑。

作为测试，我让GPT帮我写个贪吃蛇的小游戏。同样在右下角的位置出现了可以展开的按钮。其中更改编程语言这个有点意思。比如，我们可以让GPT把它已经生成的代码改成JavaScript、TypeScript等等几个主流的语言。

剩下几个功能很简单，比如修复Bug之类的。我就不详细介绍了，看一眼就懂。

目前Canvas的东西就这些。我猜，一些创业公司肯定要睡不着了。OpenAI这是在拿他们的命给自己换时间。作为用户，我感觉还好。可能是因为之前一直在用Artifacts和Cursor，所以看到这个也没那么兴奋。为了体验Canvas，我开了一个月的会员，不打算续费。之后还是继续用Claude。

OK，以上就是本期视频。想交流AI就来newtype社群。那咱们下期见！

ChatGPT的正确打开方式 2024-08-31

Key Takeaway

ChatGPT在iPhone上效率不高，因为它没有与系统和其它APP打通，无法自动化运行。
利用iPhone的快捷指令功能，可以实现ChatGPT的自动化操作，如自动总结公众号文章、语音问答和内容创作。
快捷指令的核心逻辑是：输入（网页文字、语音转文本）-> 处理（ChatGPT总结、回答）-> 输出（Markdown格式笔记到备忘录）。
这种自动化工作流能显著提升ChatGPT的使用效率和便捷性，弥补其作为聊天机器人的局限。
文章通过“总结GPT”、“问答GPT”和“灵感GPT”三个快捷指令示例，展示了ChatGPT在个人生产力中的应用。

Full Content

ChatGPT在iPhone上还不够好用。主要原因是，它没有跟系统和其它APP打通，没法自动化运行，效率不高。所以，它还只是一个聊天机器人——每次都得打开APP才能用，然后还得输入一堆东西——难怪用户使用频率不高，这也太麻烦了。

在现阶段，要让iPhone上的ChatGPT有用起来，你肯定要用到快捷指令这个功能。我先演示一下我是怎么用的，再详细介绍怎么设置。

我相信大家都很头大这样的事儿：每天要看的公众号文章根本看不过来。怎么搞？

首先，用Google Chrome打开这篇文章。

然后，点击地址栏右边的分享按钮，选择最顶端的快捷指令（我设置的名称叫“总结GPT”）。

最后，稍等一会儿，ChatGPT就会按照我事先设置好的要求，用GPT-4o这个最新的模型，总结文章的核心内容，提炼文章的Key Points，并且在备忘录的指定文件夹里创建一条新笔记，把这些内容都用Markdown格式存进去。

这么做的好处是：

第一，我就不用在APP之间手动切换、各种输入——现在用快捷指令自动化完成，这显然方便多了。

第二，虽然ChatGPT里会有聊天记录，但我还是让它存到备忘录里了。因为备忘录是系统自带的，在iOS和macOS之间同步非常快。这样一来，我回到Mac上就可以直接编辑了。而且它是Markdown格式，我还可以把它贴到写作软件或者笔记软件里进一步处理。

刚才这个是“总结GPT”。按照同样的思路，我还设置了一个“问答GPT”，也是用语音输入。

比如我问：机械键盘的主流轴都有哪些区别？比如红轴、青轴等等。

接到一段语音输入后，这个快捷指令会先把语音转化成文字、给到ChatGPT。

然后，根据我事先的设置，ChatGPT回答完问题之后，同样会用Markdown格式，把内容存到备忘录里，方便我之后查找和编辑。

这两个快捷指令是我平时用得最频繁的。除此之外，还有“灵感GPT”：

当我有任何内容方面的想法时，就像刚才“问答GPT”那样，用语音的方式全部给到GPT。它会把我的那些零散的表述有逻辑地整理一遍，变成一个内容框架，然后往里边做补充和扩展。

你如果看过我上一期视频就会发现，这其实是在用快捷指令去搭建一套简易的Agent Workflow。在新版iOS、新版Siri出来之前，咱们先用这种方式实现AI自动化。

接下来，我拿刚才那个“灵感GPT”给大家详细讲解一下。这三个快捷指令，我已经把iCloud链接分享到知识星球和Patreon里了，newtype社群的小伙伴可以直接拿去用。包括这期视频，我也会在社群内首发，算是给大家的“超前点映”。

就像上期视频里说的那样，一般来说，一套Agent Workflow的起点是用户输入。在“灵感GPT”里，咱们是用语音转成文字，所以要用到“听写文本”这个功能。在“听写文本”的设置中，大家记得点开下拉列表，选择语言，否则会报错。

有了初始输入之后，第二步，咱们要添加一个“文本”，在里边写一段Prompt，把对AI的要求交代清楚，并且把第一步的内容贴在后边，就像我这样。这一整个文本，就是接下来要给到AI去处理的信息。

第三步，添加“询问ChatGPT”，把“文本”加进去。在下拉列表中，把“开始新聊天”勾选上，然后就可以选择要用哪个模型了。

第四步，再添加一个“文本”，把GPT的回答都放进去。你可以在文本的开头添加一些描述，比如我写的是“From GPT”，这样我就知道，这条笔记是AI生成的。

第五步，添加“备忘录”，选择事先创建好的文件夹，让GPT在里边新建一条备忘录，把上一步的文本都存进去，这样就大功告成了。

另外两个快捷指令也是同样的思路。其实这整套Workflow的核心就三个步骤，很好理解：

第一，初始信息从哪来（输入）？是网页里的文字，是语音转文本，还是一张照片？这个需要设置清楚。

第二，你要GPT帮你干啥（处理）？我一般会添加一个“文本”，把固定的指令和每次的需求都放进去。然后把整个文本给到GPT。

第三，你要什么样的结果（输出）？就像我刚才演示的，以备忘录加Markdown做输出。

输入、处理、输出，把这套逻辑想清楚了，你就知道怎么用快捷指令和ChatGPT去搭建一套简易的工作流了。

OK，以上就是本期内容。大家有什么想聊的，可以来newtype找我。那咱们下期见！

Cursor就是最强知识库应用，没有之一 2024-08-31

Key Takeaway

Cursor作为编程软件，天生具备RAG能力，能对本地文件进行索引和处理，使其成为强大的知识库应用。
Cursor与Obsidian的本地化存储特性完美结合，用户可以通过Cursor直接操作和利用Obsidian的笔记文件。
通过创建cursorrules文档，用户可以自定义Cursor的工作方式，例如优先检索本地文档、进行联网搜索，并调用特定的MCPs（如Markitdown用于PDF转换，Sequential Thinking用于复杂问题拆解）。
Cursor的Composer功能和聊天功能可以对笔记进行总结、提炼和扩写，充当Obsidian的“超级AI插件”。
这种组合工作流能够兼顾本地知识和网络信息，提供逻辑性强的答案，极大提升知识管理和创作效率。

Full Content

最好用的知识库应用，就是Cursor，没有之一！

你们经常看我发的视频就知道，过去一年多，我用了太多太多知识工具。越用越发现：大道至简，用Cursor就可以了。

你想嘛，RAG能力Cursor本来就有。它是个编程软件。既然要编程，肯定得了解所有代码的情况。所以，当Cursor打开文件夹之后，就会对文件夹内的所有文档进行索引和哈希处理。像Markdown之类的文件，它会进行切块、嵌入向量。

所以，知识库应用该有的RAG能力，Cursor天生就有。不管是代码还是纯文本，它都能一样处理。而且，因为它要写代码，所以肯定要有创建文档、修改文档的能力。这就意味着，它可以帮我们直接写笔记、写文章，对吧？

这还没完。Cursor本身具备搜索能力。你不用特意添加什么工具，它就可以联网搜索，甚至直接打开一个网页。

最后，只要出现了最先进的模型，Cursor一定会第一时间支持。所以这20美元的订阅，我个人认为是非常非常划算的。当然，如果你不想用Cursor的模型，也可以填自己的API Key进去。

那么，我们该怎么用Cursor配合自己的文档进行工作呢？

我的经验是，一定要创建一个cursorrules文档。这个文档放在根目录下，用来告诉Cursor必须遵守哪些项目规则。我给你们演示一下。

你看，我在文档里规定了：

第一，回答之前都必须首先检索文件夹内的所有文档，看看有没有相关的内容可以作为上下文。

第二，光查了本地文档还不够，还得联网搜索，这样信息才齐全。

除了这两个基本要求，我还给Cursor配了两个MCP：

如果遇上PDF文档，就用Markitdown这个MCP做转化。不然Cursor就得写个Python脚本进行处理，就非常麻烦了。

如果问题有点复杂，那就用Sequential Thinking进行拆解、组织内容，这样逻辑性才强。

这两个MCP的用途和触发条件，我都给Cursor写明白了。

最后，我还附上了一个示例，包含每一步怎么处理，清清楚楚。AI绝对可以理解。

有了这一大套底层规则，Cursor就知道怎么跟我配合了。

比如我问它：如何在本地部署知识库？

首先，它花了几秒钟思考这个问题。因为我把Thinking选项打开了。

接着，它把文件夹内的文档检索了一遍。

然后，联网搜索，进一步补充信息。

最后，用Sequential Thinking对所有内容进行梳理，把逻辑整理清楚。

你看，使用这种方法，这样的流程跑下来，知识库里的内容和网上的内容都兼顾了，获得的答案逻辑性也很强。这个就是我说Cursor 最强知识库应用的原因。

我刚才演示的规则是我的需求。大家可以根据自己的需求做修改。其实你让Cursor帮你写也是可以的。

OK，以上就是本期内容。想交流AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。那咱们下期见！

DeepSeek新模型太适合MCP了！ 2024-08-31

Key Takeaway

DeepSeek新模型V3 0324在MCP调用方面表现出色，性价比极高，性能接近Claude-3.7 Sonnet。
DeepSeek模型具备清晰的思考和规划能力，能将用户需求拆解为明确任务，并判断所需工具。
DeepSeek在工具调用能力上显著提升，结合其成本优势，将推动MCP的进一步普及。
文章预测Agent发展趋势将从任务编排模式转向模型自由发挥，以超强模型为核心，搭配海量原子化工具。
DeepSeek的进步，加上MCP协议，预示着AI行业将迎来飞速发展。

Full Content

DeepSeek新出的模型V3 0324可能是跑MCP性价比最高的模型。它在性能上接近Claude-3.7 Sonnet，调用MCP很丝滑，但是成本却低了非常非常多，真的是白菜价了。我给你们看一下就明白了。

这个是我目前用得最多的MCP客户端Cline。DeepSeek最新模型，它已经支持了。我这边选的是付费版。平台虽然也提供免费版，但是不建议用。我前边试过了，速度太慢，而且步骤一多就容易中断，就挺闹心的。所以咱还是老老实实花钱吧。

我的需求很简单：谷歌发布Gemini 2.5模型。这是他们的官方博客。我让DeepSeek帮我把内容扒下来，翻译成中文，并且在开头加上总结，最后存进文档里。

你看，DeepSeek先做了四步规划：

第一，把用户需求拆成明确的任务；

第二，判断需要用哪些工具，包括Tavily MCP里的提取工具，以及写入文件的工具；

第三，当前的环境是，文件已经存在，用户也允许直接进行操作；

第四，给自己设定执行步骤。

这个就是AI比人类强的地方。你想嘛，有几个人能做到这么清晰思考和规划的？

整个过程花了两三分钟，我就不具体展示了。当文档写入完成后，整个任务结束，一共花了0.0358美金。

接下来，咱们加点难度。我让它调用两个MCP：一个是Sequential-thinking，步骤尽可能多。另一个是Tavily，负责联网搜索资料。每一步思考之前，都要搜一次资料，再结合搜到的内容思考。

像这种需求就特别考验模型。因为它既要懂得拆解问题，还得根据实际搜到的信息随时调整思考方向，以及下一步需要搜什么，而且还要频繁调用MCP、不能出错。

我建议大家看完视频也这么去测试，不管是测试模型还是测试客户端都可以。然后你就知道该怎么选了。

咱们回到DeepSeek这边。整个推理过程花了三分多种。DeepSeek一共做了六步思考，最终给出了答案。但是我觉得下边的要点还不够详细，于是让它进一步完善。最终，花了0.039美金，DeepSeek完成了这个回答。

通过这两个例子可以看出，DeepSeek新版本模型在使用MCP方面已经没问题了，而且价格很低。说实话，我这段时间用Claude跑MCP，已经在API上花了十几美金了。日常高频使用的话，真的会肉痛。

高性价比，就是我推荐DeepSeek的原因。官方在公众号文章里介绍了这次小版本升级。模型能力提升包括这几个方面，比如推理任务表现提高、前端开发能力增强、中文写作升级，等等。

其实我最看中的，以及我认为最重要的，是工具调用能力的提升。还是之前说过的逻辑：

AI发展的两条路径，一是获取更多信息，二是调用更多工具。

如果只能处理文本，搞不了多模态，那么AI的世界就是黑白的。这是我看好Gemini的原因。

如果只局限于推理，用不了更多工具，那么AI就只有大脑、没有手脚。这是我看好Claude的原因。

现在DeepSeek终于把工具调用能力提升上来了，叠加它本来就很强的成本优势，肯定能推动MCP进一步普及。

最后，说一下我对今年Agent发展的判断：

以Dify、Coze为代表的任务编排模式会逐渐被取代。这种做法虽然精确度高，但是太费人力，门槛也很高，而且非常限制模型的发挥，所以只适合企业生产环境。

我认为，最优解一定是：人类只需要设定起点，也就是Context、上下文，以及终点，也就是目标。在起点和终点之间一切，都交给模型自由发挥。

一个超强的模型作为单核，搭配海量、原子化的工具，就是AI行业今年发展的重点。

现在，我们已经有Claude和DeepSeek这样的模型了，也有MCP这样的中间层协议了。万事俱备，一切都将飞速展开。

OK，以上就是本期内容。想了解AI，来我们newtype社群。那咱们下期见！

Dify × MCP：让工作流不再是孤岛 2024-08-31

Key Takeaway

Dify新增“双向MCP”功能，允许用户在Dify中添加MCP服务器，并可将Dify工作流转换为MCP服务器对外输出。
该功能解决了工作流“孤岛”问题，使其能融入日常通用场景，极大扩展了Dify的工具范围。
作者重新关注Dify，认为工作流应原子化，作为组件强化特定场景效果。
文章通过Deep Research工作流的演示，展示了Dify与MCP结合后，AI客户端可调用特定MCP服务器解决特定需求，提升效率。
Dify的MCP功能与提示词结合，可实现基于MCP工具和Prompt的工作流自动化，提升个人生产力。

Full Content

Dify最近上了个新功能：双向MCP。这是个非常重要的功能。因为它让原本只针对特定场景的工作流可以融合到我们日常的、通用的使用场景中。

什么叫“双向MCP”？

一个方向是进来，也就是你可以在Dify里边添加现成的MCP服务器。这个好处是，可以极大扩展Dify的工具范围，把越来越丰富的MCP服务器纳入进来。

另一个方向是出去，也就是你可以把自己创建的工作流转换成MCP服务器，对外输出。比如我用AI客户端，把工作流MCP添加进去。平时在对话中就可以直接调用。

这样一来，你搭建了半天的工作流不会被限制在某些使用场景和情况下使用，不再是孤岛。这个是非常大的进步。

哈喽各位好，欢迎回到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我，就来我们newtype社群。这个社群已经运营500天，有超过1500位小伙伴付费加入啦。

回到今天的主题：Dify的MCP功能。

我记得去年就出过视频介绍Dify。但是从那之后，我就不再关注这些工作流平台了。两个原因：

第一，上手难度高。这些工作流看起来好像在画布上随便搭一搭就行，但其实难度挺高的。既要懂技术，还得懂业务。一家公司能有几个这样水平的人？

第二，适用场景窄。每一条工作流都是针对某些场景、解决某些特定问题而存在的。在早期很有用，因为大模型能力不强，所以把人类的经验编排成工作流，去指导模型。但到了今天，你再把固定的工作流硬塞给模型，就有点限制它了。

那我为什么现在会重新捡起Dify，会看中这次的更新？

因为工作流不是变大了，而是变小了。它可以变成一个一个原子化的组件，融入到我的工作流里边来，去强化特定场景下的效果。这个就是MCP服务器应该有的价值。

我给你们演示一下就明白了。

这个是我在Dify里找到的现成工作流，Deep Research。我把里边的模型改成GPT-4.1，然后发布。因为发布之后，才能把MCP服务器功能打开。

点击左边这个按钮，在左下方把这个选项打开，就可以把这个工作流转变成MCP服务器。这一行就是服务器地址。因为我是在本地运行的，所以地址开头是localhost。

打开AI客户端，我这边用的是免费的Cherry Studio。新建一个MCP。连接方式选HTTP。然后把服务器地址填进去就搞定了。

我们来做一个对比。

我先使用模型内置的搜索工具，搜一个问题：什么是Context Engineering？这个是它的回答。

然后我开个新窗口。这次使用刚才接入的Deep Research MCP服务器。还是同样的问题，什么是上下文工程。

稍等几分钟，模型给出了回答。对比两次的输出，可以明显看到，使用了外挂MCP服务器的效果要好得多。

你看，这个就是我刚才说的，到了特定场景、特定需求的时候，你调用特定的MCP服务器去满足、去解决。你不需要换一个工具，还是用原来的AI客户端，这个真的很方便。

我演示用Deep Research是为了让大家好理解。其实工作流是特别定制化的。接下来，我会针对我自己的需求搭好多个工作流，然后统统转化成MCP服务器。

所以，就像我在社群里说的，现在有两套系统可以满足我们的定制化需求：一是提示词，二是基于工作流的MCP服务器。并且，这两套系统还可以用我做的产品——Prompt House进行统一调度。

这样配置下来，我相信，我的个人生产力又会有一次大的提升。

OK，以上就是本期内容。想了解AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。那咱们下期见！

Elon Musk：Sam Altman是叛徒 2024-08-31

Key Takeaway

Elon Musk起诉Sam Altman和OpenAI，指控其背弃OpenAI创立时“为全人类造福、开源”的价值观，转变为追求利益最大化。
诉讼核心在于OpenAI与微软的协议，以及OpenAI是否已实现AGI并将其私有化。
Elon Musk认为OpenAI的AGI技术（如GPT-4和秘密开发的模型Q）已被Sam Altman控制并输送给微软，背离了非盈利初衷。
此次诉讼不仅关乎OpenAI的未来，也可能影响整个AI行业的发展方向和伦理规范。

Full Content

Elon Musk起诉Sam Altman，绝对是今年的年度大戏。

在给加州最高法院的起诉书中，他一个人作为原告，把Sam和OpenAI全给告了。并且，他还申请由陪审团审判。

也就是说，Elon Musk要把Sam和OpenAI从暗处拖到明处——在法庭上，宣誓之后，你自己把一切讲清楚，并且留下记录。内容包括：

几个月前的逼宫、造反到底是怎么回事？
跟微软之间到底有什么猫腻？
神秘项目Q到底有没有实现AGI？

这场审判，不仅会影响到Sam个人、OpenAI和微软两家公司，还会影响整个硅谷，以及AI走向。

这份起诉书有点长，46页。我帮你们先过一遍。Elon Musk的逻辑很简单。他用大白话回答两个问题：

Why
Why Now

Why：背弃价值观

很多人认为，利益大于一切。但是，在精英阶层眼中，价值观是第一位的，是不可动摇的。

OpenAI就是一个价值观的产物。

Elon Musk一直坚定地认为，Superman Machine Intelligence，超级机器智能，是全人类最大的威胁。

当深度学习技术取得实质性进展、越来越实用之后，这种威胁越来越临近了。

导火索是2014年Google收购DeepMind。这场收购让Google在AGI这条路上一下领先了。

Elon Musk认为，如果通用人工智能技术被Google这样利欲熏心的公司所掌握，那咱们整个人类社会都要完犊子了。

于是，2015年，他和Altman、Brockman三个人共同决定，创立一个非盈利研究机构：

研发通用人工智能技术为的是造福全人类，而非利益最大化——这是宗旨。
除非涉及到安全因素，否则研发成果必须开源——Elon Musk起名OpenAI就是这么来的。

OpenAI的诞生，特别有复仇者联盟的感觉：为了全人类，对抗邪恶的Google。

Elon Musk就像钢铁侠一样，在OpenAI起步阶段提供了非常大的帮助，尤其是帮他们招来了全球顶级天才，比如首席科学家。

在初期，OpenAI确实很Open。不过，按照电影剧情的走向，这个时候，该有反转了。

大家留意一下这几个时间点，起诉书里特意强调的：

2019年，Sam成为OpenAI的CEO。
Elon Musk对OpenAI的支持，一直持续到2020年9月14日。
几天之后，也就是2020年9月22日，微软入局了。

当时OpenAI向微软提供GPT-3模型。与此同时，OpenAI也公开了GPT-3的训练方法，让其他人也可以打造出类似的模型。

OpenAI和微软的协议中，有一条非常重要：

微软只能获得Pre-AGI技术。

也就是说，当某一天OpenAI真正实现AGI的时候，这个技术是不会给微软的。

那么，谁来决定新研发出来的技术，算不算AGI呢？

董事会。

如果，董事会叛变，把AGI技术定义为非AGI技术，那么就可以在不违反协议的情况下，名正言顺地继续给微软输送技术，换取利益回报。

这个就是Elon Musk为什么非要在现在搞这么一出的原因。

革命队伍里出现叛徒，勾结敌人，要窃取革命果实！

Flux + ComfyUI = 量产网红美女 2024-08-31

Key Takeaway

Flux模型结合ComfyUI工作流和网红Lora，能生成高度逼真的AI图片，甚至可以以假乱真。
Flux模型由Stable Diffusion核心团队开发，生成图片真实度高，且能实现精准控制。
ComfyUI通过节点式工作流，解决了传统AI图像生成难以精准控制的问题，实现了精细化产出。
Lora作为“技能包”，能让模型按照特定风格生成图片，并可叠加使用。
AI图像生成已进入落地期，在电商等领域具有商业应用潜力，且ComfyUI工作流可分享。

Full Content

喜欢在小红书上看美女的小伙伴们请注意：

你们现在看到的，很有可能都是AI生成的。

别说什么平台会识别，你们是不知道，最新技术做出来的图片有多逼真。

比如这张图，你觉得是真的还是假的？

其实啊，这张图是我用AI生成的。准确来说，用的是Flux模型，加上一个简单的ComfyUI工作流。这里边有两个关键点：

第一，Prompt部分，也就是图片的文字描述，我是让Claude生成的。我给了它一张现成的图片，让它用英文详细描述，然后拿过来用。

第二，之所以图片上的小姐姐大家看着这么习惯，那是因为我加上了网红Lora。你可以简单理解为就是一个小插件，让模型按照特定风格去生成。

用这样一个简单的方法就能以假乱真。其实如果你更狠一点，完全可以直接图生图。比如，去小红书找一张符合大家口味的图片，然后让AI照着这个生成。很容易就可以做到姿势、身材、背景都基本一样，但是脸不一样。

以前的模型在局部做得不好，比如手指经常会多了一根。但是今天的模型已经进步非常多了。国内这些平台没法识别。所以有人做号、卖号，靠的就是我刚才演示里用的Flux模型，加上ComfyUI。

先来说说Flux模型。

最近一个多月，这款模型在圈内特别火。很多公司和团队已经实打实用上了，比如在电商领域。

那么，这么牛逼的模型是从哪冒出来的？

大家肯定听说过Stable Diffusion。Flux就是SD的核心团队出来做的。他们成立了一家新公司，叫黑森林实验室。

8月1日，黑森林实验室正式发布Flux模型，包含三个版本：schnell，就是快速版本，配置要求低一些；dev版，质量更高，但配置要求也更高，最好是4090显卡；Pro版，闭源版本，只能通过API调用。

官方版本出来之后，整个社区也是大力支持。比如推出了GGUF版，方便那些显存不够的用户使用Flux。

有了模型之后，下一个问题就是怎么运行。目前最好的方法，就是通过ComfyUI。

传统的AI图像生成，都是通过输入一大串的Prompt，俗称“咒语”。这会带来一个很头大的问题：

没法精准控制AI的生成。

一串文字给过去之后，后边的流程你完全不知道AI是怎么处理的。而且，如果对结果不满意的话，也只能在文字层面修修改改。很多时候，这种做法精确度不够，效率也很低。

于是，ComfyUI来了。它通过一个个节点组成一套工作流。这种节点式界面让用户很清楚了解AI究竟是怎么生成图像的，以及如果有问题的话，又是卡在了哪里。用户可以很精细地控制产出。

举个简单例子。你是做电商的，没钱雇那么多模特帮你拍照，那就换脸呗。你或者你手下的小姑娘先穿样衣拍好照片，然后放到ComfyUI工作流里边，专门针对脸的位置做一个遮罩。这样一来，AI就只针对脸部做生成。它会按照这个轮廓生成一张新的脸，然后再放回原来的位置。

通过这种方法，你就有了一个虚拟模特。是不是有一种画皮的感觉。这么想想还挺吓人的。

如果你觉得生成的图片AI感太强了，看起来太油、太完美了，可以加个Lora。比如，有大佬做了模拟业余摄影的，让图片看着像个外行拍的，这样就真实多了。我刚才演示里用的网红风格的Lora，也是别的大佬做的。我下载下来之后，放到特定的文件夹里，就可以在工作流里选择了。

所以你看，有了ComfyUI，原本一大坨的工作被拆解成了一个个步骤和节点，简单许多，清晰许多，可控性也高了许多。

更爽的是，这些工作流还可以分享。拿到工作流这个JSON文件后，拖到画布里就自动加载了。于是，不管是国内还是国外，有很多人在制作特别专业的工作流。这已经是现成的生意了。

大家在短视频平台上肯定有看到过这样的内容：先给你炫一下生成的图片有多牛，然后展示他搭建的极其复杂的工作流，最后跟你说，想要的话就来加微信。

如果你的机子跑不动也没关系。几乎所有的算力租赁平台都跟创作者有合作，为用户提供现成的镜像，可以直接用。

我就买了别人做的整合包，一共花了一千五。人家全都打包好了，一百多G下载下来，都不需要安装，省了我非常多的时间。

花钱买成品的好处是，很多基础的东西不需要再折腾一遍，理解一下就好了。比如，除了模型之外，Clip是干嘛的，VAE又是干嘛的；几个关键的文件夹都是放什么文件的。

实践和拆解才是重点。把别人的东西吃透了，最后造出自己的东西来。这就是我的天赋，我很清楚。所以这钱该花钱就花，而且绝对能翻倍赚回来。

Flux这一波预示着AI图像生成已经进入落地期了。动作快的人已经开始摘果子了。这也是为什么我等了一年多，到现在才开始研究。我建议大家不管想不想拿这个技术做点生意，最好都了解一下。你想想，当眼见不一定为实的时候，我们的生活会有多大变化。

OK，以上就是本期内容。想找我就来newtype社群。那咱们下期见！

Gemini + Grok：最被忽视的AI生产力工具 2024-08-31

Key Takeaway

Gemini和Grok是两个被低估的顶级AI应用，它们在不同方面展现出强大的生产力。
Gemini提供多功能体验，包括快速回答（Flash）、文章创作（Canvas）和深度报告（Deep Research），并能与Google文档和NotebookLM无缝集成，支持深度学习。
Grok在模型回答上更具“人味”，产品设计简洁，并拥有独特的Twitter数据源，使其在获取用户真实反馈方面具有优势。
结合使用Gemini（获取主流媒体信息）和Grok（获取社交媒体信息）可以获得更全面和真实的洞察。

Full Content

有两个顶级AI应用还在被国人忽视。一个是Gemini，一个是Grok。

Gemini我已经推荐得足够多了。你看，过去半年，我在社群内真的是苦口婆心、反复强调。我从1.5的模型开始，用到了2.0、2.5，真的是越用越喜欢。不说那些复杂的，就说日常使用，就像我这个帖子说的：

如果你只想要个快速回答，那直接问Gemini 2.0 Flash。它速度快，推理强，运行还稳定。

如果你想要稍微深入一点，那就把Canvas打开。Gemini 2.0 Flash会按照写文章的标准来回答你。

如果你想要详尽的报告，那把Deep Research打开。Gemini 2.0 Flash会按照报告的标准来输出。

我直接给你们来个演示吧。

比如，我问Gemini：什么是Reasoning model？它很快给出一个简要的回答。

我把Canvas也就是画布打开。再问它同样的问题。这个时候，回答速度稍微慢一些，但是详细程度会高得多。在Canvas里边，你可以对文本进行排版、编辑，也可以选中一段进行提问。也就是说，用这个功能，你可以跟Gemini配合起来完成一篇文章的创作。

如果我把Deep Research打开呢？还是同样的问题——什么是Reasoning model。Gemini会帮我拆解议题，然后查找上百个网页，最终完成深度报告的输出。

你看，就这么简单的三个功能——直接对话、Canvas和Deep Research，覆盖了我们日常使用AI的主要场景。

更进一步，如果你觉得这些回答有价值，还可以把它们保存到Google文档里。

刚才介绍的三个功能，后两个都可以导出到Google文档。然后，就像我前一个视频里介绍的，打开NotebookLM，把Google文档里的相关内容全部导入，然后就可以进行深度学习了。

Gemini还有别的功能，比如画图什么的，我就不多说了。光是刚才我介绍的那些，就足以值回票价。

而且，Google还在不断更新。就在昨天，他们推出了首个混合推理模型——Gemini 2.5 Flash。你可以自主选择要不要打开思考模式，甚至还可以设定要投入多少资源进行思考。这个模型的出现，更加强化我要继续拥抱Gemini的信心。

那么，既然Gemini这么牛逼，还要Grok干嘛呢？三个原因：

第一，从模型回答的感觉上看，Grok 3要比Gemini 2.0好得多。

Gemini 2.0还是有一种生硬感、机械感，这可能就是Google独有的味道吧。而Grok 3的回答就比较有“人味”，所以我会逐渐倾向于多跟它交流。

第二，从产品角度来看，Grok最完整。

就像之前我在社群里说的，Grok没搞那么长的模型列表让用户选择，就两个按钮：深度思考，和深度搜索。没有模型之分，只有模式之分，甚至再到后边连模式都不需要选择了，AI会自主判断。这个才是正道。像OpenAI那种，有点丧心病狂了。

另外，前两天的更新，给Grok补上了Canvas和Workspace功能。Canvas和别家差不多，就是标准的画布。而Workspace，就类似知识库的功能，特别好用。

现在，Grok已经集齐目前的主流功能。产品层面已经相当成熟了。

第三，从数据源角度来看，Grok拥有别家都没有的Twitter数据。

Twitter现在是最有影响力的社交媒体，它的数据对于AI来说很重要。如果能把Twitter所代表的社交媒体数据，和Google那边掌握的主流媒体数据合并起来，那对提升AI的回答质量肯定有帮助。具体怎么做呢？我再演示一下。

其实这个方法我在社群内也分享过。很简单，Grok的Workspace功能除了支持本地文档上传之外，还支持从Google Drive里导入——这个就是关键功能。

我会先用Gemini做一轮Deep Research，把报告导入Google文档。然后，到Grok里添加这些Google文档，并且在Prompt里强调：附件信息只是参考，你要有自己的搜索和判断。另外，Twitter上用户都有哪些反馈？重点看看。

注意看Grok的分析过程。从主流媒体的信息搜集来看，它确实不如Gemini能搜到那么多。其实不只是它，OpenAI的搜索范围也有限。但是，Grok能搜集Twitter上的数据，包括帖子和评论，这个就是它的独有价值。

我之前在公关营销行业干了十几年，非常清楚只有你预算够，绝大部分主流媒体的内容都可以买，或者都可以影响。相比之下，用户的实际使用反馈就相对真实得多。所以，当我想了解的议题涉及到用户口碑的话，我肯定会通过Grok去搜集，并且跟Gemini那边的主流媒体信息进行合并。

刚才介绍的这两款AI工具的使用经验，看起来确实平平无奇，不像很多AI自媒体介绍的那些玩法那么酷炫，但这些都是能帮到你的真东西。如果你觉得有价值，还想了解更多的话，记得加入我们社群。

OK，以上就是本期内容。那咱们下期见！

Gemini 2.0：性价比之王 2024-08-31

Key Takeaway

Gemini 2.0是目前性价比最高的大模型，其Flash-Lite版本价格极低，Flash版本兼顾性能、价格和速度。
Gemini 2.0 Pro版本上下文窗口提升至200万，适合复杂推理和代码生成。
Flash Thinking版本具备链式推理能力，适合逻辑推理和多跳问答。
Gemini 2.0在性能、稳定、速度和价格方面达到平衡，成为作者的主力AI应用。
文章强调AI不会替代人，但使用AI的人会替代不使用AI的人。

Full Content

Gemini 2.0是世界上性价比最高的大模型，没有之一。我知道你们在想什么——它比DeepSeek还强。咱们直接来看价格，海外博主已经做好表格了。

Gemini 2.0 Flash-Lite是真的是白菜价：输入只要0.075美金，输出0.3美金。

比它功能多一点的Flash，价格贵一点点：输入0.1美金，输出0.4美金。

再来看DeepSeek：V3输入0.27，输出1.1；R1输入0.55，输出2.19。

谷歌这真的太卷了。要知道，Flash可是支持多模态、支持原生工具使用、有一百万的上下文窗口的最先进的模型。结果它不仅比DeepSeek便宜，而且还压过了GPT-4o mini。看来今年AI竞赛要上强度了。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有800多位小伙伴付费加入啦！

回到今天的主题：性价比之王——Gemini 2.0。

Gemini 2.0是谷歌前几天更新的模型系列，包含Pro和Flash两条线。

Pro很好理解，就是谷歌目前的顶级模型。该有的功能它都有，而且把上下文窗口从一百万提升到了两百万。所以，Pro版本非常适合用来复杂推理、生成代码等等。

而Flash则兼顾了性能、价格和速度，是日常使用的主力模型。其中，Flash还有两个变体：

Flash-Lite砍掉了一点点功能，比如不支持图片和音频的输出，不支持联网搜索，不能执行代码，然后把价格压到最低。所以，如果你需要大规模生成文本的话，那用Lite版最合适。

Flash Thinking顾名思义，就是带上链式推理能力的版本。跟大家很熟悉DeepSeek-R1一样，它在回答之前会先进行多步骤推理。所以对于一些复杂任务，比如需要更强的逻辑推理，或者多跳问答，用Flash Thinking最合适。

前边说Gemini 2.0是性价比之王，我感觉不太准确。因为“性价比”这三个字好像显得它性能不太行的样子。更贴切的称呼应该是“卷王”。我给你们演示一下效果。

先来看看Pro的能力。我给的问题是：

英伟达的CUDA为什么能成功？护城河究竟有多深？AI时代，英伟达的竞争对手有可能赶超或者颠覆吗？

可以看到，Pro虽然比Flash慢，但其实观感上还是很快的。而且它给出的答案，逻辑很清晰，也没什么过多的废话，这一点我真的很喜欢。

再来看Flash Thinking。我来问一个最近讨论特别多的问题：

DeepSeek-R1的成功是否说明，可以不需要英伟达的高算力GPU和CUDA了？

Flash Thinking的思考过程是英文的。它先是拆解了我的问题，得出需要去搜索、调研的关键词，然后再去做相应的搜索。跟Pro一样，它的答案挺干净清爽的。

作为对比，同样的问题我拿去问了DeepSeek-R1。虽然结论差不多，都是具有不可替代性，只是依赖可能会减少，但是思考的过程有挺大差别：

Flash Thinking是先拆解，再搜索。R1直接搜索，再看搜到的网页都讲了什么。从方法的角度来看，我个人是更倾向于先做拆解的。你们觉得呢？

Gemini是我的主力AI应用。最初我是用ChatGPT的。结果在使用过程中遇到各种限制，特别烦。正好Claude 3.5出了，于是就转到Claude那边去。再后来，Claude大面积封号，我三个号都被挂了，于是“逃难”到Gemini，也充了值。

这次2.0的更新，我这几天用下来非常非常满意。不管是哪个版本，都做到了性能、稳定、速度以及价格的平衡。在桌面端用网页版，Pro、Flash和Flash Thinking都有。在手机上就用官方的APP，可以选Pro或者Flash。

只要谷歌那边别出什么幺蛾子，在下一次模型大更新之前，Gemini都会继续是我的日常主力。

我知道，用国外这些产品得跨过好几道门槛。但是，这些门槛其实也帮你筛掉了很多很多人。只要你花点时间、花点钱跨过去了，你就取得巨大领先了。还是那句话：

AI不会替代你，用AI的人，尤其是用先进AI的人才会。

OK，以上就是本期内容。想进一步了解AI，就来我们newtype社群。那咱们下期见！