自动化

AI剪藏公众号文章，全自动总结、提炼、存进Obsidian 2024-08-31

Key Takeaway

Web Clipper插件的Interpreter功能能实现AI自动总结、提炼公众号文章，并保存到Obsidian，极大提升信息处理效率。
该插件支持桌面端和移动端，可根据预设模板和触发条件自动化剪藏流程。
用户可选择不同大模型（如GPT-4o mini、Claude、Gemini、Ollama）进行内容处理，并自定义笔记内容和存储位置。
Interpreter的配置包括设定大模型、模板（行为、存储位置、触发条件、笔记内容、处理上下文）等。
文章强调了Web Clipper在信息搜集和预处理方面的重要性，以及其在减轻阅读压力方面的实用价值。

Full Content

如何用AI自动总结、提炼一篇公众号文章，并且把这些生成的内容和原文一起保存进Obsidian，成为一条笔记？

我强烈推荐大家试试Web Clipper这款插件。它有个功能叫Interpreter，就能实现刚才说的需求。我快速演示一下，非常简单：

在桌面端，如果要处理这篇公众号文章的话，点击浏览器右上角的插件按钮。这时，插件发现这是一篇公众号文章，自动选择了我事先设定好的模板，用我事先设置好的GPT-4o mini做两件事：

第一，总结整篇文章。这样我就知道它大体上是关于什么的。

第二，提炼文章要点。这样我就知道它里边的要点。

然后，我只需要点击保存，刚才这两个部分会放在开头，后边跟上整篇文章的内容，全部打包成为一条笔记，存进Obsidian里边。

这整个过程我只点了两下，其它都是自动完成的。在移动端也是基本类似的操作。

用Safari打开公众号文章之后，点击地址栏左边的按钮，然后在扩展列表里点击插件，这时会出现跟桌面端基本一样的界面。这时再点击右边的Interpret，模型就会自动按照设定好的要求去处理文章。几秒钟之后，再点击保存就搞定了。

因为需求很简单，就是总结和提炼，所以在模型的选择上，我用了速度快、价格便宜的GPT-4o mini。你也用别的，比如Claude或者Gemini。

如果你注册御三家的账号有困难，还可以选择OpenRouter这样的第三方平台，它集成了市面上所有的主流模型。

如果你就是一分钱也不想花也OK，这款插件还支持Ollama。你就在机子上跑个小一点的模型，也很舒服。像Qwen就提供了好多参数的版本，看着挑就好。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有600多位小伙伴付费加入啦！

回到今天的主题：Web Clipper的Interpreter功能。

这是我做的第三个关于这款插件的视频。大家如果需要基础操作的讲解的话，去翻我之前的。

我之所以这么看中它是因为，信息的搜集和预处理真的非常重要。我在半年多前还特意写过一个脚本，创建了一个Agent Workflow，专门实现刚才演示的那些功能。现在人家一个插件就搞定了，而且还支持移动端。

要配置Interpreter很简单，就两个步骤：

第一步，设定大模型。

点击Add Provider，在弹出界面里选择模型提供方。不同的提供方有不同的Base URL。大家如果之前写过脚本的话，对这个应该非常熟悉。

填完链接和API Key之后，还需要配置一下模型。因为一款模型可能有多个提供方，比如OpenAI和OpenRouter都有GPT系列，所以这边一定要选好。

至于Model ID，一定要按官方的格式填。不知道的话，就去后台看，每一款模型的ID肯定会有。

这两步搞定之后，Interpreter就算设置好了。接下来是模板的设置。我从上往下介绍。

Behavior指的是让插件怎么做，比如是创建一条新笔记，还是在现有的笔记后边做补充。

Note Location和Vault是告诉插件，把笔记存到哪个位置。

Template Triggers就是触发条件。当条件满足的时候，插件会自动选择这个模板，就省去你手动选择的麻烦。我这边设定的条件是公众号文章的网址。

Note Content就是创建的笔记需要包含什么内容。我设定了三个：1、Summary；2、Key Facts；3、全文。大家可以根据自己的需要做调整。

Interpreter Context就是你希望插件处理哪部分的内容。我在这边填Content，意思就是让它处理整篇文章。这个大家也可以根据自己的需求去修改，比如让插件只抓取网页某个部分的内容。

做完这两个部分的设置后，Web Clipper插件就会自动选择模板、自动做总结和提炼。这个对减轻我们平时的阅读压力真的很有帮助。大家看完了一定试试。

OK，以上就是本期内容。想聊AI，就来我们newtype社群。那咱们下期见！

ChatGPT的正确打开方式 2024-08-31

Key Takeaway

ChatGPT在iPhone上效率不高，因为它没有与系统和其它APP打通，无法自动化运行。
利用iPhone的快捷指令功能，可以实现ChatGPT的自动化操作，如自动总结公众号文章、语音问答和内容创作。
快捷指令的核心逻辑是：输入（网页文字、语音转文本）-> 处理（ChatGPT总结、回答）-> 输出（Markdown格式笔记到备忘录）。
这种自动化工作流能显著提升ChatGPT的使用效率和便捷性，弥补其作为聊天机器人的局限。
文章通过“总结GPT”、“问答GPT”和“灵感GPT”三个快捷指令示例，展示了ChatGPT在个人生产力中的应用。

Full Content

ChatGPT在iPhone上还不够好用。主要原因是，它没有跟系统和其它APP打通，没法自动化运行，效率不高。所以，它还只是一个聊天机器人——每次都得打开APP才能用，然后还得输入一堆东西——难怪用户使用频率不高，这也太麻烦了。

在现阶段，要让iPhone上的ChatGPT有用起来，你肯定要用到快捷指令这个功能。我先演示一下我是怎么用的，再详细介绍怎么设置。

我相信大家都很头大这样的事儿：每天要看的公众号文章根本看不过来。怎么搞？

首先，用Google Chrome打开这篇文章。

然后，点击地址栏右边的分享按钮，选择最顶端的快捷指令（我设置的名称叫“总结GPT”）。

最后，稍等一会儿，ChatGPT就会按照我事先设置好的要求，用GPT-4o这个最新的模型，总结文章的核心内容，提炼文章的Key Points，并且在备忘录的指定文件夹里创建一条新笔记，把这些内容都用Markdown格式存进去。

这么做的好处是：

第一，我就不用在APP之间手动切换、各种输入——现在用快捷指令自动化完成，这显然方便多了。

第二，虽然ChatGPT里会有聊天记录，但我还是让它存到备忘录里了。因为备忘录是系统自带的，在iOS和macOS之间同步非常快。这样一来，我回到Mac上就可以直接编辑了。而且它是Markdown格式，我还可以把它贴到写作软件或者笔记软件里进一步处理。

刚才这个是“总结GPT”。按照同样的思路，我还设置了一个“问答GPT”，也是用语音输入。

比如我问：机械键盘的主流轴都有哪些区别？比如红轴、青轴等等。

接到一段语音输入后，这个快捷指令会先把语音转化成文字、给到ChatGPT。

然后，根据我事先的设置，ChatGPT回答完问题之后，同样会用Markdown格式，把内容存到备忘录里，方便我之后查找和编辑。

这两个快捷指令是我平时用得最频繁的。除此之外，还有“灵感GPT”：

当我有任何内容方面的想法时，就像刚才“问答GPT”那样，用语音的方式全部给到GPT。它会把我的那些零散的表述有逻辑地整理一遍，变成一个内容框架，然后往里边做补充和扩展。

你如果看过我上一期视频就会发现，这其实是在用快捷指令去搭建一套简易的Agent Workflow。在新版iOS、新版Siri出来之前，咱们先用这种方式实现AI自动化。

接下来，我拿刚才那个“灵感GPT”给大家详细讲解一下。这三个快捷指令，我已经把iCloud链接分享到知识星球和Patreon里了，newtype社群的小伙伴可以直接拿去用。包括这期视频，我也会在社群内首发，算是给大家的“超前点映”。

就像上期视频里说的那样，一般来说，一套Agent Workflow的起点是用户输入。在“灵感GPT”里，咱们是用语音转成文字，所以要用到“听写文本”这个功能。在“听写文本”的设置中，大家记得点开下拉列表，选择语言，否则会报错。

有了初始输入之后，第二步，咱们要添加一个“文本”，在里边写一段Prompt，把对AI的要求交代清楚，并且把第一步的内容贴在后边，就像我这样。这一整个文本，就是接下来要给到AI去处理的信息。

第三步，添加“询问ChatGPT”，把“文本”加进去。在下拉列表中，把“开始新聊天”勾选上，然后就可以选择要用哪个模型了。

第四步，再添加一个“文本”，把GPT的回答都放进去。你可以在文本的开头添加一些描述，比如我写的是“From GPT”，这样我就知道，这条笔记是AI生成的。

第五步，添加“备忘录”，选择事先创建好的文件夹，让GPT在里边新建一条备忘录，把上一步的文本都存进去，这样就大功告成了。

另外两个快捷指令也是同样的思路。其实这整套Workflow的核心就三个步骤，很好理解：

第一，初始信息从哪来（输入）？是网页里的文字，是语音转文本，还是一张照片？这个需要设置清楚。

第二，你要GPT帮你干啥（处理）？我一般会添加一个“文本”，把固定的指令和每次的需求都放进去。然后把整个文本给到GPT。

第三，你要什么样的结果（输出）？就像我刚才演示的，以备忘录加Markdown做输出。

输入、处理、输出，把这套逻辑想清楚了，你就知道怎么用快捷指令和ChatGPT去搭建一套简易的工作流了。

OK，以上就是本期内容。大家有什么想聊的，可以来newtype找我。那咱们下期见！

Cursor就是最强知识库应用，没有之一 2024-08-31

Key Takeaway

Cursor作为编程软件，天生具备RAG能力，能对本地文件进行索引和处理，使其成为强大的知识库应用。
Cursor与Obsidian的本地化存储特性完美结合，用户可以通过Cursor直接操作和利用Obsidian的笔记文件。
通过创建cursorrules文档，用户可以自定义Cursor的工作方式，例如优先检索本地文档、进行联网搜索，并调用特定的MCPs（如Markitdown用于PDF转换，Sequential Thinking用于复杂问题拆解）。
Cursor的Composer功能和聊天功能可以对笔记进行总结、提炼和扩写，充当Obsidian的“超级AI插件”。
这种组合工作流能够兼顾本地知识和网络信息，提供逻辑性强的答案，极大提升知识管理和创作效率。

Full Content

最好用的知识库应用，就是Cursor，没有之一！

你们经常看我发的视频就知道，过去一年多，我用了太多太多知识工具。越用越发现：大道至简，用Cursor就可以了。

你想嘛，RAG能力Cursor本来就有。它是个编程软件。既然要编程，肯定得了解所有代码的情况。所以，当Cursor打开文件夹之后，就会对文件夹内的所有文档进行索引和哈希处理。像Markdown之类的文件，它会进行切块、嵌入向量。

所以，知识库应用该有的RAG能力，Cursor天生就有。不管是代码还是纯文本，它都能一样处理。而且，因为它要写代码，所以肯定要有创建文档、修改文档的能力。这就意味着，它可以帮我们直接写笔记、写文章，对吧？

这还没完。Cursor本身具备搜索能力。你不用特意添加什么工具，它就可以联网搜索，甚至直接打开一个网页。

最后，只要出现了最先进的模型，Cursor一定会第一时间支持。所以这20美元的订阅，我个人认为是非常非常划算的。当然，如果你不想用Cursor的模型，也可以填自己的API Key进去。

那么，我们该怎么用Cursor配合自己的文档进行工作呢？

我的经验是，一定要创建一个cursorrules文档。这个文档放在根目录下，用来告诉Cursor必须遵守哪些项目规则。我给你们演示一下。

你看，我在文档里规定了：

第一，回答之前都必须首先检索文件夹内的所有文档，看看有没有相关的内容可以作为上下文。

第二，光查了本地文档还不够，还得联网搜索，这样信息才齐全。

除了这两个基本要求，我还给Cursor配了两个MCP：

如果遇上PDF文档，就用Markitdown这个MCP做转化。不然Cursor就得写个Python脚本进行处理，就非常麻烦了。

如果问题有点复杂，那就用Sequential Thinking进行拆解、组织内容，这样逻辑性才强。

这两个MCP的用途和触发条件，我都给Cursor写明白了。

最后，我还附上了一个示例，包含每一步怎么处理，清清楚楚。AI绝对可以理解。

有了这一大套底层规则，Cursor就知道怎么跟我配合了。

比如我问它：如何在本地部署知识库？

首先，它花了几秒钟思考这个问题。因为我把Thinking选项打开了。

接着，它把文件夹内的文档检索了一遍。

然后，联网搜索，进一步补充信息。

最后，用Sequential Thinking对所有内容进行梳理，把逻辑整理清楚。

你看，使用这种方法，这样的流程跑下来，知识库里的内容和网上的内容都兼顾了，获得的答案逻辑性也很强。这个就是我说Cursor 最强知识库应用的原因。

我刚才演示的规则是我的需求。大家可以根据自己的需求做修改。其实你让Cursor帮你写也是可以的。

OK，以上就是本期内容。想交流AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。那咱们下期见！

Replit Agent：AI编程的野心 2024-08-31

Key Takeaway

Replit Agent是一款激进的AI编程工具，能通过Agent完成环境设置、代码撰写和项目部署，实现云端开发。
Replit Agent的模式类似于“厨师服务团队”，用户只需提供需求，Agent负责具体执行，适合快速原型开发。
Replit Agent与Cursor等工具相比，更侧重于自动化，减少人工参与。
Replit Agent支持H5页面等简单项目开发，但对于复杂项目仍有局限性。
文章强调AI编程工具能极大提升效率，但仍需用户具备开发思维，AI目前处于“遇强则强，遇弱则弱”的阶段。

Full Content

大模型火了快两年，没想到，第一个爆发的赛道是AI编程。

最近新出的Replit Agent特别激进。从环境设置、代码撰写到项目部署，它用Agent全部搞定。过程中，有时会询问你的意见，比如这个UI和你预期的样子是不是一样。其它时间Replit Agent都是在埋头干活。

整个开发是在云端完成的，用它的环境，这一点挺省心的。更重要的是，这意味着你随便用什么设备都可以，手机也OK。一旦有想法了，可以快速完成原型开发。然后把整个项目的压缩包下载下来，在本地做进一步处理。

Replit Agent的这种模式让我想起了农村的厨师服务团队，专门搞红白喜事的那种。厨师、厨具、餐具、桌椅，甚至食材和调料，他们全都提供。你就负责吃席就好。

相比之下，Cursor是一种人机Co-work的模式，还是需要人的大量参与。而再早之前的GitHub Copilot就更落后了，我觉得它只能算是一种智能代码补全。

为了测试，我拿Replit做了一个简单的H5页面。用户输入API Key之后，可以选择OpenAI的模型，然后对话。

需求给过去之后，Replit会先做分析，并且还会根据它的理解，给你一些选项，看你要不要也一并完善了。这一步其实是在做需求确认。大家如果服务过甲方就知道，如果需求对不清楚，那这项目大概率会很痛苦。

开工之后，Replit自动做环境的部署，把需要的包都下载、安装，然后编写代码、配置数据库等等。

因为项目比较简单，所以测试过程很顺利。调用OpenAI模型对话一次就成功了。剩下的都是小修小补，比如UI上删除一些不需要的元素，简单说一句就搞定。

Replit虽然不能说中文，但是你用中文它也能懂。不过我还是建议用英文，避免中文翻译成英文有歧义。四级水平的英文就足够和AI交流了，它都懂的。

到了部署环节，其实也没什么好调整的，Replit都帮你设置好了，直接点开始就OK。等进度条走到头，Replit会提供一个链接，那就是咱们的H5页面了。桌面端试了一下，完全正常。在手机上打开，也可以使用。

Replit支持Auto-scale，也就是说，如果访问量大的话，它会自动升级配置，保证项目的运行。在后台可以看到数据分析。如果你自己有域名的话，也可以在后台绑定域名。

看到这里你应该就明白，为什么我说Replit像农村的厨师服务团队了。不过，现在这个团队能力还不太行，搞些小活儿没问题，比如H5这种，碰上复杂点的项目就整不动了。

我在前一天让Replit做一个微信小程序，也是接OpenAI API的聊天机器人。整个过程就挺闹心的。Replit总让我帮它检查这、检查那的，甚至让我帮它看看Python文档有没问题——这谁给谁干活啊。到了部署环节，最后一步死活进行不下去，也找不出原因，然后就卡在这里了。

所以我估计，Replit至少还得花个半年时间去迭代吧。现阶段我就不订阅了，还是继续用Cursor比较靠谱。

给大家看看，我用Cursor把个人博客做出来了。我这些视频的文字稿，还有我日常的阅读清单，都会在博客上发布。后续我准备用Cursor做一个聊天机器人，用上RAG，把我的个人知识库接进去，开放给大家使用。

对于现在这些AI编程工具，我发现有两派观点：一派觉得这些工具都是垃圾，一派觉得这些工具可以替代程序员。这两派我都不赞成。我觉得现在的AI处于中间地带，没法替代，但是可以极大提升效率。如果你是纯小白，那真的很难，至少得具备开发思维。

就像我在上半年的一期视频里说的，AI在这个阶段的特征是八个字：

遇强则强，遇弱则弱。

AI没那么万能，现在只是Copilot，需要Pilot很强才能用起来。你要是没那么强，那就等着，等到普及的那一天，等到离AGI很近的那一天，跟着受益，也可以。

OK，以上就是本期内容。想找我就来newtype社群。那咱们下期见！

如何搭建一套Agent系统 2024-08-31

Key Takeaway

Agent是AI智能体的核心，用于自动化执行任务，其搭建关键在于明确需求和工作流设计。
Multi-Agent System通过角色分工协作，解决复杂任务，例如Researcher、Editor和Note Taker的组合。
Agent除了大模型作为“大脑”，还需要工具作为“手脚”，如搜索工具（Tavily）和笔记工具（Obsidian）。
搭建Agent系统需要Python脚本，即使编程能力不高，也能通过现有脚本进行修改和拼装。
RAG和Agent是AI原生应用的关键技术，理解并实践它们能提升AI使用效率。

Full Content

我对自己的笔记系统做了一点小升级。

之前的系统只是“离线版”，只能根据已有的内容去生成新内容。

升级之后的系统就是“联机版”：增加了AI搜索、报告生成的功能。而且，全都搞定之后，还会自动生成一条笔记，省得我还要手动贴进Obsidian。

这些功能的背后，是Agent / AI智能体的能力。

我在上期视频介绍了Agent的基本概念。有些小伙伴说，想看看具体的案例。所以这期也算是一个简单的演示，让你知道Agent是怎么搭建的、怎么工作的。

现在虽然有不少工具，比如difi.ai之类的，能让你点几下鼠标就完成搭建。但是，要完全实现自己的需求，完全按照自己的心意来，还是得靠代码。

不过也不用担心，一是网上有很多现成的Python脚本，你稍微改一改、拼装一下，完全可以用；二是它也不要求你有多高的编程能力，看得懂就行。甚至你把它当成英语四级的阅读理解都OK。像我这种小学生水平都能上手，你肯定没问题。

OK，咱们进入正题。

Agent是用来干活儿的。所以，一切的出发点肯定是需求，越明确越好。

我的需求很简单，来自于我日常经常遇到的情况：

当我在Obsidian里整理笔记或者写东西的时候，经常会需要去查点资料。搜到好多个网页之后，我需要创建一条新笔记，把里边有用的内容提取出来，规整一下，变成一个比较有逻辑的东西，存在笔记里边，方便下一步处理。

这些繁琐的、技术含量不高的工作，我希望能交给几个Agent合作完成。

就像我在知识星球newtype里说的，搭建一套Multi-Agent System，最重要的是，你想让它怎么做。

所以，为了满足这个需求，需要三个角色，分别完成三个任务：

Researcher：负责上网查资料，然后把找到的内容汇总成一份报告。 Editor：它的内容能力强、文笔好，负责根据Researcher提供的报告，撰写一篇笔记。 Note Taker：它的任务很简单，就是在Obsidian里创建一条新笔记，然后把Editor写好的东西贴进去。

这是一个非常简单的分工，很好理解。难点在于给Agent配什么工具。

你可以把大模型看作是一个单独的大脑，就像科幻电影里的那种。它只有“思考”能力，没有行为能力。所以，Agent除了装上大模型这个大脑之外，还得拿上工具——咱不能人家不能空手去干，对吧？

根据分工内容，Agent需要用到两个工具：

搜索工具：有了这个，Agent才能联网搜索。笔记工具：Agent需要知道，笔记放在哪个位置，什么格式，以及新笔记的标题该叫啥。

关于搜索工具，今天已经有很多现成的了。比如Google、DuckduckGO，都可以直接用。我这边选择的是Tavily。他们提供的搜索API，专门为大模型和RAG优化过，效果挺好的。直接加两行代码就可以用。

关于笔记工具，这边需要动点脑子，因为Obsidian并没有提供一个接口让其它程序能够接入去创建笔记。不过，解法还是有的：

Obsidian的所有笔记都是md格式的。那么，咱们就直接在笔记所在的文件夹创建一个md格式的文件。也就是说，通过在外部创建笔记的方式，绕开在软件内创建的这一步。

所以，基于这个解法，就有了CustomTools这几行代码，指明了笔记文件夹的位置，以及文件名的规则——按照笔记创建的时间来命名。

当把这些组合在一起之后，就形成了这样一份脚本，包含这几部分：

基础设置，包括API Key是什么，具体的模型用哪个，以及工具的设置。刚才介绍过的那三个Agent，它们分别负责干什么，以及允许它们使用什么工具。分几个子任务完成，以及每一个子任务都由哪些Agent参与。

当把这些拼装完毕之后，运行脚本，等个十几秒，任务就完成了。

以后每次使用，我只需要把这一行修改了，也就是告诉Agent，让它帮我搜什么。

其实我也可以用Gradio添加一个可视化的界面。不过我自己使用就不讲究那么多了。

按照同样的逻辑，我们可以对这个脚本做一些修改。比如，输入一个公众号文章的链接，让Agent读取它，然后把内容全扒下来，做提炼和总结，最后存进笔记里，都可以。

我这边介绍的都是最简单的Workflow，主要是想让大家有个概念。真要是搞大一些的项目，整套系统设计会麻烦得多，会用到更多的工具和大模型，Agent之间以及Agent和用户之间的协作也会复杂起来。

OK以上就是本期内容。希望通过这期和上一期视频，大家能对Agent有一个基本的认知。还是那句话：RAG和Agent是用好AI的关键。大家有什么问题就来知识星球newtype找我。咱们下期见！

如何让ChatGPT做PPT 2024-08-31

Key Takeaway

ChatGPT无法直接生成PPT，但可以通过Marp和CSS语言作为桥梁，生成Markdown格式的代码，再转换为PPT。
Marp是一款能将Markdown文件转换为PPT的工具，其语法简单，能满足日常PPT需求。
结合VS Code和Marp for VS Code插件，用户可以实现ChatGPT生成PPT代码，并在VS Code中预览和导出。
这种方法的核心在于利用Markdown的简洁性和Marp的转换能力，将PPT内容和排版通过代码实现。
文章强调PPT的核心是逻辑而非花哨排版，Marp和CSS能满足日常需求，但生成的PPT无法手动修改，只能通过代码修改。

Full Content

我终于找到让ChatGPT做PPT的方法了。

ChatGPT逻辑好、能联网，让它生成文字内容没问题。但是，要它生成PPT的话，就有点难办了。因为它回给你的还是文字，需要你自己去创建一个PPT，然后手动贴进去做排版。

举个例子。我跟ChatGPT说：帮我写一份介绍本田Dax E的介绍PPT。

ChatGPT会勤勤恳恳地把每一页的内容都写给我。但是，就像刚才说的，这些都只是文字，离PPT还有点距离。

让我来换一个问法。跟ChatGPT说：使用Marp和CSS语言，帮我写一份介绍本田Dax E的PPT。

这时候，ChatGPT给到的不是文字，而是代码。当这一长串的代码都输出完毕后，整个复制下来，贴到VS Code里边。可以看到，右边出现了PPT的预览效果。

跟之前需要手搓的方法相比，现在只需要借助一个软件，也就是VS Code，只需要一个操作，也就是复制、粘贴，就能实现PPT的生成。

要把PPT导出也很简单：

在VS Code命令面板里选择“显示并运行命令”，然后选导出Slide Deck。根据默认选项，它是导出PDF格式。需要PPT的话，在格式列表里选上就OK。等个几秒，它导出后会自动打开。然后咱们打工人就看到非常熟悉的界面了。

我这边使用的方法，核心思路就是通过Marp语言作为桥梁。Marp指的就是Markdown Presentation Ecosystem。顾名思义，它可以把Markdown格式的文件转成PPT。

所以，ChatGPT或者别的AI工具负责按Markdown格式输出，把PPT里该有的内容都放在里边，然后一起交给Marp做转换。这个就是我说它是桥梁的原因。

关于Markdown，你如果之前用过很多生产力工具，比如我之前推荐的Obsidian，还有世界上最好的写作软件Ulysses，那你对Markdown应该不陌生。它的语法超级简单，比如一级、二级、三级标题，还有加粗、加序号、加图片之类的。这些换到PPT里边也是成立的——一般来说，PPT的内容主要是由文本块和图片构成。

而且，根据我这十几年做PPT的经验——请相信我，我在传播营销行业，我们这行业的人是地球上最会做PPT的一群人，越是成功的PPT，越不复杂。因为，PowerPoint的核心是Point；Point的核心是逻辑，不是那些花里胡哨的排版。所以，Marp语言本身对版式的支持，再加上CSS的能力，基本上能满足日常PPT需求。

OK，ChatGPT能输出Markdown，那么，该用什么显示和导出呢？工具有好几种。我选择的是VS Code，因为我平时写Python都是用它。所以我只需要再安装一个Marp for VS Code插件就好了。

就像刚才演示的那样，在VS Code里新建一个md格式的文件，把ChatGPT给的代码都贴进去。如果有任何地方要修改的话，就直接让ChatGPT改去，不管是内容还是版式，让它重新生成一遍。反正Plus包月了，不需要考虑token费用，可以让ChatGPT一直改到满意为止。

不过，从效率角度出发，我建议大家也别全依赖ChatGPT。弄差不多了就自己上手改改代码呗，反正挺简单的。

最后我要提醒两点：

第一，用这种方式生成的PPT，没法手动修改。要改的话只能回到代码里去修改。

第二，Marp的优点是简单、好上手。如果你觉得它太简单的话，还有别的，比如Slidev。这个真的挺复杂的，上手难度高，我之后在社群里分享吧。

OK，以上就是本期内容。想进一步交流的话，来newtype找我，我都在。那咱们下期见！

让Agent自动搜集每日资讯 2024-08-31

Key Takeaway

作者通过运行Python脚本，利用Agent自动搜集Reddit和全球媒体的AI相关资讯，生成每日简报“AI内参”。
有价值的AI内容主要在国外，掌握英文和直接学习源头信息至关重要。
Reddit的LocalLlaMa频道、Medium和YouTube是获取AI资讯和学习RAG、LangChain等技术的重要来源。
CrewAI和GPT Researcher是搭建Agent系统的实用工具，CrewAI适合自由搭建多Agent流程，GPT Researcher擅长资料搜集和报告生成。
Agent技术能帮助用户高效处理信息，提升信息获取和整理的效率。

Full Content

我每天起床的第一件事，是运行两个Python脚本。

由GPT-4驱动的Agent会帮我把AI相关的资讯和讨论全都搜集好。

信息来源有两个地方：

Reddit上的LocalLlaMa频道的讨论。
全球各大媒体报道的热门新闻。

这么做，最大的好处是，让我可以在一个集中的、完整的时间段内，把需要了解的信息都处理完毕。

当这件事儿了了之后，除非今天发生特别重大的事件，比如Sora或者GPT-5发布这种级别，否则我是不会再分心去看那些杂七杂八的文章。

这份由AI生成的关于AI的每日简报，我叫AI内参。

哈喽各位好，欢迎回到我的频道。我分享关于AI的Why和How。如果你想真正参与进来，把握住AI这个一生一遇的大机会的话，一定点个关注。我们一起探讨。

回到今天的主题：AI、大模型相关的信息来源和获取。

我知道大家对AI相关的资讯和知识非常饥渴。不过有一个很残酷的事实是：

有价值的内容，都在国外。

如果你不懂英文，只能看国内的二手消息，那真的很难不被割。

我分享一下我日常必看的几个来源。

Reddit/LocalLlaMa

如果你是从业者，或者对大模型技术已经有不错的了解的话，LocalLlaMa频道一定要看，讨论质量挺高的。

我随便打开两个帖子：

要学技术的话，这边有教程：这哥们用Mistral-7B进行微调，用它来做Agent的效果比Gemini Pro还好。他给出了具体方法。

要看新闻观点的话，这边也有懂哥：谷歌用Reddit数据去训练AI，这条新闻你怎么看？跟知乎一样，最高赞的是抖机灵：Garbage in, garbage out。不过还是有正经回答的：之所以用Reddit数据集，不是让AI学事实，而是让AI学怎么对话——这一下就make sense了。

LocalLlaMa频道的内容，我每天都会看。当然，是先用开头说的Python脚本帮我先筛选、汇总一遍，这个后边再介绍。

Medium

如果你想了解哪个技术，可以直接到Medium上搜，基本上都有文章详细讲解。而且这个平台的作者都非常有耐心，写得很详细。

比如这篇文章：Build a Personal AI Tech News Agent。作者从原理到AWS设置，等等，都手把手地教，算得上是保姆级教程了。

另外值得一提的是，Medium的推荐机制挺厉害的。推的都是我想看的内容。所以这个平台，除了我想搜什么的时候，我大概三天会主动上去看一圈，遇到好的文章会加个书签保存起来。

YouTube

我最早学RAG、LangChain等等用法，就是从油管的这两位老哥开始的。

第一位是Sam。他的Advanced RAG系列和LangChain系列都特别好，对我非常非常有帮助。另外，每当有新的热门大模型出现了，他都会出教学。

第二位是James。他同样也出了RAG和LangChain系列教学，并且着重介绍了怎么接入Pinecone之类的向量数据库。

入门的话，把他俩的视频看完，肯定就会了。而且视频里的代码，他们都用Google Colab的方式分享出来了，你可以直接在云端跑一遍、感受一下。

AI内参

我在开头说的两个Python脚本，都不是我写的，都来自于GitHub。

第一个脚本来自这位小姐姐。我是顺着她的油管频道找来的。

在脚本里，她用了CrewAI搭建一套包含三个Agent的流程。CrewAI是一个Agent框架，特别简单、直观，强烈推荐大家上手试试。

这个脚本的关键，其实是给Agent配上读取Reddit数据的工具。作者用了PRAW，也就是Python Reddit API Wrapper。它是一个Python包，允许你以编程方式访问和操作Reddit的数据。

前边介绍的Medium，其实我也尝试过用Agent去抓取数据，不过效果不好。有没有开放数据接口，差别还是很大的。

第二个脚本也是现成的，叫GPT Researcher。把GitHub仓库克隆下来，运行之后，会提供一个本地链接，打开就是这样一个可视化的界面。然后输入你想让它帮你搜集的信息就好。等差不多10秒钟，一份有模有样的简报就生成了。

让AI自动生成工作流 2024-08-31

Key Takeaway

作者分享了如何利用AI（特别是Claude）自动生成n8n工作流的方法。
n8n是一个开源的工作流程自动化工具，具有高度灵活性和广泛集成，并支持JSON格式的工作流导入导出。
n8n的MCP Trigger功能可以将工作流转化为可被外部系统调用的服务，实现“工作流即服务”。
通过配置n8n MCP，Claude可以生成JSON格式的工作流，实现AI生成、AI使用的闭环。
即使是复杂的工作流，如果出现错误，也可以通过将错误信息反馈给Claude进行修改。

Full Content

不会搭建工作流也没有关系，完全可以让AI自动生成。

你看这是我让Claude帮我搭建n8n的工作流。它会直接生成JSON文件。完成之后，我把文件里的代码复制，回到空白的n8n工作流里粘贴。最后把一些节点配置一下，这个工作流就可以使用了。

国内的小伙伴可能没怎么听过n8n。它是一个开源的工作流程自动化工具。n8n的灵活度非常高，而且集成非常广泛，从常见的Slack到各种数据库、CRM，它几乎是无所不包，所以在国外非常受欢迎。

对我来说，如果要用工作流的话，我首选就是n8n。除了刚才说的灵活性和高度集成之外，还有两个原因：

第一，n8n支持JSON格式的导入和导出。也就是说，整个工作流，包括节点、配置和连接，都可以被导出为一个JSON文件。同样，你也可以直接把将一个JSON文件导入进去，从而完整地复现一个工作流。

第二，n8n支持把工作流转化成MCP服务器。它在三个月前推出MCP Trigger功能。你只需要在开头添加一个MCP Server Trigger节点，工作流就变成了一个可以被外部系统通过MCP调用的服务，也就是：工作流即服务。

这两点结合在一起，就是一套AI“自产自销”的用法。就像我开头演示的那样，Claude可以直接生成JSON文件。把JSON文件导入，一个工作流就有了。然后，再把这个工作流转成MCP服务器输出给AI客户端使用。

AI生成，AI使用。这不就闭环了吗？

哈喽各位好，欢迎回到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我，就来我们newtype社群。这个社群已经运营500天，有超过1500位小伙伴付费加入啦。

回到今天的主题：让AI自动生成工作流。

要实现让Claude自动生成n8n工作流，需要安装n8n MCP。你可以把它理解为就是一个超大型n8n攻略。给Claude配上之后，它具备所有背景知识了。

要配置这个MCP非常简单，有手就行。

第一步，运行npx n8n-mcp这行命令。

第二步，在Claude的配置文件里，把几行贴进去。其中，链接和API Key替换成你自己的。

第三步，到Claude里创建一个项目。在Project Instructions里边，把这一大坨都复制粘贴进去。它的作用是，告诉Claude该怎么搭建工作流。

这三步完成之后，我们就可以开始生成了。为了演示，我直接从官方的Template里边挑了一个简单的工作流：

用户输入YouTube链接；通过Apify的服务获取Transcript；最后调用一个大模型对Transcript做总结。

回到Claude这边，把需求贴进去。Claude会先分析，并且提出问题，让咱们补充。等它获得所有信息之后，就会把项目的架构搭建好，然后开始生成JSON文档。

基本上简单的工作流一次就能搞定。复杂的工作流，如果出现报错的话，就把报错贴回来，让Claude修改。

等Claude生成和验证完毕之后，可以点击右上角的Copy按钮。回到n8n，直接粘贴，一个工作流就导入完成了。

而我们需要做的，就是把里边某些节点的配置完善了。比如Apify和OpenAI的节点，需要配置Credential才能运行。

你看，整个过程就是这么简单、直接。这就跟AI编程一样，只有你的需求清晰，Claude都可以搞定。我这边用的是Sonnet模型。大家还可以试试Opus模型，会更给力。

OK，以上就是本期内容。想了解AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。那咱们下期见！

Mac必装AI软件 0001-01-01

Key Takeaway

作者分享了MacBook Pro的配置选择，并解释了为何选择14寸M4 Pro而非16寸M4 Max，以及未来将重负载任务交给Mac Studio的规划。
推荐Mac用户安装AI相关软件，如ChatWise，它支持主流闭源模型和开源模型（如Ollama），并提供搜索和Artifacts等工具。
强调了OpenRouter作为统一API管理平台的重要性，避免了多平台注册和绑定信用卡的麻烦。
Cursor被认为是强大的AI编程工具，结合Claude 3.7更强大，并可用于知识库管理和AI辅助创作。
Obsidian及其AI插件Copilot被推荐用于个人知识库，实现笔记的AI对话和实时信息查询，并强调了数据处理的重要性。
建议个人AI工具选择简单轻量化，企业级才考虑重型引擎。
此外，还推荐了Input Source Pro（输入法提示）、Rectangle（窗口管理）、Raycast（快速搜索）和Manico（应用快捷键）等效率工具，以提升Mac使用体验。

Full Content

我把新款MacBook Pro买回来了。借着新机入手，我给大家分享一下，Mac都有哪些必装软件，尤其是AI方面。这些工具绝对能提高你的日常效率和幸福感。

我订的这台是M4 Pro芯片，统一内存加到48G，1T硬盘。为了方便对着屏幕拍摄，我还加钱上了纳米屏。那么，为什么不上128G的M4 Max？两个原因：

第一，16寸实在太大了。我去店里看过。带着跑来跑去，真不太方便。14寸对我来说刚刚好。

第二，下半年我准备买Mac Studio。根据业内大佬推测，苹果应该会在年中或者下半年推出Mac Studio，芯片是M4 Ultra，比现在的M4 Max还强大。而且按照M2 Ultra的样子，统一内存能加到192G，比MacBook顶配的128G大多了。这样的机子拿来跑大模型不香吗？

所以，我想来想去，还是决定把重负载任务都交给Mac Studio。MacBook Pro就专心负责移动场景，就不为难它了。而且，M4 Pro加上48G统一内存已经足够给力了。

我平时拍的这些视频都是4K 10bit 422的素材，用达芬奇剪辑。这台机子剪起来完全没压力。跑大模型的话，我也测了两个黄金尺寸的效果：14B能达到每秒21个Token；32B能达到11。这样的表现，我非常满意了。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经快1000人付费加入啦！

回到今天的主题：Mac必装软件。咱们先从AI相关的说起。

当你用了一段时间模型厂商出的应用——比如ChatGPT、Claude之后，大概率会希望通过API调用模型，以及试一试在本地运行开源大模型。两个原因：

一是更自由地体验更多的模型，并且用多少Token就付多少钱。二是更自由地去选择和组合一套工具，完全适配自己的习惯和需求，作为日常主力。

这个时候，你就需要一款像ChatWise一样的应用。

在闭源模型方面，主流的模型厂商和主流的算力平台它都支持，肯定有你想用的。

我知道大家最近为了DeepSeek注册了好几个算力平台。但是，要稳定使用的话，我建议用OpenRouter就好了，不用看别的。它不会像国内那些平台那样，总出幺蛾子——你想薅它羊毛，它想割你韭菜。在OpenRouter里，把API Key填进去，市面上所有的模型都可以选择。这就免去了你每家都得注册账号、绑定信用卡的麻烦。

在开源模型方面，大家常用的Ollama和LM Studio都有。像Ollama，你都不用做啥设置，保持软件运行就可以。ChatWise自动把所有模型都列出来了。我平时用最多的就是DeepSeek-R1 14B和Qwen2.5 14B。

光有模型不够，还得给模型配上工具。你看ChatGPT不就是在GPT模型的基础上，加了各种工具，比如搜索和画布。那到了ChatWise这边，同样也有这两个工具。

Artifacts就我之前夸过好多次，就不多说了。搜索方面，你可以用Google的免费API，也可以调用Tavily的。他们是一个专门为大模型优化过的搜索引擎。我之前自己写脚本的时候用过，挺不错的。

或者，还有一个更简单的方法，不用这些搜索引擎，直接用Perplexity的API。他们微调后的模型，有搜索、有推理，效果非常好。

ChatWise这些进阶功能需要付费才能解锁。如果你就是想要免费的，那可以用Cherry Studio。但我还是付费了。并不是冲着功能去的，只是因为它好看，用着舒服。我认为，在功能大差不差的情况下，外观和流畅度就成为选择的关键。

所以，除了Gemini 2.0和Grok 3我是在官方的网站上用，其它的模型，我全通过ChatWise加OpenRouter和Ollama来搞定。

OK，日常AI主力工具说完了，那还有两个补充。

一个是Cursor。市面上的AI编程软件很多，在细分领域各有所长。但综合来看，Cursor就是最强的，没有之一。再加上前几天Claude 3.7发布，Cursor当天就支持了。有了比3.5还强20%的3.7加持，Cursor现在更猛了。

除了编程，Cursor其实还有一些框架之外的奇怪用法。我在上一期“AI学习法”的视频里有介绍过。大家可以找来看看，肯定会有启发的。

另一个是Obsidian。更准确地说，是它的AI插件Copilot。对我来说，它的作用有两个：

第一，当我在写笔记的时候，可以直接在软件内跟AI对话，不需要切换到别的软件去。说真的，切来切去特别打断思路。而且，Copilot也可以连OpenRouter，用Perplexity的模型完成搜索，不用担心查不到实时信息。

MCP实用指南 0001-01-01

Key Takeaway

MCP（Model Control Protocol）是模型的超级外挂，能显著提升AI生产力，例如通过结合Claude和MCP实现低配版Deep Research。
Sequential Thinking MCP有助于模型进行多步骤推理，保持逻辑性和连贯性；Tavily MCP则提供优化过的搜索引擎功能。
MCP.so是寻找和托管MCP服务器的首选平台，其核心竞争力在于MCP Server Hosting。
推荐关注三类MCP服务器：搜索相关（如Perplexity, Tavily）、数据相关（如Filesystem, GitHub）和工具相关（与特定应用打通）。
MCP的通信方式取决于服务器部署位置：本地运行使用stdio（标准输入输出流），云端运行使用SSE（基于HTTP的远程通信）。
即使MCP服务器在本地运行，也可以通过调用远程API实现联网功能。
建议新手通过实践Tavily（SSE方式）和Filesystem（stdio方式）来理解和掌握MCP的使用。

Full Content

MCP就是模型的超级外挂。装上之后，你会发现，原来AI生产力可以这么高。

举个例子，我给Claude-3.7 Sonnet配上两个MCP，它就成了一个低配版的Deep Research应用。

一个MCP是Sequential Thinking。它是一种标准化的思考模式，可以让模型在处理多步骤推理任务的时候，保持逻辑性和连贯性。比如，把复杂任务分解成清晰的步骤。当有新的信息出现时，还能灵活调整思考路径。

另一个MCP是Tavily。这个之前介绍过，就是一个对模型优化过的搜索引擎。

有了它俩之后，你看，Claude就会边搜索、边思考；根据搜到的内容，调整思考的路径，然后进行下一轮搜索；当它觉得信息足够了，逻辑也完整了，就会输出最终的报告。

这么一大套流程下来，我用1美元的成本，换来了更高质量的回答。这说明了两点：

第一，OpenAI的Deep Research真的是贵有贵的道理。你看刚才那个思考和搜集的过程就知道，太费Token了。OpenAI那边肯定更复杂。

第二，MCP真的有用。我可以给你们看看对比。我把Sequential Thinking拿掉，只留联网搜索。同样的问题，模型给出的答案简单许多。

这个就是我最近一直在推MCP的原因。那么，我们要去哪里找MCP？找到之后又怎么使用呢？本期视频，我给大家做一个详细解答。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经超过1000人付费加入啦！

回到今天的主题：MCP实用指南。

咱们先说第一个问题：MCP哪里找？

如果你想用现成的MCP的话，那么，MCP导航网站就是你的首选。在这个领域，目前排名第一的，就是MCP.so。

MCP.so是国内明星开发者idoubi的项目。他之前做了好多项目，比如AI搜索引擎ThinkAny。我上期视频说，有人已经开始做MCP基础设施，指的就是他。

在MCP.so，已经有超过3000个服务器被收录。其实，它的核心竞争力不是导航——导航谁都能做，技术含量不高，它的核心竞争力是MCP Server Hosting。

对咱们用户来说，面对这么多服务器，该怎么挑呢？我建议，有这三种类型的服务器大家可以留意一下：

第一，搜索相关的。比如，Perplexity、Tavily都是搜索。Fetch、Firecrawl都是爬虫。

第二，数据相关的。比如，Filesystem能让模型调用本地文件，GitHub能让模型接入代码仓库。

第三，工具相关的。比如，Blender、Figma、Slack这些，你看名字就知道是跟什么应用打通了。

OK，现在大家知道去哪找，以及怎么挑MCP了。那么，如何接入、使用？

这个其实很好理解。你想嘛，既然它叫“服务器”，那么，这个服务器放在哪里，就决定了通信方式。

如果放在本地，跑在你自己的机子上，就用stdio；如果是跑在云端，比如MCP.so上边，就用SSE。

stdio就是标准输入输出流，通常用于本地通信。比如，Cursor、Claude、ChatWise之类的MCP客户端跟跑在同一台机子上的MCP服务器之间，通过标准输入（stdin）和标准输出（stdout）进行通信。

SSE则是一种基于HTTP的远程通信方式。MCP服务器远程托管。你本地的客户端通过SSE实现跨机器通信。

不太理解也没关系。我给你们看看实际的样子。

以ChatWise为例。在设置里的“工具”页面，点左下角的加号按钮，可以添加MCP服务器。在“类型”中，咱们可以选择stdio和SSE两种通信方式。

比如Sequential thinking，我是用stdio的方式。命令中的这一串其实就是GitHub上要求写的参数。因为它不需要API Key之类的东西，所以下边的环境变量就空着。

对于一些需要填写环境变量的MCP，比如Tavily，那就把API Key填进去。点击“查看工具”，ChatWise会尝试连接，然后把这个MCP下所有的工具都列出来。

那么，SSE是什么样的呢？

比如Firecrawl，我就是用SSE的方式。这个就简单多了，只需要把链接填进去。那么，链接哪来的？

还记得我刚才说的吗？如果MCP服务器跑在云端，那就通过SSE的方式连接。MCP.so就提供了这样的云端服务。

来到这个网站的Firecrawl页面，在右边填入你的API Key，点击“Connect”，它就会生成一个专属的链接。把这个链接复制下来，贴到ChatWise里边就搞定。