自动化
Key Takeaway
- Web Clipper插件的Interpreter功能能实现AI自动总结、提炼公众号文章,并保存到Obsidian,极大提升信息处理效率。
- 该插件支持桌面端和移动端,可根据预设模板和触发条件自动化剪藏流程。
- 用户可选择不同大模型(如GPT-4o mini、Claude、Gemini、Ollama)进行内容处理,并自定义笔记内容和存储位置。
- Interpreter的配置包括设定大模型、模板(行为、存储位置、触发条件、笔记内容、处理上下文)等。
- 文章强调了Web Clipper在信息搜集和预处理方面的重要性,以及其在减轻阅读压力方面的实用价值。
Full Content
如何用AI自动总结、提炼一篇公众号文章,并且把这些生成的内容和原文一起保存进Obsidian,成为一条笔记?
我强烈推荐大家试试Web Clipper这款插件。它有个功能叫Interpreter,就能实现刚才说的需求。我快速演示一下,非常简单:
在桌面端,如果要处理这篇公众号文章的话,点击浏览器右上角的插件按钮。这时,插件发现这是一篇公众号文章,自动选择了我事先设定好的模板,用我事先设置好的GPT-4o mini做两件事:
第一,总结整篇文章。这样我就知道它大体上是关于什么的。
第二,提炼文章要点。这样我就知道它里边的要点。
然后,我只需要点击保存,刚才这两个部分会放在开头,后边跟上整篇文章的内容,全部打包成为一条笔记,存进Obsidian里边。
这整个过程我只点了两下,其它都是自动完成的。在移动端也是基本类似的操作。
用Safari打开公众号文章之后,点击地址栏左边的按钮,然后在扩展列表里点击插件,这时会出现跟桌面端基本一样的界面。这时再点击右边的Interpret,模型就会自动按照设定好的要求去处理文章。几秒钟之后,再点击保存就搞定了。
因为需求很简单,就是总结和提炼,所以在模型的选择上,我用了速度快、价格便宜的GPT-4o mini。你也用别的,比如Claude或者Gemini。
如果你注册御三家的账号有困难,还可以选择OpenRouter这样的第三方平台,它集成了市面上所有的主流模型。
如果你就是一分钱也不想花也OK,这款插件还支持Ollama。你就在机子上跑个小一点的模型,也很舒服。像Qwen就提供了好多参数的版本,看着挑就好。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有600多位小伙伴付费加入啦!
回到今天的主题:Web Clipper的Interpreter功能。
这是我做的第三个关于这款插件的视频。大家如果需要基础操作的讲解的话,去翻我之前的。
我之所以这么看中它是因为,信息的搜集和预处理真的非常重要。我在半年多前还特意写过一个脚本,创建了一个Agent Workflow,专门实现刚才演示的那些功能。现在人家一个插件就搞定了,而且还支持移动端。
要配置Interpreter很简单,就两个步骤:
第一步,设定大模型。
点击Add Provider,在弹出界面里选择模型提供方。不同的提供方有不同的Base URL。大家如果之前写过脚本的话,对这个应该非常熟悉。
填完链接和API Key之后,还需要配置一下模型。因为一款模型可能有多个提供方,比如OpenAI和OpenRouter都有GPT系列,所以这边一定要选好。
至于Model ID,一定要按官方的格式填。不知道的话,就去后台看,每一款模型的ID肯定会有。
这两步搞定之后,Interpreter就算设置好了。接下来是模板的设置。我从上往下介绍。
Behavior指的是让插件怎么做,比如是创建一条新笔记,还是在现有的笔记后边做补充。
Note Location和Vault是告诉插件,把笔记存到哪个位置。
Template Triggers就是触发条件。当条件满足的时候,插件会自动选择这个模板,就省去你手动选择的麻烦。我这边设定的条件是公众号文章的网址。
Note Content就是创建的笔记需要包含什么内容。我设定了三个:1、Summary;2、Key Facts;3、全文。大家可以根据自己的需要做调整。
Interpreter Context就是你希望插件处理哪部分的内容。我在这边填Content,意思就是让它处理整篇文章。这个大家也可以根据自己的需求去修改,比如让插件只抓取网页某个部分的内容。
做完这两个部分的设置后,Web Clipper插件就会自动选择模板、自动做总结和提炼。这个对减轻我们平时的阅读压力真的很有帮助。大家看完了一定试试。
OK,以上就是本期内容。想聊AI,就来我们newtype社群。那咱们下期见!
Key Takeaway
- ChatGPT在iPhone上效率不高,因为它没有与系统和其它APP打通,无法自动化运行。
- 利用iPhone的快捷指令功能,可以实现ChatGPT的自动化操作,如自动总结公众号文章、语音问答和内容创作。
- 快捷指令的核心逻辑是:输入(网页文字、语音转文本)-> 处理(ChatGPT总结、回答)-> 输出(Markdown格式笔记到备忘录)。
- 这种自动化工作流能显著提升ChatGPT的使用效率和便捷性,弥补其作为聊天机器人的局限。
- 文章通过“总结GPT”、“问答GPT”和“灵感GPT”三个快捷指令示例,展示了ChatGPT在个人生产力中的应用。
Full Content
ChatGPT在iPhone上还不够好用。主要原因是,它没有跟系统和其它APP打通,没法自动化运行,效率不高。所以,它还只是一个聊天机器人——每次都得打开APP才能用,然后还得输入一堆东西——难怪用户使用频率不高,这也太麻烦了。
在现阶段,要让iPhone上的ChatGPT有用起来,你肯定要用到快捷指令这个功能。我先演示一下我是怎么用的,再详细介绍怎么设置。
我相信大家都很头大这样的事儿:每天要看的公众号文章根本看不过来。怎么搞?
首先,用Google Chrome打开这篇文章。
然后,点击地址栏右边的分享按钮,选择最顶端的快捷指令(我设置的名称叫“总结GPT”)。
最后,稍等一会儿,ChatGPT就会按照我事先设置好的要求,用GPT-4o这个最新的模型,总结文章的核心内容,提炼文章的Key Points,并且在备忘录的指定文件夹里创建一条新笔记,把这些内容都用Markdown格式存进去。
这么做的好处是:
第一,我就不用在APP之间手动切换、各种输入——现在用快捷指令自动化完成,这显然方便多了。
第二,虽然ChatGPT里会有聊天记录,但我还是让它存到备忘录里了。因为备忘录是系统自带的,在iOS和macOS之间同步非常快。这样一来,我回到Mac上就可以直接编辑了。而且它是Markdown格式,我还可以把它贴到写作软件或者笔记软件里进一步处理。
刚才这个是“总结GPT”。按照同样的思路,我还设置了一个“问答GPT”,也是用语音输入。
比如我问:机械键盘的主流轴都有哪些区别?比如红轴、青轴等等。
接到一段语音输入后,这个快捷指令会先把语音转化成文字、给到ChatGPT。
然后,根据我事先的设置,ChatGPT回答完问题之后,同样会用Markdown格式,把内容存到备忘录里,方便我之后查找和编辑。
这两个快捷指令是我平时用得最频繁的。除此之外,还有“灵感GPT”:
当我有任何内容方面的想法时,就像刚才“问答GPT”那样,用语音的方式全部给到GPT。它会把我的那些零散的表述有逻辑地整理一遍,变成一个内容框架,然后往里边做补充和扩展。
你如果看过我上一期视频就会发现,这其实是在用快捷指令去搭建一套简易的Agent Workflow。在新版iOS、新版Siri出来之前,咱们先用这种方式实现AI自动化。
接下来,我拿刚才那个“灵感GPT”给大家详细讲解一下。这三个快捷指令,我已经把iCloud链接分享到知识星球和Patreon里了,newtype社群的小伙伴可以直接拿去用。包括这期视频,我也会在社群内首发,算是给大家的“超前点映”。
就像上期视频里说的那样,一般来说,一套Agent Workflow的起点是用户输入。在“灵感GPT”里,咱们是用语音转成文字,所以要用到“听写文本”这个功能。在“听写文本”的设置中,大家记得点开下拉列表,选择语言,否则会报错。
有了初始输入之后,第二步,咱们要添加一个“文本”,在里边写一段Prompt,把对AI的要求交代清楚,并且把第一步的内容贴在后边,就像我这样。这一整个文本,就是接下来要给到AI去处理的信息。
第三步,添加“询问ChatGPT”,把“文本”加进去。在下拉列表中,把“开始新聊天”勾选上,然后就可以选择要用哪个模型了。
第四步,再添加一个“文本”,把GPT的回答都放进去。你可以在文本的开头添加一些描述,比如我写的是“From GPT”,这样我就知道,这条笔记是AI生成的。
第五步,添加“备忘录”,选择事先创建好的文件夹,让GPT在里边新建一条备忘录,把上一步的文本都存进去,这样就大功告成了。
另外两个快捷指令也是同样的思路。其实这整套Workflow的核心就三个步骤,很好理解:
第一,初始信息从哪来(输入)?是网页里的文字,是语音转文本,还是一张照片?这个需要设置清楚。
第二,你要GPT帮你干啥(处理)?我一般会添加一个“文本”,把固定的指令和每次的需求都放进去。然后把整个文本给到GPT。
第三,你要什么样的结果(输出)?就像我刚才演示的,以备忘录加Markdown做输出。
输入、处理、输出,把这套逻辑想清楚了,你就知道怎么用快捷指令和ChatGPT去搭建一套简易的工作流了。
OK,以上就是本期内容。大家有什么想聊的,可以来newtype找我。那咱们下期见!
Key Takeaway
- Cursor作为编程软件,天生具备RAG能力,能对本地文件进行索引和处理,使其成为强大的知识库应用。
- Cursor与Obsidian的本地化存储特性完美结合,用户可以通过Cursor直接操作和利用Obsidian的笔记文件。
- 通过创建
cursorrules
文档,用户可以自定义Cursor的工作方式,例如优先检索本地文档、进行联网搜索,并调用特定的MCPs(如Markitdown用于PDF转换,Sequential Thinking用于复杂问题拆解)。 - Cursor的Composer功能和聊天功能可以对笔记进行总结、提炼和扩写,充当Obsidian的“超级AI插件”。
- 这种组合工作流能够兼顾本地知识和网络信息,提供逻辑性强的答案,极大提升知识管理和创作效率。
Full Content
最好用的知识库应用,就是Cursor,没有之一!
你们经常看我发的视频就知道,过去一年多,我用了太多太多知识工具。越用越发现:大道至简,用Cursor就可以了。
你想嘛,RAG能力Cursor本来就有。它是个编程软件。既然要编程,肯定得了解所有代码的情况。所以,当Cursor打开文件夹之后,就会对文件夹内的所有文档进行索引和哈希处理。像Markdown之类的文件,它会进行切块、嵌入向量。
所以,知识库应用该有的RAG能力,Cursor天生就有。不管是代码还是纯文本,它都能一样处理。而且,因为它要写代码,所以肯定要有创建文档、修改文档的能力。这就意味着,它可以帮我们直接写笔记、写文章,对吧?
这还没完。Cursor本身具备搜索能力。你不用特意添加什么工具,它就可以联网搜索,甚至直接打开一个网页。
最后,只要出现了最先进的模型,Cursor一定会第一时间支持。所以这20美元的订阅,我个人认为是非常非常划算的。当然,如果你不想用Cursor的模型,也可以填自己的API Key进去。
那么,我们该怎么用Cursor配合自己的文档进行工作呢?
我的经验是,一定要创建一个cursorrules文档。这个文档放在根目录下,用来告诉Cursor必须遵守哪些项目规则。我给你们演示一下。
你看,我在文档里规定了:
第一,回答之前都必须首先检索文件夹内的所有文档,看看有没有相关的内容可以作为上下文。
第二,光查了本地文档还不够,还得联网搜索,这样信息才齐全。
除了这两个基本要求,我还给Cursor配了两个MCP:
如果遇上PDF文档,就用Markitdown这个MCP做转化。不然Cursor就得写个Python脚本进行处理,就非常麻烦了。
如果问题有点复杂,那就用Sequential Thinking进行拆解、组织内容,这样逻辑性才强。
这两个MCP的用途和触发条件,我都给Cursor写明白了。
最后,我还附上了一个示例,包含每一步怎么处理,清清楚楚。AI绝对可以理解。
有了这一大套底层规则,Cursor就知道怎么跟我配合了。
比如我问它:如何在本地部署知识库?
首先,它花了几秒钟思考这个问题。因为我把Thinking选项打开了。
接着,它把文件夹内的文档检索了一遍。
然后,联网搜索,进一步补充信息。
最后,用Sequential Thinking对所有内容进行梳理,把逻辑整理清楚。
你看,使用这种方法,这样的流程跑下来,知识库里的内容和网上的内容都兼顾了,获得的答案逻辑性也很强。这个就是我说Cursor 最强知识库应用的原因。
我刚才演示的规则是我的需求。大家可以根据自己的需求做修改。其实你让Cursor帮你写也是可以的。
OK,以上就是本期内容。想交流AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!
Key Takeaway
- Replit Agent是一款激进的AI编程工具,能通过Agent完成环境设置、代码撰写和项目部署,实现云端开发。
- Replit Agent的模式类似于“厨师服务团队”,用户只需提供需求,Agent负责具体执行,适合快速原型开发。
- Replit Agent与Cursor等工具相比,更侧重于自动化,减少人工参与。
- Replit Agent支持H5页面等简单项目开发,但对于复杂项目仍有局限性。
- 文章强调AI编程工具能极大提升效率,但仍需用户具备开发思维,AI目前处于“遇强则强,遇弱则弱”的阶段。
Full Content
大模型火了快两年,没想到,第一个爆发的赛道是AI编程。
最近新出的Replit Agent特别激进。从环境设置、代码撰写到项目部署,它用Agent全部搞定。过程中,有时会询问你的意见,比如这个UI和你预期的样子是不是一样。其它时间Replit Agent都是在埋头干活。
整个开发是在云端完成的,用它的环境,这一点挺省心的。更重要的是,这意味着你随便用什么设备都可以,手机也OK。一旦有想法了,可以快速完成原型开发。然后把整个项目的压缩包下载下来,在本地做进一步处理。
Replit Agent的这种模式让我想起了农村的厨师服务团队,专门搞红白喜事的那种。厨师、厨具、餐具、桌椅,甚至食材和调料,他们全都提供。你就负责吃席就好。
相比之下,Cursor是一种人机Co-work的模式,还是需要人的大量参与。而再早之前的GitHub Copilot就更落后了,我觉得它只能算是一种智能代码补全。
为了测试,我拿Replit做了一个简单的H5页面。用户输入API Key之后,可以选择OpenAI的模型,然后对话。
需求给过去之后,Replit会先做分析,并且还会根据它的理解,给你一些选项,看你要不要也一并完善了。这一步其实是在做需求确认。大家如果服务过甲方就知道,如果需求对不清楚,那这项目大概率会很痛苦。
开工之后,Replit自动做环境的部署,把需要的包都下载、安装,然后编写代码、配置数据库等等。
因为项目比较简单,所以测试过程很顺利。调用OpenAI模型对话一次就成功了。剩下的都是小修小补,比如UI上删除一些不需要的元素,简单说一句就搞定。
Replit虽然不能说中文,但是你用中文它也能懂。不过我还是建议用英文,避免中文翻译成英文有歧义。四级水平的英文就足够和AI交流了,它都懂的。
到了部署环节,其实也没什么好调整的,Replit都帮你设置好了,直接点开始就OK。等进度条走到头,Replit会提供一个链接,那就是咱们的H5页面了。桌面端试了一下,完全正常。在手机上打开,也可以使用。
Replit支持Auto-scale,也就是说,如果访问量大的话,它会自动升级配置,保证项目的运行。在后台可以看到数据分析。如果你自己有域名的话,也可以在后台绑定域名。
看到这里你应该就明白,为什么我说Replit像农村的厨师服务团队了。不过,现在这个团队能力还不太行,搞些小活儿没问题,比如H5这种,碰上复杂点的项目就整不动了。
我在前一天让Replit做一个微信小程序,也是接OpenAI API的聊天机器人。整个过程就挺闹心的。Replit总让我帮它检查这、检查那的,甚至让我帮它看看Python文档有没问题——这谁给谁干活啊。到了部署环节,最后一步死活进行不下去,也找不出原因,然后就卡在这里了。
所以我估计,Replit至少还得花个半年时间去迭代吧。现阶段我就不订阅了,还是继续用Cursor比较靠谱。
给大家看看,我用Cursor把个人博客做出来了。我这些视频的文字稿,还有我日常的阅读清单,都会在博客上发布。后续我准备用Cursor做一个聊天机器人,用上RAG,把我的个人知识库接进去,开放给大家使用。
对于现在这些AI编程工具,我发现有两派观点:一派觉得这些工具都是垃圾,一派觉得这些工具可以替代程序员。这两派我都不赞成。我觉得现在的AI处于中间地带,没法替代,但是可以极大提升效率。如果你是纯小白,那真的很难,至少得具备开发思维。
就像我在上半年的一期视频里说的,AI在这个阶段的特征是八个字:
遇强则强,遇弱则弱。
AI没那么万能,现在只是Copilot,需要Pilot很强才能用起来。你要是没那么强,那就等着,等到普及的那一天,等到离AGI很近的那一天,跟着受益,也可以。
OK,以上就是本期内容。想找我就来newtype社群。那咱们下期见!
Key Takeaway
- Agent是AI智能体的核心,用于自动化执行任务,其搭建关键在于明确需求和工作流设计。
- Multi-Agent System通过角色分工协作,解决复杂任务,例如Researcher、Editor和Note Taker的组合。
- Agent除了大模型作为“大脑”,还需要工具作为“手脚”,如搜索工具(Tavily)和笔记工具(Obsidian)。
- 搭建Agent系统需要Python脚本,即使编程能力不高,也能通过现有脚本进行修改和拼装。
- RAG和Agent是AI原生应用的关键技术,理解并实践它们能提升AI使用效率。
Full Content
我对自己的笔记系统做了一点小升级。
之前的系统只是“离线版”,只能根据已有的内容去生成新内容。
升级之后的系统就是“联机版”:增加了AI搜索、报告生成的功能。而且,全都搞定之后,还会自动生成一条笔记,省得我还要手动贴进Obsidian。
这些功能的背后,是Agent / AI智能体的能力。
我在上期视频介绍了Agent的基本概念。有些小伙伴说,想看看具体的案例。所以这期也算是一个简单的演示,让你知道Agent是怎么搭建的、怎么工作的。
现在虽然有不少工具,比如difi.ai之类的,能让你点几下鼠标就完成搭建。但是,要完全实现自己的需求,完全按照自己的心意来,还是得靠代码。
不过也不用担心,一是网上有很多现成的Python脚本,你稍微改一改、拼装一下,完全可以用;二是它也不要求你有多高的编程能力,看得懂就行。甚至你把它当成英语四级的阅读理解都OK。像我这种小学生水平都能上手,你肯定没问题。
OK,咱们进入正题。
Agent是用来干活儿的。所以,一切的出发点肯定是需求,越明确越好。
我的需求很简单,来自于我日常经常遇到的情况:
当我在Obsidian里整理笔记或者写东西的时候,经常会需要去查点资料。搜到好多个网页之后,我需要创建一条新笔记,把里边有用的内容提取出来,规整一下,变成一个比较有逻辑的东西,存在笔记里边,方便下一步处理。
这些繁琐的、技术含量不高的工作,我希望能交给几个Agent合作完成。
就像我在知识星球newtype里说的,搭建一套Multi-Agent System,最重要的是,你想让它怎么做。
所以,为了满足这个需求,需要三个角色,分别完成三个任务:
Researcher:负责上网查资料,然后把找到的内容汇总成一份报告。 Editor:它的内容能力强、文笔好,负责根据Researcher提供的报告,撰写一篇笔记。 Note Taker:它的任务很简单,就是在Obsidian里创建一条新笔记,然后把Editor写好的东西贴进去。
这是一个非常简单的分工,很好理解。难点在于给Agent配什么工具。
你可以把大模型看作是一个单独的大脑,就像科幻电影里的那种。它只有“思考”能力,没有行为能力。所以,Agent除了装上大模型这个大脑之外,还得拿上工具——咱不能人家不能空手去干,对吧?
根据分工内容,Agent需要用到两个工具:
搜索工具:有了这个,Agent才能联网搜索。 笔记工具:Agent需要知道,笔记放在哪个位置,什么格式,以及新笔记的标题该叫啥。
关于搜索工具,今天已经有很多现成的了。比如Google、DuckduckGO,都可以直接用。我这边选择的是Tavily。他们提供的搜索API,专门为大模型和RAG优化过,效果挺好的。直接加两行代码就可以用。
关于笔记工具,这边需要动点脑子,因为Obsidian并没有提供一个接口让其它程序能够接入去创建笔记。不过,解法还是有的:
Obsidian的所有笔记都是md格式的。那么,咱们就直接在笔记所在的文件夹创建一个md格式的文件。也就是说,通过在外部创建笔记的方式,绕开在软件内创建的这一步。
所以,基于这个解法,就有了CustomTools这几行代码,指明了笔记文件夹的位置,以及文件名的规则——按照笔记创建的时间来命名。
当把这些组合在一起之后,就形成了这样一份脚本,包含这几部分:
基础设置,包括API Key是什么,具体的模型用哪个,以及工具的设置。 刚才介绍过的那三个Agent,它们分别负责干什么,以及允许它们使用什么工具。 分几个子任务完成,以及每一个子任务都由哪些Agent参与。
当把这些拼装完毕之后,运行脚本,等个十几秒,任务就完成了。
以后每次使用,我只需要把这一行修改了,也就是告诉Agent,让它帮我搜什么。
其实我也可以用Gradio添加一个可视化的界面。不过我自己使用就不讲究那么多了。
按照同样的逻辑,我们可以对这个脚本做一些修改。比如,输入一个公众号文章的链接,让Agent读取它,然后把内容全扒下来,做提炼和总结,最后存进笔记里,都可以。
我这边介绍的都是最简单的Workflow,主要是想让大家有个概念。真要是搞大一些的项目,整套系统设计会麻烦得多,会用到更多的工具和大模型,Agent之间以及Agent和用户之间的协作也会复杂起来。
OK以上就是本期内容。希望通过这期和上一期视频,大家能对Agent有一个基本的认知。还是那句话:RAG和Agent是用好AI的关键。大家有什么问题就来知识星球newtype找我。咱们下期见!
Key Takeaway
- ChatGPT无法直接生成PPT,但可以通过Marp和CSS语言作为桥梁,生成Markdown格式的代码,再转换为PPT。
- Marp是一款能将Markdown文件转换为PPT的工具,其语法简单,能满足日常PPT需求。
- 结合VS Code和Marp for VS Code插件,用户可以实现ChatGPT生成PPT代码,并在VS Code中预览和导出。
- 这种方法的核心在于利用Markdown的简洁性和Marp的转换能力,将PPT内容和排版通过代码实现。
- 文章强调PPT的核心是逻辑而非花哨排版,Marp和CSS能满足日常需求,但生成的PPT无法手动修改,只能通过代码修改。
Full Content
我终于找到让ChatGPT做PPT的方法了。
ChatGPT逻辑好、能联网,让它生成文字内容没问题。但是,要它生成PPT的话,就有点难办了。因为它回给你的还是文字,需要你自己去创建一个PPT,然后手动贴进去做排版。
举个例子。我跟ChatGPT说:帮我写一份介绍本田Dax E的介绍PPT。
ChatGPT会勤勤恳恳地把每一页的内容都写给我。但是,就像刚才说的,这些都只是文字,离PPT还有点距离。
让我来换一个问法。跟ChatGPT说:使用Marp和CSS语言,帮我写一份介绍本田Dax E的PPT。
这时候,ChatGPT给到的不是文字,而是代码。当这一长串的代码都输出完毕后,整个复制下来,贴到VS Code里边。可以看到,右边出现了PPT的预览效果。
跟之前需要手搓的方法相比,现在只需要借助一个软件,也就是VS Code,只需要一个操作,也就是复制、粘贴,就能实现PPT的生成。
要把PPT导出也很简单:
在VS Code命令面板里选择“显示并运行命令”,然后选导出Slide Deck。根据默认选项,它是导出PDF格式。需要PPT的话,在格式列表里选上就OK。等个几秒,它导出后会自动打开。然后咱们打工人就看到非常熟悉的界面了。
我这边使用的方法,核心思路就是通过Marp语言作为桥梁。Marp指的就是Markdown Presentation Ecosystem。顾名思义,它可以把Markdown格式的文件转成PPT。
所以,ChatGPT或者别的AI工具负责按Markdown格式输出,把PPT里该有的内容都放在里边,然后一起交给Marp做转换。这个就是我说它是桥梁的原因。
关于Markdown,你如果之前用过很多生产力工具,比如我之前推荐的Obsidian,还有世界上最好的写作软件Ulysses,那你对Markdown应该不陌生。它的语法超级简单,比如一级、二级、三级标题,还有加粗、加序号、加图片之类的。这些换到PPT里边也是成立的——一般来说,PPT的内容主要是由文本块和图片构成。
而且,根据我这十几年做PPT的经验——请相信我,我在传播营销行业,我们这行业的人是地球上最会做PPT的一群人,越是成功的PPT,越不复杂。因为,PowerPoint的核心是Point;Point的核心是逻辑,不是那些花里胡哨的排版。所以,Marp语言本身对版式的支持,再加上CSS的能力,基本上能满足日常PPT需求。
OK,ChatGPT能输出Markdown,那么,该用什么显示和导出呢?工具有好几种。我选择的是VS Code,因为我平时写Python都是用它。所以我只需要再安装一个Marp for VS Code插件就好了。
就像刚才演示的那样,在VS Code里新建一个md格式的文件,把ChatGPT给的代码都贴进去。如果有任何地方要修改的话,就直接让ChatGPT改去,不管是内容还是版式,让它重新生成一遍。反正Plus包月了,不需要考虑token费用,可以让ChatGPT一直改到满意为止。
不过,从效率角度出发,我建议大家也别全依赖ChatGPT。弄差不多了就自己上手改改代码呗,反正挺简单的。
最后我要提醒两点:
第一,用这种方式生成的PPT,没法手动修改。要改的话只能回到代码里去修改。
第二,Marp的优点是简单、好上手。如果你觉得它太简单的话,还有别的,比如Slidev。这个真的挺复杂的,上手难度高,我之后在社群里分享吧。
OK,以上就是本期内容。想进一步交流的话,来newtype找我,我都在。那咱们下期见!
Key Takeaway
- 作者通过运行Python脚本,利用Agent自动搜集Reddit和全球媒体的AI相关资讯,生成每日简报“AI内参”。
- 有价值的AI内容主要在国外,掌握英文和直接学习源头信息至关重要。
- Reddit的LocalLlaMa频道、Medium和YouTube是获取AI资讯和学习RAG、LangChain等技术的重要来源。
- CrewAI和GPT Researcher是搭建Agent系统的实用工具,CrewAI适合自由搭建多Agent流程,GPT Researcher擅长资料搜集和报告生成。
- Agent技术能帮助用户高效处理信息,提升信息获取和整理的效率。
Full Content
我每天起床的第一件事,是运行两个Python脚本。
由GPT-4驱动的Agent会帮我把AI相关的资讯和讨论全都搜集好。
信息来源有两个地方:
- Reddit上的LocalLlaMa频道的讨论。
- 全球各大媒体报道的热门新闻。
这么做,最大的好处是,让我可以在一个集中的、完整的时间段内,把需要了解的信息都处理完毕。
当这件事儿了了之后,除非今天发生特别重大的事件,比如Sora或者GPT-5发布这种级别,否则我是不会再分心去看那些杂七杂八的文章。
这份由AI生成的关于AI的每日简报,我叫AI内参。
哈喽各位好,欢迎回到我的频道。我分享关于AI的Why和How。如果你想真正参与进来,把握住AI这个一生一遇的大机会的话,一定点个关注。我们一起探讨。
回到今天的主题:AI、大模型相关的信息来源和获取。
我知道大家对AI相关的资讯和知识非常饥渴。不过有一个很残酷的事实是:
有价值的内容,都在国外。
如果你不懂英文,只能看国内的二手消息,那真的很难不被割。
我分享一下我日常必看的几个来源。
Reddit/LocalLlaMa
如果你是从业者,或者对大模型技术已经有不错的了解的话,LocalLlaMa频道一定要看,讨论质量挺高的。
我随便打开两个帖子:
要学技术的话,这边有教程:这哥们用Mistral-7B进行微调,用它来做Agent的效果比Gemini Pro还好。他给出了具体方法。
要看新闻观点的话,这边也有懂哥:谷歌用Reddit数据去训练AI,这条新闻你怎么看?跟知乎一样,最高赞的是抖机灵:Garbage in, garbage out。不过还是有正经回答的:之所以用Reddit数据集,不是让AI学事实,而是让AI学怎么对话——这一下就make sense了。
LocalLlaMa频道的内容,我每天都会看。当然,是先用开头说的Python脚本帮我先筛选、汇总一遍,这个后边再介绍。
Medium
如果你想了解哪个技术,可以直接到Medium上搜,基本上都有文章详细讲解。而且这个平台的作者都非常有耐心,写得很详细。
比如这篇文章:Build a Personal AI Tech News Agent。作者从原理到AWS设置,等等,都手把手地教,算得上是保姆级教程了。
另外值得一提的是,Medium的推荐机制挺厉害的。推的都是我想看的内容。所以这个平台,除了我想搜什么的时候,我大概三天会主动上去看一圈,遇到好的文章会加个书签保存起来。
YouTube
我最早学RAG、LangChain等等用法,就是从油管的这两位老哥开始的。
第一位是Sam。他的Advanced RAG系列和LangChain系列都特别好,对我非常非常有帮助。另外,每当有新的热门大模型出现了,他都会出教学。
第二位是James。他同样也出了RAG和LangChain系列教学,并且着重介绍了怎么接入Pinecone之类的向量数据库。
入门的话,把他俩的视频看完,肯定就会了。而且视频里的代码,他们都用Google Colab的方式分享出来了,你可以直接在云端跑一遍、感受一下。
AI内参
我在开头说的两个Python脚本,都不是我写的,都来自于GitHub。
第一个脚本来自这位小姐姐。我是顺着她的油管频道找来的。
在脚本里,她用了CrewAI搭建一套包含三个Agent的流程。CrewAI是一个Agent框架,特别简单、直观,强烈推荐大家上手试试。
这个脚本的关键,其实是给Agent配上读取Reddit数据的工具。作者用了PRAW,也就是Python Reddit API Wrapper。它是一个Python包,允许你以编程方式访问和操作Reddit的数据。
前边介绍的Medium,其实我也尝试过用Agent去抓取数据,不过效果不好。有没有开放数据接口,差别还是很大的。
第二个脚本也是现成的,叫GPT Researcher。把GitHub仓库克隆下来,运行之后,会提供一个本地链接,打开就是这样一个可视化的界面。然后输入你想让它帮你搜集的信息就好。等差不多10秒钟,一份有模有样的简报就生成了。
Key Takeaway
- 作者分享了如何利用AI(特别是Claude)自动生成n8n工作流的方法。
- n8n是一个开源的工作流程自动化工具,具有高度灵活性和广泛集成,并支持JSON格式的工作流导入导出。
- n8n的MCP Trigger功能可以将工作流转化为可被外部系统调用的服务,实现“工作流即服务”。
- 通过配置n8n MCP,Claude可以生成JSON格式的工作流,实现AI生成、AI使用的闭环。
- 即使是复杂的工作流,如果出现错误,也可以通过将错误信息反馈给Claude进行修改。
Full Content
不会搭建工作流也没有关系,完全可以让AI自动生成。
你看这是我让Claude帮我搭建n8n的工作流。它会直接生成JSON文件。完成之后,我把文件里的代码复制,回到空白的n8n工作流里粘贴。最后把一些节点配置一下,这个工作流就可以使用了。
国内的小伙伴可能没怎么听过n8n。它是一个开源的工作流程自动化工具。n8n的灵活度非常高,而且集成非常广泛,从常见的Slack到各种数据库、CRM,它几乎是无所不包,所以在国外非常受欢迎。
对我来说,如果要用工作流的话,我首选就是n8n。除了刚才说的灵活性和高度集成之外,还有两个原因:
第一,n8n支持JSON格式的导入和导出。也就是说,整个工作流,包括节点、配置和连接,都可以被导出为一个JSON文件。同样,你也可以直接把将一个JSON文件导入进去,从而完整地复现一个工作流。
第二,n8n支持把工作流转化成MCP服务器。它在三个月前推出MCP Trigger功能。你只需要在开头添加一个MCP Server Trigger节点,工作流就变成了一个可以被外部系统通过MCP调用的服务,也就是:工作流即服务。
这两点结合在一起,就是一套AI“自产自销”的用法。就像我开头演示的那样,Claude可以直接生成JSON文件。把JSON文件导入,一个工作流就有了。然后,再把这个工作流转成MCP服务器输出给AI客户端使用。
AI生成,AI使用。这不就闭环了吗?
哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。这个社群已经运营500天,有超过1500位小伙伴付费加入啦。
回到今天的主题:让AI自动生成工作流。
要实现让Claude自动生成n8n工作流,需要安装n8n MCP。你可以把它理解为就是一个超大型n8n攻略。给Claude配上之后,它具备所有背景知识了。
要配置这个MCP非常简单,有手就行。
第一步,运行npx n8n-mcp这行命令。
第二步,在Claude的配置文件里,把几行贴进去。其中,链接和API Key替换成你自己的。
第三步,到Claude里创建一个项目。在Project Instructions里边,把这一大坨都复制粘贴进去。它的作用是,告诉Claude该怎么搭建工作流。
这三步完成之后,我们就可以开始生成了。为了演示,我直接从官方的Template里边挑了一个简单的工作流:
用户输入YouTube链接;通过Apify的服务获取Transcript;最后调用一个大模型对Transcript做总结。
回到Claude这边,把需求贴进去。Claude会先分析,并且提出问题,让咱们补充。等它获得所有信息之后,就会把项目的架构搭建好,然后开始生成JSON文档。
基本上简单的工作流一次就能搞定。复杂的工作流,如果出现报错的话,就把报错贴回来,让Claude修改。
等Claude生成和验证完毕之后,可以点击右上角的Copy按钮。回到n8n,直接粘贴,一个工作流就导入完成了。
而我们需要做的,就是把里边某些节点的配置完善了。比如Apify和OpenAI的节点,需要配置Credential才能运行。
你看,整个过程就是这么简单、直接。这就跟AI编程一样,只有你的需求清晰,Claude都可以搞定。我这边用的是Sonnet模型。大家还可以试试Opus模型,会更给力。
OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!
Key Takeaway
- 作者分享了MacBook Pro的配置选择,并解释了为何选择14寸M4 Pro而非16寸M4 Max,以及未来将重负载任务交给Mac Studio的规划。
- 推荐Mac用户安装AI相关软件,如ChatWise,它支持主流闭源模型和开源模型(如Ollama),并提供搜索和Artifacts等工具。
- 强调了OpenRouter作为统一API管理平台的重要性,避免了多平台注册和绑定信用卡的麻烦。
- Cursor被认为是强大的AI编程工具,结合Claude 3.7更强大,并可用于知识库管理和AI辅助创作。
- Obsidian及其AI插件Copilot被推荐用于个人知识库,实现笔记的AI对话和实时信息查询,并强调了数据处理的重要性。
- 建议个人AI工具选择简单轻量化,企业级才考虑重型引擎。
- 此外,还推荐了Input Source Pro(输入法提示)、Rectangle(窗口管理)、Raycast(快速搜索)和Manico(应用快捷键)等效率工具,以提升Mac使用体验。
Full Content
我把新款MacBook Pro买回来了。借着新机入手,我给大家分享一下,Mac都有哪些必装软件,尤其是AI方面。这些工具绝对能提高你的日常效率和幸福感。
我订的这台是M4 Pro芯片,统一内存加到48G,1T硬盘。为了方便对着屏幕拍摄,我还加钱上了纳米屏。那么,为什么不上128G的M4 Max?两个原因:
第一,16寸实在太大了。我去店里看过。带着跑来跑去,真不太方便。14寸对我来说刚刚好。
第二,下半年我准备买Mac Studio。根据业内大佬推测,苹果应该会在年中或者下半年推出Mac Studio,芯片是M4 Ultra,比现在的M4 Max还强大。而且按照M2 Ultra的样子,统一内存能加到192G,比MacBook顶配的128G大多了。这样的机子拿来跑大模型不香吗?
所以,我想来想去,还是决定把重负载任务都交给Mac Studio。MacBook Pro就专心负责移动场景,就不为难它了。而且,M4 Pro加上48G统一内存已经足够给力了。
我平时拍的这些视频都是4K 10bit 422的素材,用达芬奇剪辑。这台机子剪起来完全没压力。跑大模型的话,我也测了两个黄金尺寸的效果:14B能达到每秒21个Token;32B能达到11。这样的表现,我非常满意了。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经快1000人付费加入啦!
回到今天的主题:Mac必装软件。咱们先从AI相关的说起。
当你用了一段时间模型厂商出的应用——比如ChatGPT、Claude之后,大概率会希望通过API调用模型,以及试一试在本地运行开源大模型。两个原因:
一是更自由地体验更多的模型,并且用多少Token就付多少钱。二是更自由地去选择和组合一套工具,完全适配自己的习惯和需求,作为日常主力。
这个时候,你就需要一款像ChatWise一样的应用。
在闭源模型方面,主流的模型厂商和主流的算力平台它都支持,肯定有你想用的。
我知道大家最近为了DeepSeek注册了好几个算力平台。但是,要稳定使用的话,我建议用OpenRouter就好了,不用看别的。它不会像国内那些平台那样,总出幺蛾子——你想薅它羊毛,它想割你韭菜。在OpenRouter里,把API Key填进去,市面上所有的模型都可以选择。这就免去了你每家都得注册账号、绑定信用卡的麻烦。
在开源模型方面,大家常用的Ollama和LM Studio都有。像Ollama,你都不用做啥设置,保持软件运行就可以。ChatWise自动把所有模型都列出来了。我平时用最多的就是DeepSeek-R1 14B和Qwen2.5 14B。
光有模型不够,还得给模型配上工具。你看ChatGPT不就是在GPT模型的基础上,加了各种工具,比如搜索和画布。那到了ChatWise这边,同样也有这两个工具。
Artifacts就我之前夸过好多次,就不多说了。搜索方面,你可以用Google的免费API,也可以调用Tavily的。他们是一个专门为大模型优化过的搜索引擎。我之前自己写脚本的时候用过,挺不错的。
或者,还有一个更简单的方法,不用这些搜索引擎,直接用Perplexity的API。他们微调后的模型,有搜索、有推理,效果非常好。
ChatWise这些进阶功能需要付费才能解锁。如果你就是想要免费的,那可以用Cherry Studio。但我还是付费了。并不是冲着功能去的,只是因为它好看,用着舒服。我认为,在功能大差不差的情况下,外观和流畅度就成为选择的关键。
所以,除了Gemini 2.0和Grok 3我是在官方的网站上用,其它的模型,我全通过ChatWise加OpenRouter和Ollama来搞定。
OK,日常AI主力工具说完了,那还有两个补充。
一个是Cursor。市面上的AI编程软件很多,在细分领域各有所长。但综合来看,Cursor就是最强的,没有之一。再加上前几天Claude 3.7发布,Cursor当天就支持了。有了比3.5还强20%的3.7加持,Cursor现在更猛了。
除了编程,Cursor其实还有一些框架之外的奇怪用法。我在上一期“AI学习法”的视频里有介绍过。大家可以找来看看,肯定会有启发的。
另一个是Obsidian。更准确地说,是它的AI插件Copilot。对我来说,它的作用有两个:
第一,当我在写笔记的时候,可以直接在软件内跟AI对话,不需要切换到别的软件去。说真的,切来切去特别打断思路。而且,Copilot也可以连OpenRouter,用Perplexity的模型完成搜索,不用担心查不到实时信息。
Key Takeaway
- MCP(Model Control Protocol)是模型的超级外挂,能显著提升AI生产力,例如通过结合Claude和MCP实现低配版Deep Research。
- Sequential Thinking MCP有助于模型进行多步骤推理,保持逻辑性和连贯性;Tavily MCP则提供优化过的搜索引擎功能。
- MCP.so是寻找和托管MCP服务器的首选平台,其核心竞争力在于MCP Server Hosting。
- 推荐关注三类MCP服务器:搜索相关(如Perplexity, Tavily)、数据相关(如Filesystem, GitHub)和工具相关(与特定应用打通)。
- MCP的通信方式取决于服务器部署位置:本地运行使用stdio(标准输入输出流),云端运行使用SSE(基于HTTP的远程通信)。
- 即使MCP服务器在本地运行,也可以通过调用远程API实现联网功能。
- 建议新手通过实践Tavily(SSE方式)和Filesystem(stdio方式)来理解和掌握MCP的使用。
Full Content
MCP就是模型的超级外挂。装上之后,你会发现,原来AI生产力可以这么高。
举个例子,我给Claude-3.7 Sonnet配上两个MCP,它就成了一个低配版的Deep Research应用。
一个MCP是Sequential Thinking。它是一种标准化的思考模式,可以让模型在处理多步骤推理任务的时候,保持逻辑性和连贯性。比如,把复杂任务分解成清晰的步骤。当有新的信息出现时,还能灵活调整思考路径。
另一个MCP是Tavily。这个之前介绍过,就是一个对模型优化过的搜索引擎。
有了它俩之后,你看,Claude就会边搜索、边思考;根据搜到的内容,调整思考的路径,然后进行下一轮搜索;当它觉得信息足够了,逻辑也完整了,就会输出最终的报告。
这么一大套流程下来,我用1美元的成本,换来了更高质量的回答。这说明了两点:
第一,OpenAI的Deep Research真的是贵有贵的道理。你看刚才那个思考和搜集的过程就知道,太费Token了。OpenAI那边肯定更复杂。
第二,MCP真的有用。我可以给你们看看对比。我把Sequential Thinking拿掉,只留联网搜索。同样的问题,模型给出的答案简单许多。
这个就是我最近一直在推MCP的原因。那么,我们要去哪里找MCP?找到之后又怎么使用呢?本期视频,我给大家做一个详细解答。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经超过1000人付费加入啦!
回到今天的主题:MCP实用指南。
咱们先说第一个问题:MCP哪里找?
如果你想用现成的MCP的话,那么,MCP导航网站就是你的首选。在这个领域,目前排名第一的,就是MCP.so。
MCP.so是国内明星开发者idoubi的项目。他之前做了好多项目,比如AI搜索引擎ThinkAny。我上期视频说,有人已经开始做MCP基础设施,指的就是他。
在MCP.so,已经有超过3000个服务器被收录。其实,它的核心竞争力不是导航——导航谁都能做,技术含量不高,它的核心竞争力是MCP Server Hosting。
对咱们用户来说,面对这么多服务器,该怎么挑呢?我建议,有这三种类型的服务器大家可以留意一下:
第一,搜索相关的。比如,Perplexity、Tavily都是搜索。Fetch、Firecrawl都是爬虫。
第二,数据相关的。比如,Filesystem能让模型调用本地文件,GitHub能让模型接入代码仓库。
第三,工具相关的。比如,Blender、Figma、Slack这些,你看名字就知道是跟什么应用打通了。
OK,现在大家知道去哪找,以及怎么挑MCP了。那么,如何接入、使用?
这个其实很好理解。你想嘛,既然它叫“服务器”,那么,这个服务器放在哪里,就决定了通信方式。
如果放在本地,跑在你自己的机子上,就用stdio;如果是跑在云端,比如MCP.so上边,就用SSE。
stdio就是标准输入输出流,通常用于本地通信。比如,Cursor、Claude、ChatWise之类的MCP客户端跟跑在同一台机子上的MCP服务器之间,通过标准输入(stdin)和标准输出(stdout)进行通信。
SSE则是一种基于HTTP的远程通信方式。MCP服务器远程托管。你本地的客户端通过SSE实现跨机器通信。
不太理解也没关系。我给你们看看实际的样子。
以ChatWise为例。在设置里的“工具”页面,点左下角的加号按钮,可以添加MCP服务器。在“类型”中,咱们可以选择stdio和SSE两种通信方式。
比如Sequential thinking,我是用stdio的方式。命令中的这一串其实就是GitHub上要求写的参数。因为它不需要API Key之类的东西,所以下边的环境变量就空着。
对于一些需要填写环境变量的MCP,比如Tavily,那就把API Key填进去。点击“查看工具”,ChatWise会尝试连接,然后把这个MCP下所有的工具都列出来。
那么,SSE是什么样的呢?
比如Firecrawl,我就是用SSE的方式。这个就简单多了,只需要把链接填进去。那么,链接哪来的?
还记得我刚才说的吗?如果MCP服务器跑在云端,那就通过SSE的方式连接。MCP.so就提供了这样的云端服务。
来到这个网站的Firecrawl页面,在右边填入你的API Key,点击“Connect”,它就会生成一个专属的链接。把这个链接复制下来,贴到ChatWise里边就搞定。