生产力工具
Key Takeaway
- OpenAI最新发布的Canvas是ChatGPT的重要更新,提供文本撰写和代码生成功能。
- Canvas借鉴了Claude的Artifacts功能,并具有Grammaly的文本撰写风格。
- AI产业已进入商业落地阶段,白领和程序员是AI替代的重点目标。
- Canvas的文本撰写功能包括总结、扩写、调整风格、检查文本和添加表情符号。
- Canvas的代码生成功能支持编写代码、更改编程语言和修复Bug。
- 文章认为Canvas的推出对创业公司构成威胁,但其功能对已使用Artifacts和Cursor的用户而言并非颠覆性。
Full Content
留给打工人的时间真的不多了。
OpenAI最新发布的Canvas,是ChatGPT最重要的一次更新。它带来两个实打实的功能:文本撰写,和代码生成。
我第一眼看到Canvas就想到了两个产品:
一是Claude。Canvas算是借鉴了它的Artifacts功能。
我之前还在newtype社群里提到过,Artifacts特别像大学老师的黑板。你去请教老师的时候,他从身后拉了一块干净的黑板过来,在上边给你详细讲解和演示。
Artifacts推出之后,获得了所有人一致好评。现在OpenAI也跟进,看来这个功能会成为Chatbot类产品的标配。没准国内大模型厂商已经在开发了。
二是Grammaly。这是一款AI写作辅助工具,日活有3000万。
Canvas的文本撰写很有Grammaly的感觉。后续要更新的话,照着Grammaly抄就好——人家在这方面已经研究得很透彻了。这条赛道这么窄,玩不出什么新东西来。
我之所以说留给打工人的时间不多了,是因为:
整个AI产业已经进入到拼商业落地的阶段。大多数模型厂商都要去卷应用。只有少数能像Deepseek那样一心一意只做模型研发。
那么,往哪个方向去卷,能够向资本证明你的阶段性商业价值呢?
柿子捡软的捏。白领是最容易替代也是最好欺负的一个群体。现在底层的模型能力足够,只需要在产品层多下点功夫,把初级白领淘汰掉是没问题的。
程序员是另一个目标。像代码这种东西,标准化表达,数据量又大,AI学起来没问题。之前我介绍过Cursor和Replit Agent,就是在往这个方向走。
所以,打不过就加入。只有那些从现在开始就全力拥抱AI,并且不断琢磨怎么利用AI的打工人才能活下来。你不需要打赢AI,只需要打赢你的同事。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想要链接我,就来newtype社群。已经500多位小伙伴付费加入啦。
回到今天的主题:ChatGPT Canvas。
目前这个功能还是Beta版,不太成熟。比如,它还不是通用功能,需要专门切到带有这个功能的模型版本。以及,我还遇到了聊着聊着GPT突然改用英文的情况。不过瑕不掩瑜,还是值得上手试一试的。
我先测试了它的文本撰写能力。把上期视频的脚本传上去,要求它根据这个内容写一篇博客文章。
这时,类似Artifacts的界面出现了。GPT-4o很快完成了初稿。注意看,OpenAI在右下角放上了几个定制化的功能,包括调整长度等等。
当我们把长度拉满,GPT会在原来基础上做扩写,最多能增加75%的文字量。
第二个功能,看字面的话,你会认为是按照不同学历水平去撰写他们能看得懂的文章。但其实它就是调整文字风格啦。
比如调到幼儿园级别,那么文章会特别通俗易懂。如果调到最高的博士生级别,那基本就是文绉绉甚至有点不说人话的感觉。
说实话,OpenAI这么设计有点冒犯的意思了。这跟学历完全没关系。这又是何必呢?
后边的两个功能很直接。一个是帮你检查文本,看看哪里有错别字,哪里需要加个小标题,等等。
另一个是在文章里加上emoji表情。Twitter上很多人在夸这个功能。我是无感。我绝对不可能在我写的任何文章里加上emoji。
当然,不用右下角这些设定好的功能也OK。咱们可以选中任何一段内容,直接对GPT下需求。比如,把开头改得更吸引人一些。或者,把结尾再升华一下。
以上就是Canvas的文本撰写能力,很简单,很基础。通过提示词和Agent Workflow就可以实现这样的能力。OpenAI把它们都打包进产品里,而且还搞了添加emoji这样的小噱头来取悦用户。你看,他们还是很鸡贼的。
至于代码生成也是差不多的逻辑。
作为测试,我让GPT帮我写个贪吃蛇的小游戏。同样在右下角的位置出现了可以展开的按钮。其中更改编程语言这个有点意思。比如,我们可以让GPT把它已经生成的代码改成JavaScript、TypeScript等等几个主流的语言。
剩下几个功能很简单,比如修复Bug之类的。我就不详细介绍了,看一眼就懂。
目前Canvas的东西就这些。我猜,一些创业公司肯定要睡不着了。OpenAI这是在拿他们的命给自己换时间。作为用户,我感觉还好。可能是因为之前一直在用Artifacts和Cursor,所以看到这个也没那么兴奋。为了体验Canvas,我开了一个月的会员,不打算续费。之后还是继续用Claude。
OK,以上就是本期视频。想交流AI就来newtype社群。那咱们下期见!
Key Takeaway
- ChatGPT在iPhone上效率不高,因为它没有与系统和其它APP打通,无法自动化运行。
- 利用iPhone的快捷指令功能,可以实现ChatGPT的自动化操作,如自动总结公众号文章、语音问答和内容创作。
- 快捷指令的核心逻辑是:输入(网页文字、语音转文本)-> 处理(ChatGPT总结、回答)-> 输出(Markdown格式笔记到备忘录)。
- 这种自动化工作流能显著提升ChatGPT的使用效率和便捷性,弥补其作为聊天机器人的局限。
- 文章通过“总结GPT”、“问答GPT”和“灵感GPT”三个快捷指令示例,展示了ChatGPT在个人生产力中的应用。
Full Content
ChatGPT在iPhone上还不够好用。主要原因是,它没有跟系统和其它APP打通,没法自动化运行,效率不高。所以,它还只是一个聊天机器人——每次都得打开APP才能用,然后还得输入一堆东西——难怪用户使用频率不高,这也太麻烦了。
在现阶段,要让iPhone上的ChatGPT有用起来,你肯定要用到快捷指令这个功能。我先演示一下我是怎么用的,再详细介绍怎么设置。
我相信大家都很头大这样的事儿:每天要看的公众号文章根本看不过来。怎么搞?
首先,用Google Chrome打开这篇文章。
然后,点击地址栏右边的分享按钮,选择最顶端的快捷指令(我设置的名称叫“总结GPT”)。
最后,稍等一会儿,ChatGPT就会按照我事先设置好的要求,用GPT-4o这个最新的模型,总结文章的核心内容,提炼文章的Key Points,并且在备忘录的指定文件夹里创建一条新笔记,把这些内容都用Markdown格式存进去。
这么做的好处是:
第一,我就不用在APP之间手动切换、各种输入——现在用快捷指令自动化完成,这显然方便多了。
第二,虽然ChatGPT里会有聊天记录,但我还是让它存到备忘录里了。因为备忘录是系统自带的,在iOS和macOS之间同步非常快。这样一来,我回到Mac上就可以直接编辑了。而且它是Markdown格式,我还可以把它贴到写作软件或者笔记软件里进一步处理。
刚才这个是“总结GPT”。按照同样的思路,我还设置了一个“问答GPT”,也是用语音输入。
比如我问:机械键盘的主流轴都有哪些区别?比如红轴、青轴等等。
接到一段语音输入后,这个快捷指令会先把语音转化成文字、给到ChatGPT。
然后,根据我事先的设置,ChatGPT回答完问题之后,同样会用Markdown格式,把内容存到备忘录里,方便我之后查找和编辑。
这两个快捷指令是我平时用得最频繁的。除此之外,还有“灵感GPT”:
当我有任何内容方面的想法时,就像刚才“问答GPT”那样,用语音的方式全部给到GPT。它会把我的那些零散的表述有逻辑地整理一遍,变成一个内容框架,然后往里边做补充和扩展。
你如果看过我上一期视频就会发现,这其实是在用快捷指令去搭建一套简易的Agent Workflow。在新版iOS、新版Siri出来之前,咱们先用这种方式实现AI自动化。
接下来,我拿刚才那个“灵感GPT”给大家详细讲解一下。这三个快捷指令,我已经把iCloud链接分享到知识星球和Patreon里了,newtype社群的小伙伴可以直接拿去用。包括这期视频,我也会在社群内首发,算是给大家的“超前点映”。
就像上期视频里说的那样,一般来说,一套Agent Workflow的起点是用户输入。在“灵感GPT”里,咱们是用语音转成文字,所以要用到“听写文本”这个功能。在“听写文本”的设置中,大家记得点开下拉列表,选择语言,否则会报错。
有了初始输入之后,第二步,咱们要添加一个“文本”,在里边写一段Prompt,把对AI的要求交代清楚,并且把第一步的内容贴在后边,就像我这样。这一整个文本,就是接下来要给到AI去处理的信息。
第三步,添加“询问ChatGPT”,把“文本”加进去。在下拉列表中,把“开始新聊天”勾选上,然后就可以选择要用哪个模型了。
第四步,再添加一个“文本”,把GPT的回答都放进去。你可以在文本的开头添加一些描述,比如我写的是“From GPT”,这样我就知道,这条笔记是AI生成的。
第五步,添加“备忘录”,选择事先创建好的文件夹,让GPT在里边新建一条备忘录,把上一步的文本都存进去,这样就大功告成了。
另外两个快捷指令也是同样的思路。其实这整套Workflow的核心就三个步骤,很好理解:
第一,初始信息从哪来(输入)?是网页里的文字,是语音转文本,还是一张照片?这个需要设置清楚。
第二,你要GPT帮你干啥(处理)?我一般会添加一个“文本”,把固定的指令和每次的需求都放进去。然后把整个文本给到GPT。
第三,你要什么样的结果(输出)?就像我刚才演示的,以备忘录加Markdown做输出。
输入、处理、输出,把这套逻辑想清楚了,你就知道怎么用快捷指令和ChatGPT去搭建一套简易的工作流了。
OK,以上就是本期内容。大家有什么想聊的,可以来newtype找我。那咱们下期见!
Key Takeaway
- Dify新增“双向MCP”功能,允许用户在Dify中添加MCP服务器,并可将Dify工作流转换为MCP服务器对外输出。
- 该功能解决了工作流“孤岛”问题,使其能融入日常通用场景,极大扩展了Dify的工具范围。
- 作者重新关注Dify,认为工作流应原子化,作为组件强化特定场景效果。
- 文章通过Deep Research工作流的演示,展示了Dify与MCP结合后,AI客户端可调用特定MCP服务器解决特定需求,提升效率。
- Dify的MCP功能与提示词结合,可实现基于MCP工具和Prompt的工作流自动化,提升个人生产力。
Full Content
Dify最近上了个新功能:双向MCP。这是个非常重要的功能。因为它让原本只针对特定场景的工作流可以融合到我们日常的、通用的使用场景中。
什么叫“双向MCP”?
一个方向是进来,也就是你可以在Dify里边添加现成的MCP服务器。这个好处是,可以极大扩展Dify的工具范围,把越来越丰富的MCP服务器纳入进来。
另一个方向是出去,也就是你可以把自己创建的工作流转换成MCP服务器,对外输出。比如我用AI客户端,把工作流MCP添加进去。平时在对话中就可以直接调用。
这样一来,你搭建了半天的工作流不会被限制在某些使用场景和情况下使用,不再是孤岛。这个是非常大的进步。
哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。这个社群已经运营500天,有超过1500位小伙伴付费加入啦。
回到今天的主题:Dify的MCP功能。
我记得去年就出过视频介绍Dify。但是从那之后,我就不再关注这些工作流平台了。两个原因:
第一,上手难度高。这些工作流看起来好像在画布上随便搭一搭就行,但其实难度挺高的。既要懂技术,还得懂业务。一家公司能有几个这样水平的人?
第二,适用场景窄。每一条工作流都是针对某些场景、解决某些特定问题而存在的。在早期很有用,因为大模型能力不强,所以把人类的经验编排成工作流,去指导模型。但到了今天,你再把固定的工作流硬塞给模型,就有点限制它了。
那我为什么现在会重新捡起Dify,会看中这次的更新?
因为工作流不是变大了,而是变小了。它可以变成一个一个原子化的组件,融入到我的工作流里边来,去强化特定场景下的效果。这个就是MCP服务器应该有的价值。
我给你们演示一下就明白了。
这个是我在Dify里找到的现成工作流,Deep Research。我把里边的模型改成GPT-4.1,然后发布。因为发布之后,才能把MCP服务器功能打开。
点击左边这个按钮,在左下方把这个选项打开,就可以把这个工作流转变成MCP服务器。这一行就是服务器地址。因为我是在本地运行的,所以地址开头是localhost。
打开AI客户端,我这边用的是免费的Cherry Studio。新建一个MCP。连接方式选HTTP。然后把服务器地址填进去就搞定了。
我们来做一个对比。
我先使用模型内置的搜索工具,搜一个问题:什么是Context Engineering?这个是它的回答。
然后我开个新窗口。这次使用刚才接入的Deep Research MCP服务器。还是同样的问题,什么是上下文工程。
稍等几分钟,模型给出了回答。对比两次的输出,可以明显看到,使用了外挂MCP服务器的效果要好得多。
你看,这个就是我刚才说的,到了特定场景、特定需求的时候,你调用特定的MCP服务器去满足、去解决。你不需要换一个工具,还是用原来的AI客户端,这个真的很方便。
我演示用Deep Research是为了让大家好理解。其实工作流是特别定制化的。接下来,我会针对我自己的需求搭好多个工作流,然后统统转化成MCP服务器。
所以,就像我在社群里说的,现在有两套系统可以满足我们的定制化需求:一是提示词,二是基于工作流的MCP服务器。并且,这两套系统还可以用我做的产品——Prompt House进行统一调度。
这样配置下来,我相信,我的个人生产力又会有一次大的提升。
OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!
Key Takeaway
- HuggingChat是一款免费体验最先进开源大模型的应用,提供网页版、iOS版和macOS版,设计简洁。
- HuggingChat的核心主张是让所有人都能用上Hugging Face社区最好的模型,并会不定期更新模型列表。
- 作者日常高频使用问答引擎Perplexity和Chatbot Claude,但HuggingChat因其轻量化和便捷性成为日常碎片化需求的承接工具。
- HuggingChat通过快捷键呼出对话框,并优先提升回复速度,Web Search功能需手动开启。
- HuggingChat还提供Tools功能,其中Flux图像生成工具能满足轻量级图像生成需求。
- 文章认为开源模型的性能已追平闭源,开源社区在开发应用方面更具优势。
Full Content
想要免费体验最先进的开源大模型,我推荐大家试试HuggingChat。
这款应用之前有网页版和iOS版。前些天,macOS版推出,在产品设计上还挺有心思的。我特别认同他们这种简洁的设计思路。
macOS版的HuggingChat不像别的APP那样,有一个很重的前端。当按下Command、Shift和回车三个默认的快捷键之后,才会出现一个极简的对话窗口,很像macOS的聚集搜索框。这时我们可以跟跑在云端的大模型对话。
如果要更换模型,点左边的加号进入设置,把模型从初始的Llama 3.1 70B改成国产的Qwen 2.5 72B。这些模型不是固定的,会不定期更新。因为HuggingChat的主张是:
让所有人都能用上来自Hugging Face社区的最好的模型。
这也说明了,Qwen 2.5和Llama 3.1、Command R+等模型一样,成为公认的、当下最好的开源大模型。Qwen确实是国产之光!
哈喽各位好,欢迎来到我的频道。我是国内少有的、能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想链接我,就来newtype社群,已经有500多位小伙伴付费加入啦。
回到今天的主题:HuggingChat。我每天都会高频使用的AI工具有两类:
一是问答引擎。目前世界上最好的问答引擎是Perplexity,这个没有之一,没得挑。但是光有它还不够,因为有很多东西是搜不到的。而且我也经常需要AI提供更多的角度,或者完善我的思路。
于是就有了第二类工具——Chatbot。目前我最满意的是Claude。它不只是模型能力比GPT-4更强,在功能体验上也比ChatGPT要好得多。Artifacts真的非常棒,绝对值回票价。我推荐给好多人了,用过都说好。
不过,对于咱们这些国内用户来说,Perplexity和Claude麻烦的地方就在于,隔段时间就要刷新页面、点一下验证。你别小看就这么一点点的麻烦——当你想用却被打断的时候,会很影响体验。
所以,当这种不方便久了之后,我都是有稍微严肃一点的任务的时候才去用它俩。日常大量的、碎片化的需求,需要有一个轻量化的、拿起来就能用的AI工具来承接——这就是我看上macOS版HuggingChat的原因。
平时隐藏在后边,要用的时候通过快捷键呼出对话框,这种看似不争的做法,其实是想抢AI终端的第一入口。为了实现这个野心,HuggingChat做了大量减法,甚至连上网搜索功能都要手动开启。
在设置里边有个Web Search,把它勾选上之后,模型就会上网搜索了。不过代价就是,回复的速度要慢一些,因为多了搜索和RAG的过程。我猜,这就是上网搜索功能没有默认开启的原因。
尽一切可能把回复速度提上来,这个优先级绝对高于任何其它功能。
如果用户有更重的需求,没问题,在桌面端用网页版,在移动端用iOS版。打开之后你就会发现,ChatGPT里的GPTs它也有,叫Assitants。不过大部分都没啥用啦,跟GPTs一样。
真正有生产力的,是Tools,工具。我用得最多的,是Flux图像生成。
我在前两期视频里介绍过Flux模型。它是SD团队出来做的,是目前世界上最先进的图像生成模型。第一,Flux生成的图像,无论是真实程度还是审美水平都超过别的模型。第二,Flux还能实现精准控制,比如它能在图像上准确生成文字。
Flux有三个版本,其中两个开源。这个工具所用的Flux dev,就是开源版本中性能最强的那一个。当我有一些轻量级的图像生成需求的时候就会用到它。比如生成一个文章配图。由于Flux本身能力强,这种任务对它来说很简单。实在不行就抽几次卡,也能搞定。
有了macOS版之后,加上之前已经在用的iOS版和网页版,我突然发现,HuggingChat已经悄悄成为我使用最频繁的AI工具了。开源模型的性能已经追平闭源。至于开发应用,大家水平都一样。甚至我会觉得开源社区更有优势,因为他们不用考虑什么生态啊、护城河之类的,没那么多包袱,可以放开手脚干。
OK,以上就是本期内容。想交流和学习AI,来newtype社群。那咱们下期见!
Key Takeaway
- Claude推出的Analysis tool(数据分析工具)能够帮助用户对数据表格进行分析和可视化呈现。
- 该工具基于Claude强大的代码能力和Artifacts功能,能够处理CSV文件并进行数据可视化。
- AI在数据分析领域的应用,将像AI编程一样,赋能更多非专业人士。
- Claude的数据分析能力使其在“严肃生产”场景中具有显著优势,可应用于市场营销、销售、IT等领域。
- 文章强调“严肃生产”是AI应用落地最有价值的场景。
Full Content
AI不只是要抢程序员的饭碗,现在连数据分析师也不放过。Claude前些天推出的Analysis tool特别好用。你手里如果有一份数据表格,想让AI帮你做些分析,并且可视化呈现,一定要试试这个功能。
目前这个分析工具还处于预览阶段,默认是没有打开的,就像最开始的Artifacts一样。所以需要咱们去Feature Preview选项里,把它勾选上,然后就开心使用啦。
对数据表格做分析,一直是很多人的刚需,但却是大模型的短板。像Claude之类的头部产品,虽说硬着头皮也能做,但它提供的结果是概括性的、比较宏观的,还做不到更加细致、精确的分析。这次新出的数据分析工具就补上了这个短板。它建立在两个基础上:
第一,代码能力。目前Claude的代码能力是全球公认最强的,没有之一。所以它可以直接使用JavaScript对用户上传的CSV文件进行读取、解析和重构,就像咱们人类数据分析师一样的处理方式。而且在处理的过程中如果遇到什么错误的话,它还会自己修复。
第二,Artifacts功能。对Claude以及所有Chatbot来说,Artifacts都是一个非常重要的创新。它在主对话窗口之外单开了一个专用窗口。所有根据用户请求而生成的内容都在专用窗口里显示。为了确保安全性,它还采用了类似沙盒的技术,创建了一个安全游乐场。
所以,Claude能在数据分析上取得惊艳的效果,全都来自于基础能力的遥遥领先。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注。只要有一个视频你看进去了,就赚大了。如果想链接我,就来newtype社群。已经有600位小伙伴付费加入啦!
回到今天的主题:Claude Analysis tool。
之前我在社群里说过,AI的价值不只是降低成本、给老板一个压榨员工的理由,更重要的是带来了新的能力。AI编程的价值很多人已经享受到了。接下来,数据分析也会像编程一样,通过AI下放给更多人。从这一点来看,Claude真的是功德无量。
为了给大家演示新的数据分析功能,我下载了一份比特币的历史数据,包括价格、交易量等等。格式好像有点小问题,我没细看。反正直接拖进对话框,都让AI处理就好。
接到需求之后,Claude会先对数据进行处理,然后再启动Artifacts功能,通过代码创建一个可视化的展示。
大家之前可能只接触过用Excel做数据分析。但是Excel只能搞定一些简单的活儿。如果比较专业的话,就会用到Python,它的pandas、numpy都是非常流行的数据分析库,它俩各有所长。如果涉及到统计学的话,还有R语言。它的学习曲线比Python陡峭多了。当然啦,无论是哪一个,对咱们来说,想要掌握都不是一天两天的事儿。这就是AI的价值所在。
回到Claude这边。可以看到,它已经做完可视化呈现了,通过数据还原出价格走势图。不仅如此,它还主动做了一些初步总结,发现比特币波动性大,目前处于上升态势,而且价格处于历史高位区间。
大家注意看,在稍微停顿了一下之后,Claude还给出三个建议的问题。这个设计显然是为了引导普通用户继续往下分析。不然很多人看到这一大堆东西就懵逼了。那咱们就让AI继续创建一个互动式的价格走势图。
可能是这个功能还处于预览阶段的原因,会有一些报错。不过没关系,咱们让Claude自己修复就好。或者,如果有什么不满意的地方,也可以直接提。比如,我希望它尽可能把时间周期拉长。于是Claude就会返回去查看数据,然后调整代码,最终展示更长时间周期的分析。
Claude这些报错都是小问题。现阶段,我觉得有两个最需要改进的地方:一是Rate Limit,目前太低了,一下就用没了,希望官方能尽快调高一些。二是刚才提到的建议问题,问得太水了,起不到引导的作用。
通过刚才这段演示,大家可以看到,Claude的理解范围已经从之前的文字扩展到了数据。在文字方面,我之前做过对比,Claude的逻辑性显著强于ChatGPT。现在又把对数据的精确分析给加上了。这样一来,Claude就牢牢占据了严肃生产这个场景。
如果你做市场营销的,可以上传客户互动数据;如果你是做销售的,可以上传各个销售大区的业绩;如果你是搞IT的,可以上传服务器日志。这些Claude都能处理,都能帮到你。这个可比帮小白领写一段小红书文案,或者想一句品牌Slogan要值钱多了。
我认为,严肃生产一定是AI应用落地最有价值的场景,也是现在大部分AI厂商都忽视的。
OK,以上就是本期内容。想链接我,就来newtype社群。那咱们下期见!
Key Takeaway
- Cursor是一款强大的AI编程IDE,能够原生支持AI功能,实现与AI的纯聊天式编程。
- 作者通过Cursor在10分钟内不写代码,仅通过与AI对话,开发出Chrome浏览器插件,展示了AI编程的高效性。
- Cursor的“Apply”功能能够自动定位代码修改位置,提升调试效率。
- AI编程工具的价值在于赋予用户不具备的新技能,而非仅仅替代现有工作。
- 文章强调AI能够将个体技能放大,创造更多价值,并展望了AI在产品开发中的广阔前景。
Full Content
三年之后,世界上最流行的编程语言是什么?
大概率不是Python、不是Java Script,而是英语。
最近在AI圈有一款IDE、编程软件超火,叫Cursor。你用过之后,估计也会有这样的想法。
我把Cursor看作是VS Code的终极进化版。它是VS Code的fork版本,各种功能基本一样,可以无缝导入过来。但是,在AI方面,Cursor就做得好多了。它不是像GitHub Copilot那样,以插件的形式植入进去,而是原生地、天然地支持——这一点非常重要,会带来质的不同。
在模型方面,Cursor很大方:你可以用它的模型,一个月订阅费用是20美金,也可以用你自己的模型,填入API Key就行。甚至,它还允许你用GitHub Copilot,不过它会提示你,不建议使用,因为性能上不如它的东西啦。
上个周末,我集中测试了一下Cursor。最好的一次,只花不到10分钟,不写任何一行代码,就是跟AI纯聊天,就开发出一个Chrome浏览器插件,能调用GPT去总结网页内容。
这10分钟的前3分钟,我用来写需求:
我希望开发一个浏览器插件,主要功能是用大模型总结网页。它会先做Scraping,也就是把网页内容都扒下来。然后把这些内容给到模型,按照Summary、Key Facts的格式输出。
在具体功能方面,插件上有三个按钮:Summarize就是总结。Settings就是设置,会要求用户输入OpenAI的API Key。插件先去确认这个Key是否可用。如果可以,就把可以使用的模型以列表都拉过来,让用户选择、保存。Clear就是清除上一次的总结结果,或者中断当前的总结任务。
当我在Word上把这些都写完之后,复制下来,打开Cursor,通过控制面板打开聊天界面,全部粘贴进去。接下来的体验跟咱们使用ChatGPT、Claude基本一样:
Cursor的反馈速度非常快,只用几秒钟就理解、拆解了需求。它告诉我们,要创建哪几个文件,每个文件的名称和代码都给到了。这时,我们只需要根据指示把文件创建好,把对应的文件开着,然后点击Apply,AI会把代码填进去。
Apply功能特别方便。因为在debug过程中,肯定要修改代码。Cursor不会把代码全部生成一遍——那就太慢、太消耗token了。所以,它只会输出需要修改的那几行。这时候,压力就给到用户这边了——因为要在几百行代码里边找到要修改的地方,还是挺费神的。所以,Apply功能会自动找到修改位置,用红色标注出原来的代码,用绿色标注出建议的代码,用户确认之后,它再自动替换。
等我们把所有代码都贴进文件里,就可以测试了。
打开Chrome浏览器的插件页面,进入开发者模式,打开代码所在的文件夹,就可以加载插件。
第一次测试肯定会有Bug。这边我们发现,Settings按钮没反应。很简单,回到Cursor里边,把问题告诉AI,然后把新生成的代码通过刚才说的Apply功能替换进去。
刷新插件,现在可以打开设置页面了。填入API Key,就像需求里说的那样,插件会先Verify一下,然后把Model List拉出来。这时会发现,List不全,只有两个模型,我猜是Cursor自作主张预设了,并没有真的去拉取。另外,点击Summarize并没有正常工作,只是显示了一个demo。
所以再次跟Cursor沟通,把这两个问题反馈了。像这样的debug过程会经常遇到。不过这一次挺幸运的,只来回处理了两趟。
再次刷新插件、重新测试。这下可以看到,模型列表正确显示出来了。点击Summarize,插件开始工作。等个几秒钟,成功总结出来了。为了确认真的可以用,我又找了两个网页,也都总结成功了。
我看了一眼时间,从写需求到测试成功,大概10分钟。这不是我第一次这么干。其实前一天也试过,不过不太成功,过程让我有点崩溃。
每一次修改代码都会带来新的Bug。我眼睁睁看着原本只有30行的代码膨胀了10倍,变成300多行,而且问题还没解决。
后来我心想,要不换个实现方式,改用多模态。先把整个页面截图下来,再给到GPT去识别和提取。结果还是不行。反正折腾了快一个小时。
到了第二天,我反思了一下。其实这个插件的工作流程就两步:先Scrape,再Summarize。之前我自己写Agent Workflow的时候就是这么处理的。于是我把需求改了一些,产品经理的活儿我干了,Cursor就专心Coding。果然,效果立竿见影。成功那一刻的快感,跟游戏通关差不多。
这款总结插件还很粗糙。如果要做到能上架的程度,可能还需要投入点时间:
第一,它的Scraping比较简单,还可以再强化,这样才能应对更多的网页。
第二,它的总结还不够好。这个调整起来很简单,不需要AI修改,我直接在提示词那边做详细要求就可以。
第三,现在只支持OpenAI,可以把Google、Anthropic等等都加上。
第四,把UI弄得好看一点。这个也简单。我找个别人的产品,截图下来给到AI,它肯定能照着做出来。
这四个要改进的地方,顺利的话,我估计再花个半小时应该能完成。全部搞定之后,就可以提交给Google审核、然后上架了。
我不喜欢说什么“未来已来”这种话,但是,Cursor给我的震撼是远超两年前的ChatGPT的。可能是因为,ChatGPT做的都是我会的东西,不就是生成一些文字嘛,而且还没我干得好。所以它带给我的只是一种新鲜和惊讶。
但是Cursor不一样。像开发一款浏览器插件这种事儿,我是完全不会,更别提在10分钟之内把原型搞定。所以这是一种震撼——它给了我完全不具备的新技能。我觉得,这个才是AI的真正价值。
今天很多人,尤其是国内的很多老板认为,AI就是用来降本,用来替代员工,成为裁员的借口。他们是把人力看做成本。他们眼中的世界是有限的,就这么点地方,所以得到处节省。
但其实,这个世界可以不是一个“有限游戏”,是可以变成“无限游戏”的。AI赋予个体从没有过的技能,或者把个体原有的技能放大好几倍。去满足更多,去创造更多,这不是更美好吗?
对我来说,如果要开发个小工具,可以在Cursor的帮助下直接完成。如果稍微复杂一点,那我也可以先做个原型出来,再花钱找前端和后端帮我完善。
突然感觉,我的整个世界变得好宽阔。也许到明年,我给到大家的,不只是这样的视频和文章,还有更多形态,可以是网页,可以是APP,甚至可以是一个小模型。我太期待了!
OK,以上就是本期内容。我要继续拉着Cursor做开发了。后续更多的发现,我会发在newtype社群里。还没加入的小伙伴抓紧吧,社群已经400多人了。今年肯定会到500人以上,明年争取突破1000。我那天想到一个Slogan很适合我这个频道以及社群,叫做“AI时代,摸着老黄过河”。好了,不扯了,咱们下期见!
Key Takeaway
- ChatGPT无法直接生成PPT,但可以通过Marp和CSS语言作为桥梁,生成Markdown格式的代码,再转换为PPT。
- Marp是一款能将Markdown文件转换为PPT的工具,其语法简单,能满足日常PPT需求。
- 结合VS Code和Marp for VS Code插件,用户可以实现ChatGPT生成PPT代码,并在VS Code中预览和导出。
- 这种方法的核心在于利用Markdown的简洁性和Marp的转换能力,将PPT内容和排版通过代码实现。
- 文章强调PPT的核心是逻辑而非花哨排版,Marp和CSS能满足日常需求,但生成的PPT无法手动修改,只能通过代码修改。
Full Content
我终于找到让ChatGPT做PPT的方法了。
ChatGPT逻辑好、能联网,让它生成文字内容没问题。但是,要它生成PPT的话,就有点难办了。因为它回给你的还是文字,需要你自己去创建一个PPT,然后手动贴进去做排版。
举个例子。我跟ChatGPT说:帮我写一份介绍本田Dax E的介绍PPT。
ChatGPT会勤勤恳恳地把每一页的内容都写给我。但是,就像刚才说的,这些都只是文字,离PPT还有点距离。
让我来换一个问法。跟ChatGPT说:使用Marp和CSS语言,帮我写一份介绍本田Dax E的PPT。
这时候,ChatGPT给到的不是文字,而是代码。当这一长串的代码都输出完毕后,整个复制下来,贴到VS Code里边。可以看到,右边出现了PPT的预览效果。
跟之前需要手搓的方法相比,现在只需要借助一个软件,也就是VS Code,只需要一个操作,也就是复制、粘贴,就能实现PPT的生成。
要把PPT导出也很简单:
在VS Code命令面板里选择“显示并运行命令”,然后选导出Slide Deck。根据默认选项,它是导出PDF格式。需要PPT的话,在格式列表里选上就OK。等个几秒,它导出后会自动打开。然后咱们打工人就看到非常熟悉的界面了。
我这边使用的方法,核心思路就是通过Marp语言作为桥梁。Marp指的就是Markdown Presentation Ecosystem。顾名思义,它可以把Markdown格式的文件转成PPT。
所以,ChatGPT或者别的AI工具负责按Markdown格式输出,把PPT里该有的内容都放在里边,然后一起交给Marp做转换。这个就是我说它是桥梁的原因。
关于Markdown,你如果之前用过很多生产力工具,比如我之前推荐的Obsidian,还有世界上最好的写作软件Ulysses,那你对Markdown应该不陌生。它的语法超级简单,比如一级、二级、三级标题,还有加粗、加序号、加图片之类的。这些换到PPT里边也是成立的——一般来说,PPT的内容主要是由文本块和图片构成。
而且,根据我这十几年做PPT的经验——请相信我,我在传播营销行业,我们这行业的人是地球上最会做PPT的一群人,越是成功的PPT,越不复杂。因为,PowerPoint的核心是Point;Point的核心是逻辑,不是那些花里胡哨的排版。所以,Marp语言本身对版式的支持,再加上CSS的能力,基本上能满足日常PPT需求。
OK,ChatGPT能输出Markdown,那么,该用什么显示和导出呢?工具有好几种。我选择的是VS Code,因为我平时写Python都是用它。所以我只需要再安装一个Marp for VS Code插件就好了。
就像刚才演示的那样,在VS Code里新建一个md格式的文件,把ChatGPT给的代码都贴进去。如果有任何地方要修改的话,就直接让ChatGPT改去,不管是内容还是版式,让它重新生成一遍。反正Plus包月了,不需要考虑token费用,可以让ChatGPT一直改到满意为止。
不过,从效率角度出发,我建议大家也别全依赖ChatGPT。弄差不多了就自己上手改改代码呗,反正挺简单的。
最后我要提醒两点:
第一,用这种方式生成的PPT,没法手动修改。要改的话只能回到代码里去修改。
第二,Marp的优点是简单、好上手。如果你觉得它太简单的话,还有别的,比如Slidev。这个真的挺复杂的,上手难度高,我之后在社群里分享吧。
OK,以上就是本期内容。想进一步交流的话,来newtype找我,我都在。那咱们下期见!
Key Takeaway
- Agent Designer(智能体设计师)是未来三年最有价值的工作,因为AI技术价值的实现依赖于Agent。
- Agent可以类比为高达的躯体,大模型是动力源,工具是武器,用户是驾驶员。
- Agent设计师需要同时懂AI和业务,能够将人类意图“翻译”给AI,并设计Agent的工作流。
- Agent设计师需要打通软件、数据库,将它们转化为Agent的工具,并从系统角度设计Agent协作。
- Agent和RAG将成为AI原生应用的标配。
Full Content
未来三年,最值钱的工作是:Agent Designer,智能体设计师。
顾名思义,它就是设计Agent的。
为什么值钱?
因为AI技术要产生价值,大模型厂商想收回巨额开发成本,必须依靠Agent。
那么,Agent是什么?
我发现,很多人会把这个概念跟大模型概念混在一起,理不清楚。我拿高达来打个比方,你肯定就明白了。
Agent就好比高达的躯体,就是我们看到的那一副机甲。
这个机甲要动起来,需要动力,对吧?大模型就是高达里最牛逼的动力源——太阳炉。
看过高达的小伙伴就知道,有太阳炉和没有太阳炉,那是天壤之别。对于Agent来说也是如此。
早在大模型技术出来之前,Computer Science和AI领域的研究人员就已经研究Agent好多好多年了。直到大模型火爆,Agent这副机甲才终于装上了太阳炉。
但是,对高达来说,光有动力还不行——你拿什么打呢?
于是,高达手里那些各式各样的武器就等同于Agent的工具:
高达根据使用的武器不同,有的属于近战型,有的属于狙击型,有的属于重装防御型。
Agent也是这样。有的Agent装备了搜索工具,负责上网查资料;有的Agent装备了Scraping的工具,可以把网页上的内容都扒下来,等等。
高达要行动,需要驾驶员的操作。Agent也一样,需要用户下指令。当然,高达和Agent在一定程度上都可以自动运行。
既然驾驶员是人类,那肯定有水平的高低。在高达的设定中,最牛逼的驾驶员是newtpye。他们拥有更强的分析能力等等。
同样,在Agent这边,用户的水平也有很明显的高低之分。我在上一期视频中就提到过,只有少于5%的少数派能在当下这个早期阶段用好AI。而我把自己的知识星球取名为newtypye,出处就是高达,目的就是想聚拢AI时代的超级个体。
所以,你按照我这套理论再去看Agent这个概念,就会清晰得多。而且我很肯定,我这样的理解是正确的。因为我这套东西是从代码里看来的。
以CrewAI的代码为例。在编写每个Agent的时候,除了描述它的职责和背景之外,都会设定它装备什么大模型,以及可以调用哪些工具——当时我看到这个的第一反应,就是高达。
这就是为什么我在上一期视频里建议大家一定要学编程。你能看得懂代码,你对AI的理解就一定比别人更深,也不会被那些一知半解的媒体和商业大佬给忽悠了。
OK,Agent的定义大家理解了。那么,为什么说Agent设计师是AI技术产生价值的关键呢?
我上个月在知识星球newtype里有提到过:
“关于如何搭建一套Multi-Agent System。它在技术上一点都不难。难的是,你得想清楚,你想让Agent【怎么做】。
Agent的价值在于Workflow。而这个Workflow怎么设计,要求你既要懂AI,又要懂业务。”
Agent设计师就是那个既懂AI又懂业务的人。
他既要知道怎么跟AI“沟通”,把人类的意图“翻译”给AI听;也要知道怎么跟各个业务单元的人沟通,界定需求和问题;他还要知道怎么跟掌握预算的人沟通,比如老板,管理好对方的预期。
他需要知道怎么打通各种软件、数据库,把这些通道变成工具,给Agent装备上。
他需要知道怎么站在系统的角度去设计工作流,让不同的Agent分工合作,并且每一个环节交付的东西都有清晰的定义,可以评估、衡量。
这样一个人,横跨人类世界和AI世界,通过设计和搭建一套Agent系统把两个世界衔接起来。你想想,有这样的能力和价值,他得值多少钱?
如果你对这样的工作、这样的角色感兴趣的话,现在就是行动的最好时候。一切都才刚刚开始。
我之后也会持续分享Agent相关内容。就像我在知识星球newtype里说的:Agent和RAG一定会成为AI原生应用的标配。感兴趣的小伙伴记得点个关注。我分享的东西很值钱的。
OK以上就是本期内容。咱们下期见!
Key Takeaway
- Raycast通过其AI插件功能,实现了AI PC/Mac的理想形态,能无缝集成所有软件,并通过自然语言交互进行跨应用调度。
- Raycast的AI Extensions提供自然语言交互、跨应用调度(通过Preset)和AI对话功能。
- 用户可以通过Raycast的AI插件,直接控制终端、预定会议、管理任务等,无需打开具体应用。
- Raycast的AI对话功能支持多种主流大模型,并可通过快捷键提升使用效率。
- 文章强调了Raycast在提升效率和专注度方面的优势,并认为其在AI PC/Mac领域具有宝贵的先发优势。
Full Content
苹果、微软没做到的事儿,这家公司做到了。这也许是现阶段AI PC、AI Mac该有的样子。
我举个最简单的例子:帮我打开三个Tab,分别是YouTube、X和Medium。
在Chrome浏览器里打开三个指定网页,很简单就完成了。
再来一个:在Video Production下创建新任务“完成剪辑”,截止时间周三晚上8点。
你看,它会先去todoist里边获取我的项目列表,然后在Video Production这个项目下边创建任务,并且设定截止时间。
最后再来一个:在桌面创建一个名为123的文件夹。
看吧,很轻松就搞定了。
我刚才演示的软件叫作Raycast。它是Mac上的一款效率工具。我用了一段时间之后,发现它不只是一个工具,而是一个Hub、一个枢纽,去调度所有软件。
比如,要搜本地文档的话,就选择Search Files,然后输入关键词。它会特别顺滑地列出相关文档。
要用Google搜索的话,就选择Search Google,回车之后输入关键词就好。它会自动打开一个新的网页。
要用Perplexity搜索的话,就选择Ask Perplexity。它会打开一个对话框。除了输入问题之外,还可以选择搜索的范围,就跟官网一样。
要翻译的话,就选择Translate。如果只是要了解个意思的话,那用它基本就足够了。
要关闭进程的话,就选择Kill Progress。它会列出目前所有正在运行的进程。你可以选择按CPU占用排序,或者按内存占用排序。
要设置桌面布局的话,就选择Window Layout。你可以让几个软件按照你的意愿在屏幕排列。
要查看自己的行程安排的话,就选择My Schedule,它会把日历里的行程都列出来。
要给现在听的这首歌加个“喜爱”的话,就选择Favorite Track,它会操作Apple Music加星。
这些功能,一部分通过Raycast内置的核心功能实现,比如基础搜索、系统操作等等高频场景;另一部分则通过插件实现,目的是去满足长尾需求。
今年年初,Raycast推出AI Extentions。虽然还只是Beta版,但是,这几十个AI插件已经实现了三个功能:
第一,自然语言交互。
视频开头的例子大家都看到了。现在,你只需要@某个AI插件,告诉它你要什么,它就会帮你去操作对应的软件。
一个典型例子是终端。我只需要@shell,然后输入命令,它就会帮我调用终端去执行,并且把结果拿过来显示。
比如,输入ollama list这条命令,它会列出我已经下载好的模型。而且,这个AI插件还懂得做个表格来展现结果。
第二,跨应用调度。
举个例子:帮我预定一个视频会议,明天中午12点,主题:新选题讨论。
AI插件会调用两个软件:一是Zoom,因为是视频会议,所以它得帮我创建一个会议链接;二是Calendar,它得帮我把这个会给Book上。
这种跨应用调度不需要你一个一个去安排,可以通过Preset实现。你可以自己创建Preset,也可以去官网下载别人的。
比如我刚才演示的那个,就是现成的Calendar Assistant。它的结构很简单:一是Instructions,就是你要干吗;二是都需要哪些AI参与,比如Calendar和Zoom,以及用什么模型。
官网上已经有几十个Preset了,大家感兴趣可以去翻一翻,我就不多演示了。
第三,AI对话。
这个功能最早是一年前推出的。只不过当时支持的模型很少,只有GPT-3.5和GPT-4。后来慢慢添加了Claude、Mistral等知名模型。
到了今天,Raycast的AI对话已经覆盖市面上的主流模型。我个人最常用的有两个——Gemini 2.0 Flash和Sonar Reasoning Pro。有推理,有联网搜索,很舒服。而且我还给它设了个快捷键,用起来更顺手了。
说真的,自从安装了Raycast之后,我打开ChatWise的次数都变少了。因为基本功能重合了,人家用起来更轻便,特别适合日常讨论几句的场景。
Key Takeaway
- 作者分享了MacBook Pro的配置选择,并解释了为何选择14寸M4 Pro而非16寸M4 Max,以及未来将重负载任务交给Mac Studio的规划。
- 推荐Mac用户安装AI相关软件,如ChatWise,它支持主流闭源模型和开源模型(如Ollama),并提供搜索和Artifacts等工具。
- 强调了OpenRouter作为统一API管理平台的重要性,避免了多平台注册和绑定信用卡的麻烦。
- Cursor被认为是强大的AI编程工具,结合Claude 3.7更强大,并可用于知识库管理和AI辅助创作。
- Obsidian及其AI插件Copilot被推荐用于个人知识库,实现笔记的AI对话和实时信息查询,并强调了数据处理的重要性。
- 建议个人AI工具选择简单轻量化,企业级才考虑重型引擎。
- 此外,还推荐了Input Source Pro(输入法提示)、Rectangle(窗口管理)、Raycast(快速搜索)和Manico(应用快捷键)等效率工具,以提升Mac使用体验。
Full Content
我把新款MacBook Pro买回来了。借着新机入手,我给大家分享一下,Mac都有哪些必装软件,尤其是AI方面。这些工具绝对能提高你的日常效率和幸福感。
我订的这台是M4 Pro芯片,统一内存加到48G,1T硬盘。为了方便对着屏幕拍摄,我还加钱上了纳米屏。那么,为什么不上128G的M4 Max?两个原因:
第一,16寸实在太大了。我去店里看过。带着跑来跑去,真不太方便。14寸对我来说刚刚好。
第二,下半年我准备买Mac Studio。根据业内大佬推测,苹果应该会在年中或者下半年推出Mac Studio,芯片是M4 Ultra,比现在的M4 Max还强大。而且按照M2 Ultra的样子,统一内存能加到192G,比MacBook顶配的128G大多了。这样的机子拿来跑大模型不香吗?
所以,我想来想去,还是决定把重负载任务都交给Mac Studio。MacBook Pro就专心负责移动场景,就不为难它了。而且,M4 Pro加上48G统一内存已经足够给力了。
我平时拍的这些视频都是4K 10bit 422的素材,用达芬奇剪辑。这台机子剪起来完全没压力。跑大模型的话,我也测了两个黄金尺寸的效果:14B能达到每秒21个Token;32B能达到11。这样的表现,我非常满意了。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经快1000人付费加入啦!
回到今天的主题:Mac必装软件。咱们先从AI相关的说起。
当你用了一段时间模型厂商出的应用——比如ChatGPT、Claude之后,大概率会希望通过API调用模型,以及试一试在本地运行开源大模型。两个原因:
一是更自由地体验更多的模型,并且用多少Token就付多少钱。二是更自由地去选择和组合一套工具,完全适配自己的习惯和需求,作为日常主力。
这个时候,你就需要一款像ChatWise一样的应用。
在闭源模型方面,主流的模型厂商和主流的算力平台它都支持,肯定有你想用的。
我知道大家最近为了DeepSeek注册了好几个算力平台。但是,要稳定使用的话,我建议用OpenRouter就好了,不用看别的。它不会像国内那些平台那样,总出幺蛾子——你想薅它羊毛,它想割你韭菜。在OpenRouter里,把API Key填进去,市面上所有的模型都可以选择。这就免去了你每家都得注册账号、绑定信用卡的麻烦。
在开源模型方面,大家常用的Ollama和LM Studio都有。像Ollama,你都不用做啥设置,保持软件运行就可以。ChatWise自动把所有模型都列出来了。我平时用最多的就是DeepSeek-R1 14B和Qwen2.5 14B。
光有模型不够,还得给模型配上工具。你看ChatGPT不就是在GPT模型的基础上,加了各种工具,比如搜索和画布。那到了ChatWise这边,同样也有这两个工具。
Artifacts就我之前夸过好多次,就不多说了。搜索方面,你可以用Google的免费API,也可以调用Tavily的。他们是一个专门为大模型优化过的搜索引擎。我之前自己写脚本的时候用过,挺不错的。
或者,还有一个更简单的方法,不用这些搜索引擎,直接用Perplexity的API。他们微调后的模型,有搜索、有推理,效果非常好。
ChatWise这些进阶功能需要付费才能解锁。如果你就是想要免费的,那可以用Cherry Studio。但我还是付费了。并不是冲着功能去的,只是因为它好看,用着舒服。我认为,在功能大差不差的情况下,外观和流畅度就成为选择的关键。
所以,除了Gemini 2.0和Grok 3我是在官方的网站上用,其它的模型,我全通过ChatWise加OpenRouter和Ollama来搞定。
OK,日常AI主力工具说完了,那还有两个补充。
一个是Cursor。市面上的AI编程软件很多,在细分领域各有所长。但综合来看,Cursor就是最强的,没有之一。再加上前几天Claude 3.7发布,Cursor当天就支持了。有了比3.5还强20%的3.7加持,Cursor现在更猛了。
除了编程,Cursor其实还有一些框架之外的奇怪用法。我在上一期“AI学习法”的视频里有介绍过。大家可以找来看看,肯定会有启发的。
另一个是Obsidian。更准确地说,是它的AI插件Copilot。对我来说,它的作用有两个:
第一,当我在写笔记的时候,可以直接在软件内跟AI对话,不需要切换到别的软件去。说真的,切来切去特别打断思路。而且,Copilot也可以连OpenRouter,用Perplexity的模型完成搜索,不用担心查不到实时信息。