生产力

Gemini + Grok:最被忽视的AI生产力工具

Key Takeaway

  • Gemini和Grok是两个被低估的顶级AI应用,它们在不同方面展现出强大的生产力。
  • Gemini提供多功能体验,包括快速回答(Flash)、文章创作(Canvas)和深度报告(Deep Research),并能与Google文档和NotebookLM无缝集成,支持深度学习。
  • Grok在模型回答上更具“人味”,产品设计简洁,并拥有独特的Twitter数据源,使其在获取用户真实反馈方面具有优势。
  • 结合使用Gemini(获取主流媒体信息)和Grok(获取社交媒体信息)可以获得更全面和真实的洞察。

Full Content

有两个顶级AI应用还在被国人忽视。一个是Gemini,一个是Grok。

Gemini我已经推荐得足够多了。你看,过去半年,我在社群内真的是苦口婆心、反复强调。我从1.5的模型开始,用到了2.0、2.5,真的是越用越喜欢。不说那些复杂的,就说日常使用,就像我这个帖子说的:

如果你只想要个快速回答,那直接问Gemini 2.0 Flash。它速度快,推理强,运行还稳定。

如果你想要稍微深入一点,那就把Canvas打开。Gemini 2.0 Flash会按照写文章的标准来回答你。

如果你想要详尽的报告,那把Deep Research打开。Gemini 2.0 Flash会按照报告的标准来输出。

我直接给你们来个演示吧。

比如,我问Gemini:什么是Reasoning model?它很快给出一个简要的回答。

我把Canvas也就是画布打开。再问它同样的问题。这个时候,回答速度稍微慢一些,但是详细程度会高得多。在Canvas里边,你可以对文本进行排版、编辑,也可以选中一段进行提问。也就是说,用这个功能,你可以跟Gemini配合起来完成一篇文章的创作。

如果我把Deep Research打开呢?还是同样的问题——什么是Reasoning model。Gemini会帮我拆解议题,然后查找上百个网页,最终完成深度报告的输出。

你看,就这么简单的三个功能——直接对话、Canvas和Deep Research,覆盖了我们日常使用AI的主要场景。

更进一步,如果你觉得这些回答有价值,还可以把它们保存到Google文档里。

刚才介绍的三个功能,后两个都可以导出到Google文档。然后,就像我前一个视频里介绍的,打开NotebookLM,把Google文档里的相关内容全部导入,然后就可以进行深度学习了。

Gemini还有别的功能,比如画图什么的,我就不多说了。光是刚才我介绍的那些,就足以值回票价。

而且,Google还在不断更新。就在昨天,他们推出了首个混合推理模型——Gemini 2.5 Flash。你可以自主选择要不要打开思考模式,甚至还可以设定要投入多少资源进行思考。这个模型的出现,更加强化我要继续拥抱Gemini的信心。

那么,既然Gemini这么牛逼,还要Grok干嘛呢?三个原因:

第一,从模型回答的感觉上看,Grok 3要比Gemini 2.0好得多。

Gemini 2.0还是有一种生硬感、机械感,这可能就是Google独有的味道吧。而Grok 3的回答就比较有“人味”,所以我会逐渐倾向于多跟它交流。

第二,从产品角度来看,Grok最完整。

就像之前我在社群里说的,Grok没搞那么长的模型列表让用户选择,就两个按钮:深度思考,和深度搜索。没有模型之分,只有模式之分,甚至再到后边连模式都不需要选择了,AI会自主判断。这个才是正道。像OpenAI那种,有点丧心病狂了。

另外,前两天的更新,给Grok补上了Canvas和Workspace功能。Canvas和别家差不多,就是标准的画布。而Workspace,就类似知识库的功能,特别好用。

现在,Grok已经集齐目前的主流功能。产品层面已经相当成熟了。

第三,从数据源角度来看,Grok拥有别家都没有的Twitter数据。

Twitter现在是最有影响力的社交媒体,它的数据对于AI来说很重要。如果能把Twitter所代表的社交媒体数据,和Google那边掌握的主流媒体数据合并起来,那对提升AI的回答质量肯定有帮助。具体怎么做呢?我再演示一下。

其实这个方法我在社群内也分享过。很简单,Grok的Workspace功能除了支持本地文档上传之外,还支持从Google Drive里导入——这个就是关键功能。

我会先用Gemini做一轮Deep Research,把报告导入Google文档。然后,到Grok里添加这些Google文档,并且在Prompt里强调:附件信息只是参考,你要有自己的搜索和判断。另外,Twitter上用户都有哪些反馈?重点看看。

注意看Grok的分析过程。从主流媒体的信息搜集来看,它确实不如Gemini能搜到那么多。其实不只是它,OpenAI的搜索范围也有限。但是,Grok能搜集Twitter上的数据,包括帖子和评论,这个就是它的独有价值。

我之前在公关营销行业干了十几年,非常清楚只有你预算够,绝大部分主流媒体的内容都可以买,或者都可以影响。相比之下,用户的实际使用反馈就相对真实得多。所以,当我想了解的议题涉及到用户口碑的话,我肯定会通过Grok去搜集,并且跟Gemini那边的主流媒体信息进行合并。

刚才介绍的这两款AI工具的使用经验,看起来确实平平无奇,不像很多AI自媒体介绍的那些玩法那么酷炫,但这些都是能帮到你的真东西。如果你觉得有价值,还想了解更多的话,记得加入我们社群。

OK,以上就是本期内容。那咱们下期见!

最强AI编程工具Claude Code,五个使用Tips

Key Takeaway

  • Claude Code被认为是地球上最强的AI编程工具,因为它与Claude模型深度适配和优化,且不计较上下文长度消耗。
  • /init命令用于初始化项目,创建CLAUDE.md文件,记录项目背景信息,提高效率和上下文一致性。
  • Plan Mode允许用户在执行复杂功能前,让Claude Code进行规划,尤其适用于不确定如何操作的场景。
  • /ide命令支持Claude Code与VS Code、Cursor等IDE集成,提供更好的代码修改和提示体验。
  • 用户可以自定义命令,将常用操作(如解释代码)转化为快捷命令,提高工作效率。
  • /cost命令用于查看API消耗,并可通过/model命令切换模型以节省成本。
  • 作者强调,模型能力相同时,拥有更多工具的AI生产力更高,鼓励用户积极使用和探索MCP。

Full Content

地球上最好的AI编程工具,肯定是Claude Code。而且它接下来还会越来越好。

为什么它最强?我在社群里发过这么一段话:

如果把Claude模型比作引擎的话,那么,虽然各家公司都可以买到这个引擎,然后组装成赛车,但是只有Anthropic能发挥出它的究极实力。

大概率,Anthropic在训练Claude 4的时候,就已经把Claude Code内置的十几种工具给它用上了,对它做针对性的强化训练。

也就是说,这款引擎在研发阶段就已经跟底盘等等系统做适配、做优化了。它们就是最佳组合。其他厂商又怎么可能跟得上。

而且为了效果,Anthropic现在特别豪气,可以不计较上下文长度的消耗。相比之下,Cursor他们就得精打细算过日子,导致有时用户体验会很差。

Claude Code这么强,但是国内介绍得不多。原因很简单:中国的自媒体水平太差了。他们就只会喊“震惊”、“放大招”。碰上这种复杂的工具,还是命令行,而且还需要配置纯净的住宅IP,他们就不知道怎么下手了。

没有关系,我会出一系列视频深度介绍这款工具。今天先来五个非常实用的Tips,帮助大家用好Claude Code。

/init

当你开始一个新的项目,或者让Claude Code中途参与某个项目的时候,一定要先运行/init这条命令,也就是initialize,初始化。

这条命令最主要的作用,是创建一个CLAUDE.md文件。这个文件会包含项目所有的背景信息,包括:项目的核心概述和目标;重要的代码约定和风格指南;关键的文件和工具函数列表,等等。

有了这份文件,每次你启动Claude Code,它就会自动加载,这样它就明白整个项目的情况,不需要你重复说明。另外,当你的项目开发有了任何进展,也可以让Claude把进展写进这个文档。

所以,这行简单的命令,以及它生成的CLAUDE.md文件对于提高效率、保持上下文一致性非常重要。大家记得用起来。

Plan Mode

大部分情况下,我们都是让Claude Code在那边“自动驾驶”。但是,当有一些比较复杂的功能想要实现,或者我们自己也没想好究竟该怎么做的时候,可以切换到Plan Mode,让Claude Code先帮我们做好规划,然后再执行。

要切换到Plan Mode很简单,按快捷键shift加tab就行。比如,我想要提升高并发、服务器断连的应对能力。我自己想了一些解决方案,比如搞个API Key的备用池子等等。我把这些告诉Claude Code,让它帮我完整规划。

接到需求后,它会把需求有关的代码全部过一遍,然后给出非常详细的方案。如果觉得OK,可以让它照着开始执行。

说真的,这个模式挺好用的。当你拿不准的时候,记得让Claude帮你规划。

/ide

虽然Claude Code主要通过命令行界面,也就是CLI进行交互,在终端里运行,但是它也支持跟VS Code、Cursor集成,让用户在IDE的环境中获得更好的体验。

比如,集成之后,你可以看到文件中代码的改动,就像在Cursor里看到的一样。另外,当你选中几行代码之后,Claude Code那边也会有提示。

那么,要做到这一点,你需要做两件事,非常简单:

第一,安装Claude Code插件。这个搜一下就有,然后点击install安装。

第二,运行/ide命令,然后选择对应的IDE,比如我这边是Cursor。然后回车就搞定了。

Custom Command

Claude Code有很多现成的命令可以使用。除此之外,其实你也可以根据自己的需要去自定义命令。

Gemini新手教学

Key Takeaway

  • Google Gemini提供了教育优惠,可免费使用Gemini Advanced、NotebookLM Plus和2TB网盘空间。
  • Gemini的超大上下文长度(100万token)使其在处理长文档(如PDF翻译)方面表现出色,远超其他模型。
  • Gemini与Google生态系统深度整合,能无缝处理YouTube视频总结(带时间戳)、Gmail邮件翻译和回复、Google Docs和Sheets的内容编辑和生成等。
  • Gemini的强大生态和模型能力使其在AI应用竞争中具有显著优势。

Full Content

最近是入手Gemini的好时机。因为Google推出了教育优惠,可以免费使用15个月的AI产品,包括Gemini Advanced、NotebookLM Plus,以及2TB的网盘空间。

我在Twitter上看到好多人已经薅到这一波价值300美金的羊毛了。听说那些卖教育邮箱的都赚翻了。具体方法网上很多教程都有,这里就不展开了。

那么,当注册好之后,该怎么用好Gemini呢?我这边分享两点经验,也是Google和OpenAI在模型及产品方面的很大不同。如果你有好的用法,也欢迎在评论区告诉我。

第一,上下文长度。

当大部分模型还停留在128K的时候,Gemini已经达到100万了,并且之后还准备扩展到200万。所谓上下文长度,你可以简单理解就是AI一次性能处理多少内容。那么,超大上下文不管是在编程还是日常使用,都非常有价值。我演示一下你们就明白了。

我这边有一份几十页的PDF文档,分别让ChatGPT和Gemini帮我全文翻译。

先来看ChatGPT这边。当我把文档扔进去之后,它说,这个文档太大了,只能分批翻译。

而Gemini那边特别干脆,直接一口气就全搞定了,而且速度快多了。

你看,这个就是硬实力,也是我非常喜欢Gemini的原因。这就好比是,ChatGPT一杯酒扭扭捏捏还没喝完,Gemini已经吹一瓶了。

所以,以后有任何英文的PDF,你都可以放心交给Gemini处理。“全文翻译”这四个字的含金量,你用了就知道。

第二,生态打通。

AI已经到了拼应用的阶段了。这个时候,有生态和没生态,那完全是两种用户体验。

举个最简单的例子:处理YouTube视频。

很多YouTube视频非常有质量,比如Lex的。但是,他的播客动不动就三个小时,我是真没时间看下去。所以,贴到Gemini里边,让它帮我总结Key takeaway。

这时可以看到,Gemini会调用YouTube,把Key takeaway和对应的时间戳都一起输出。如果对哪个部分感兴趣,点击时间戳就可以直接跳转过去,非常方便。

作为对比,我把同样的需求给到ChatGPT。它应该是调用第三方插件完成的,但是效果差多了。一是颗粒度不够,二是没有添加用来跳转的时间戳。

把YouTube链接给Gemini处理算是比较高频的需求了,不管你是学习还是做自媒体都用得着。除此之外,Gemini跟Google的其它产品还有更多联动。

之前我在视频里分享了Gemini Deep Research、Google Docs、NotebookLM之间的配合。其实,Gemini已经遍布Google全家桶。

当你成为付费用户之后,打开Gmail就会看到,右侧多了Gemini的对话窗口。你可以让它帮你翻译邮件,或者起草一个英文回复,把大概意思告诉它就好。

还记得刚才我让Gemini全文翻译的文档吗?因为我打开了Canvas功能,所以可以把结果导出到Google Docs。然后,在Google Docs里边,可以对这个文档做进一步的编辑处理。

比如,我可以让Gemini更通俗易懂地总结全文核心要点。然后在文档的开头直接插入。

除了操作文档,Gemini还可以帮我们操作表格。这个太无聊了,我就不演示了。简单来说就是,以前我们在单元格里输入等号,然后可以做一些加减乘除。那现在有了Gemini之后,同样输入等号,后面跟AI加括号,就可以把提示词和要操作的单元格输入进去,让AI帮你搞定。

你看,这个就是老牌互联网厂商的家底。人家要模型有模型,要生态有生态。你要是敢打价格战,人家高兴还来不及呢。OpenAI作为新公司,上半场很风光,到了下半场的淘汰赛,会很有压力。

刚才介绍的那些,都是最常用的。除此之外,还有Gem可以做定制化,输入提示词、上传文档就行,这个大家就自己尝试吧。

OK,以上就是本期内容。想交流AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

MCP实用指南

Key Takeaway

  • MCP(Model Control Protocol)是模型的超级外挂,能显著提升AI生产力,例如通过结合Claude和MCP实现低配版Deep Research。
  • Sequential Thinking MCP有助于模型进行多步骤推理,保持逻辑性和连贯性;Tavily MCP则提供优化过的搜索引擎功能。
  • MCP.so是寻找和托管MCP服务器的首选平台,其核心竞争力在于MCP Server Hosting。
  • 推荐关注三类MCP服务器:搜索相关(如Perplexity, Tavily)、数据相关(如Filesystem, GitHub)和工具相关(与特定应用打通)。
  • MCP的通信方式取决于服务器部署位置:本地运行使用stdio(标准输入输出流),云端运行使用SSE(基于HTTP的远程通信)。
  • 即使MCP服务器在本地运行,也可以通过调用远程API实现联网功能。
  • 建议新手通过实践Tavily(SSE方式)和Filesystem(stdio方式)来理解和掌握MCP的使用。

Full Content

MCP就是模型的超级外挂。装上之后,你会发现,原来AI生产力可以这么高。

举个例子,我给Claude-3.7 Sonnet配上两个MCP,它就成了一个低配版的Deep Research应用。

一个MCP是Sequential Thinking。它是一种标准化的思考模式,可以让模型在处理多步骤推理任务的时候,保持逻辑性和连贯性。比如,把复杂任务分解成清晰的步骤。当有新的信息出现时,还能灵活调整思考路径。

另一个MCP是Tavily。这个之前介绍过,就是一个对模型优化过的搜索引擎。

有了它俩之后,你看,Claude就会边搜索、边思考;根据搜到的内容,调整思考的路径,然后进行下一轮搜索;当它觉得信息足够了,逻辑也完整了,就会输出最终的报告。

这么一大套流程下来,我用1美元的成本,换来了更高质量的回答。这说明了两点:

第一,OpenAI的Deep Research真的是贵有贵的道理。你看刚才那个思考和搜集的过程就知道,太费Token了。OpenAI那边肯定更复杂。

第二,MCP真的有用。我可以给你们看看对比。我把Sequential Thinking拿掉,只留联网搜索。同样的问题,模型给出的答案简单许多。

这个就是我最近一直在推MCP的原因。那么,我们要去哪里找MCP?找到之后又怎么使用呢?本期视频,我给大家做一个详细解答。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经超过1000人付费加入啦!

回到今天的主题:MCP实用指南。

咱们先说第一个问题:MCP哪里找?

如果你想用现成的MCP的话,那么,MCP导航网站就是你的首选。在这个领域,目前排名第一的,就是MCP.so。

MCP.so是国内明星开发者idoubi的项目。他之前做了好多项目,比如AI搜索引擎ThinkAny。我上期视频说,有人已经开始做MCP基础设施,指的就是他。

在MCP.so,已经有超过3000个服务器被收录。其实,它的核心竞争力不是导航——导航谁都能做,技术含量不高,它的核心竞争力是MCP Server Hosting。

对咱们用户来说,面对这么多服务器,该怎么挑呢?我建议,有这三种类型的服务器大家可以留意一下:

第一,搜索相关的。比如,Perplexity、Tavily都是搜索。Fetch、Firecrawl都是爬虫。

第二,数据相关的。比如,Filesystem能让模型调用本地文件,GitHub能让模型接入代码仓库。

第三,工具相关的。比如,Blender、Figma、Slack这些,你看名字就知道是跟什么应用打通了。

OK,现在大家知道去哪找,以及怎么挑MCP了。那么,如何接入、使用?

这个其实很好理解。你想嘛,既然它叫“服务器”,那么,这个服务器放在哪里,就决定了通信方式。

如果放在本地,跑在你自己的机子上,就用stdio;如果是跑在云端,比如MCP.so上边,就用SSE。

stdio就是标准输入输出流,通常用于本地通信。比如,Cursor、Claude、ChatWise之类的MCP客户端跟跑在同一台机子上的MCP服务器之间,通过标准输入(stdin)和标准输出(stdout)进行通信。

SSE则是一种基于HTTP的远程通信方式。MCP服务器远程托管。你本地的客户端通过SSE实现跨机器通信。

不太理解也没关系。我给你们看看实际的样子。

以ChatWise为例。在设置里的“工具”页面,点左下角的加号按钮,可以添加MCP服务器。在“类型”中,咱们可以选择stdio和SSE两种通信方式。

比如Sequential thinking,我是用stdio的方式。命令中的这一串其实就是GitHub上要求写的参数。因为它不需要API Key之类的东西,所以下边的环境变量就空着。

对于一些需要填写环境变量的MCP,比如Tavily,那就把API Key填进去。点击“查看工具”,ChatWise会尝试连接,然后把这个MCP下所有的工具都列出来。

那么,SSE是什么样的呢?

比如Firecrawl,我就是用SSE的方式。这个就简单多了,只需要把链接填进去。那么,链接哪来的?

还记得我刚才说的吗?如果MCP服务器跑在云端,那就通过SSE的方式连接。MCP.so就提供了这样的云端服务。

来到这个网站的Firecrawl页面,在右边填入你的API Key,点击“Connect”,它就会生成一个专属的链接。把这个链接复制下来,贴到ChatWise里边就搞定。

MCP很简单,有手就行

Key Takeaway

  • MCP(Model Control Protocol)被比作AI的USB-C,旨在统一AI与各种软件的接口,实现AI按需调用工具。
  • MCP的快速发展可能受Agent概念影响,因为它为AI提供了“手脚”,是当前阶段解锁Agent的最佳途径。
  • 相较于通用Agent和复杂的工作流搭建,MCP的配置方法更简单,模型(如Claude-3.7 Sonnet)能自主选择和调用工具。
  • MCP的配置方式有两种:AI自动创建(如Cline的Marketplace)和手动编辑(如Cursor的配置文件)。
  • 通过cursorrules文档,用户可以自定义Cursor的行为,使其在处理任务时优先检索本地文档、联网搜索,并调用特定MCPs。
  • MCP服务器的通信方式分为本地的stdio和云端的SSE,即使本地运行的MCP也能通过调用远程API实现联网。
  • 掌握MCP能显著提升AI生产力,因为模型在拥有更多工具时,其能力会更强。

Full Content

我的AI比你的强,不是因为它更聪明,而是因为它手里有更多工具。

比如,你的Cursor只能编程,而我的Cursor可以用Blender进行3D建模。

你的Cursor只能编程,而我的Cursor可以把英文网页扒下来,然后翻译成中文,并且存到本地文档里。

所有这一切的实现,都是因为有了MCP。我在上上期视频介绍过这个非常非常火的协议,还没看的小伙伴抓紧看,很重要!

简单来说,MCP就是AI的USB-C。不管你是什么软件,都给我统一用这个接口协议。这样AI才能自由接入各种软件,按需调用。

就像USB-C一样,电脑、手机、键盘、鼠标等等,全都支持。一根线,既能充电,也能传输数据,非常方便。

MCP出来有一段时间了。最近一个月,我突然感觉到它在加速发展。可能是受到Agent影响。大家发现,要搞Agent,没工具不行——没工具,AI就没有手脚。看了一圈,就这个最靠谱。于是支持的人越来越多。已经有不少开发者在做基建类项目了。这个领域一定能跑出黑马来,VC的小伙伴可得盯紧了。

对用户来说,MCP是你在现阶段解锁Agent的最佳途径。

第一,像Manus那种通用Agent还没到能大规模落地的阶段。还得等一段时间。

第二,像Dify那种搭建垂类Agent Workflow的方式,其实不适合普通用户。它说是“无代码”,好像在画布上拖几下就可以。但是,你要真没编程思维、编程经验的话,肯定搞不定。

相比之下,MCP这条路就靠谱多了。

第一,像Claude-3.7 Sonnet这种模型已经非常强大了。你把各种MCP配置好,它自己知道什么时候该用啥,不用你操心。

第二,MCP的配置方法也足够简单。目前就两种方法:要么AI自动创建,要么你手动编辑。

前一种方法主要针对Cline。它在内部搭建了一个Marketplace,把主流的MCP都抓了过来。你只要点击Install,它会搞定剩下的一切。配置过程中遇到Bug的话,它也会自己想办法解决。真的太贴心了!

后一种方法也很简单。我用Cursor演示一下。

在正式开始之前,你得先去Beta里,把Standard改为Early Access。然后去左上角点击Check for Updates。这样就能把Cursor更新到0.47版本。

相比0.46版本,0.47版本给MCP添加了配置文件功能。我们可以直接在里边改动,非常方便。

比如,我想添加File System这个MCP。它的作用是,让模型能够操作指定路径下的文件,比如读和写、创建和删除等等。所有这些功能,都在工具列表下,写得清清楚楚。

大家记住,每一个MCP里都有若干个 tool。模型会根据你的请求决定用哪个MCP、用哪个tool。所以你挑选MCP的时候,记得看一下它的tool list,然后你就心里有数了。

OK,我们继续配置。把页面往下拉到NPX这边,中间这几行就是咱们要复制的。我来解释一下,很好理解:

npx就是一个命令行工具,可以执行npm包中的命令。下边的arguments就是参数的意思,它包含了三个参数:

y就是yes的意思,跳过确认提示;

@modelcontextprotocal这一串就是需要执行的npm包的名称;

下边这两行都是地址参数,告诉MCP可以访问哪里的文件。

所以,咱们接下来要做的就是,把这几行复制一下。然后打开Cursor里的配置文件,贴进去。最后把地址改一下,比如我这边就指定了可以访问桌面的文件。

保存之后,回到MCP服务器页面,就会看到filesystem这个MCP已经亮起绿灯,表示已经配置好了。它所包含的每一个工具也都列出来了。

如果你理解了我刚才演示的这些,那其它MCP基本也是同样的操作。最大的区别就是参数、环境的设置不一样。

比如Firecrawl这个爬虫MCP,它就要求咱们填写API Key。其它都不用管,就是复制、粘贴。

当你理解了Cursor的设置,其它软件也都是一样的。比如Cline、Claude那边也是这么操作的。你只要打开那个配置文件,看一眼就全明白了。

你看,这就是MCP牛逼的地方。它不是一上来就牛逼哄哄地要颠覆一切,而是尽可能降低各方的成本。所以大家才会有动力去支持你,完成接口的统一。

如果你是开发者,一定要把握这个MCP这个机会。如果你是用户,一定要亲自上手用起来。记住我这句话:

模型一样的情况下,谁可以调用更多工具,谁的生产力就更高。

OK,以上就是本期内容。想交流AI,就来我们newtype社群。那咱们下期见!