生产力

Gemini + Grok：最被忽视的AI生产力工具 2024-08-31

Key Takeaway

Gemini和Grok是两个被低估的顶级AI应用，它们在不同方面展现出强大的生产力。
Gemini提供多功能体验，包括快速回答（Flash）、文章创作（Canvas）和深度报告（Deep Research），并能与Google文档和NotebookLM无缝集成，支持深度学习。
Grok在模型回答上更具“人味”，产品设计简洁，并拥有独特的Twitter数据源，使其在获取用户真实反馈方面具有优势。
结合使用Gemini（获取主流媒体信息）和Grok（获取社交媒体信息）可以获得更全面和真实的洞察。

Full Content

有两个顶级AI应用还在被国人忽视。一个是Gemini，一个是Grok。

Gemini我已经推荐得足够多了。你看，过去半年，我在社群内真的是苦口婆心、反复强调。我从1.5的模型开始，用到了2.0、2.5，真的是越用越喜欢。不说那些复杂的，就说日常使用，就像我这个帖子说的：

如果你只想要个快速回答，那直接问Gemini 2.0 Flash。它速度快，推理强，运行还稳定。

如果你想要稍微深入一点，那就把Canvas打开。Gemini 2.0 Flash会按照写文章的标准来回答你。

如果你想要详尽的报告，那把Deep Research打开。Gemini 2.0 Flash会按照报告的标准来输出。

我直接给你们来个演示吧。

比如，我问Gemini：什么是Reasoning model？它很快给出一个简要的回答。

我把Canvas也就是画布打开。再问它同样的问题。这个时候，回答速度稍微慢一些，但是详细程度会高得多。在Canvas里边，你可以对文本进行排版、编辑，也可以选中一段进行提问。也就是说，用这个功能，你可以跟Gemini配合起来完成一篇文章的创作。

如果我把Deep Research打开呢？还是同样的问题——什么是Reasoning model。Gemini会帮我拆解议题，然后查找上百个网页，最终完成深度报告的输出。

你看，就这么简单的三个功能——直接对话、Canvas和Deep Research，覆盖了我们日常使用AI的主要场景。

更进一步，如果你觉得这些回答有价值，还可以把它们保存到Google文档里。

刚才介绍的三个功能，后两个都可以导出到Google文档。然后，就像我前一个视频里介绍的，打开NotebookLM，把Google文档里的相关内容全部导入，然后就可以进行深度学习了。

Gemini还有别的功能，比如画图什么的，我就不多说了。光是刚才我介绍的那些，就足以值回票价。

而且，Google还在不断更新。就在昨天，他们推出了首个混合推理模型——Gemini 2.5 Flash。你可以自主选择要不要打开思考模式，甚至还可以设定要投入多少资源进行思考。这个模型的出现，更加强化我要继续拥抱Gemini的信心。

那么，既然Gemini这么牛逼，还要Grok干嘛呢？三个原因：

第一，从模型回答的感觉上看，Grok 3要比Gemini 2.0好得多。

Gemini 2.0还是有一种生硬感、机械感，这可能就是Google独有的味道吧。而Grok 3的回答就比较有“人味”，所以我会逐渐倾向于多跟它交流。

第二，从产品角度来看，Grok最完整。

就像之前我在社群里说的，Grok没搞那么长的模型列表让用户选择，就两个按钮：深度思考，和深度搜索。没有模型之分，只有模式之分，甚至再到后边连模式都不需要选择了，AI会自主判断。这个才是正道。像OpenAI那种，有点丧心病狂了。

另外，前两天的更新，给Grok补上了Canvas和Workspace功能。Canvas和别家差不多，就是标准的画布。而Workspace，就类似知识库的功能，特别好用。

现在，Grok已经集齐目前的主流功能。产品层面已经相当成熟了。

第三，从数据源角度来看，Grok拥有别家都没有的Twitter数据。

Twitter现在是最有影响力的社交媒体，它的数据对于AI来说很重要。如果能把Twitter所代表的社交媒体数据，和Google那边掌握的主流媒体数据合并起来，那对提升AI的回答质量肯定有帮助。具体怎么做呢？我再演示一下。

其实这个方法我在社群内也分享过。很简单，Grok的Workspace功能除了支持本地文档上传之外，还支持从Google Drive里导入——这个就是关键功能。

我会先用Gemini做一轮Deep Research，把报告导入Google文档。然后，到Grok里添加这些Google文档，并且在Prompt里强调：附件信息只是参考，你要有自己的搜索和判断。另外，Twitter上用户都有哪些反馈？重点看看。

注意看Grok的分析过程。从主流媒体的信息搜集来看，它确实不如Gemini能搜到那么多。其实不只是它，OpenAI的搜索范围也有限。但是，Grok能搜集Twitter上的数据，包括帖子和评论，这个就是它的独有价值。

我之前在公关营销行业干了十几年，非常清楚只有你预算够，绝大部分主流媒体的内容都可以买，或者都可以影响。相比之下，用户的实际使用反馈就相对真实得多。所以，当我想了解的议题涉及到用户口碑的话，我肯定会通过Grok去搜集，并且跟Gemini那边的主流媒体信息进行合并。

刚才介绍的这两款AI工具的使用经验，看起来确实平平无奇，不像很多AI自媒体介绍的那些玩法那么酷炫，但这些都是能帮到你的真东西。如果你觉得有价值，还想了解更多的话，记得加入我们社群。

OK，以上就是本期内容。那咱们下期见！

最强AI编程工具Claude Code，五个使用Tips 2024-08-31

Key Takeaway

Claude Code被认为是地球上最强的AI编程工具，因为它与Claude模型深度适配和优化，且不计较上下文长度消耗。
/init命令用于初始化项目，创建CLAUDE.md文件，记录项目背景信息，提高效率和上下文一致性。
Plan Mode允许用户在执行复杂功能前，让Claude Code进行规划，尤其适用于不确定如何操作的场景。
/ide命令支持Claude Code与VS Code、Cursor等IDE集成，提供更好的代码修改和提示体验。
用户可以自定义命令，将常用操作（如解释代码）转化为快捷命令，提高工作效率。
/cost命令用于查看API消耗，并可通过/model命令切换模型以节省成本。
作者强调，模型能力相同时，拥有更多工具的AI生产力更高，鼓励用户积极使用和探索MCP。

Full Content

地球上最好的AI编程工具，肯定是Claude Code。而且它接下来还会越来越好。

为什么它最强？我在社群里发过这么一段话：

如果把Claude模型比作引擎的话，那么，虽然各家公司都可以买到这个引擎，然后组装成赛车，但是只有Anthropic能发挥出它的究极实力。

大概率，Anthropic在训练Claude 4的时候，就已经把Claude Code内置的十几种工具给它用上了，对它做针对性的强化训练。

也就是说，这款引擎在研发阶段就已经跟底盘等等系统做适配、做优化了。它们就是最佳组合。其他厂商又怎么可能跟得上。

而且为了效果，Anthropic现在特别豪气，可以不计较上下文长度的消耗。相比之下，Cursor他们就得精打细算过日子，导致有时用户体验会很差。

Claude Code这么强，但是国内介绍得不多。原因很简单：中国的自媒体水平太差了。他们就只会喊“震惊”、“放大招”。碰上这种复杂的工具，还是命令行，而且还需要配置纯净的住宅IP，他们就不知道怎么下手了。

没有关系，我会出一系列视频深度介绍这款工具。今天先来五个非常实用的Tips，帮助大家用好Claude Code。

/init

当你开始一个新的项目，或者让Claude Code中途参与某个项目的时候，一定要先运行/init这条命令，也就是initialize，初始化。

这条命令最主要的作用，是创建一个CLAUDE.md文件。这个文件会包含项目所有的背景信息，包括：项目的核心概述和目标；重要的代码约定和风格指南；关键的文件和工具函数列表，等等。

有了这份文件，每次你启动Claude Code，它就会自动加载，这样它就明白整个项目的情况，不需要你重复说明。另外，当你的项目开发有了任何进展，也可以让Claude把进展写进这个文档。

所以，这行简单的命令，以及它生成的CLAUDE.md文件对于提高效率、保持上下文一致性非常重要。大家记得用起来。

Plan Mode

大部分情况下，我们都是让Claude Code在那边“自动驾驶”。但是，当有一些比较复杂的功能想要实现，或者我们自己也没想好究竟该怎么做的时候，可以切换到Plan Mode，让Claude Code先帮我们做好规划，然后再执行。

要切换到Plan Mode很简单，按快捷键shift加tab就行。比如，我想要提升高并发、服务器断连的应对能力。我自己想了一些解决方案，比如搞个API Key的备用池子等等。我把这些告诉Claude Code，让它帮我完整规划。

接到需求后，它会把需求有关的代码全部过一遍，然后给出非常详细的方案。如果觉得OK，可以让它照着开始执行。

说真的，这个模式挺好用的。当你拿不准的时候，记得让Claude帮你规划。

/ide

虽然Claude Code主要通过命令行界面，也就是CLI进行交互，在终端里运行，但是它也支持跟VS Code、Cursor集成，让用户在IDE的环境中获得更好的体验。

比如，集成之后，你可以看到文件中代码的改动，就像在Cursor里看到的一样。另外，当你选中几行代码之后，Claude Code那边也会有提示。

那么，要做到这一点，你需要做两件事，非常简单：

第一，安装Claude Code插件。这个搜一下就有，然后点击install安装。

第二，运行/ide命令，然后选择对应的IDE，比如我这边是Cursor。然后回车就搞定了。

Custom Command

Claude Code有很多现成的命令可以使用。除此之外，其实你也可以根据自己的需要去自定义命令。

Gemini新手教学 0001-01-01

Key Takeaway

Google Gemini提供了教育优惠，可免费使用Gemini Advanced、NotebookLM Plus和2TB网盘空间。
Gemini的超大上下文长度（100万token）使其在处理长文档（如PDF翻译）方面表现出色，远超其他模型。
Gemini与Google生态系统深度整合，能无缝处理YouTube视频总结（带时间戳）、Gmail邮件翻译和回复、Google Docs和Sheets的内容编辑和生成等。
Gemini的强大生态和模型能力使其在AI应用竞争中具有显著优势。

Full Content

最近是入手Gemini的好时机。因为Google推出了教育优惠，可以免费使用15个月的AI产品，包括Gemini Advanced、NotebookLM Plus，以及2TB的网盘空间。

我在Twitter上看到好多人已经薅到这一波价值300美金的羊毛了。听说那些卖教育邮箱的都赚翻了。具体方法网上很多教程都有，这里就不展开了。

那么，当注册好之后，该怎么用好Gemini呢？我这边分享两点经验，也是Google和OpenAI在模型及产品方面的很大不同。如果你有好的用法，也欢迎在评论区告诉我。

第一，上下文长度。

当大部分模型还停留在128K的时候，Gemini已经达到100万了，并且之后还准备扩展到200万。所谓上下文长度，你可以简单理解就是AI一次性能处理多少内容。那么，超大上下文不管是在编程还是日常使用，都非常有价值。我演示一下你们就明白了。

我这边有一份几十页的PDF文档，分别让ChatGPT和Gemini帮我全文翻译。

先来看ChatGPT这边。当我把文档扔进去之后，它说，这个文档太大了，只能分批翻译。

而Gemini那边特别干脆，直接一口气就全搞定了，而且速度快多了。

你看，这个就是硬实力，也是我非常喜欢Gemini的原因。这就好比是，ChatGPT一杯酒扭扭捏捏还没喝完，Gemini已经吹一瓶了。

所以，以后有任何英文的PDF，你都可以放心交给Gemini处理。“全文翻译”这四个字的含金量，你用了就知道。

第二，生态打通。

AI已经到了拼应用的阶段了。这个时候，有生态和没生态，那完全是两种用户体验。

举个最简单的例子：处理YouTube视频。

很多YouTube视频非常有质量，比如Lex的。但是，他的播客动不动就三个小时，我是真没时间看下去。所以，贴到Gemini里边，让它帮我总结Key takeaway。

这时可以看到，Gemini会调用YouTube，把Key takeaway和对应的时间戳都一起输出。如果对哪个部分感兴趣，点击时间戳就可以直接跳转过去，非常方便。

作为对比，我把同样的需求给到ChatGPT。它应该是调用第三方插件完成的，但是效果差多了。一是颗粒度不够，二是没有添加用来跳转的时间戳。

把YouTube链接给Gemini处理算是比较高频的需求了，不管你是学习还是做自媒体都用得着。除此之外，Gemini跟Google的其它产品还有更多联动。

之前我在视频里分享了Gemini Deep Research、Google Docs、NotebookLM之间的配合。其实，Gemini已经遍布Google全家桶。

当你成为付费用户之后，打开Gmail就会看到，右侧多了Gemini的对话窗口。你可以让它帮你翻译邮件，或者起草一个英文回复，把大概意思告诉它就好。

还记得刚才我让Gemini全文翻译的文档吗？因为我打开了Canvas功能，所以可以把结果导出到Google Docs。然后，在Google Docs里边，可以对这个文档做进一步的编辑处理。

比如，我可以让Gemini更通俗易懂地总结全文核心要点。然后在文档的开头直接插入。

除了操作文档，Gemini还可以帮我们操作表格。这个太无聊了，我就不演示了。简单来说就是，以前我们在单元格里输入等号，然后可以做一些加减乘除。那现在有了Gemini之后，同样输入等号，后面跟AI加括号，就可以把提示词和要操作的单元格输入进去，让AI帮你搞定。

你看，这个就是老牌互联网厂商的家底。人家要模型有模型，要生态有生态。你要是敢打价格战，人家高兴还来不及呢。OpenAI作为新公司，上半场很风光，到了下半场的淘汰赛，会很有压力。

刚才介绍的那些，都是最常用的。除此之外，还有Gem可以做定制化，输入提示词、上传文档就行，这个大家就自己尝试吧。

OK，以上就是本期内容。想交流AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。那咱们下期见！

MCP实用指南 0001-01-01

Key Takeaway

MCP（Model Control Protocol）是模型的超级外挂，能显著提升AI生产力，例如通过结合Claude和MCP实现低配版Deep Research。
Sequential Thinking MCP有助于模型进行多步骤推理，保持逻辑性和连贯性；Tavily MCP则提供优化过的搜索引擎功能。
MCP.so是寻找和托管MCP服务器的首选平台，其核心竞争力在于MCP Server Hosting。
推荐关注三类MCP服务器：搜索相关（如Perplexity, Tavily）、数据相关（如Filesystem, GitHub）和工具相关（与特定应用打通）。
MCP的通信方式取决于服务器部署位置：本地运行使用stdio（标准输入输出流），云端运行使用SSE（基于HTTP的远程通信）。
即使MCP服务器在本地运行，也可以通过调用远程API实现联网功能。
建议新手通过实践Tavily（SSE方式）和Filesystem（stdio方式）来理解和掌握MCP的使用。

Full Content

MCP就是模型的超级外挂。装上之后，你会发现，原来AI生产力可以这么高。

举个例子，我给Claude-3.7 Sonnet配上两个MCP，它就成了一个低配版的Deep Research应用。

一个MCP是Sequential Thinking。它是一种标准化的思考模式，可以让模型在处理多步骤推理任务的时候，保持逻辑性和连贯性。比如，把复杂任务分解成清晰的步骤。当有新的信息出现时，还能灵活调整思考路径。

另一个MCP是Tavily。这个之前介绍过，就是一个对模型优化过的搜索引擎。

有了它俩之后，你看，Claude就会边搜索、边思考；根据搜到的内容，调整思考的路径，然后进行下一轮搜索；当它觉得信息足够了，逻辑也完整了，就会输出最终的报告。

这么一大套流程下来，我用1美元的成本，换来了更高质量的回答。这说明了两点：

第一，OpenAI的Deep Research真的是贵有贵的道理。你看刚才那个思考和搜集的过程就知道，太费Token了。OpenAI那边肯定更复杂。

第二，MCP真的有用。我可以给你们看看对比。我把Sequential Thinking拿掉，只留联网搜索。同样的问题，模型给出的答案简单许多。

这个就是我最近一直在推MCP的原因。那么，我们要去哪里找MCP？找到之后又怎么使用呢？本期视频，我给大家做一个详细解答。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经超过1000人付费加入啦！

回到今天的主题：MCP实用指南。

咱们先说第一个问题：MCP哪里找？

如果你想用现成的MCP的话，那么，MCP导航网站就是你的首选。在这个领域，目前排名第一的，就是MCP.so。

MCP.so是国内明星开发者idoubi的项目。他之前做了好多项目，比如AI搜索引擎ThinkAny。我上期视频说，有人已经开始做MCP基础设施，指的就是他。

在MCP.so，已经有超过3000个服务器被收录。其实，它的核心竞争力不是导航——导航谁都能做，技术含量不高，它的核心竞争力是MCP Server Hosting。

对咱们用户来说，面对这么多服务器，该怎么挑呢？我建议，有这三种类型的服务器大家可以留意一下：

第一，搜索相关的。比如，Perplexity、Tavily都是搜索。Fetch、Firecrawl都是爬虫。

第二，数据相关的。比如，Filesystem能让模型调用本地文件，GitHub能让模型接入代码仓库。

第三，工具相关的。比如，Blender、Figma、Slack这些，你看名字就知道是跟什么应用打通了。

OK，现在大家知道去哪找，以及怎么挑MCP了。那么，如何接入、使用？

这个其实很好理解。你想嘛，既然它叫“服务器”，那么，这个服务器放在哪里，就决定了通信方式。

如果放在本地，跑在你自己的机子上，就用stdio；如果是跑在云端，比如MCP.so上边，就用SSE。

stdio就是标准输入输出流，通常用于本地通信。比如，Cursor、Claude、ChatWise之类的MCP客户端跟跑在同一台机子上的MCP服务器之间，通过标准输入（stdin）和标准输出（stdout）进行通信。

SSE则是一种基于HTTP的远程通信方式。MCP服务器远程托管。你本地的客户端通过SSE实现跨机器通信。

不太理解也没关系。我给你们看看实际的样子。

以ChatWise为例。在设置里的“工具”页面，点左下角的加号按钮，可以添加MCP服务器。在“类型”中，咱们可以选择stdio和SSE两种通信方式。

比如Sequential thinking，我是用stdio的方式。命令中的这一串其实就是GitHub上要求写的参数。因为它不需要API Key之类的东西，所以下边的环境变量就空着。

对于一些需要填写环境变量的MCP，比如Tavily，那就把API Key填进去。点击“查看工具”，ChatWise会尝试连接，然后把这个MCP下所有的工具都列出来。

那么，SSE是什么样的呢？

比如Firecrawl，我就是用SSE的方式。这个就简单多了，只需要把链接填进去。那么，链接哪来的？

还记得我刚才说的吗？如果MCP服务器跑在云端，那就通过SSE的方式连接。MCP.so就提供了这样的云端服务。

来到这个网站的Firecrawl页面，在右边填入你的API Key，点击“Connect”，它就会生成一个专属的链接。把这个链接复制下来，贴到ChatWise里边就搞定。

MCP很简单，有手就行 0001-01-01

Key Takeaway

MCP（Model Control Protocol）被比作AI的USB-C，旨在统一AI与各种软件的接口，实现AI按需调用工具。
MCP的快速发展可能受Agent概念影响，因为它为AI提供了“手脚”，是当前阶段解锁Agent的最佳途径。
相较于通用Agent和复杂的工作流搭建，MCP的配置方法更简单，模型（如Claude-3.7 Sonnet）能自主选择和调用工具。
MCP的配置方式有两种：AI自动创建（如Cline的Marketplace）和手动编辑（如Cursor的配置文件）。
通过cursorrules文档，用户可以自定义Cursor的行为，使其在处理任务时优先检索本地文档、联网搜索，并调用特定MCPs。
MCP服务器的通信方式分为本地的stdio和云端的SSE，即使本地运行的MCP也能通过调用远程API实现联网。
掌握MCP能显著提升AI生产力，因为模型在拥有更多工具时，其能力会更强。

Full Content

我的AI比你的强，不是因为它更聪明，而是因为它手里有更多工具。

比如，你的Cursor只能编程，而我的Cursor可以用Blender进行3D建模。

你的Cursor只能编程，而我的Cursor可以把英文网页扒下来，然后翻译成中文，并且存到本地文档里。

所有这一切的实现，都是因为有了MCP。我在上上期视频介绍过这个非常非常火的协议，还没看的小伙伴抓紧看，很重要！

简单来说，MCP就是AI的USB-C。不管你是什么软件，都给我统一用这个接口协议。这样AI才能自由接入各种软件，按需调用。

就像USB-C一样，电脑、手机、键盘、鼠标等等，全都支持。一根线，既能充电，也能传输数据，非常方便。

MCP出来有一段时间了。最近一个月，我突然感觉到它在加速发展。可能是受到Agent影响。大家发现，要搞Agent，没工具不行——没工具，AI就没有手脚。看了一圈，就这个最靠谱。于是支持的人越来越多。已经有不少开发者在做基建类项目了。这个领域一定能跑出黑马来，VC的小伙伴可得盯紧了。

对用户来说，MCP是你在现阶段解锁Agent的最佳途径。

第一，像Manus那种通用Agent还没到能大规模落地的阶段。还得等一段时间。

第二，像Dify那种搭建垂类Agent Workflow的方式，其实不适合普通用户。它说是“无代码”，好像在画布上拖几下就可以。但是，你要真没编程思维、编程经验的话，肯定搞不定。

相比之下，MCP这条路就靠谱多了。

第一，像Claude-3.7 Sonnet这种模型已经非常强大了。你把各种MCP配置好，它自己知道什么时候该用啥，不用你操心。

第二，MCP的配置方法也足够简单。目前就两种方法：要么AI自动创建，要么你手动编辑。

前一种方法主要针对Cline。它在内部搭建了一个Marketplace，把主流的MCP都抓了过来。你只要点击Install，它会搞定剩下的一切。配置过程中遇到Bug的话，它也会自己想办法解决。真的太贴心了！

后一种方法也很简单。我用Cursor演示一下。

在正式开始之前，你得先去Beta里，把Standard改为Early Access。然后去左上角点击Check for Updates。这样就能把Cursor更新到0.47版本。

相比0.46版本，0.47版本给MCP添加了配置文件功能。我们可以直接在里边改动，非常方便。

比如，我想添加File System这个MCP。它的作用是，让模型能够操作指定路径下的文件，比如读和写、创建和删除等等。所有这些功能，都在工具列表下，写得清清楚楚。

大家记住，每一个MCP里都有若干个 tool。模型会根据你的请求决定用哪个MCP、用哪个tool。所以你挑选MCP的时候，记得看一下它的tool list，然后你就心里有数了。

OK，我们继续配置。把页面往下拉到NPX这边，中间这几行就是咱们要复制的。我来解释一下，很好理解：

npx就是一个命令行工具，可以执行npm包中的命令。下边的arguments就是参数的意思，它包含了三个参数：

y就是yes的意思，跳过确认提示；

@modelcontextprotocal这一串就是需要执行的npm包的名称；

下边这两行都是地址参数，告诉MCP可以访问哪里的文件。

所以，咱们接下来要做的就是，把这几行复制一下。然后打开Cursor里的配置文件，贴进去。最后把地址改一下，比如我这边就指定了可以访问桌面的文件。

保存之后，回到MCP服务器页面，就会看到filesystem这个MCP已经亮起绿灯，表示已经配置好了。它所包含的每一个工具也都列出来了。

如果你理解了我刚才演示的这些，那其它MCP基本也是同样的操作。最大的区别就是参数、环境的设置不一样。

比如Firecrawl这个爬虫MCP，它就要求咱们填写API Key。其它都不用管，就是复制、粘贴。

当你理解了Cursor的设置，其它软件也都是一样的。比如Cline、Claude那边也是这么操作的。你只要打开那个配置文件，看一眼就全明白了。

你看，这就是MCP牛逼的地方。它不是一上来就牛逼哄哄地要颠覆一切，而是尽可能降低各方的成本。所以大家才会有动力去支持你，完成接口的统一。

如果你是开发者，一定要把握这个MCP这个机会。如果你是用户，一定要亲自上手用起来。记住我这句话：

模型一样的情况下，谁可以调用更多工具，谁的生产力就更高。

OK，以上就是本期内容。想交流AI，就来我们newtype社群。那咱们下期见！