Google

Gemini 2.0:性价比之王

Key Takeaway

  • Gemini 2.0是目前性价比最高的大模型,其Flash-Lite版本价格极低,Flash版本兼顾性能、价格和速度。
  • Gemini 2.0 Pro版本上下文窗口提升至200万,适合复杂推理和代码生成。
  • Flash Thinking版本具备链式推理能力,适合逻辑推理和多跳问答。
  • Gemini 2.0在性能、稳定、速度和价格方面达到平衡,成为作者的主力AI应用。
  • 文章强调AI不会替代人,但使用AI的人会替代不使用AI的人。

Full Content

Gemini 2.0是世界上性价比最高的大模型,没有之一。我知道你们在想什么——它比DeepSeek还强。咱们直接来看价格,海外博主已经做好表格了。

Gemini 2.0 Flash-Lite是真的是白菜价:输入只要0.075美金,输出0.3美金。

比它功能多一点的Flash,价格贵一点点:输入0.1美金,输出0.4美金。

再来看DeepSeek:V3输入0.27,输出1.1;R1输入0.55,输出2.19。

谷歌这真的太卷了。要知道,Flash可是支持多模态、支持原生工具使用、有一百万的上下文窗口的最先进的模型。结果它不仅比DeepSeek便宜,而且还压过了GPT-4o mini。看来今年AI竞赛要上强度了。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!

回到今天的主题:性价比之王——Gemini 2.0。

Gemini 2.0是谷歌前几天更新的模型系列,包含Pro和Flash两条线。

Pro很好理解,就是谷歌目前的顶级模型。该有的功能它都有,而且把上下文窗口从一百万提升到了两百万。所以,Pro版本非常适合用来复杂推理、生成代码等等。

而Flash则兼顾了性能、价格和速度,是日常使用的主力模型。其中,Flash还有两个变体:

Flash-Lite砍掉了一点点功能,比如不支持图片和音频的输出,不支持联网搜索,不能执行代码,然后把价格压到最低。所以,如果你需要大规模生成文本的话,那用Lite版最合适。

Flash Thinking顾名思义,就是带上链式推理能力的版本。跟大家很熟悉DeepSeek-R1一样,它在回答之前会先进行多步骤推理。所以对于一些复杂任务,比如需要更强的逻辑推理,或者多跳问答,用Flash Thinking最合适。

前边说Gemini 2.0是性价比之王,我感觉不太准确。因为“性价比”这三个字好像显得它性能不太行的样子。更贴切的称呼应该是“卷王”。我给你们演示一下效果。

先来看看Pro的能力。我给的问题是:

英伟达的CUDA为什么能成功?护城河究竟有多深?AI时代,英伟达的竞争对手有可能赶超或者颠覆吗?

可以看到,Pro虽然比Flash慢,但其实观感上还是很快的。而且它给出的答案,逻辑很清晰,也没什么过多的废话,这一点我真的很喜欢。

再来看Flash Thinking。我来问一个最近讨论特别多的问题:

DeepSeek-R1的成功是否说明,可以不需要英伟达的高算力GPU和CUDA了?

Flash Thinking的思考过程是英文的。它先是拆解了我的问题,得出需要去搜索、调研的关键词,然后再去做相应的搜索。跟Pro一样,它的答案挺干净清爽的。

作为对比,同样的问题我拿去问了DeepSeek-R1。虽然结论差不多,都是具有不可替代性,只是依赖可能会减少,但是思考的过程有挺大差别:

Flash Thinking是先拆解,再搜索。R1直接搜索,再看搜到的网页都讲了什么。从方法的角度来看,我个人是更倾向于先做拆解的。你们觉得呢?

Gemini是我的主力AI应用。最初我是用ChatGPT的。结果在使用过程中遇到各种限制,特别烦。正好Claude 3.5出了,于是就转到Claude那边去。再后来,Claude大面积封号,我三个号都被挂了,于是“逃难”到Gemini,也充了值。

这次2.0的更新,我这几天用下来非常非常满意。不管是哪个版本,都做到了性能、稳定、速度以及价格的平衡。在桌面端用网页版,Pro、Flash和Flash Thinking都有。在手机上就用官方的APP,可以选Pro或者Flash。

只要谷歌那边别出什么幺蛾子,在下一次模型大更新之前,Gemini都会继续是我的日常主力。

我知道,用国外这些产品得跨过好几道门槛。但是,这些门槛其实也帮你筛掉了很多很多人。只要你花点时间、花点钱跨过去了,你就取得巨大领先了。还是那句话:

AI不会替代你,用AI的人,尤其是用先进AI的人才会。

OK,以上就是本期内容。想进一步了解AI,就来我们newtype社群。那咱们下期见!

NotebookLM:AI时代的笔记应用

Key Takeaway

  • NotebookLM是Google Labs发布的一款实验性AI笔记应用,结合了Chatbot和RAG,改变了传统笔记逻辑。
  • 其核心功能区包括来源区(添加文档)、对话区(AI引导提问和回答)和笔记区(手动/自动创建笔记)。
  • NotebookLM通过AI建议提问、引用来源和笔记生成等功能,显著提升了用户对文档的理解和知识沉淀效率。
  • 该产品旨在实现“Conversational Learning”(通过对话进行学习),让AI辅助用户消化资料并生成内容。
  • 尽管仍处于早期阶段,NotebookLM展现了AI在学习和知识管理领域的巨大潜力。

Full Content

这是我用过最好的AI学习产品。

它是Google Labs前段时间发布的一款实验性产品:NotebookLM。他们把由大模型驱动的Chatbot和RAG加进传统的笔记应用,整个产品逻辑都变了。

虽然NotebookLM还处在早期阶段,但是底子已经打好了。我用了一段时间发现,它对我的学习、知识的沉淀和整理,都非常有帮助。

我强烈建议大家看完这期视频后,都去试试。我已经在考虑怎么把它跟我平时在用的DEVONthink、Obsidian结合起来了。

我从零开始,演示给大家看。

目前这款产品还只限美国地区的用户使用。不过这些对咱们来说都不叫事儿。 登陆之后,就会看到这样一个有点简陋的页面:笔记本的创建和选择。

进入笔记本详情页,就三个核心功能区:

  • 来源区
  • 对话区
  • 笔记区

来源区用来添加文档。支持Google Drive导入、PDF上传,或者直接贴文字进来。

文档上传之后,你可以选定一个文档或者多个文档。AI会根据你的选择,自动进行分析,给出Summary和Key Topics。这时,在对话区,对话框上边出现了AI建议的提问。

这么设计有什么好处?

当我们上传一个没有读过的资料时,往往不知道怎么跟AI开始对话——对资料内容一无所知,肯定不知道该问啥。

这时,我们就可以点击Key Topics或者建议提问中的任意一个,AI自动给出回答。每个回答都会包含citations,引用来源。把鼠标悬停在上边就会出现原文。点击的话,就会自动来到文档中对应的位置,这样还能看到上下文,有一个更全的了解。

值得注意的是,当提完一个问题之后,AI建议的提问还会更新。所以,即使不输入任何问题,跟随AI的引导,点几下鼠标,也能完成对一个大文档的初步了解。

这就是把大模型能力融进笔记应用之后,带来的显著提升。

笔记区也是如此。

我们可以手动添加笔记,也可以通过点击任意一个对话框里的pin按钮,把它自动变成一条笔记。

当笔记做得差不多了,可以把它们全部选中,AI同样会给出操作建议。比如,总结、全部合并,或者创建一个Outline。直接通过对话下达指令也OK。

在笔记的基础上,加上Chatbot和RAG,整个笔记应用就全变了。Google管它叫:Conversational Learning,通过对话进行学习。

就像刚才演示的那样,从一个基础问题开始,AI引导着你把整个资料消化完毕。在这个过程中,还可以很容易就创建若干笔记。最后,通过这些笔记,你还可以让AI帮你生成内容。

有学习,有产出,这就是Conversational Learning。这也是这款产品吸引我的地方。

当然,就像开头说的,NotebookLM还很初级,有很多不足。比如,最基本的多层级文件夹功能缺失。没法创建子文件夹,对资料整理、选择文档来说实在太不方便了。另外,语言的支持也不够,只有英文。我用中文提问,AI还是回复英文。我传中文的文档进去,AI还是回复英文。

当然,这些都是次要问题。Google只要围绕现在这个主干去完善,很有机会打造出一款非常给力的生产力工具。

这应该是我最期待的Google产品了。

OK,以上就是本期内容。大家记得点赞点关注。我们下期见!

大模型正在吃掉一切

Key Takeaway

  • 大模型巨头(OpenAI、Google)的更新正在“吃掉”小厂商和创业者的市场份额。
  • OpenAI的GPT-4o通过整合图像生成功能,实现了图文并茂的全新交互体验,拉开了与竞争对手的距离。
  • Google的Gemini 2.5 Pro在代码能力和推理能力上显著提升,并具备超大上下文窗口,展现了强大的综合实力。
  • 顶级模型正朝着“模型即应用”的方向发展,全面铺开多模态、代码生成、工具调用等能力。
  • 文章对AI时代的创业持悲观态度,认为AI的强大和中心化将压缩创业空间,强调人与人之间的关系是AI无法替代的。

Full Content

我现在有一种感觉,大模型已经不是小厂商能玩得了的了。每一次大厂的更新,都会吃掉小厂的份额,也会吃掉一批创业者的机会。你看这两天的OpenAI和Google,我要是干这行的,肯定会觉得很心累、很绝望。

先是OpenAI。他们更新了GPT模型,把最先进的图像生成功能整合进GPT-4o。结果一夜之间,Twitter上全是用ChatGPT生成的吉卜力风格的图片。不止是用户在玩梗,很多大佬也开始加入了。

说实话,这种火爆程度,在AI领域已经有些日子没看到了。奥特曼非常懂传播。因为吉卜力画风本来就有非常广的群众基础。当你把现实的图片转成这种画风之后,那种反转感,特别适合社交媒体传播,想不火都难。

而且,OpenAI这个技术不止是图像生成那么简单,它应该是能理解图片的背景信息。因为有网友发现,这张图的左下角,桌上摆着一份《停火协议》,说明GPT知道原图是什么意思。

这个就是我在之前那期《逆袭のGemini》里说的:

现在AI回答你的问题,可以做到图文并茂。

你有什么图片想生成、想修改的,AI可以做到言出法随。

这种全新的体验,是之前从未有过的。OpenAI这一次更新,干掉了ComfyUI半壁江山,也再次拉开跟其它厂商的距离。

其实郁闷的不止是创业者和小的模型厂商,Google应该也挺不爽的。因为他们在同一时间发布了Gemini 2.5 Pro,结果风头全被抢了。

但是有一说一,这个模型非常非常厉害。

第一,Gemini 2.5 Pro的代码能力有显著提升,已经接近Claude了。你看,我让它写一个100个小球在球体内反弹的脚本,它很容易就搞定了。

第二,Gemini 2.5 Pro的推理能力有显著提升。当推理能力上来之后,加上超大上下文窗口,它给了我一种“全局理解”的惊喜。不管是拿来分析脚本还是翻译PDF,我感觉Gemini 2.5 Pro都比别的模型好使。

你看,这个就是今天全球顶级模型该有的样子。这行业早已经过了单纯拼文本生成的阶段了。

你会强化学习,我也会。你有思维链,我也有。除此之外,我还有更大的上下文窗口,有原生的多模态,能生成和修改图片,能写代码,能调用工具,甚至还能跟用户实时语音和视频。

这么多能力已经全面铺开了。它们只有一个目标,就是把模型变成一个完整的应用。

所以,我其实对AI时代的创业一直持悲观态度。因为AI太强大,又太中心化了。创业者的生存空间会比之前互联网时代少得多。

那么,有什么是AI无法替代的呢?我认为,最终落脚点只能是人。因为只有人,AI无法替代;也只有人与人之间的关系,AI无法生成。

OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!

如何让AI帮你快速看完一本书?

Key Takeaway

  • Google的NotebookLM是一款强大的AI学习产品,通过“Conversational Learning”理念,辅助用户高效学习和消化资料。
  • NotebookLM新增中文支持和笔记本指南功能,后者包含摘要、建议问题和多种生成选项(如简报文档、常见问答)。
  • 该工具能帮助用户快速建立对文档的框架性理解,并通过AI引导深入细节,提升学习效率。
  • NotebookLM通过结合AI生成和对话,提供立体化的学习体验,超越传统阅读方式。
  • 文章强调了NotebookLM在辅助阅读、理解和知识沉淀方面的巨大价值。

Full Content

我还是得再次推荐谷歌的AI神器:NotebookLM。如果你想严肃学习,比如好好看完一本书,或者消化一批研究报告,那这个工具肯定能帮到你。

几个月前我发视频介绍过NotebookLM,这是我最期待的谷歌产品,也是现在为数不多的、真正有用的AI工具。它提出的新理念我非常赞同,叫做Conversational Learning——在AI的辅助下,通过对话的方式完成学习。

咱们来打个赌:半年,最多一年,就会有国内厂商把这款产品的逻辑抄去。

最近NotebookLM有一个大更新:

一是终于支持中文了。

之前它虽然也懂中文,但就是不用中文回复你,也是绝了…现在支持了,不过还是得到设置里更改一下:

进入Google账号的个人信息页面,在网页版的常规偏好设置里,把首选语言改成中文就OK了。

二是新出了笔记本指南功能。

当你把文档导入,Genimi模型会先对文档做预处理。快的话几秒,慢的话十几秒,笔记本指南就完成了。它包含三个部分:

第一,摘要,告诉你文档的核心内容。比如我导入的这本书是Evolution in Four Dimensions(进化的四个维度)。通过摘要我就知道,原来传统的、我们以前在学校里学的达尔文的那套理论——基因决定生物进化并不完全对。除了基因,表观遗传、行为和符号也会影响到生物进化。

第二,建议问题。大模型会根据文档内容自动生成第一批建议问题。我们不需要敲字,只要点击就可以提问。而且,每一个问题提完之后,它还会持续更新建议问题。所以我们一路点下去,就会有一些初步的理解。

不过这还不够,因为这么零散的一问一答是没法形成一个整体性的框架的。于是就有了第三部分——生成。

NotebookLM事先设置了五个生成选项。AI自动生成之后,会以笔记的形式输出。我觉得比较有用的是这两个生成:

第一,简报文档。这部分内容会把文档的核心逻辑和主要观点都列出来。

比如,传统的基因决定论受到挑战,因为我们发现,基因要发挥作用,需要依赖系统,也会受到环境影响,所以没有之前想的那么万能。除了基因,生物进化还有更多维度,包括表观遗传系统、符号遗传系统。

看完简报文档,你就知道进化的四个维度这本书的主张是什么,以及作者是怎么一步一步推导出这个主张的。逻辑比观点更重要,这是我觉得这个生成有用的原因。

第二,常见问答。一本书看完了,你问得出问题来,才说明吃透了。

比如,我们对基因的传统认知是什么?为什么它不再完全适用?表观遗传系统都包含哪些类型?文化遗传是怎么影响到生物进化的?这些都是书里的关键问题,AI先帮你问了,并且给了你答案。

有笔记本指南功能之后,这款产品才算完整了。

先通过AI生成功能,建立起对整个文档的框架性理解。然后通过对话,在框架之下做补充。

这就是AI的辅助作用。之前你得老老实实地从前到后把书看完,才有一个框架性的理解。现在AI先帮你读完了,直接把框架给到你,然后再带着你去过里边的细节。显然这是一种更高效率的学习方法。

这就是为什么我要再出一期视频来再次介绍、再次推荐这款产品的原因。把Why讲清楚了,大家才能更舒服地去用这些AI工具——这是我能带给大家的价值。

OK,以上就是本期内容。有什么问题想问我的,来newtype社群,我都在。那咱们下期见!

详细版!我是如何用AI学习的

Key Takeaway

  • AI将成为衡量个人能力的标准,其应用能力将成为基本技能。
  • 作者分享了一套AI学习法:首先对议题进行拆解,梳理个人初步判断和问题,为AI提供上下文。
  • 利用Gemini的Deep Research功能生成多份详细报告,并通过Google文档导入NotebookLM进行AI辅助学习。
  • 使用Cursor结合Gemini 2.5 Pro对所有资料进行整合、精简和脱水,最终输出为Markdown格式的文件。
  • 强调Markdown格式是AI时代最适合的文件格式,便于人机理解和长期保存。
  • 整个AI学习流程显著提高了学习效率,拉开了人与人之间的差距。

Full Content

很快,AI就会成为人的标准。

AI生成的东西,是平庸的标准。如果你做出来的东西,比如写了一篇稿子或者弄了个报告,比不过AI的话,那么你在这个方面就是平庸的。

对AI的应用,是基本技能的标准。不会在工作中把AI用起来,就好比今天不会用Office软件。不会在学习中把AI用起来,就好比今天不会用搜索引擎查资料。

我一直觉得,今天的AI已经足够强了。按照这个趋势再更新一代,也就是GPT-5、Claude 4、Gemini 3.0的那一代,AI就会达到一个成熟的状态。AGI能不能实现不重要,因为现有的已经足够深刻改变人类社会了。

大部分人还意识不到这一点。这就是为什么我要一直出视频的原因——我要把那些能看到未来的人筛选出来、聚集起来。本期视频,我会用一个具体的例子,分享我目前是怎么用AI学习的。如果你看了有感觉,记得加入我们社群。

OK,咱们开始吧。

当我想深入了解某个议题的时候,我不会直接问AI,而是先自己做拆解。

比如,我对AI PC有疑惑。如果我上来就直接问AI,那大概率就是:请给我生成一份AI PC发展趋势报告。

不客气地说,这种搞法,是非常低效、无效的,也是非常没水平的。我不用看结果都知道,肯定是一份四平八稳、特别水的报告。

正确的做法是,你要先在自己脑子里过一遍,先做拆解,把你对这个议题的初步判断、大致理解、特别想弄明白的问题梳理出来。比如,关于AI PC,我特别想知道的有两点:

第一,AI PC是不是伪命题?

我知道,在最关键的算力问题上,AI PC用CPU、NPU和GPU来分配和调度。那么,NPU真的靠谱吗?真的不是鸡肋吗?这个在我这边是要打个问号的。

所以第一个问题其实是关于这个品类的问题,会涉及到品类的定义、行业的标准。

第二,AI PC发展得起来吗?

我知道,目前除了英特尔在推,高通、AMD也都在搞。虽然我还不了解具体情况,但根据江湖经验,大概率这三家会有自己的路线、架构以及工具链。这就会给开发者造成很多优化上的麻烦,因为标准不统一嘛。

所以第二个问题其实是关于行业格局、生态发展的问题。

你看,这个做拆解的过程,其实就是融入个人思考上下文的过程。对于一个议题,每个人都有不同的理解、不同的侧重点。你不做拆解,就无法提炼出来,就无法给AI提供更多的Context,那AI又怎么可能生成你想要的东西呢?

就像我之前在社群里说的:

AI时代,答案都在那里,只要你能问对问题。

当做完拆解之后,我就可以通过Deep Research生成多份报告,各有各的针对性。就像AI PC的例子,我让Gemini帮我生成了两份报告。

为什么是两份而不是整合成一份?因为单份的会更详细、更聚焦。而且,两份报告之间肯定有重叠的部分。没准能互相补充或者验证。

报告好了之后,就可以导出到Google文档了。我前两天在社群里说过,这是别家都没有的功能和体验。因为,导出之后,就可以在NotebookLM里添加了。

NotebookLM是目前最好的AI学习工具,我推荐过好多次了。它特别适合有教材、有文档的场景。

在这个框的左下角,我们可以从Google文档里加载。刚才导出的两份Deep Research报告都在里边。

等个几秒钟,模型会完成解析。这时就可以对话了。比如,我会问它:AI PC是伪概念、智商税吗?NPU是鸡肋吗?英特尔、高通、AMD在发展AI PC上,有哪些路线、架构的不同?

这些回答,如果觉得OK的话,可以Pin一下,把它们变成笔记。

我知道,有的人可能还是会抱怨,Deep Research出来的东西还是不太行。其实在我看来,不管是好的反馈还是坏的反馈,都是反馈,都有价值。

比如Gemini做这两份报告,应该查了上百个网页,把目前关于AI PC的公开报道都覆盖了。所以,假如这两份报告不太OK,我也会很高兴——因为它代表了目前媒体、自媒体的看法,说明目前的市场共识是有问题的。而我将要去挖掘更正确、更有可能成为下一阶段市场共识的非共识。

如果你有投资、有创业的Mindset,遇到这种共识偏差情况,应该会非常兴奋。当然啦,普通大众没有,他们只会抱怨。

好了,不跑题。我这个AI学习过程还没完,咱们继续。

通过刚才的问答,我们在NotebookLM的帮助下,把资料消化得差不多了,也保存了一些笔记。那么下一步,我会让AI帮我把所有的资料都整合成一份,包括最初生成的两份报告,以及在探讨过程中存下来的、我感兴趣的笔记。

之所以要这么做,主要原因是,学习不是这一趟学了就完事了——之后还得重温,还得学而时习之,有需要的时候肯定还会回来翻看。所以,我需要把这个过程中的所有产出都整合,变成一份完整的东西。而且,还要做精简、脱水,只保留最精华的部分,这样下一次我查看的时候,效率更高。

为了实现这个效果,我这边用到Cursor,搭配Gemini 2.5 Pro。

谷歌下一个AI爆款:Learn about

Key Takeaway

  • Google的Learn about是一款专为学习打造的AI产品,与NotebookLM结合可覆盖所有学习场景。
  • Learn about能提供系统性的学习框架,并引导用户进行深度学习。
  • 该产品通过AI助理和AI老师的角色,帮助用户从互联网获取、整理和学习知识。
  • Learn about和NotebookLM的结合体现了Google提出的AI时代学习方法:Conversational Learning。
  • 文章强调RAG将成为AI原生应用的标配,严肃生产是AI应用落地的价值场景,AI将彻底改变学习方式。

Full Content

谷歌又要出爆款了!

Learn about专门为学习打造。你想学什么、想了解什么,直接在对话框里问就可以。它都帮你安排得明明白白。这款新产品跟之前的NotebookLM组合在一起,基本就覆盖了所有的学习场景。

举个例子,你想学Python。

如果你手里有教材或者资料的话,那就用NotebookLM。把文档传进去,它会帮你先过一遍,给出摘要、大纲等等,让你先有一个全局性的了解。然后再以提问、回答的形式,在AI的引导下,去吃透细节。过程中,你有任何想了解的,AI都会基于资料回答。

如果你手里啥也没有咋办呢?没关系,互联网上啥都有,用Learn about搞定。它是你的AI助理,会帮你从网上找到一切跟主题相关的资料。它是你的AI老师,会把找到的资料整理得非常有逻辑,然后在一个大框架下教你,并且回答你的一切问题。

新出的Learn about和已经爆火的NotebookLM加在一起,就是谷歌提出的AI时代的学习方法:Conversational Learning。

哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有600位小伙伴付费加入啦!

回到今天的主题:Learn about。

这款产品还处在早期,跟当初的NotebookLM一样,限定地区,也暂时不支持中文。其实它可以用中文回答,但是刚开口就被掐断了,然后提示不支持。所以咱们耐心等着就好,估计过两三个月就放开了。

我第一次使用的时候,会有点疑惑:这不就是问答引擎吗?因为当时我随便问了个问题,Learn about就像Perplexity那样联网搜索、给出回答、给出来源。但是,当我正儿八经问它该怎么学Python的时候,才发现这款产品真正的威力。

Learn about特别擅长给出系统性的学习框架。以学Python为例。在基础部分,它给出了学习大纲,建议从数据类型、变量、运算符、控制流、函数这五个部分下手。每个部分都有对应的展开。比如,数据类型包含了字符串等等。

随便从哪一个部分切入进去学习都可以。不用担心找不回原来的框架——它被放到左边栏的位置,可以折叠或者展开,起到导航的作用。我们可以时刻知道,正在学的知识点是属于哪个部分,不断强化这种全局观。

同样,如果有子框架出现的话,也会加入左边栏。这就避免了一层套一层,最后搞得特别混乱的情况。

我之所以觉得这个功能很重要是因为,不管你学什么,一定先建立起一个系统性的框架、大纲,或者说是思维导图。这是最重要的。有了这个之后,你再去抠细节,再去抠里边的知识点。我在之前推荐NotebookLM的视频里也强调过这一点:全局性的认识是“学会”的基础。

再来看我们今天的教育就会发现,全都是在死磕知识点。也难怪教出来的学生脑子是空的,人都废了。

跑题了,咱们回到Learn about。

在产品功能上,Learn about大量采用NotebookLM一样的建议问题、引导学习的方式。你刚开始学、没什么概念的话,就让AI带着你、用对话的方式逐渐深入。

在这个过程中,如果你觉得AI讲得太浅了,可以点Go deeper,让它讲得细一些。同样,如果觉得讲太深了、吃不消,也可以让AI讲得通俗易懂一些。另外,在任何时候,如果看到有什么不明白的概念,直接选中,让AI解释。像这些预设的功能虽然小,但是特别实用,谷歌确实走心了。

Learn about和NotebookLM都是关于学习的产品,但是二者的定位不太一样。NotebookLM更多是一种辅助的角色,帮你理解、消化文档。而Learn about处在一个主导的地位,像老师一样去教你。所以在教学过程中,它会加入一些小问题、小测验,通过一个简单的选择题去强化你的理解——这些都是这款产品主动性的体现。

通过这几天的使用,我已经决定把Learn about纳入我的AI工具库。要学点什么,我会用它。要查点什么,我会用Perplexity。要讨论点什么,我会用Claude。

我发现,我之前在社群里陆续分享过的三个判断依旧成立:

第一,RAG会成为AI原生应用的标配。你看,NotebookLM和Learn about都是基于RAG,把这技术玩出花儿来了。

第二,AI应用落地阶段,严肃生产是最有价值的场景。你看,今年火起来的、活得不错的,都是这个方向的产品。非严肃生产类产品,等AI终端普及了才有可能大量出现。

第三,AI会彻底改变我们的学习方式。只要想,就一定能学会。所以,以后世界上会分为两种人:一种是想学的,一种是不想学的。不想学的,AI会创造海量的娱乐内容去饲养他们。而想学的,将成为新世界创建者。

OK,以上就是本期内容。想交流AI,来我们newtype社群。那咱们下期见!

Gemini新手教学

Key Takeaway

  • Google Gemini提供了教育优惠,可免费使用Gemini Advanced、NotebookLM Plus和2TB网盘空间。
  • Gemini的超大上下文长度(100万token)使其在处理长文档(如PDF翻译)方面表现出色,远超其他模型。
  • Gemini与Google生态系统深度整合,能无缝处理YouTube视频总结(带时间戳)、Gmail邮件翻译和回复、Google Docs和Sheets的内容编辑和生成等。
  • Gemini的强大生态和模型能力使其在AI应用竞争中具有显著优势。

Full Content

最近是入手Gemini的好时机。因为Google推出了教育优惠,可以免费使用15个月的AI产品,包括Gemini Advanced、NotebookLM Plus,以及2TB的网盘空间。

我在Twitter上看到好多人已经薅到这一波价值300美金的羊毛了。听说那些卖教育邮箱的都赚翻了。具体方法网上很多教程都有,这里就不展开了。

那么,当注册好之后,该怎么用好Gemini呢?我这边分享两点经验,也是Google和OpenAI在模型及产品方面的很大不同。如果你有好的用法,也欢迎在评论区告诉我。

第一,上下文长度。

当大部分模型还停留在128K的时候,Gemini已经达到100万了,并且之后还准备扩展到200万。所谓上下文长度,你可以简单理解就是AI一次性能处理多少内容。那么,超大上下文不管是在编程还是日常使用,都非常有价值。我演示一下你们就明白了。

我这边有一份几十页的PDF文档,分别让ChatGPT和Gemini帮我全文翻译。

先来看ChatGPT这边。当我把文档扔进去之后,它说,这个文档太大了,只能分批翻译。

而Gemini那边特别干脆,直接一口气就全搞定了,而且速度快多了。

你看,这个就是硬实力,也是我非常喜欢Gemini的原因。这就好比是,ChatGPT一杯酒扭扭捏捏还没喝完,Gemini已经吹一瓶了。

所以,以后有任何英文的PDF,你都可以放心交给Gemini处理。“全文翻译”这四个字的含金量,你用了就知道。

第二,生态打通。

AI已经到了拼应用的阶段了。这个时候,有生态和没生态,那完全是两种用户体验。

举个最简单的例子:处理YouTube视频。

很多YouTube视频非常有质量,比如Lex的。但是,他的播客动不动就三个小时,我是真没时间看下去。所以,贴到Gemini里边,让它帮我总结Key takeaway。

这时可以看到,Gemini会调用YouTube,把Key takeaway和对应的时间戳都一起输出。如果对哪个部分感兴趣,点击时间戳就可以直接跳转过去,非常方便。

作为对比,我把同样的需求给到ChatGPT。它应该是调用第三方插件完成的,但是效果差多了。一是颗粒度不够,二是没有添加用来跳转的时间戳。

把YouTube链接给Gemini处理算是比较高频的需求了,不管你是学习还是做自媒体都用得着。除此之外,Gemini跟Google的其它产品还有更多联动。

之前我在视频里分享了Gemini Deep Research、Google Docs、NotebookLM之间的配合。其实,Gemini已经遍布Google全家桶。

当你成为付费用户之后,打开Gmail就会看到,右侧多了Gemini的对话窗口。你可以让它帮你翻译邮件,或者起草一个英文回复,把大概意思告诉它就好。

还记得刚才我让Gemini全文翻译的文档吗?因为我打开了Canvas功能,所以可以把结果导出到Google Docs。然后,在Google Docs里边,可以对这个文档做进一步的编辑处理。

比如,我可以让Gemini更通俗易懂地总结全文核心要点。然后在文档的开头直接插入。

除了操作文档,Gemini还可以帮我们操作表格。这个太无聊了,我就不演示了。简单来说就是,以前我们在单元格里输入等号,然后可以做一些加减乘除。那现在有了Gemini之后,同样输入等号,后面跟AI加括号,就可以把提示词和要操作的单元格输入进去,让AI帮你搞定。

你看,这个就是老牌互联网厂商的家底。人家要模型有模型,要生态有生态。你要是敢打价格战,人家高兴还来不及呢。OpenAI作为新公司,上半场很风光,到了下半场的淘汰赛,会很有压力。

刚才介绍的那些,都是最常用的。除此之外,还有Gem可以做定制化,输入提示词、上传文档就行,这个大家就自己尝试吧。

OK,以上就是本期内容。想交流AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

Google:王者归来

Key Takeaway

  • Google通过克制赚钱欲望,推出搜索的AI模式,展现了其AI First的战略决心。
  • Google在AI领域实现了“王者归来”,其全栈式AI产品体系涵盖基础层(AI搜索、Gemini模型、TPU算力)、赋能层(开发者工具)和体验层(多模态内容创作、Agent平台)。
  • Gemini系列模型持续迭代,提升了多模态能力和推理能力,如Gemini 2.5 Pro的Deep Think和Flash的速度优化。
  • Google在AI产品功能上不断创新,如Veo 3的视频生成、Flow的视频编辑和Project Mariner的Agent平台。
  • Google还更新了Deep Research功能,支持上传文档和生成信息图,提升了实用性。
  • 文章预测2025年将是Google在AI领域全面爆发的一年,其全栈式AI产品体系将全面开战。

Full Content

问你一个问题:什么样的巨头最可怕?

当一个巨头能克制赚钱欲望的时候。它宁可少赚,也要完成战略转型、跟上时代。你千万别小瞧这一点——过去多少巨头就死在这上面。

今天的Google就进入了这样的状态。他们在传统搜索的商业模式如何跟AI结合还不明确的情况下,还是推出了搜索的AI模式。

现在,你可以问Google任何东西,不管是一个简单的问题,还是一个超长的问题,甚至一个问题里包含了十个问题,它都能理解。你还可以让它帮你搜集信息、帮你做出购物决策。你可以说给它听,可以打字给它,或者拍给它看,都行。

资本市场不是很看好。因为,传统的广告收入肯定会受影响——你都直接拿到答案了,自然没必要再点那些链接。另外,流量分配也会发生巨大改变。这会冲击到整个内容生态和广告网络。

但是,没办法。作为巨头,你不主动AI First,那就是等着别人来革你的命!

哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。已经有1000多位小伙伴付费加入啦。

回到今天的主题:AI版的Google。

在今年三月的视频中,我做了一个预测:2025年,Gemini会奠定谷歌AI在C端市场的统治地位。

后来的发展,比如Gemini 2.5 Pro的推出,印证了我的判断。前几天的I/O大会更加坚定了我的信心。而且,不只是Gemini——这次大会发布的一大堆东西,都让我们看到了一个全新的Google,一个AI时代的巨头。

因为新东西太多、信息量太大,我按照自己的逻辑,总结了三个层面。大家可以用这个框架去看这次的I/O大会。

最重要的是基础层。

刚才说的搜索属于基础层。因为它不仅仅是一个产品,更是Google核心能力和海量数据的体现。通过AI模式,搜索正在被重塑成为一个更智能、更有对话性的入口,并且为模型提供持续的、真实世界的数据和用户交互 。

以Gemini系列为核心的模型是基础层的第二个关键。这次大会上有很多更新,包括Gemini 2.5 Pro增加Deep Think能力,Gemini 2.5 Flash速度和效率的优化,以及新的Gemma 3n,配置要求低,很适合在日常设备上运行。这些模型的持续迭代,以及多模态能力的提升,是实现更高级智能的基础。

算力基建是基础层第三个关键。Google的TPU已经出到第七代了。这些定制硬件为复杂模型的训练和大规模推理提供强大的算力支持和能效保障。这是Google战略的物理基石。

在基础层之上,是两个层面。

一个是赋能层,主要面向开发者。Google通过增强的Gemini API、Vertex AI等等一大套东西,为开发者提供了构建、部署和管理AI应用的工具集。

另一个是体验层,主要面向用户。这次大会那些bling-bling的东西都属于体验层。比如,Google Beam的沉浸式3D通信,Android XR的混合现实交互,以及Veo 3和Flow的生成式内容创作。

至于面向未来的Project Mariner把这三个层面融会贯通了。它代表了Google实现“通用AI助手”的野心。

你别觉得刚才说的这些都是Google在画饼。其实很多已经推出了,比如Veo 3、Flow、Project Mariner。少数在未来几周也会推出,比如Gemini 2.5 Pro的深度思考功能。

我特意升级到Ultra会员,体验了一把。

Veo 3真的非常惊艳!难怪Twitter上都在疯传。除了视觉上非常逼真之外,这次Google还加入了音频功能。比如这一段。

而Flow则是基于Google视频模型的编辑平台。你可以在上边用文字生成片段,然后再把片段拼接起来。Twitter上已经有人用Flow做出很不错的作品了,比如这一段。

Project Mariner就是Agent平台,具备类似Computer Use的能力。我试了一下,它操作浏览器、点击网页上的按钮都比较顺畅了。如果遇到需要登录账号的情况,会停下来,把控制权移交给用户。

Mac必装AI软件

Key Takeaway

  • 作者分享了MacBook Pro的配置选择,并解释了为何选择14寸M4 Pro而非16寸M4 Max,以及未来将重负载任务交给Mac Studio的规划。
  • 推荐Mac用户安装AI相关软件,如ChatWise,它支持主流闭源模型和开源模型(如Ollama),并提供搜索和Artifacts等工具。
  • 强调了OpenRouter作为统一API管理平台的重要性,避免了多平台注册和绑定信用卡的麻烦。
  • Cursor被认为是强大的AI编程工具,结合Claude 3.7更强大,并可用于知识库管理和AI辅助创作。
  • Obsidian及其AI插件Copilot被推荐用于个人知识库,实现笔记的AI对话和实时信息查询,并强调了数据处理的重要性。
  • 建议个人AI工具选择简单轻量化,企业级才考虑重型引擎。
  • 此外,还推荐了Input Source Pro(输入法提示)、Rectangle(窗口管理)、Raycast(快速搜索)和Manico(应用快捷键)等效率工具,以提升Mac使用体验。

Full Content

我把新款MacBook Pro买回来了。借着新机入手,我给大家分享一下,Mac都有哪些必装软件,尤其是AI方面。这些工具绝对能提高你的日常效率和幸福感。

我订的这台是M4 Pro芯片,统一内存加到48G,1T硬盘。为了方便对着屏幕拍摄,我还加钱上了纳米屏。那么,为什么不上128G的M4 Max?两个原因:

第一,16寸实在太大了。我去店里看过。带着跑来跑去,真不太方便。14寸对我来说刚刚好。

第二,下半年我准备买Mac Studio。根据业内大佬推测,苹果应该会在年中或者下半年推出Mac Studio,芯片是M4 Ultra,比现在的M4 Max还强大。而且按照M2 Ultra的样子,统一内存能加到192G,比MacBook顶配的128G大多了。这样的机子拿来跑大模型不香吗?

所以,我想来想去,还是决定把重负载任务都交给Mac Studio。MacBook Pro就专心负责移动场景,就不为难它了。而且,M4 Pro加上48G统一内存已经足够给力了。

我平时拍的这些视频都是4K 10bit 422的素材,用达芬奇剪辑。这台机子剪起来完全没压力。跑大模型的话,我也测了两个黄金尺寸的效果:14B能达到每秒21个Token;32B能达到11。这样的表现,我非常满意了。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经快1000人付费加入啦!

回到今天的主题:Mac必装软件。咱们先从AI相关的说起。

当你用了一段时间模型厂商出的应用——比如ChatGPT、Claude之后,大概率会希望通过API调用模型,以及试一试在本地运行开源大模型。两个原因:

一是更自由地体验更多的模型,并且用多少Token就付多少钱。二是更自由地去选择和组合一套工具,完全适配自己的习惯和需求,作为日常主力。

这个时候,你就需要一款像ChatWise一样的应用。

在闭源模型方面,主流的模型厂商和主流的算力平台它都支持,肯定有你想用的。

我知道大家最近为了DeepSeek注册了好几个算力平台。但是,要稳定使用的话,我建议用OpenRouter就好了,不用看别的。它不会像国内那些平台那样,总出幺蛾子——你想薅它羊毛,它想割你韭菜。在OpenRouter里,把API Key填进去,市面上所有的模型都可以选择。这就免去了你每家都得注册账号、绑定信用卡的麻烦。

在开源模型方面,大家常用的Ollama和LM Studio都有。像Ollama,你都不用做啥设置,保持软件运行就可以。ChatWise自动把所有模型都列出来了。我平时用最多的就是DeepSeek-R1 14B和Qwen2.5 14B。

光有模型不够,还得给模型配上工具。你看ChatGPT不就是在GPT模型的基础上,加了各种工具,比如搜索和画布。那到了ChatWise这边,同样也有这两个工具。

Artifacts就我之前夸过好多次,就不多说了。搜索方面,你可以用Google的免费API,也可以调用Tavily的。他们是一个专门为大模型优化过的搜索引擎。我之前自己写脚本的时候用过,挺不错的。

或者,还有一个更简单的方法,不用这些搜索引擎,直接用Perplexity的API。他们微调后的模型,有搜索、有推理,效果非常好。

ChatWise这些进阶功能需要付费才能解锁。如果你就是想要免费的,那可以用Cherry Studio。但我还是付费了。并不是冲着功能去的,只是因为它好看,用着舒服。我认为,在功能大差不差的情况下,外观和流畅度就成为选择的关键。

所以,除了Gemini 2.0和Grok 3我是在官方的网站上用,其它的模型,我全通过ChatWise加OpenRouter和Ollama来搞定。

OK,日常AI主力工具说完了,那还有两个补充。

一个是Cursor。市面上的AI编程软件很多,在细分领域各有所长。但综合来看,Cursor就是最强的,没有之一。再加上前几天Claude 3.7发布,Cursor当天就支持了。有了比3.5还强20%的3.7加持,Cursor现在更猛了。

除了编程,Cursor其实还有一些框架之外的奇怪用法。我在上一期“AI学习法”的视频里有介绍过。大家可以找来看看,肯定会有启发的。

另一个是Obsidian。更准确地说,是它的AI插件Copilot。对我来说,它的作用有两个:

第一,当我在写笔记的时候,可以直接在软件内跟AI对话,不需要切换到别的软件去。说真的,切来切去特别打断思路。而且,Copilot也可以连OpenRouter,用Perplexity的模型完成搜索,不用担心查不到实时信息。

支持中文!NotebookLM自动生成播客

Key Takeaway

  • Google NotebookLM现在支持生成中文播客,对学习和自媒体创作有巨大帮助。
  • NotebookLM通过结合思维导图、AI播客和AI对话,提供立体化的学习体验,提升知识吸收效率。
  • AI播客虽然缺少“人”的感觉,但其质量已达标,且在产量上具有巨大优势,有望催生新的内容形式。
  • 文章预测AI播客可能被微信公众号等平台集成,打破内容创作壁垒。
  • 强调AI的威力在于打破赛道壁垒和产品区隔,组织应积极拥抱AI。

Full Content

NotebookLM终于支持生成中文播客了!这个对咱们国人的学习,甚至自媒体生意都有非常大的帮助。

就在昨天,Google宣布,NotebookLM的语言摘要功能支持50多种语言,其中就包括中文。我和社群内的小伙伴一样,心心念念等了好久了。因为它可以把你上传的文档转成播客对话的形式。我给你们看一下效果。

这个是David Silver和Richard Sutton两位大佬的作品,讲的是AI的进化将进入“体验时代”。一直以来,AI都是使用人类数据、模仿人类能力来进步——这个叫“经验时代”。但是,这个方法的效果开始见顶了。

一是高质量数据不够了。人类过去那么多年积累下来的数据都喂差不多了。二是用人类的经验作为学习资料,AI也就很难超越人类的理解边界,很难进化成超越人类智能的新智能。

所以,AI接下来将要进入“体验时代”。这篇论文讲的就是这个内容,非常精彩,强烈建议大家看看。

这篇论文一共11页。借助Gemini模型,NotebookLM根据内容生成了8分钟的播客。我播放一小段给大家听听。

不知道大家什么感受,我是挺惊喜的。

从中文语音来看,除了中间有一些地方能听出译制片或者说是老外讲中文的腔调——过于大惊小怪了,但整体来看,已经很不错了。

从内容质量来看,我把整段音频听完了,论文之前也读过,可以说,它对内容重点的提取还是很到位的。核心要点都有了。

所以,现在你把一份资料导入NotebookLM,可以先看它生成的思维导图,对整体逻辑和核心结论有个了解。

接着可以把AI播客听了。认真听也好,有一搭没一搭地听也行。反正听完之后,你感兴趣的部分,自动就进入你脑子里了,就有印象了。

最后,跟AI对话。你可以主动提问,也可以用它的建议问题,都可以。AI已经吃透内容了。你就让它“导航”,带着你跑完整个“逻辑路网”。

这一整套下来,除了文字沟通,还有来自播客的听觉输入,以及来自思维导图的视觉逻辑输入。所以你看,有了NotebookLM之后,你在学习时候所获得的输入会非常立体,你大脑受到的刺激也会更多,更有助于你吸收新东西。

相信我,这绝对会比你只是“看书”,效果好得多!

最后,One more thing。我猜,现在肯定有人尝试搞“AI播客”了。之前NotebookLM不支持中文,你还得找替代品。现在支持了,那就把文档拖进去,等个三四分钟,一个播客就出来了,然后把音频文件下载下来就可以。

跟传统播客相比,AI播客确实缺少人的感觉。但是,它已经达到七十分的水平了,质量已经过关了,甚至比很多人做的播客都好。这个时候,它在产量上的优势就可以完全发挥出来了。

如果我是微信的人,肯定会在公众号上做这样的尝试。现在已经有“听全文”的功能了,那再前进一步,来个“AI播客”又有什么不可以呢?也许过几个月我们就能看到公众号AI播客的灰度测试了。

你看,这个就是AI的威力。赛道之间壁垒、产品之间的区隔被完全打破。没有哪个组织可以幸免,只能积极拥抱。

OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!