Gemini

AI杀手级应用:Deep Research

Key Takeaway

  • Deep Research是AI的杀手级应用,能显著提升职场效率,未来将快速普及。
  • Deep Research的核心是AI Search的尽头,即AI Research,通过掌握更多信息和控制更多工具实现。
  • OpenAI的Deep Research效果最佳,但成本高昂;Google Gemini的Deep Research性能不错且性价比高;Perplexity的Deep Search量大但效果一般。
  • Deep Research通过模型协作和多轮分析,能快速完成深度研究,生成思维导图和深度挖掘。
  • 文章强调Deep Research普及后,将对职场产生巨大影响,并建议用户尽早学习和使用。

Full Content

Deep Research绝对是AI的杀手级应用。用过都说好。可惜用过的人太少,因为成本真的很高,比如OpenAI要收200美金一个月才让你用。所以,这个东西暂时还没有火出圈。如果你是职场新人,或者很想往上爬,趁着这段时间,赶紧用、赶紧学,不开玩笑。

这么说吧,但凡脑子正常的老板用过Deep Research之后,绝对会想把公司里的初级牛马全部干掉。手段不那么狠一些的,也会强制要求全员使用。然后,用不明白的都给我滚蛋。

我演示一下你们就明白了。需求很简单:帮我分析英特尔与台积电合资的可能性,以及美股投资机会。这个是最近美股投资的热门议题,我已经买入了。

接到需求后,ChatGPT会主动做一轮沟通,把需求里的细节明确一下,然后再正式开工。整个过程一般在10分钟左右,它会去查找几十个网页,然后细细地拆解。这个时候大家可以切到别的网页或者刷刷手机。

我对o1 Pro这个生成结果挺满意的,几分钟时间就完成了初步研究。试想一下,一个月1500块招个实习生帮你搜集资料,能做到这个份上,你已经可以偷笑了!

接下来,可以让这个GPT实习生根据前边的内容生成一个思维导图,这样你会有一个全局性的认识。然后,针对其中某些具体的点,再让GPT去做深度挖掘。这我就不演示了。

所以,身为打工人的各位自己掂量一下:当Deep Research全面普及之后,你们在职场当中该如何自处?

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!

回到今天的主题:Deep Research。

目前市面上提供Deep Research产品的厂商主要有三家:OpenAI、Google,以及Perplexity。接下来一定会有更多厂商加入进来。为什么?记住我这句话:

AI Search的尽头,是AI Research。

那么,不管是Search还是Research,又都是为了什么?我前两天在社群里发了这么一段话,我认为:

AI会沿着两条线发展:掌握更多信息,控制更多工具。

其中,搜索、深度研究都是第一条线的关键节点。这是为什么各家都很重视的原因。

动作最快的OpenAI已经把这个产品开放给Pro用户好一段时间了。这一档的月费是200美金,每个月可以用100次的Deep Research。Plus和免费版的用户也别着急,Sam说了,将会向Plus版用户提供每个月10次的额度,免费版用户则是2次。

实话实说,OpenAI的Deep Research是目前效果最好的产品。它不是简单地搜一堆网页,把内容拿回来分析。而是用了大量的模型协作。所以,消耗的Token比别家多太多。它产出的报告,信息密度也是别家的好几倍。不信的话,你去部署那些开源的、所谓的替代品试试就知道了。

但是,很可惜,我不会继续订阅。不是产品的问题,而是降智的问题。

很多人都遇到了降智,特别恶心。这个问题并不是无解。比如,你可以再花一点点钱去搞个静态IP伪装一下。可以是可以,只是那种被歧视的感觉让我非常不爽。我给的美元就不是美元吗?

而且,抛开这些情绪,我判断,这类型产品在三个月内一定会快速普及,成为20美金的标配。

这么考虑下来,我还是会把Gemini当做主力。性能不错,稳定,不恶心人。

我每个月20美金订阅Gemini Advanced,这其中就包括Deep Research的使用权限。这个使用也是有限额的,不过Google没明说,估计是根据用户的使用量来动态调整,满了会提示。

我给大家看一下Gemini这边的效果。跟ChatGPT一样,接到需求后,不会马上开始,而是先做一轮分析,拟定一个方案,跟用户确认好了之后才开工。接着,在几分钟内,它会查找几十甚至上百个网页,直到掌握足够的信息。最后,按照报告的格式进行输出。

没记错的话,Gemini的Deep Research是在1.5的阶段推出的,所以现在是1.5 Pro这个模型,还没更新到2.0。所以,在结果上肯定不如OpenAI那边。但是我相信,等用上Gemini 2.0模型之后,两边的效果一定会齐平。而且,Gemini大概率会提供更多的额度。一是因为搜索上的积累,二是因为Google有TPU。对OpenAI来说,成本才是他们最大的障碍。

OK,ChatGPT和Gemini都聊完了,咱们最后来看看Perplexity。他们是最狠的,给Pro用户每天500次额度,免费用户每天5次。虽然便宜,但是效果也比较一般。

不客气地说:这不是Deep Research,而是Deep Search。

反正我日常都高频使用Perplexity。现在多了一个量大管饱的Deep Search,不用白不用。

Gemini + Grok:最被忽视的AI生产力工具

Key Takeaway

  • Gemini和Grok是两个被低估的顶级AI应用,它们在不同方面展现出强大的生产力。
  • Gemini提供多功能体验,包括快速回答(Flash)、文章创作(Canvas)和深度报告(Deep Research),并能与Google文档和NotebookLM无缝集成,支持深度学习。
  • Grok在模型回答上更具“人味”,产品设计简洁,并拥有独特的Twitter数据源,使其在获取用户真实反馈方面具有优势。
  • 结合使用Gemini(获取主流媒体信息)和Grok(获取社交媒体信息)可以获得更全面和真实的洞察。

Full Content

有两个顶级AI应用还在被国人忽视。一个是Gemini,一个是Grok。

Gemini我已经推荐得足够多了。你看,过去半年,我在社群内真的是苦口婆心、反复强调。我从1.5的模型开始,用到了2.0、2.5,真的是越用越喜欢。不说那些复杂的,就说日常使用,就像我这个帖子说的:

如果你只想要个快速回答,那直接问Gemini 2.0 Flash。它速度快,推理强,运行还稳定。

如果你想要稍微深入一点,那就把Canvas打开。Gemini 2.0 Flash会按照写文章的标准来回答你。

如果你想要详尽的报告,那把Deep Research打开。Gemini 2.0 Flash会按照报告的标准来输出。

我直接给你们来个演示吧。

比如,我问Gemini:什么是Reasoning model?它很快给出一个简要的回答。

我把Canvas也就是画布打开。再问它同样的问题。这个时候,回答速度稍微慢一些,但是详细程度会高得多。在Canvas里边,你可以对文本进行排版、编辑,也可以选中一段进行提问。也就是说,用这个功能,你可以跟Gemini配合起来完成一篇文章的创作。

如果我把Deep Research打开呢?还是同样的问题——什么是Reasoning model。Gemini会帮我拆解议题,然后查找上百个网页,最终完成深度报告的输出。

你看,就这么简单的三个功能——直接对话、Canvas和Deep Research,覆盖了我们日常使用AI的主要场景。

更进一步,如果你觉得这些回答有价值,还可以把它们保存到Google文档里。

刚才介绍的三个功能,后两个都可以导出到Google文档。然后,就像我前一个视频里介绍的,打开NotebookLM,把Google文档里的相关内容全部导入,然后就可以进行深度学习了。

Gemini还有别的功能,比如画图什么的,我就不多说了。光是刚才我介绍的那些,就足以值回票价。

而且,Google还在不断更新。就在昨天,他们推出了首个混合推理模型——Gemini 2.5 Flash。你可以自主选择要不要打开思考模式,甚至还可以设定要投入多少资源进行思考。这个模型的出现,更加强化我要继续拥抱Gemini的信心。

那么,既然Gemini这么牛逼,还要Grok干嘛呢?三个原因:

第一,从模型回答的感觉上看,Grok 3要比Gemini 2.0好得多。

Gemini 2.0还是有一种生硬感、机械感,这可能就是Google独有的味道吧。而Grok 3的回答就比较有“人味”,所以我会逐渐倾向于多跟它交流。

第二,从产品角度来看,Grok最完整。

就像之前我在社群里说的,Grok没搞那么长的模型列表让用户选择,就两个按钮:深度思考,和深度搜索。没有模型之分,只有模式之分,甚至再到后边连模式都不需要选择了,AI会自主判断。这个才是正道。像OpenAI那种,有点丧心病狂了。

另外,前两天的更新,给Grok补上了Canvas和Workspace功能。Canvas和别家差不多,就是标准的画布。而Workspace,就类似知识库的功能,特别好用。

现在,Grok已经集齐目前的主流功能。产品层面已经相当成熟了。

第三,从数据源角度来看,Grok拥有别家都没有的Twitter数据。

Twitter现在是最有影响力的社交媒体,它的数据对于AI来说很重要。如果能把Twitter所代表的社交媒体数据,和Google那边掌握的主流媒体数据合并起来,那对提升AI的回答质量肯定有帮助。具体怎么做呢?我再演示一下。

其实这个方法我在社群内也分享过。很简单,Grok的Workspace功能除了支持本地文档上传之外,还支持从Google Drive里导入——这个就是关键功能。

我会先用Gemini做一轮Deep Research,把报告导入Google文档。然后,到Grok里添加这些Google文档,并且在Prompt里强调:附件信息只是参考,你要有自己的搜索和判断。另外,Twitter上用户都有哪些反馈?重点看看。

注意看Grok的分析过程。从主流媒体的信息搜集来看,它确实不如Gemini能搜到那么多。其实不只是它,OpenAI的搜索范围也有限。但是,Grok能搜集Twitter上的数据,包括帖子和评论,这个就是它的独有价值。

我之前在公关营销行业干了十几年,非常清楚只有你预算够,绝大部分主流媒体的内容都可以买,或者都可以影响。相比之下,用户的实际使用反馈就相对真实得多。所以,当我想了解的议题涉及到用户口碑的话,我肯定会通过Grok去搜集,并且跟Gemini那边的主流媒体信息进行合并。

刚才介绍的这两款AI工具的使用经验,看起来确实平平无奇,不像很多AI自媒体介绍的那些玩法那么酷炫,但这些都是能帮到你的真东西。如果你觉得有价值,还想了解更多的话,记得加入我们社群。

OK,以上就是本期内容。那咱们下期见!

Gemini 2.0:性价比之王

Key Takeaway

  • Gemini 2.0是目前性价比最高的大模型,其Flash-Lite版本价格极低,Flash版本兼顾性能、价格和速度。
  • Gemini 2.0 Pro版本上下文窗口提升至200万,适合复杂推理和代码生成。
  • Flash Thinking版本具备链式推理能力,适合逻辑推理和多跳问答。
  • Gemini 2.0在性能、稳定、速度和价格方面达到平衡,成为作者的主力AI应用。
  • 文章强调AI不会替代人,但使用AI的人会替代不使用AI的人。

Full Content

Gemini 2.0是世界上性价比最高的大模型,没有之一。我知道你们在想什么——它比DeepSeek还强。咱们直接来看价格,海外博主已经做好表格了。

Gemini 2.0 Flash-Lite是真的是白菜价:输入只要0.075美金,输出0.3美金。

比它功能多一点的Flash,价格贵一点点:输入0.1美金,输出0.4美金。

再来看DeepSeek:V3输入0.27,输出1.1;R1输入0.55,输出2.19。

谷歌这真的太卷了。要知道,Flash可是支持多模态、支持原生工具使用、有一百万的上下文窗口的最先进的模型。结果它不仅比DeepSeek便宜,而且还压过了GPT-4o mini。看来今年AI竞赛要上强度了。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!

回到今天的主题:性价比之王——Gemini 2.0。

Gemini 2.0是谷歌前几天更新的模型系列,包含Pro和Flash两条线。

Pro很好理解,就是谷歌目前的顶级模型。该有的功能它都有,而且把上下文窗口从一百万提升到了两百万。所以,Pro版本非常适合用来复杂推理、生成代码等等。

而Flash则兼顾了性能、价格和速度,是日常使用的主力模型。其中,Flash还有两个变体:

Flash-Lite砍掉了一点点功能,比如不支持图片和音频的输出,不支持联网搜索,不能执行代码,然后把价格压到最低。所以,如果你需要大规模生成文本的话,那用Lite版最合适。

Flash Thinking顾名思义,就是带上链式推理能力的版本。跟大家很熟悉DeepSeek-R1一样,它在回答之前会先进行多步骤推理。所以对于一些复杂任务,比如需要更强的逻辑推理,或者多跳问答,用Flash Thinking最合适。

前边说Gemini 2.0是性价比之王,我感觉不太准确。因为“性价比”这三个字好像显得它性能不太行的样子。更贴切的称呼应该是“卷王”。我给你们演示一下效果。

先来看看Pro的能力。我给的问题是:

英伟达的CUDA为什么能成功?护城河究竟有多深?AI时代,英伟达的竞争对手有可能赶超或者颠覆吗?

可以看到,Pro虽然比Flash慢,但其实观感上还是很快的。而且它给出的答案,逻辑很清晰,也没什么过多的废话,这一点我真的很喜欢。

再来看Flash Thinking。我来问一个最近讨论特别多的问题:

DeepSeek-R1的成功是否说明,可以不需要英伟达的高算力GPU和CUDA了?

Flash Thinking的思考过程是英文的。它先是拆解了我的问题,得出需要去搜索、调研的关键词,然后再去做相应的搜索。跟Pro一样,它的答案挺干净清爽的。

作为对比,同样的问题我拿去问了DeepSeek-R1。虽然结论差不多,都是具有不可替代性,只是依赖可能会减少,但是思考的过程有挺大差别:

Flash Thinking是先拆解,再搜索。R1直接搜索,再看搜到的网页都讲了什么。从方法的角度来看,我个人是更倾向于先做拆解的。你们觉得呢?

Gemini是我的主力AI应用。最初我是用ChatGPT的。结果在使用过程中遇到各种限制,特别烦。正好Claude 3.5出了,于是就转到Claude那边去。再后来,Claude大面积封号,我三个号都被挂了,于是“逃难”到Gemini,也充了值。

这次2.0的更新,我这几天用下来非常非常满意。不管是哪个版本,都做到了性能、稳定、速度以及价格的平衡。在桌面端用网页版,Pro、Flash和Flash Thinking都有。在手机上就用官方的APP,可以选Pro或者Flash。

只要谷歌那边别出什么幺蛾子,在下一次模型大更新之前,Gemini都会继续是我的日常主力。

我知道,用国外这些产品得跨过好几道门槛。但是,这些门槛其实也帮你筛掉了很多很多人。只要你花点时间、花点钱跨过去了,你就取得巨大领先了。还是那句话:

AI不会替代你,用AI的人,尤其是用先进AI的人才会。

OK,以上就是本期内容。想进一步了解AI,就来我们newtype社群。那咱们下期见!

大模型正在吃掉一切

Key Takeaway

  • 大模型巨头(OpenAI、Google)的更新正在“吃掉”小厂商和创业者的市场份额。
  • OpenAI的GPT-4o通过整合图像生成功能,实现了图文并茂的全新交互体验,拉开了与竞争对手的距离。
  • Google的Gemini 2.5 Pro在代码能力和推理能力上显著提升,并具备超大上下文窗口,展现了强大的综合实力。
  • 顶级模型正朝着“模型即应用”的方向发展,全面铺开多模态、代码生成、工具调用等能力。
  • 文章对AI时代的创业持悲观态度,认为AI的强大和中心化将压缩创业空间,强调人与人之间的关系是AI无法替代的。

Full Content

我现在有一种感觉,大模型已经不是小厂商能玩得了的了。每一次大厂的更新,都会吃掉小厂的份额,也会吃掉一批创业者的机会。你看这两天的OpenAI和Google,我要是干这行的,肯定会觉得很心累、很绝望。

先是OpenAI。他们更新了GPT模型,把最先进的图像生成功能整合进GPT-4o。结果一夜之间,Twitter上全是用ChatGPT生成的吉卜力风格的图片。不止是用户在玩梗,很多大佬也开始加入了。

说实话,这种火爆程度,在AI领域已经有些日子没看到了。奥特曼非常懂传播。因为吉卜力画风本来就有非常广的群众基础。当你把现实的图片转成这种画风之后,那种反转感,特别适合社交媒体传播,想不火都难。

而且,OpenAI这个技术不止是图像生成那么简单,它应该是能理解图片的背景信息。因为有网友发现,这张图的左下角,桌上摆着一份《停火协议》,说明GPT知道原图是什么意思。

这个就是我在之前那期《逆袭のGemini》里说的:

现在AI回答你的问题,可以做到图文并茂。

你有什么图片想生成、想修改的,AI可以做到言出法随。

这种全新的体验,是之前从未有过的。OpenAI这一次更新,干掉了ComfyUI半壁江山,也再次拉开跟其它厂商的距离。

其实郁闷的不止是创业者和小的模型厂商,Google应该也挺不爽的。因为他们在同一时间发布了Gemini 2.5 Pro,结果风头全被抢了。

但是有一说一,这个模型非常非常厉害。

第一,Gemini 2.5 Pro的代码能力有显著提升,已经接近Claude了。你看,我让它写一个100个小球在球体内反弹的脚本,它很容易就搞定了。

第二,Gemini 2.5 Pro的推理能力有显著提升。当推理能力上来之后,加上超大上下文窗口,它给了我一种“全局理解”的惊喜。不管是拿来分析脚本还是翻译PDF,我感觉Gemini 2.5 Pro都比别的模型好使。

你看,这个就是今天全球顶级模型该有的样子。这行业早已经过了单纯拼文本生成的阶段了。

你会强化学习,我也会。你有思维链,我也有。除此之外,我还有更大的上下文窗口,有原生的多模态,能生成和修改图片,能写代码,能调用工具,甚至还能跟用户实时语音和视频。

这么多能力已经全面铺开了。它们只有一个目标,就是把模型变成一个完整的应用。

所以,我其实对AI时代的创业一直持悲观态度。因为AI太强大,又太中心化了。创业者的生存空间会比之前互联网时代少得多。

那么,有什么是AI无法替代的呢?我认为,最终落脚点只能是人。因为只有人,AI无法替代;也只有人与人之间的关系,AI无法生成。

OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!

详细版!我是如何用AI学习的

Key Takeaway

  • AI将成为衡量个人能力的标准,其应用能力将成为基本技能。
  • 作者分享了一套AI学习法:首先对议题进行拆解,梳理个人初步判断和问题,为AI提供上下文。
  • 利用Gemini的Deep Research功能生成多份详细报告,并通过Google文档导入NotebookLM进行AI辅助学习。
  • 使用Cursor结合Gemini 2.5 Pro对所有资料进行整合、精简和脱水,最终输出为Markdown格式的文件。
  • 强调Markdown格式是AI时代最适合的文件格式,便于人机理解和长期保存。
  • 整个AI学习流程显著提高了学习效率,拉开了人与人之间的差距。

Full Content

很快,AI就会成为人的标准。

AI生成的东西,是平庸的标准。如果你做出来的东西,比如写了一篇稿子或者弄了个报告,比不过AI的话,那么你在这个方面就是平庸的。

对AI的应用,是基本技能的标准。不会在工作中把AI用起来,就好比今天不会用Office软件。不会在学习中把AI用起来,就好比今天不会用搜索引擎查资料。

我一直觉得,今天的AI已经足够强了。按照这个趋势再更新一代,也就是GPT-5、Claude 4、Gemini 3.0的那一代,AI就会达到一个成熟的状态。AGI能不能实现不重要,因为现有的已经足够深刻改变人类社会了。

大部分人还意识不到这一点。这就是为什么我要一直出视频的原因——我要把那些能看到未来的人筛选出来、聚集起来。本期视频,我会用一个具体的例子,分享我目前是怎么用AI学习的。如果你看了有感觉,记得加入我们社群。

OK,咱们开始吧。

当我想深入了解某个议题的时候,我不会直接问AI,而是先自己做拆解。

比如,我对AI PC有疑惑。如果我上来就直接问AI,那大概率就是:请给我生成一份AI PC发展趋势报告。

不客气地说,这种搞法,是非常低效、无效的,也是非常没水平的。我不用看结果都知道,肯定是一份四平八稳、特别水的报告。

正确的做法是,你要先在自己脑子里过一遍,先做拆解,把你对这个议题的初步判断、大致理解、特别想弄明白的问题梳理出来。比如,关于AI PC,我特别想知道的有两点:

第一,AI PC是不是伪命题?

我知道,在最关键的算力问题上,AI PC用CPU、NPU和GPU来分配和调度。那么,NPU真的靠谱吗?真的不是鸡肋吗?这个在我这边是要打个问号的。

所以第一个问题其实是关于这个品类的问题,会涉及到品类的定义、行业的标准。

第二,AI PC发展得起来吗?

我知道,目前除了英特尔在推,高通、AMD也都在搞。虽然我还不了解具体情况,但根据江湖经验,大概率这三家会有自己的路线、架构以及工具链。这就会给开发者造成很多优化上的麻烦,因为标准不统一嘛。

所以第二个问题其实是关于行业格局、生态发展的问题。

你看,这个做拆解的过程,其实就是融入个人思考上下文的过程。对于一个议题,每个人都有不同的理解、不同的侧重点。你不做拆解,就无法提炼出来,就无法给AI提供更多的Context,那AI又怎么可能生成你想要的东西呢?

就像我之前在社群里说的:

AI时代,答案都在那里,只要你能问对问题。

当做完拆解之后,我就可以通过Deep Research生成多份报告,各有各的针对性。就像AI PC的例子,我让Gemini帮我生成了两份报告。

为什么是两份而不是整合成一份?因为单份的会更详细、更聚焦。而且,两份报告之间肯定有重叠的部分。没准能互相补充或者验证。

报告好了之后,就可以导出到Google文档了。我前两天在社群里说过,这是别家都没有的功能和体验。因为,导出之后,就可以在NotebookLM里添加了。

NotebookLM是目前最好的AI学习工具,我推荐过好多次了。它特别适合有教材、有文档的场景。

在这个框的左下角,我们可以从Google文档里加载。刚才导出的两份Deep Research报告都在里边。

等个几秒钟,模型会完成解析。这时就可以对话了。比如,我会问它:AI PC是伪概念、智商税吗?NPU是鸡肋吗?英特尔、高通、AMD在发展AI PC上,有哪些路线、架构的不同?

这些回答,如果觉得OK的话,可以Pin一下,把它们变成笔记。

我知道,有的人可能还是会抱怨,Deep Research出来的东西还是不太行。其实在我看来,不管是好的反馈还是坏的反馈,都是反馈,都有价值。

比如Gemini做这两份报告,应该查了上百个网页,把目前关于AI PC的公开报道都覆盖了。所以,假如这两份报告不太OK,我也会很高兴——因为它代表了目前媒体、自媒体的看法,说明目前的市场共识是有问题的。而我将要去挖掘更正确、更有可能成为下一阶段市场共识的非共识。

如果你有投资、有创业的Mindset,遇到这种共识偏差情况,应该会非常兴奋。当然啦,普通大众没有,他们只会抱怨。

好了,不跑题。我这个AI学习过程还没完,咱们继续。

通过刚才的问答,我们在NotebookLM的帮助下,把资料消化得差不多了,也保存了一些笔记。那么下一步,我会让AI帮我把所有的资料都整合成一份,包括最初生成的两份报告,以及在探讨过程中存下来的、我感兴趣的笔记。

之所以要这么做,主要原因是,学习不是这一趟学了就完事了——之后还得重温,还得学而时习之,有需要的时候肯定还会回来翻看。所以,我需要把这个过程中的所有产出都整合,变成一份完整的东西。而且,还要做精简、脱水,只保留最精华的部分,这样下一次我查看的时候,效率更高。

为了实现这个效果,我这边用到Cursor,搭配Gemini 2.5 Pro。

Gemini新手教学

Key Takeaway

  • Google Gemini提供了教育优惠,可免费使用Gemini Advanced、NotebookLM Plus和2TB网盘空间。
  • Gemini的超大上下文长度(100万token)使其在处理长文档(如PDF翻译)方面表现出色,远超其他模型。
  • Gemini与Google生态系统深度整合,能无缝处理YouTube视频总结(带时间戳)、Gmail邮件翻译和回复、Google Docs和Sheets的内容编辑和生成等。
  • Gemini的强大生态和模型能力使其在AI应用竞争中具有显著优势。

Full Content

最近是入手Gemini的好时机。因为Google推出了教育优惠,可以免费使用15个月的AI产品,包括Gemini Advanced、NotebookLM Plus,以及2TB的网盘空间。

我在Twitter上看到好多人已经薅到这一波价值300美金的羊毛了。听说那些卖教育邮箱的都赚翻了。具体方法网上很多教程都有,这里就不展开了。

那么,当注册好之后,该怎么用好Gemini呢?我这边分享两点经验,也是Google和OpenAI在模型及产品方面的很大不同。如果你有好的用法,也欢迎在评论区告诉我。

第一,上下文长度。

当大部分模型还停留在128K的时候,Gemini已经达到100万了,并且之后还准备扩展到200万。所谓上下文长度,你可以简单理解就是AI一次性能处理多少内容。那么,超大上下文不管是在编程还是日常使用,都非常有价值。我演示一下你们就明白了。

我这边有一份几十页的PDF文档,分别让ChatGPT和Gemini帮我全文翻译。

先来看ChatGPT这边。当我把文档扔进去之后,它说,这个文档太大了,只能分批翻译。

而Gemini那边特别干脆,直接一口气就全搞定了,而且速度快多了。

你看,这个就是硬实力,也是我非常喜欢Gemini的原因。这就好比是,ChatGPT一杯酒扭扭捏捏还没喝完,Gemini已经吹一瓶了。

所以,以后有任何英文的PDF,你都可以放心交给Gemini处理。“全文翻译”这四个字的含金量,你用了就知道。

第二,生态打通。

AI已经到了拼应用的阶段了。这个时候,有生态和没生态,那完全是两种用户体验。

举个最简单的例子:处理YouTube视频。

很多YouTube视频非常有质量,比如Lex的。但是,他的播客动不动就三个小时,我是真没时间看下去。所以,贴到Gemini里边,让它帮我总结Key takeaway。

这时可以看到,Gemini会调用YouTube,把Key takeaway和对应的时间戳都一起输出。如果对哪个部分感兴趣,点击时间戳就可以直接跳转过去,非常方便。

作为对比,我把同样的需求给到ChatGPT。它应该是调用第三方插件完成的,但是效果差多了。一是颗粒度不够,二是没有添加用来跳转的时间戳。

把YouTube链接给Gemini处理算是比较高频的需求了,不管你是学习还是做自媒体都用得着。除此之外,Gemini跟Google的其它产品还有更多联动。

之前我在视频里分享了Gemini Deep Research、Google Docs、NotebookLM之间的配合。其实,Gemini已经遍布Google全家桶。

当你成为付费用户之后,打开Gmail就会看到,右侧多了Gemini的对话窗口。你可以让它帮你翻译邮件,或者起草一个英文回复,把大概意思告诉它就好。

还记得刚才我让Gemini全文翻译的文档吗?因为我打开了Canvas功能,所以可以把结果导出到Google Docs。然后,在Google Docs里边,可以对这个文档做进一步的编辑处理。

比如,我可以让Gemini更通俗易懂地总结全文核心要点。然后在文档的开头直接插入。

除了操作文档,Gemini还可以帮我们操作表格。这个太无聊了,我就不演示了。简单来说就是,以前我们在单元格里输入等号,然后可以做一些加减乘除。那现在有了Gemini之后,同样输入等号,后面跟AI加括号,就可以把提示词和要操作的单元格输入进去,让AI帮你搞定。

你看,这个就是老牌互联网厂商的家底。人家要模型有模型,要生态有生态。你要是敢打价格战,人家高兴还来不及呢。OpenAI作为新公司,上半场很风光,到了下半场的淘汰赛,会很有压力。

刚才介绍的那些,都是最常用的。除此之外,还有Gem可以做定制化,输入提示词、上传文档就行,这个大家就自己尝试吧。

OK,以上就是本期内容。想交流AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

Google:王者归来

Key Takeaway

  • Google通过克制赚钱欲望,推出搜索的AI模式,展现了其AI First的战略决心。
  • Google在AI领域实现了“王者归来”,其全栈式AI产品体系涵盖基础层(AI搜索、Gemini模型、TPU算力)、赋能层(开发者工具)和体验层(多模态内容创作、Agent平台)。
  • Gemini系列模型持续迭代,提升了多模态能力和推理能力,如Gemini 2.5 Pro的Deep Think和Flash的速度优化。
  • Google在AI产品功能上不断创新,如Veo 3的视频生成、Flow的视频编辑和Project Mariner的Agent平台。
  • Google还更新了Deep Research功能,支持上传文档和生成信息图,提升了实用性。
  • 文章预测2025年将是Google在AI领域全面爆发的一年,其全栈式AI产品体系将全面开战。

Full Content

问你一个问题:什么样的巨头最可怕?

当一个巨头能克制赚钱欲望的时候。它宁可少赚,也要完成战略转型、跟上时代。你千万别小瞧这一点——过去多少巨头就死在这上面。

今天的Google就进入了这样的状态。他们在传统搜索的商业模式如何跟AI结合还不明确的情况下,还是推出了搜索的AI模式。

现在,你可以问Google任何东西,不管是一个简单的问题,还是一个超长的问题,甚至一个问题里包含了十个问题,它都能理解。你还可以让它帮你搜集信息、帮你做出购物决策。你可以说给它听,可以打字给它,或者拍给它看,都行。

资本市场不是很看好。因为,传统的广告收入肯定会受影响——你都直接拿到答案了,自然没必要再点那些链接。另外,流量分配也会发生巨大改变。这会冲击到整个内容生态和广告网络。

但是,没办法。作为巨头,你不主动AI First,那就是等着别人来革你的命!

哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。已经有1000多位小伙伴付费加入啦。

回到今天的主题:AI版的Google。

在今年三月的视频中,我做了一个预测:2025年,Gemini会奠定谷歌AI在C端市场的统治地位。

后来的发展,比如Gemini 2.5 Pro的推出,印证了我的判断。前几天的I/O大会更加坚定了我的信心。而且,不只是Gemini——这次大会发布的一大堆东西,都让我们看到了一个全新的Google,一个AI时代的巨头。

因为新东西太多、信息量太大,我按照自己的逻辑,总结了三个层面。大家可以用这个框架去看这次的I/O大会。

最重要的是基础层。

刚才说的搜索属于基础层。因为它不仅仅是一个产品,更是Google核心能力和海量数据的体现。通过AI模式,搜索正在被重塑成为一个更智能、更有对话性的入口,并且为模型提供持续的、真实世界的数据和用户交互 。

以Gemini系列为核心的模型是基础层的第二个关键。这次大会上有很多更新,包括Gemini 2.5 Pro增加Deep Think能力,Gemini 2.5 Flash速度和效率的优化,以及新的Gemma 3n,配置要求低,很适合在日常设备上运行。这些模型的持续迭代,以及多模态能力的提升,是实现更高级智能的基础。

算力基建是基础层第三个关键。Google的TPU已经出到第七代了。这些定制硬件为复杂模型的训练和大规模推理提供强大的算力支持和能效保障。这是Google战略的物理基石。

在基础层之上,是两个层面。

一个是赋能层,主要面向开发者。Google通过增强的Gemini API、Vertex AI等等一大套东西,为开发者提供了构建、部署和管理AI应用的工具集。

另一个是体验层,主要面向用户。这次大会那些bling-bling的东西都属于体验层。比如,Google Beam的沉浸式3D通信,Android XR的混合现实交互,以及Veo 3和Flow的生成式内容创作。

至于面向未来的Project Mariner把这三个层面融会贯通了。它代表了Google实现“通用AI助手”的野心。

你别觉得刚才说的这些都是Google在画饼。其实很多已经推出了,比如Veo 3、Flow、Project Mariner。少数在未来几周也会推出,比如Gemini 2.5 Pro的深度思考功能。

我特意升级到Ultra会员,体验了一把。

Veo 3真的非常惊艳!难怪Twitter上都在疯传。除了视觉上非常逼真之外,这次Google还加入了音频功能。比如这一段。

而Flow则是基于Google视频模型的编辑平台。你可以在上边用文字生成片段,然后再把片段拼接起来。Twitter上已经有人用Flow做出很不错的作品了,比如这一段。

Project Mariner就是Agent平台,具备类似Computer Use的能力。我试了一下,它操作浏览器、点击网页上的按钮都比较顺畅了。如果遇到需要登录账号的情况,会停下来,把控制权移交给用户。

我的个人IP内核

Key Takeaway

  • 作者利用Gemini 2.5 Pro分析提炼个人IP内核,旨在成为“超级个体”,摆脱对体系的依附。
  • 实现“超级个体”的两个核心杠杆是“代码”和“叙事”,它们在AI时代具有巨大潜力。
  • 作者通过实践摸索出AI时代的学习和生存方法,强调Learning by doing和Go fundamental。
  • 个人AI系统应具备“驾驭混沌”的能力,不完全依赖某一家AI生态,并持续创造产品。
  • 文章分享了利用AI进行自我分析的方法,通过概念表、关系表和流程表来理解个人思想操作系统。

Full Content

昨天我跟AI进行了一次非常重要的对话:我让Gemini 2.5 Pro模型帮我分析、提炼个人IP内核。

过去一年多,我做了100多期视频,介绍了好多AI产品、技术、方法。那么,在这些表象背后,我究竟在主张什么?我的源动力又来自哪里?

关于这个问题的答案,说实话,我自己并没有事先想好,这一年多也没总结过。所以,就有了让拥有超大上下文的Gemini 2.5 Pro帮我处理的想法。

为了让Gemini了解我的思想,我把过去100多篇脚本、加起来超过7.5万字的内容全部导出、全部喂进去,然后进行三轮对话。每一轮都更加深入。最后得出一份三四千字的总结。

为了让这份总结更有可读性,我又把它放到最新推出的Gemini CLI里,进行可视化处理。于是,就有了这样一个网页。

我带着大家过一遍,你就知道我真正分享的是什么、主张的是什么。

以终为始。我用AI的目标只有一个:成为“超级个体”。我所有的分享,其实都来自于我自己的需求、我的探索和实践。

为什么会有这样的想法?

因为我在职场十几年,就没见到有好下场的。我特别想摆脱这样的游戏规则,摆脱对体系的依附。所以我要成为“超级个体”,把时间这个唯一的生产资料抓在自己的手里。另外,我还创建了newtype社群,筛选而非教育,去把像我一样的少数派聚集起来。

那么,该怎么实现?

我选择两个杠杆:代码和叙事。人要逆天改命,一定要用杠杆。经典的杠杆有资本和人力。可惜这两个都不适合我。作为一个小镇青年,我唯一可以依靠的,只有代码和叙事。尤其是这这个AI时代,我坚信,代码和叙事是每个人——不管你是大佬还是nobody,都要把握的杠杆。

顺着这个方向,我尝试了很多AI工具和方法。比如,个人AI知识库的搭建,本地大模型运行的方法,等等。我做这一切,都是为了实现系统化和流程化。

在实践的同时,我也摸索出了AI时代的学习方法,或者说是生存方法。比如我一直在社群内强调,要Learning by doing,不要依赖所谓的教程。一定要自己去Go fundamental,不要轻信那些自媒体,尤其是国内的自媒体。

所有这些总结起来,就得出了我这个操作系统的样子,包括内核、驱动、应用和固件。

刚出说的这些,都是Why,也就是我为什么会持续地分享AI的内容。那如果再往下一层,能挖掘出什么呢?

我想要成为独立自主、自我实现的“超级个体”。但是,作为个体,我又没法影响我非常依赖的AI生态。这个是Gemini挖掘出来矛盾点。

所以,我在个人AI系统的搭建上,绝不会完全依赖某一家。比如我的知识库就经历了好几次迭代,不只是完全本地化,还把模型层给抽出去,这样就可以随时更换。

另外,我今年一个很大的改变就是开始创造产品。过去一年,我聚焦在对内优化上,把经验对外分享。到了今年,我开始亲自做产品。用产品来承载我的方法论和价值观,用产品来对外输出。

所以,顺着Why再往下挖,Gemini给出了最终总结:

我其实是想打造一个能够“驾驭混沌”的个人操作系统:

以实现个人终极自由为目标,以代码和叙事为核心驱动,以驾驭外部技术生态的高度不确定性为核心策略,一套活的、不断自我进化的个人操作系统。

这个就是我个人IP的内核,也是我个人认知的内核。

这次我导入的只是我写的视频脚本。其实我还有笔记,准备导入进去,让Gemini帮我再分析一次。

如果你平时也积累了大量个人资料,可以试试这种方式。提示词非常简单:

把人的思想比作操作系统的话,这个操作系统包含三张表——概念表、关系表和流程表。那么,请根据我提供的文档进行分析,我的三张表里面有什么?

这个提示词就是第一步,从你的资料里把What提取出来。

接着,让Gemini进一步分析,挖掘出驱动这套系统运行的底层哲学、核心原则与最终目标,也就是Why。

最后,基于之前的What和Why,再深入一层,得出内在的核心矛盾、进化路径,并且预判可能面临的未来挑战。

这么一大套搞下来,我相信,对你肯定会有很大启发。

OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

逆袭のGemini

Key Takeaway

  • Google Gemini通过图像生成和修改能力实现“逆袭”,提供图文并茂的全新交互体验。
  • Gemini的原生多模态能力是其核心卖点,能理解并处理文字、音频、图片和视频。
  • Gemini在C端市场具有杀手级体验,集成了AI版的PhotoShop和美图秀秀功能。
  • Gemini实验版模型可直接读取YouTube链接,利用多模态能力理解视频内容。
  • Gemini APP更新了调用搜索记录和Deep Research模型,提升了实用性。
  • 文章预测Gemini将在2025年奠定谷歌AI在C端市场的统治地位。

Full Content

OpenAI现在一定很慌。因为谷歌前两天更新了Gemini,带来一个逆袭级别的功能。老规矩,我先演示,再解释。

举个例子,我让它从0到1帮我做一个奇异博士的原创设计,从线稿开始,最终完成上色,并且每一步都用图片展示。

于是,Gemini从概念草图和轮廓开始,完成线稿,完善细节,添加颜色、光影、材质和纹理,以及魔法效果。

第一次生成就能达到这样的程度,能够保持前后一致性,可以说是非常厉害了!

咱们再来试一个。这是马斯克在Twitter上发的照片。我把它贴到Gemini里边,让它不改变背景,只改变表情,改成微笑的样子。

你看,它改得还是很不错的。眼神、鱼尾纹都出来了。说明Gemini对指令的理解和服从、对局部的把控也是不错的。

更夸张的是,我让它给我一个红烧肉的教程,包含每一步的图片。结果它针对每一步都生成了对应的图片。

这个就是Gemini新增加的图像生成和修改能力,给到Gemini 2.0 Flash实验版的模型。大家想体验的话,可以用AI Studio,或者通过API。

实话实说,跟那些专业选手相比,比如SD、Flux,Gemini生成的图片算不上特别好。但是我认为,比专业更重要的,是它找到了切入大众市场的方法。

把图像生成和文字生成融合起来,有两个好处。

第一,模型生成的答案不限于文字,而是可以做到图文并茂。

该上图片就直接生成。注意,是生成,而不是去搜了一张图片、然后放进来。就好比我一边说、一边画。

这种做法,让我想起了去年Claude推出Artifacts功能。我当时还打了个比方,那就好比大学老师在讲课的时候,拉了一块干净的黑板过来,边说边写。

像这样的体验,绝对比只有文字强得多。现在是图文并茂,那之后也许可以生成短视频、融合到答案里。这个在C端市场绝对是杀手级体验。

第二,用户不用切换,在一个产品里全都能满足。

我们平时免不了会有一些修图的需要。现在的Gemini,就好比是集成了AI版的PhotoShop、美图秀秀,太适合了。

至于ComfyUI之类的重型产品,很强大,但门槛也很高,那就专门用来满足专业需求,就别跟大众产品混在一起了。

Gemini这个实验版的模型一推出,我看到不少人已经在琢磨怎么用它赚钱了。

你想嘛,既然它对人类指令的服从性高,那就把脚本给过去,用它来生成分镜稿。然后把分镜稿给到视觉模型,用图来生成视频片段,最后再合成一整个视频。

做自媒体的这下产出效率更高了。你看,强者从来不逼逼。不会像评论区的那些人一样,总觉得这不好、那不好。人家有啥用啥,绝不抱怨,专心挣钱。

言归正传。除了图像生成之外,这个实验版的模型还可以直接读取YouTube链接。它不只是提取视频字幕,而是真的利用多模态能力去“理解”。以后那些日文的视频,或者播客视频,都可以给Gemini 2.0 Flash处理了。

这个就是Gemini一直坚持的核心卖点:原生的多模态能力。在论文里可以看到,不管是文字、音频、图片还是视频,这些都一并输入。然后,模型会根据需要,选择输出文字或者图片。

Gemini属于自回归模型。跟那些扩散模型相比,它的服从性更好,并且针对一致性问题做了优化,比如采用高级注意力机制、多尺度生成等等,解决了架构的先天不足。沉淀了这么久,才有今天的逆袭。

我估计,过一两个月,这个实验版模型就会上架Gemini APP了。其实,这一波更新,APP那边也有很实用的提升。

一是可以调用搜索记录。

比如我问Gemini:最近有搜一个微软的项目,但是不记得了。于是它帮我从搜索记录里找到了,原来是微软的markitdown。

当然,这个功能需要用户的许可。如果你不愿意,可以随时关闭。

二是Deep Research的模型更新了。

果然跟我之前想的一样,从1.5换成了最新的2.0。这样一来,更强的推理,加上谷歌本来就很牛逼的搜索,Gemini Deep Research更好用了。

这一堆功能已经摆在台面上了。想象一下,如果把它们集成到安卓系统中——我相信这只是时间问题,那么,AI手机就不再只是个概念了。

所以,我有大胆的想法:2025年,Gemini会奠定谷歌AI在C端市场的统治地位。

OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!