AI趋势

我对2025年AI的判断

Key Takeaway

  • 2025年AI的关键词是Agent,其本质是“任务引擎”,而非简单的“智能体”。
  • AI发展将从“信息引擎”阶段(大模型引领)进入“任务引擎”阶段(Agent引领)。
  • Chatbot只是Agent的初级形态,未来可能被淘汰,因为其缺乏“上下文”信息,限制了任务完成能力。
  • 拥有用户“上下文”的巨头(如Google、Apple)在Agent发展上具有天然优势。
  • Agent的产品形态将从“人造形态”(软件/APP封装)发展到“自造形态”(AI自动生成Agent)。
  • RAG和Agent是AI原生应用的基础技术,理解它们是把握AI时代的关键。

Full Content

2025年,AI的关键词只有一个,就是Agent。不管是搞模型的还是搞应用的,都会把火力集中到Agent这个点上。

单纯比拼模型的阶段已经过去了。注意,我不是说模型不重要了。模型能力肯定还会继续提升。但是,单纯依靠模型去抢市场,早就行不通了。你回顾一下御三家最近这半年的动作就知道了:

Anthropic给Claude添加了Artifacts功能,推出了控制电脑能力,还有MCP协议;

OpenAI也给ChatGPT加上了类似的canvas功能,还上了搜索,虽然做得不怎么好;

Google之前一直很拉跨,最近一次更新直接追平。Gemini的多模态、超长上下文,以及Deep Search功能都非常惊艳。

这三家的动作都是同一个指向、同一个意思:模型即应用。这个应用,就是Agent。

Agent概念,国内吹了得有一年。我看了一圈,好像都没讲明白基本的逻辑,只是停留在“智能体”这个模糊的名字上。我建议大家忘了那些定义,就记住这四个字:

任务引擎。

从底层逻辑来看,AI有一半是在延续互联网的逻辑。

互联网本质上就是信息的组织和分发。从上古时期的雅虎、Google、各种门户,到后来的淘宝、今天的抖音,全都是对各种信息的重新组织、重新分发,最后重新划分地盘。

AI也是这样。大模型能够处理以前难以想象的信息规模,从中提取出有价值的知识和模式。而且,除了文本、图像、视频这些传统形式,AI还可以处理更复杂和抽象的信息,比如知识图谱、语义网络等等。

所以,AI延续了互联网的底层逻辑,继续做信息的组织和分发,而且做得更好。但是,这并不是AI的真正使命。Agent才是AI的真面目。

信息组织和分发侧重于信息的静态方面。而Agent要做的,是对信息进行动态应用,用信息来完成特定任务。

所以我认为,“任务引擎”才是对Agent更准确、更好理解的表述。我特别烦“智能体”这三个字。国内媒体和厂商特别喜欢搞虚头巴脑、说了跟没说一样的概念。

为了方便大家理解,我再做一个提炼和总结:

这一轮AI发展,也就是从GPT-3.5开始的第一阶段,是大模型引领的阶段,特征是“信息引擎”,它是比之前互联网和移动互联网的任何产品都更加强大的“信息引擎”。

从2025年开始,将进入第二阶段,由Agent引领,特征是“任务引擎”。Agent和大模型不是割裂的。正因为有了足够强大的大模型,正因为有了足够强大的“信息引擎”,“任务引擎”才有实现的可能。

OK,理解了Agent,理解了AI发展的底层逻辑之后,下一个问题就来了:Agent长什么样?或者说,它的产品形态是什么样的?

软件和APP都是我们特别熟悉的产品形态。到了AI时代,像ChatGPT一样的聊天机器人会是Agent的标准形态吗?

我认为不是。Chatbot只是最最初级的Agent,甚至这种形态很有可能会被淘汰。

你就想一个问题:Agent要很好地完成任务,最重要的是什么?

就好比一个人一样,要完成领导交代的任务,最关键的是个人能力吗?并不是。最关键的因素是“背景信息”,或者说是“上下文”。

这个任务的前因后果是什么?领导交代这个任务的预期是什么?他的言外之意是什么?如果不搞明白这些,你能力再强有什么用?

Agent也是一个道理。你的生成能力很强,那又怎么样呢?真有什么需求的时候,还得先交代一大堆。比如我要写一篇稿子,我得告诉AI:客户需求是这样的,参考资料是这些,等等。而且99%的人根本想不明白也说不明白。我们今天一直在强调的自然语言交互,其实只适合少数人。

正是这些前置条件限制了我们使用Chatbot。你看现在这些产品的数据,每天有多少活跃用户,每天使用几次,就很能反映出问题。

所以,ChatGPT这种形态就好比当年的移动梦网。这个概念,没经历过那个年代的人肯定都没听过。在移动互联网早期,移动梦网就是一个大超市,囊括了短信、彩信,手机上网也就是WAP,以及百宝箱也就是手机游戏在内的各种信息服务。听起来是不是特别像今天的ChatGPT?

而我们都知道,真正让移动互联网爆发和普及的,是今日头条和抖音这种依靠算法推荐的产品形态。AI如果要爆发和普及,同样需要这种适合普罗大众的“傻瓜产品”。这其中最关键的,就是要补上前边说的“上下文”。

这个东西,是OpenAI天生就没有的。谁有?Google有,Apple有,Meta有,腾讯有,阿里有,字节有。

举个例子,大家来想象一下:Chrome浏览器和Gemini彻底打通了。它本来就有我保存的书签、所有浏览记录,对吧?这些就可以作为非常宝贵的上下文信息,让AI版的Chrome给我提供我真正想要的东西。

这就是我为什么说,像ChatGPT一样的聊天机器人只是最最初级的Agent,而且很有可能会被淘汰的原因。OpenAI现在的领先,只是阶段性的。就像当年的移动梦网一样,后来又有谁还记得它呢?

OK,理解了“上下文”是Agent的关键之后,再来看产品形态。我认为,Agent会有两种形态,对应两个发展阶段。

第一种形态就是现在的“人造形态”。

ChatGPT是Agent,Perplexity是Agent,Cursor是Agent。现在这些Agent都是人造的,都是我们用软件、用APP的外壳,把Agent给封装进去,从而完成特定的任务,比如搜索和编程。

人造Agent数量不会太多,也只是早期阶段的特色。我估计,最多到2026年,就会进入第二阶段,迎来第二种形态——“自造形态”。

所谓“自造形态”,顾名思义,AI会自动生成Agent。因为每个人的每个需求其实都千奇百怪。非要用软件或者APP的形态去事先提取最大公约数、把它们都框起来,只能满足一部分共通的需求。

当刚才提到的“上下文”全面接入之后,各种个性化的需求就可以变成大大小小的任务。从任务出发,AI可以自主生成相应的Agent去处理。这才是AI时代全面到来的样子。

如果你是做投资的,或者搞开发的,可以好好想想我说的这些。我知道公开做判断、下定论,肯定会有很多人喷。没问题,我特别欢迎大家半年、一年后来挖坟,看看谁对谁错。

过去一年我做的几十期视频,大多数都是关于RAG和Agent的。我当时就说,这两项技术是所有应用的基础。要处理更多相关信息,必须用RAG;要执行各种任务,必须用Agent。而且,让AI自动生成Agent,我之前也有出一期,介绍过这样的技术。没记错的话,应该是用微软的框架。

所以当你一直在关注和实践的话,最终得出本期视频的结论是很自然的。站在今天这个时间点回头看,猛然发现,一切都串起来了,而且指向无比清晰。

OK,不多说了。还是那句话,我是国内少数几个能把AI的WHY和HOW讲明白的博主。想链接我,就来我们newtype社群。那咱们下期见!

未来三年最值钱的工作

Key Takeaway

  • Agent Designer(智能体设计师)是未来三年最有价值的工作,因为AI技术价值的实现依赖于Agent。
  • Agent可以类比为高达的躯体,大模型是动力源,工具是武器,用户是驾驶员。
  • Agent设计师需要同时懂AI和业务,能够将人类意图“翻译”给AI,并设计Agent的工作流。
  • Agent设计师需要打通软件、数据库,将它们转化为Agent的工具,并从系统角度设计Agent协作。
  • Agent和RAG将成为AI原生应用的标配。

Full Content

未来三年,最值钱的工作是:Agent Designer,智能体设计师。

顾名思义,它就是设计Agent的。

为什么值钱?

因为AI技术要产生价值,大模型厂商想收回巨额开发成本,必须依靠Agent。

那么,Agent是什么?

我发现,很多人会把这个概念跟大模型概念混在一起,理不清楚。我拿高达来打个比方,你肯定就明白了。

Agent就好比高达的躯体,就是我们看到的那一副机甲。

这个机甲要动起来,需要动力,对吧?大模型就是高达里最牛逼的动力源——太阳炉。

看过高达的小伙伴就知道,有太阳炉和没有太阳炉,那是天壤之别。对于Agent来说也是如此。

早在大模型技术出来之前,Computer Science和AI领域的研究人员就已经研究Agent好多好多年了。直到大模型火爆,Agent这副机甲才终于装上了太阳炉。

但是,对高达来说,光有动力还不行——你拿什么打呢?

于是,高达手里那些各式各样的武器就等同于Agent的工具:

高达根据使用的武器不同,有的属于近战型,有的属于狙击型,有的属于重装防御型。

Agent也是这样。有的Agent装备了搜索工具,负责上网查资料;有的Agent装备了Scraping的工具,可以把网页上的内容都扒下来,等等。

高达要行动,需要驾驶员的操作。Agent也一样,需要用户下指令。当然,高达和Agent在一定程度上都可以自动运行。

既然驾驶员是人类,那肯定有水平的高低。在高达的设定中,最牛逼的驾驶员是newtpye。他们拥有更强的分析能力等等。

同样,在Agent这边,用户的水平也有很明显的高低之分。我在上一期视频中就提到过,只有少于5%的少数派能在当下这个早期阶段用好AI。而我把自己的知识星球取名为newtypye,出处就是高达,目的就是想聚拢AI时代的超级个体。

所以,你按照我这套理论再去看Agent这个概念,就会清晰得多。而且我很肯定,我这样的理解是正确的。因为我这套东西是从代码里看来的。

以CrewAI的代码为例。在编写每个Agent的时候,除了描述它的职责和背景之外,都会设定它装备什么大模型,以及可以调用哪些工具——当时我看到这个的第一反应,就是高达。

这就是为什么我在上一期视频里建议大家一定要学编程。你能看得懂代码,你对AI的理解就一定比别人更深,也不会被那些一知半解的媒体和商业大佬给忽悠了。

OK,Agent的定义大家理解了。那么,为什么说Agent设计师是AI技术产生价值的关键呢?

我上个月在知识星球newtype里有提到过:

“关于如何搭建一套Multi-Agent System。它在技术上一点都不难。难的是,你得想清楚,你想让Agent【怎么做】。

Agent的价值在于Workflow。而这个Workflow怎么设计,要求你既要懂AI,又要懂业务。”

Agent设计师就是那个既懂AI又懂业务的人。

他既要知道怎么跟AI“沟通”,把人类的意图“翻译”给AI听;也要知道怎么跟各个业务单元的人沟通,界定需求和问题;他还要知道怎么跟掌握预算的人沟通,比如老板,管理好对方的预期。

他需要知道怎么打通各种软件、数据库,把这些通道变成工具,给Agent装备上。

他需要知道怎么站在系统的角度去设计工作流,让不同的Agent分工合作,并且每一个环节交付的东西都有清晰的定义,可以评估、衡量。

这样一个人,横跨人类世界和AI世界,通过设计和搭建一套Agent系统把两个世界衔接起来。你想想,有这样的能力和价值,他得值多少钱?

如果你对这样的工作、这样的角色感兴趣的话,现在就是行动的最好时候。一切都才刚刚开始。

我之后也会持续分享Agent相关内容。就像我在知识星球newtype里说的:Agent和RAG一定会成为AI原生应用的标配。感兴趣的小伙伴记得点个关注。我分享的东西很值钱的。

OK以上就是本期内容。咱们下期见!

Google:王者归来

Key Takeaway

  • Google通过克制赚钱欲望,推出搜索的AI模式,展现了其AI First的战略决心。
  • Google在AI领域实现了“王者归来”,其全栈式AI产品体系涵盖基础层(AI搜索、Gemini模型、TPU算力)、赋能层(开发者工具)和体验层(多模态内容创作、Agent平台)。
  • Gemini系列模型持续迭代,提升了多模态能力和推理能力,如Gemini 2.5 Pro的Deep Think和Flash的速度优化。
  • Google在AI产品功能上不断创新,如Veo 3的视频生成、Flow的视频编辑和Project Mariner的Agent平台。
  • Google还更新了Deep Research功能,支持上传文档和生成信息图,提升了实用性。
  • 文章预测2025年将是Google在AI领域全面爆发的一年,其全栈式AI产品体系将全面开战。

Full Content

问你一个问题:什么样的巨头最可怕?

当一个巨头能克制赚钱欲望的时候。它宁可少赚,也要完成战略转型、跟上时代。你千万别小瞧这一点——过去多少巨头就死在这上面。

今天的Google就进入了这样的状态。他们在传统搜索的商业模式如何跟AI结合还不明确的情况下,还是推出了搜索的AI模式。

现在,你可以问Google任何东西,不管是一个简单的问题,还是一个超长的问题,甚至一个问题里包含了十个问题,它都能理解。你还可以让它帮你搜集信息、帮你做出购物决策。你可以说给它听,可以打字给它,或者拍给它看,都行。

资本市场不是很看好。因为,传统的广告收入肯定会受影响——你都直接拿到答案了,自然没必要再点那些链接。另外,流量分配也会发生巨大改变。这会冲击到整个内容生态和广告网络。

但是,没办法。作为巨头,你不主动AI First,那就是等着别人来革你的命!

哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。已经有1000多位小伙伴付费加入啦。

回到今天的主题:AI版的Google。

在今年三月的视频中,我做了一个预测:2025年,Gemini会奠定谷歌AI在C端市场的统治地位。

后来的发展,比如Gemini 2.5 Pro的推出,印证了我的判断。前几天的I/O大会更加坚定了我的信心。而且,不只是Gemini——这次大会发布的一大堆东西,都让我们看到了一个全新的Google,一个AI时代的巨头。

因为新东西太多、信息量太大,我按照自己的逻辑,总结了三个层面。大家可以用这个框架去看这次的I/O大会。

最重要的是基础层。

刚才说的搜索属于基础层。因为它不仅仅是一个产品,更是Google核心能力和海量数据的体现。通过AI模式,搜索正在被重塑成为一个更智能、更有对话性的入口,并且为模型提供持续的、真实世界的数据和用户交互 。

以Gemini系列为核心的模型是基础层的第二个关键。这次大会上有很多更新,包括Gemini 2.5 Pro增加Deep Think能力,Gemini 2.5 Flash速度和效率的优化,以及新的Gemma 3n,配置要求低,很适合在日常设备上运行。这些模型的持续迭代,以及多模态能力的提升,是实现更高级智能的基础。

算力基建是基础层第三个关键。Google的TPU已经出到第七代了。这些定制硬件为复杂模型的训练和大规模推理提供强大的算力支持和能效保障。这是Google战略的物理基石。

在基础层之上,是两个层面。

一个是赋能层,主要面向开发者。Google通过增强的Gemini API、Vertex AI等等一大套东西,为开发者提供了构建、部署和管理AI应用的工具集。

另一个是体验层,主要面向用户。这次大会那些bling-bling的东西都属于体验层。比如,Google Beam的沉浸式3D通信,Android XR的混合现实交互,以及Veo 3和Flow的生成式内容创作。

至于面向未来的Project Mariner把这三个层面融会贯通了。它代表了Google实现“通用AI助手”的野心。

你别觉得刚才说的这些都是Google在画饼。其实很多已经推出了,比如Veo 3、Flow、Project Mariner。少数在未来几周也会推出,比如Gemini 2.5 Pro的深度思考功能。

我特意升级到Ultra会员,体验了一把。

Veo 3真的非常惊艳!难怪Twitter上都在疯传。除了视觉上非常逼真之外,这次Google还加入了音频功能。比如这一段。

而Flow则是基于Google视频模型的编辑平台。你可以在上边用文字生成片段,然后再把片段拼接起来。Twitter上已经有人用Flow做出很不错的作品了,比如这一段。

Project Mariner就是Agent平台,具备类似Computer Use的能力。我试了一下,它操作浏览器、点击网页上的按钮都比较顺畅了。如果遇到需要登录账号的情况,会停下来,把控制权移交给用户。

有了MCP,AI才完整

Key Takeaway

  • MCP(模型控制协议)是AI发展的关键,它将AI从“功能机”进化到“智能机”,解决了传统API接口不统一和不理解语义的问题。
  • MCP为AI提供统一的工具接口,使其能够自由接入和控制海量工具,实现更进阶的任务。
  • 文章通过演示AI工具(Cline)如何通过MCP调用Obsidian(笔记)和Tavily(搜索)等多个工具,展示了MCP的实际应用。
  • MCP将用户的查询、工具描述和参数结构化传递给大模型,由大模型决定如何处理。
  • Claude桌面版和Cline是目前对MCP支持最好的工具,用户也可以自行开发MCP工具。

Full Content

如果你关注AI、关注Agent,那么你一定要关注MCP,一定好好理解它,一定要多用它。

AI的发展有两条非常明确的路线,我之前在社群里说过:一是掌握更多信息,二是控制更多工具。

两年前的大模型,它的信息来源只有训练时的数据,以及推理时我们告诉它的东西。

后来,我们给它加上联网搜索,让它能获得更广阔、更及时的信息;我们给它加上RAG技术、加上知识库,让它能获得垂直领域那些不外传的信息。

这些还不够,因为都是文字信息。于是我们又上了多模态,现在连图片它都能理解了。

你看,所有这些发展都符合第一条路线——掌握更多信息。

光有信息还不够,要改变世界,你手里还得有工具。这个就是第二条路线。我认为,MCP是第二条路线的关键。

有了MCP,你手里的AI就从功能机进化到智能机。

老规矩,我先演示,再解释。

屏幕左边是Obsidian,一个笔记应用。为了演示,我新建了一个库,放了三篇之前的视频脚本作为笔记。

屏幕右边是Cline。它是一个AI插件,编程能力非常强。如果你的主力是VS Code,那一定要用它。

那么,我想给大家看的是,通过Obsidian MCP——你可以简单理解为就是一个接口,像Cline这类AI工具可以直接读取和修改Obsidian里的笔记。

咱们先从最简单的开始。我问Cline:库里都有哪些笔记?

接到请求后,Cline看了一圈环境,发现Obsidian跟一个MCP服务器连在一起。于是,它决定通过MCP服务器,调用list notes这个工具,去查询都有哪些笔记。

在RESPONSE里边,MCP服务器把查询到的信息返回给了Cline,然后它给出最终答案。

跟查询库里都有哪些笔记一样的原理,Cline还可以通过MCP服务器读取笔记的具体内容。

我问它,这篇笔记的主要内容是什么?

这时,Cline会使用read note工具去读取笔记。把一千多字的内容全部提取之后,它对内容进行总结,然后给出最终答案。

大家如果有印象的话,应该记得我之前出过两期视频,都是关于Cursor对Obsidian笔记的修改。这个做法的前提是,Cursor打开了Obsidian存放在本地的笔记仓库。

但是,并不是所有AI工具都有这样的条件和能力去调用整个笔记仓库。这时候就需要MCP服务器,它作为一个通用接口连接两端。

我刚才演示的,只连接了一个MCP服务器。其实,为了完成一项任务,AI可以连接多个MCP服务器,调用多个工具。我再演示一个例子。

这是OpenAI官网的文章,关于GPT-4.5。我把链接给到Cline,希望它能把文章的内容给扒下来。

这时,Cline发现,还有Tavily MCP可以连接。Tavily是一个专门为大模型优化过的搜索引擎。它的MCP里边有一个提取网页内容的工具。

使用这个工具,Cline顺利把网页内容给扒了下来。然后,它重新整理和总结所有信息,最终给出很清晰的回答。

接着,我给出第二条指令:把这份Summary作为新笔记,存进Obsidian里边。

你看,它调用Obsidian MCP里的create note工具,开始创建笔记。中间遇到了一个格式上的问题,主要是特殊字符导致解析错误。我猜是中文标点的问题。好在Cline很聪明,在第二次尝试的时候,主动规避了特殊字符,最后完成了笔记创建。

通过刚才的演示可以看到,像Cline、Claude之类的AI应用,能够调用各种工具,完成更进阶的任务。这个就是MCP的价值。

这么说吧:MCP就是AI的USB-C接口。

在MCP出来之前,AI都是怎么调用工具的?通过API接口对吧?但是,API有很大的局限性,不适合AI。

第一,不同工具的API都有各自的规范。

举个例子。如果要调用一个天气预报工具,我就得按它的格式要求告诉它城市名称和日期,比如单词“Beijing”、“0315”(也就是3月15日)。如果要调用一个计算器工具,我就得按它的格式要求告诉它数值和符号,比如“1”、“+”、“2”。

市面上有海量的工具。AI要知道、要去满足每一个工具的要求,这是不现实的。这就好比有的设备是USB-A接口,有的设备是micro USB,有的设备是mini USB。作为用户,看到这一堆接口,头都大了好吗!

所以,AI需要一套统一的规范,去统一所有的工具接口。就好比今天的USB-C,手机也好、电脑也好,全都用这个接口。而且,现在新的显示器还支持用USB-C接MacBook,既能充电,还能传输信号,连HDMI都省了。一根线走天下是大势所趋。

第二,API关注的是数据的传输,而非数据的含义。

就像刚才的例子,我如果问:下周一北京天气怎么样?或者,一加二等于几?像这样的数据,API没法接受,因为它不理解、也不需要理解这是什么意思。它的职责就是把数据拿过来、传过去。

但是MCP能理解。

其实也不是MCP理解的,而是它把一切都打包好,给到大模型去理解。MCP把用户的查询、工具的描述和参数,以结构化的方式传递给大模型,由大模型决定如何处理。

目前市面上对MCP支持最好的工具,一个是Claude桌面版——毕竟MCP就是他们家提出的,另一个是Cline。

我刚才演示里的两个MCP,Tavily那个是现成的,可以在Cline Marketplace里搜到。然后Cline会下载代码仓库,并且自动部署,非常方便。

而Obsidian那个,是我让Cline自动生成。过程中我没写一行代码,就是一路点“同意”,几分钟就搞定了。如果需要增加或者修改某个工具,也可以交给Cline去完成。

MCP本身并不复杂。在AI编程工具的帮助下,你也可以开发自己的MCP工具,然后部署在本地或者云端,比如Cloudflare。最核心的index文档,你完全可以在AI的帮助下理解清楚。

或者,你就用现成的。市面上已经出现好多个MCP导航网站,比如Smithery。

在商业化方面,我看到市场上也出现了第一款收费的MCP,可以帮忙设计UI。

MCP的价值得到越来越多人的认可。一切都在快速推进中。就像前边说的,如果AI只能调用有限的、预先设置好的工具的话,那不就是以前的功能机吗?通过MCP,AI可以自由接入海量工具。从这一刻开始,AI才从功能机时代迈入智能机时代。

逆袭のGemini

Key Takeaway

  • Google Gemini通过图像生成和修改能力实现“逆袭”,提供图文并茂的全新交互体验。
  • Gemini的原生多模态能力是其核心卖点,能理解并处理文字、音频、图片和视频。
  • Gemini在C端市场具有杀手级体验,集成了AI版的PhotoShop和美图秀秀功能。
  • Gemini实验版模型可直接读取YouTube链接,利用多模态能力理解视频内容。
  • Gemini APP更新了调用搜索记录和Deep Research模型,提升了实用性。
  • 文章预测Gemini将在2025年奠定谷歌AI在C端市场的统治地位。

Full Content

OpenAI现在一定很慌。因为谷歌前两天更新了Gemini,带来一个逆袭级别的功能。老规矩,我先演示,再解释。

举个例子,我让它从0到1帮我做一个奇异博士的原创设计,从线稿开始,最终完成上色,并且每一步都用图片展示。

于是,Gemini从概念草图和轮廓开始,完成线稿,完善细节,添加颜色、光影、材质和纹理,以及魔法效果。

第一次生成就能达到这样的程度,能够保持前后一致性,可以说是非常厉害了!

咱们再来试一个。这是马斯克在Twitter上发的照片。我把它贴到Gemini里边,让它不改变背景,只改变表情,改成微笑的样子。

你看,它改得还是很不错的。眼神、鱼尾纹都出来了。说明Gemini对指令的理解和服从、对局部的把控也是不错的。

更夸张的是,我让它给我一个红烧肉的教程,包含每一步的图片。结果它针对每一步都生成了对应的图片。

这个就是Gemini新增加的图像生成和修改能力,给到Gemini 2.0 Flash实验版的模型。大家想体验的话,可以用AI Studio,或者通过API。

实话实说,跟那些专业选手相比,比如SD、Flux,Gemini生成的图片算不上特别好。但是我认为,比专业更重要的,是它找到了切入大众市场的方法。

把图像生成和文字生成融合起来,有两个好处。

第一,模型生成的答案不限于文字,而是可以做到图文并茂。

该上图片就直接生成。注意,是生成,而不是去搜了一张图片、然后放进来。就好比我一边说、一边画。

这种做法,让我想起了去年Claude推出Artifacts功能。我当时还打了个比方,那就好比大学老师在讲课的时候,拉了一块干净的黑板过来,边说边写。

像这样的体验,绝对比只有文字强得多。现在是图文并茂,那之后也许可以生成短视频、融合到答案里。这个在C端市场绝对是杀手级体验。

第二,用户不用切换,在一个产品里全都能满足。

我们平时免不了会有一些修图的需要。现在的Gemini,就好比是集成了AI版的PhotoShop、美图秀秀,太适合了。

至于ComfyUI之类的重型产品,很强大,但门槛也很高,那就专门用来满足专业需求,就别跟大众产品混在一起了。

Gemini这个实验版的模型一推出,我看到不少人已经在琢磨怎么用它赚钱了。

你想嘛,既然它对人类指令的服从性高,那就把脚本给过去,用它来生成分镜稿。然后把分镜稿给到视觉模型,用图来生成视频片段,最后再合成一整个视频。

做自媒体的这下产出效率更高了。你看,强者从来不逼逼。不会像评论区的那些人一样,总觉得这不好、那不好。人家有啥用啥,绝不抱怨,专心挣钱。

言归正传。除了图像生成之外,这个实验版的模型还可以直接读取YouTube链接。它不只是提取视频字幕,而是真的利用多模态能力去“理解”。以后那些日文的视频,或者播客视频,都可以给Gemini 2.0 Flash处理了。

这个就是Gemini一直坚持的核心卖点:原生的多模态能力。在论文里可以看到,不管是文字、音频、图片还是视频,这些都一并输入。然后,模型会根据需要,选择输出文字或者图片。

Gemini属于自回归模型。跟那些扩散模型相比,它的服从性更好,并且针对一致性问题做了优化,比如采用高级注意力机制、多尺度生成等等,解决了架构的先天不足。沉淀了这么久,才有今天的逆袭。

我估计,过一两个月,这个实验版模型就会上架Gemini APP了。其实,这一波更新,APP那边也有很实用的提升。

一是可以调用搜索记录。

比如我问Gemini:最近有搜一个微软的项目,但是不记得了。于是它帮我从搜索记录里找到了,原来是微软的markitdown。

当然,这个功能需要用户的许可。如果你不愿意,可以随时关闭。

二是Deep Research的模型更新了。

果然跟我之前想的一样,从1.5换成了最新的2.0。这样一来,更强的推理,加上谷歌本来就很牛逼的搜索,Gemini Deep Research更好用了。

这一堆功能已经摆在台面上了。想象一下,如果把它们集成到安卓系统中——我相信这只是时间问题,那么,AI手机就不再只是个概念了。

所以,我有大胆的想法:2025年,Gemini会奠定谷歌AI在C端市场的统治地位。

OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!