newtype

newtype

Gemini 3为什么能成功?

文本是对世界的压缩和抽象,而视觉是世界本身的投影。多数人选择前者,比如OpenAI;而Google选择后者。

huangyihe's avatar
huangyihe
Nov 28, 2025
∙ Paid

直接说结论。

Gemini 3的成功源自于它将原生多模态与深度推理能力进行前所未有的结合。其中,原生多模态是一切的基础。早在Gemini系列伊始,Google就对原生多模态架构进行战略性下注。

Google CEO Sundar Pichai强调,每代模型都构建在上代突破之上,而原生多模态是这一路径的基石。没有它,Gemini 3的Deep Think模式和视觉学习能力就难以实现。

什么叫“原生”?

原生多模态意味着,从模型的第一个训练步骤就将文本、图像、视频和音频等模态作为统一输入进行联合学习,从而实现更自然的跨模态推理和交互。

而那些非原生的模型通常是通过一个独立的视觉编码器,把图片硬生生地“压缩”成语言模型能读取的信号。这种方式会导致大量难以用文字描述、难以被编码器捕捉的细微信息在传输中丢失,比如光影质感、微表情。

“原生”有什么好处?

当面对非文本信息时,这种架构能让模型“直觉式”地理解。

比如,它不仅能“看到”视频中的动作,还能理解动作背后的物理规律、情感色彩或复杂逻辑。

你再想想别的模型,比如DeepSeek模型,只能“看图说话”。它们需要“外挂”先“翻译”图片,转成文字之后,再进行处理。

所以,这种“原生”所带来的“全感知”能力,是Gemini区别于纯文本推理模型的最大护城河。

既然“原生”那么好,为什么OpenAI他们早期不跟进?

道理大家都懂。但这是技术路线的选择、数据资源的差异以及工程难度的综合结果。

This post is for paid subscribers

Already a paid subscriber? Sign in
© 2025 Weatherman · Privacy ∙ Terms ∙ Collection notice
Start your SubstackGet the app
Substack is the home for great culture