OpenAI
Key Takeaway
- Deep Research是AI的杀手级应用,能显著提升职场效率,未来将快速普及。
- Deep Research的核心是AI Search的尽头,即AI Research,通过掌握更多信息和控制更多工具实现。
- OpenAI的Deep Research效果最佳,但成本高昂;Google Gemini的Deep Research性能不错且性价比高;Perplexity的Deep Search量大但效果一般。
- Deep Research通过模型协作和多轮分析,能快速完成深度研究,生成思维导图和深度挖掘。
- 文章强调Deep Research普及后,将对职场产生巨大影响,并建议用户尽早学习和使用。
Full Content
Deep Research绝对是AI的杀手级应用。用过都说好。可惜用过的人太少,因为成本真的很高,比如OpenAI要收200美金一个月才让你用。所以,这个东西暂时还没有火出圈。如果你是职场新人,或者很想往上爬,趁着这段时间,赶紧用、赶紧学,不开玩笑。
这么说吧,但凡脑子正常的老板用过Deep Research之后,绝对会想把公司里的初级牛马全部干掉。手段不那么狠一些的,也会强制要求全员使用。然后,用不明白的都给我滚蛋。
我演示一下你们就明白了。需求很简单:帮我分析英特尔与台积电合资的可能性,以及美股投资机会。这个是最近美股投资的热门议题,我已经买入了。
接到需求后,ChatGPT会主动做一轮沟通,把需求里的细节明确一下,然后再正式开工。整个过程一般在10分钟左右,它会去查找几十个网页,然后细细地拆解。这个时候大家可以切到别的网页或者刷刷手机。
我对o1 Pro这个生成结果挺满意的,几分钟时间就完成了初步研究。试想一下,一个月1500块招个实习生帮你搜集资料,能做到这个份上,你已经可以偷笑了!
接下来,可以让这个GPT实习生根据前边的内容生成一个思维导图,这样你会有一个全局性的认识。然后,针对其中某些具体的点,再让GPT去做深度挖掘。这我就不演示了。
所以,身为打工人的各位自己掂量一下:当Deep Research全面普及之后,你们在职场当中该如何自处?
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:Deep Research。
目前市面上提供Deep Research产品的厂商主要有三家:OpenAI、Google,以及Perplexity。接下来一定会有更多厂商加入进来。为什么?记住我这句话:
AI Search的尽头,是AI Research。
那么,不管是Search还是Research,又都是为了什么?我前两天在社群里发了这么一段话,我认为:
AI会沿着两条线发展:掌握更多信息,控制更多工具。
其中,搜索、深度研究都是第一条线的关键节点。这是为什么各家都很重视的原因。
动作最快的OpenAI已经把这个产品开放给Pro用户好一段时间了。这一档的月费是200美金,每个月可以用100次的Deep Research。Plus和免费版的用户也别着急,Sam说了,将会向Plus版用户提供每个月10次的额度,免费版用户则是2次。
实话实说,OpenAI的Deep Research是目前效果最好的产品。它不是简单地搜一堆网页,把内容拿回来分析。而是用了大量的模型协作。所以,消耗的Token比别家多太多。它产出的报告,信息密度也是别家的好几倍。不信的话,你去部署那些开源的、所谓的替代品试试就知道了。
但是,很可惜,我不会继续订阅。不是产品的问题,而是降智的问题。
很多人都遇到了降智,特别恶心。这个问题并不是无解。比如,你可以再花一点点钱去搞个静态IP伪装一下。可以是可以,只是那种被歧视的感觉让我非常不爽。我给的美元就不是美元吗?
而且,抛开这些情绪,我判断,这类型产品在三个月内一定会快速普及,成为20美金的标配。
这么考虑下来,我还是会把Gemini当做主力。性能不错,稳定,不恶心人。
我每个月20美金订阅Gemini Advanced,这其中就包括Deep Research的使用权限。这个使用也是有限额的,不过Google没明说,估计是根据用户的使用量来动态调整,满了会提示。
我给大家看一下Gemini这边的效果。跟ChatGPT一样,接到需求后,不会马上开始,而是先做一轮分析,拟定一个方案,跟用户确认好了之后才开工。接着,在几分钟内,它会查找几十甚至上百个网页,直到掌握足够的信息。最后,按照报告的格式进行输出。
没记错的话,Gemini的Deep Research是在1.5的阶段推出的,所以现在是1.5 Pro这个模型,还没更新到2.0。所以,在结果上肯定不如OpenAI那边。但是我相信,等用上Gemini 2.0模型之后,两边的效果一定会齐平。而且,Gemini大概率会提供更多的额度。一是因为搜索上的积累,二是因为Google有TPU。对OpenAI来说,成本才是他们最大的障碍。
OK,ChatGPT和Gemini都聊完了,咱们最后来看看Perplexity。他们是最狠的,给Pro用户每天500次额度,免费用户每天5次。虽然便宜,但是效果也比较一般。
不客气地说:这不是Deep Research,而是Deep Search。
反正我日常都高频使用Perplexity。现在多了一个量大管饱的Deep Search,不用白不用。
Key Takeaway
- OpenAI最新发布的Canvas是ChatGPT的重要更新,提供文本撰写和代码生成功能。
- Canvas借鉴了Claude的Artifacts功能,并具有Grammaly的文本撰写风格。
- AI产业已进入商业落地阶段,白领和程序员是AI替代的重点目标。
- Canvas的文本撰写功能包括总结、扩写、调整风格、检查文本和添加表情符号。
- Canvas的代码生成功能支持编写代码、更改编程语言和修复Bug。
- 文章认为Canvas的推出对创业公司构成威胁,但其功能对已使用Artifacts和Cursor的用户而言并非颠覆性。
Full Content
留给打工人的时间真的不多了。
OpenAI最新发布的Canvas,是ChatGPT最重要的一次更新。它带来两个实打实的功能:文本撰写,和代码生成。
我第一眼看到Canvas就想到了两个产品:
一是Claude。Canvas算是借鉴了它的Artifacts功能。
我之前还在newtype社群里提到过,Artifacts特别像大学老师的黑板。你去请教老师的时候,他从身后拉了一块干净的黑板过来,在上边给你详细讲解和演示。
Artifacts推出之后,获得了所有人一致好评。现在OpenAI也跟进,看来这个功能会成为Chatbot类产品的标配。没准国内大模型厂商已经在开发了。
二是Grammaly。这是一款AI写作辅助工具,日活有3000万。
Canvas的文本撰写很有Grammaly的感觉。后续要更新的话,照着Grammaly抄就好——人家在这方面已经研究得很透彻了。这条赛道这么窄,玩不出什么新东西来。
我之所以说留给打工人的时间不多了,是因为:
整个AI产业已经进入到拼商业落地的阶段。大多数模型厂商都要去卷应用。只有少数能像Deepseek那样一心一意只做模型研发。
那么,往哪个方向去卷,能够向资本证明你的阶段性商业价值呢?
柿子捡软的捏。白领是最容易替代也是最好欺负的一个群体。现在底层的模型能力足够,只需要在产品层多下点功夫,把初级白领淘汰掉是没问题的。
程序员是另一个目标。像代码这种东西,标准化表达,数据量又大,AI学起来没问题。之前我介绍过Cursor和Replit Agent,就是在往这个方向走。
所以,打不过就加入。只有那些从现在开始就全力拥抱AI,并且不断琢磨怎么利用AI的打工人才能活下来。你不需要打赢AI,只需要打赢你的同事。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想要链接我,就来newtype社群。已经500多位小伙伴付费加入啦。
回到今天的主题:ChatGPT Canvas。
目前这个功能还是Beta版,不太成熟。比如,它还不是通用功能,需要专门切到带有这个功能的模型版本。以及,我还遇到了聊着聊着GPT突然改用英文的情况。不过瑕不掩瑜,还是值得上手试一试的。
我先测试了它的文本撰写能力。把上期视频的脚本传上去,要求它根据这个内容写一篇博客文章。
这时,类似Artifacts的界面出现了。GPT-4o很快完成了初稿。注意看,OpenAI在右下角放上了几个定制化的功能,包括调整长度等等。
当我们把长度拉满,GPT会在原来基础上做扩写,最多能增加75%的文字量。
第二个功能,看字面的话,你会认为是按照不同学历水平去撰写他们能看得懂的文章。但其实它就是调整文字风格啦。
比如调到幼儿园级别,那么文章会特别通俗易懂。如果调到最高的博士生级别,那基本就是文绉绉甚至有点不说人话的感觉。
说实话,OpenAI这么设计有点冒犯的意思了。这跟学历完全没关系。这又是何必呢?
后边的两个功能很直接。一个是帮你检查文本,看看哪里有错别字,哪里需要加个小标题,等等。
另一个是在文章里加上emoji表情。Twitter上很多人在夸这个功能。我是无感。我绝对不可能在我写的任何文章里加上emoji。
当然,不用右下角这些设定好的功能也OK。咱们可以选中任何一段内容,直接对GPT下需求。比如,把开头改得更吸引人一些。或者,把结尾再升华一下。
以上就是Canvas的文本撰写能力,很简单,很基础。通过提示词和Agent Workflow就可以实现这样的能力。OpenAI把它们都打包进产品里,而且还搞了添加emoji这样的小噱头来取悦用户。你看,他们还是很鸡贼的。
至于代码生成也是差不多的逻辑。
作为测试,我让GPT帮我写个贪吃蛇的小游戏。同样在右下角的位置出现了可以展开的按钮。其中更改编程语言这个有点意思。比如,我们可以让GPT把它已经生成的代码改成JavaScript、TypeScript等等几个主流的语言。
剩下几个功能很简单,比如修复Bug之类的。我就不详细介绍了,看一眼就懂。
目前Canvas的东西就这些。我猜,一些创业公司肯定要睡不着了。OpenAI这是在拿他们的命给自己换时间。作为用户,我感觉还好。可能是因为之前一直在用Artifacts和Cursor,所以看到这个也没那么兴奋。为了体验Canvas,我开了一个月的会员,不打算续费。之后还是继续用Claude。
OK,以上就是本期视频。想交流AI就来newtype社群。那咱们下期见!
Key Takeaway
- Elon Musk起诉Sam Altman和OpenAI,指控其背弃OpenAI创立时“为全人类造福、开源”的价值观,转变为追求利益最大化。
- 诉讼核心在于OpenAI与微软的协议,以及OpenAI是否已实现AGI并将其私有化。
- Elon Musk认为OpenAI的AGI技术(如GPT-4和秘密开发的模型Q)已被Sam Altman控制并输送给微软,背离了非盈利初衷。
- 此次诉讼不仅关乎OpenAI的未来,也可能影响整个AI行业的发展方向和伦理规范。
Full Content
Elon Musk起诉Sam Altman,绝对是今年的年度大戏。
在给加州最高法院的起诉书中,他一个人作为原告,把Sam和OpenAI全给告了。并且,他还申请由陪审团审判。
也就是说,Elon Musk要把Sam和OpenAI从暗处拖到明处——在法庭上,宣誓之后,你自己把一切讲清楚,并且留下记录。内容包括:
- 几个月前的逼宫、造反到底是怎么回事?
- 跟微软之间到底有什么猫腻?
- 神秘项目Q到底有没有实现AGI?
这场审判,不仅会影响到Sam个人、OpenAI和微软两家公司,还会影响整个硅谷,以及AI走向。
这份起诉书有点长,46页。我帮你们先过一遍。Elon Musk的逻辑很简单。他用大白话回答两个问题:
- Why
- Why Now
Why:背弃价值观
很多人认为,利益大于一切。但是,在精英阶层眼中,价值观是第一位的,是不可动摇的。
OpenAI就是一个价值观的产物。
Elon Musk一直坚定地认为,Superman Machine Intelligence,超级机器智能,是全人类最大的威胁。
当深度学习技术取得实质性进展、越来越实用之后,这种威胁越来越临近了。
导火索是2014年Google收购DeepMind。这场收购让Google在AGI这条路上一下领先了。
Elon Musk认为,如果通用人工智能技术被Google这样利欲熏心的公司所掌握,那咱们整个人类社会都要完犊子了。
于是,2015年,他和Altman、Brockman三个人共同决定,创立一个非盈利研究机构:
- 研发通用人工智能技术为的是造福全人类,而非利益最大化——这是宗旨。
- 除非涉及到安全因素,否则研发成果必须开源——Elon Musk起名OpenAI就是这么来的。
OpenAI的诞生,特别有复仇者联盟的感觉:为了全人类,对抗邪恶的Google。
Elon Musk就像钢铁侠一样,在OpenAI起步阶段提供了非常大的帮助,尤其是帮他们招来了全球顶级天才,比如首席科学家。
在初期,OpenAI确实很Open。不过,按照电影剧情的走向,这个时候,该有反转了。
大家留意一下这几个时间点,起诉书里特意强调的:
- 2019年,Sam成为OpenAI的CEO。
- Elon Musk对OpenAI的支持,一直持续到2020年9月14日。
- 几天之后,也就是2020年9月22日,微软入局了。
当时OpenAI向微软提供GPT-3模型。与此同时,OpenAI也公开了GPT-3的训练方法,让其他人也可以打造出类似的模型。
OpenAI和微软的协议中,有一条非常重要:
微软只能获得Pre-AGI技术。
也就是说,当某一天OpenAI真正实现AGI的时候,这个技术是不会给微软的。
那么,谁来决定新研发出来的技术,算不算AGI呢?
董事会。
如果,董事会叛变,把AGI技术定义为非AGI技术,那么就可以在不违反协议的情况下,名正言顺地继续给微软输送技术,换取利益回报。
这个就是Elon Musk为什么非要在现在搞这么一出的原因。
革命队伍里出现叛徒,勾结敌人,要窃取革命果实!
Key Takeaway
- 多模态应用是AI赛道的焦点,GPT4-V作为“眼睛”,GPT-Turbo作为“大脑”,自动化工具作为“手脚”,可实现AI像人一样操作浏览器和电脑。
- AI操作浏览器通过Puppeteer控制Chrome,实现页面搜索、识别和交互,避免传统Scraping的局限性。
- Self-Operating Computer(SOC)项目以GPT4-V为基础,旨在实现人类级别的电脑操作,但目前仍面临鼠标点击精确度等挑战。
- 文章强调AI多模态能力将带来全新的AI应用,并促使创业者和VC关注这一领域。
Full Content
围绕多模态做应用,是未来半年AI赛道的焦点。
如果真的有硅基生命的话,多模态一定是它梦寐以求的能力。打个比方:
- GPT-V作为眼睛。
- GPT- Turbo作为大脑。
- 各种自动化工具作为手脚。
把这三部分组合在一起,AI可以像人一样操作浏览器上网,可以像人一样使用鼠标操作电脑。这是我做这期视频的逻辑。
两个示例:
一、操作浏览器
借助Puppeteer,让AI对Chrome进行控制。大致的步骤是:
- AI根据需求,使用Chrome搜索、打开需要的页面。
- 把页面上的按钮等位置加上红框,标注出来。
- 截图,并把截图发送给GPT4-V进行识别。
- GPT4-V反馈“看到”的内容,回答用户请求。
除了识别页面信息,AI还可以点击链接、打开子页面。
如果你是AI应用的开发者就会明白,这跟过去的逻辑完全不同——过去是通过Scraping的方式,把页面的内容都爬下来。这种方法存在两个问题:
- 需要分析整个网页的所有数据,包括许多完全不相干的,再从其中找到想要的。速度慢,token消耗大。
- 很多网站,尤其是国内的网站,有各种“反爬”手段,或者是要求账号登陆。
与其跟网站、软件站在同一个维度上想解决方案,为什么不升维呢?站在人这个更高的维度,对一切进行操控!
二、操作电脑
Self-Operating Computer(以下简称“SOC”)是GitHub上的项目,已经有5.2K颗星。它以GPT4-V作为基本模型,目标是达到human-level的电脑操作水平。
有GPT4作为大脑,SOC的操作很让我惊讶,比如:它知道用macOS里的搜索功能去搜Google Chrome、然后打开,而不是到应用里去翻找。
目前这个项目还比较初级,最大挑战是,GPT4-V模拟鼠标点击位置的错误率有点高。我在测试的时候明显能感觉到,AI真的是在不断尝试、十分费劲地想去点某个按钮。
一旦这个问题解决,OpenAI能再进一步提升GPT4-V的响应速度的话,SOC就基本可用了。通过语音进行交互和控制也是完全可行的。
半年前,我还想着,也许会有越来越多软件开放接口,让AI接入。现在来看,二者完全不在同一个维度上。
人家都会飞了,你护城河挖再深,又有啥用?
也许三个月后,我们就会看到一批全新的AI应用,充分发挥多模态能力。创业者和VC们都得抓紧跟上了。
Key Takeaway
- 大模型被视为凌驾于所有操作系统之上的“操作系统”,具备内存管理(上下文长度)、文件系统(对话历史、知识库)、驱动程序(Function Call)和用户界面(自然语言交互)等组成部分。
- OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级,如提升上下文长度、Function Call能力、记忆功能和自然语言交互速度。
- 大模型的“操作系统”化将导致其“吃掉”大量应用赛道,对创业者而言,生存空间将受到挤压。
- 文章通过phidata项目示例,展示了Agent、RAG和GPT-4o如何组装成简易操作系统。
Full Content
为什么所有互联网巨头都要搞大模型?
因为大模型是凌驾于所有操作系统之上的操作系统。
你以为你的产品体验足够好,但再好也得用户自己动手。大模型会让绝大多数用户第一次体验到使唤别人的快感。
你以为你的技术护城河够深了,但再深也只是二维的。在大模型这种更高维度的、飞在天上的技术面前,地上的护城河、边界这种东西是特别可笑的。
大模型就是指环王里的至尊魔戒:One ring rules all。
既然是操作系统,那就得有操作系统该有的组成部分。
第一,内存管理。对大模型来说,就是上下文长度。目前主流的内存容量已经从最早的KB到MB,再到以DDR为代表的GB时代。而大模型上下文长度也在飞速提升,现在动不动就200K。
第二,文件系统。对大模型来说,文件系统包含两部分:一个是对话历史记录。没有这个,大模型就记不得你,也不可能成为你的私人助手。另一个是知识库,这个大家都明白。
第三,驱动程序。对于计算机来说,驱动程序是用来控制硬件设备工作的。对大模型来说,驱动程序就是Function Call,函数调用,让大模型能跟现有的操作系统、各种软件和在线服务连接。
第四,用户界面。从最早的命令交互到后来的图形交互,它们都是基于键盘和鼠标做的交互设计。结果大模型一来就是掀桌子,通过自然语言交互就行,甚至还能察言观色。相比文字输入,通过语音和表情,大模型能获得的信息丰富得多了。
刚才说的那些都是我自己总结的理论,之前在知识星球newtype里分享过。而且我发现,OpenAI跟我想的一样——他们就是在按照操作系统的逻辑对GPT和ChatGPT进行更新和升级。
上下文长度不用说了,从GPT-3.5到GPT-4 Turbo,从4K、16K、32K、128K,现在日常使用基本不会再担心长度的问题。
Function Call也不用说了,GPT-4在这方面属于遥遥领先级别。
历史聊天记录方面,2月新出的记忆功能,可以让ChatGPT记住用户希望它记住的东西,比如个人偏好等等。
自然语言交互方面,最新的GPT-4o大家都看到了,反馈速度已经非常快了。据说可以在0.23秒内响应音频输入,接近人类的水平。
你看,OpenAI的野心就是操作系统级别的。而GPT-4o登陆iPhone绝对会是一个里程碑事件。
有同样想法的,不只是OpenAI,我相信这一定会成为行业共识和行动方向。一些开发者已经在这么做了,比如phidata。他们把Agent、RAG和GPT-4o组装在一起,变成一个简易的操作系统。
你可以把你想添加的内容喂给GPT,比如网页或者PDF文档。
你可以问GPT任何最新的事件,它可以联网帮你搜索。
你可以让GPT当你的投资顾问,让它帮你分析,英伟达的股票还值不值得买。
想体验这个项目,非常简单,有手就行。
第一步,把包含所有文件的压缩包下载下来,解压缩。
第二步,创建一个虚拟环境。比如可以用conda创建并激活,两行代码搞定。
第三步,安装需要的Library,记得一定按照这个txt安装,别自己瞎搞,到时版本有冲突就跑不起来了。
第四步,把OpenAI和EXA的API Key通过export这行命令提供给系统。
第五步,打开docker,安装PgVector。
第六步,通过Streamlit把这些代码变成APP跑起来,打开一个本地链接,就能看到刚才演示过的界面和功能了。
这些功能,在几个月前都是单独的一个个项目。比如,RAG是RAG,Agent是Agent。最近一个月,我发现大家突然开始做集成了。
这个背后,既是技术在进步,也是大家的认知在迭代。从我的知识星球里的内容就能看得出来:
最开始大家都是问我本地大模型、知识库的东西,现在问Agent也多起来了。整个水位、大家的水平在提升。
而且我有一个感觉,或者说粗略的判断:
既然大模型属于中心化极强的操作系统,那么它一定会吃掉很多很多应用赛道。对于创业者来说,也许只能等这头怪兽吃得差不多了,才能分到一杯羹。
所以,不着急出手。
OK,以上就是本期内容。咱们下期见!
Key Takeaway
- Sora的发布标志着视频生成技术达到“能用”级别,其真实度远超同期产品。
- Sora成功的核心在于OpenAI采用了Transformer架构,并将其应用于视频生成,将视频切分为“Spacetime Patch”作为Token。
- Sora结合了Diffusion Model和Transformer的优势,被称为“Diffusion Transformer”。
- OpenAI在Sora的训练和使用阶段,充分利用了DALL.E 3和GPT等自家模型,形成了强大的综合优势。
- Sora的成功表明AI竞争已进入综合赛道,局部优势难以抵挡全面领先,数据将成为下一阶段竞争的关键。
Full Content
视频生成的GPT-3.5时刻来了。
这技术进步实在太快了。一年前的文生视频是这个样子的:
这是当时非常出圈的“威尔史密斯吃意面”。根本没法看,对吧?
一年之后,OpenAI发布Sora,达到了这样的效果:
整个构图、人物的肤色、光影等等,都相当逼真了。
用同样的提示词让Pika生成,一对比就会发现,这差距太大了。留给同行的时间不多了。
视频生成,在能用和不能用之间,有一道非常明显的槛:真实度。这个真实指的是,是否符合我们的常识,符合真实世界的运行规律,比如物理定律。
你看Sora的效果,这是第一次,视频生成达到了能用的级别。比如这个无人机视角的片段,把它用在vlog里,完全没毛病。
不过,比起赞叹Sora有多牛逼,更值得我们关注的,是OpenAI究竟是怎么做到这一切的。
如果你是国内从业者的话,了解完之后,可能会有点绝望:我们真的有可能追上OpenAI吗?
要理解Sora,咱们得先回到2016年6月16日。这一天,OpenAI发布了一篇关于生成式模型的文章。文章开头的几段话很关键:
OpenAI的核心诉求之一,是通过算法和技术,让计算机能够理解我们的世界。
要实现这个目标,生成式模型是最有希望途径之一。
为什么非要“生成”?费曼有一句非常名言:
我没法创造的,我就不理解。
也就是说,如果我能生成极其逼真的视频,那我肯定是足够理解真实世界的。
你看OpenAI最新文章的标题:
Video generation models as world simulator。
把视频生成模型作为世界模拟器,这个思路早在很多很多年前就已经确定了。
然后我们再细看Sora背后的技术就会发现,一切都是这么多年一点一滴积累起来的,是祖上三代的传承。
OpenAI在开发Sora时,跟同行最大的不同是,他们用了Transformer架构。
这个架构能够在大规模数据集上训练,并且微调阶段用的成本也更低,所以特别适合大规模训练。
能够规模化,这是OpenAI做一切事情的前提。他们要的不是学术创新,要的是实实在在地模拟世界、改变世界。
Transformer架构之前在自然语言处理领域取得了很大成功。OpenAI认为,一个关键因素是,使用了Token的概念。
文本被输入之后,被分割成Token。每个Token都被转化成向量,然后发送给模型。这样一来,Transformer模型就能利用自注意力机制去处理,去捕捉Token之间的复杂关系,从而方便进行统一的大规模训练。
那么,当文本换成了视频,Token就变成了Patch。
OpenAI先对视频进行压缩,否则计算量太大吃不消;然后再对压缩后的视频进行切割,变成Spacetime Patch。
这些Patch,在Transformer模型中充当Token的角色,这样就能像之前那样进行训练了。
Sora仍然属于Diffusion Model,扩散模型。给它输入低精度、充满噪音的Patch,它被训练成能够预测原始的、高清的Patch。
OpenAI管Sora叫Diffusion Transformer,因为他们把两者的优势结合起来了,这是Sora成功的技术基础。
不过,这还没完。Sora就是个“富二代”,投在它身上的资源,比同行多多了。
在训练阶段,需要给视频素材配上文本说明,这样模型才知道那是什么东西。为了提升训练质量,OpenAI用自家的DALL.E 3去给视频素材做高质量的文本描述。
在使用阶段,模型生成的效果,取决于用户提示词的精准程度。但是,你没法要求用户表达得明明白白、方便模型去理解。于是,OpenAI用自家的GPT去对用户的提示词做更详细的扩写,然后再交给Sora处理。
所以,当你把Sora能成功的要素都放在一起看,就会明白,这根本不是人家突然放个大招的问题:
文生文、文生视频不是两条技术路线吗?结果OpenAI成功合二为一了。
这说明,在这场竞争中,不存在局部战场,只有综合赛道。你不要想着能在某个领域形成局部优势,把巨头挡在外边。是不是很绝望?
训练阶段,有DALL.E 3帮忙开小灶;使用阶段,有GPT打下手。
有哪家公司的模型能有这样的待遇?是不是很绝望?
大模型研发,属于登月级别的难度,比拼的不是人才密度,是天才密度。人家这帮天才怀揣着“让计算机理解世界”的宏大目标,提前好多年开始行动。一旦领先,就是全面领先。
这就是我们今天要面对的OpenAI。
Key Takeaway
- 大模型巨头(OpenAI、Google)的更新正在“吃掉”小厂商和创业者的市场份额。
- OpenAI的GPT-4o通过整合图像生成功能,实现了图文并茂的全新交互体验,拉开了与竞争对手的距离。
- Google的Gemini 2.5 Pro在代码能力和推理能力上显著提升,并具备超大上下文窗口,展现了强大的综合实力。
- 顶级模型正朝着“模型即应用”的方向发展,全面铺开多模态、代码生成、工具调用等能力。
- 文章对AI时代的创业持悲观态度,认为AI的强大和中心化将压缩创业空间,强调人与人之间的关系是AI无法替代的。
Full Content
我现在有一种感觉,大模型已经不是小厂商能玩得了的了。每一次大厂的更新,都会吃掉小厂的份额,也会吃掉一批创业者的机会。你看这两天的OpenAI和Google,我要是干这行的,肯定会觉得很心累、很绝望。
先是OpenAI。他们更新了GPT模型,把最先进的图像生成功能整合进GPT-4o。结果一夜之间,Twitter上全是用ChatGPT生成的吉卜力风格的图片。不止是用户在玩梗,很多大佬也开始加入了。
说实话,这种火爆程度,在AI领域已经有些日子没看到了。奥特曼非常懂传播。因为吉卜力画风本来就有非常广的群众基础。当你把现实的图片转成这种画风之后,那种反转感,特别适合社交媒体传播,想不火都难。
而且,OpenAI这个技术不止是图像生成那么简单,它应该是能理解图片的背景信息。因为有网友发现,这张图的左下角,桌上摆着一份《停火协议》,说明GPT知道原图是什么意思。
这个就是我在之前那期《逆袭のGemini》里说的:
现在AI回答你的问题,可以做到图文并茂。
你有什么图片想生成、想修改的,AI可以做到言出法随。
这种全新的体验,是之前从未有过的。OpenAI这一次更新,干掉了ComfyUI半壁江山,也再次拉开跟其它厂商的距离。
其实郁闷的不止是创业者和小的模型厂商,Google应该也挺不爽的。因为他们在同一时间发布了Gemini 2.5 Pro,结果风头全被抢了。
但是有一说一,这个模型非常非常厉害。
第一,Gemini 2.5 Pro的代码能力有显著提升,已经接近Claude了。你看,我让它写一个100个小球在球体内反弹的脚本,它很容易就搞定了。
第二,Gemini 2.5 Pro的推理能力有显著提升。当推理能力上来之后,加上超大上下文窗口,它给了我一种“全局理解”的惊喜。不管是拿来分析脚本还是翻译PDF,我感觉Gemini 2.5 Pro都比别的模型好使。
你看,这个就是今天全球顶级模型该有的样子。这行业早已经过了单纯拼文本生成的阶段了。
你会强化学习,我也会。你有思维链,我也有。除此之外,我还有更大的上下文窗口,有原生的多模态,能生成和修改图片,能写代码,能调用工具,甚至还能跟用户实时语音和视频。
这么多能力已经全面铺开了。它们只有一个目标,就是把模型变成一个完整的应用。
所以,我其实对AI时代的创业一直持悲观态度。因为AI太强大,又太中心化了。创业者的生存空间会比之前互联网时代少得多。
那么,有什么是AI无法替代的呢?我认为,最终落脚点只能是人。因为只有人,AI无法替代;也只有人与人之间的关系,AI无法生成。
OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!