视频生成
Key Takeaway
- Sora的发布标志着视频生成技术达到“能用”级别,其真实度远超同期产品。
- Sora成功的核心在于OpenAI采用了Transformer架构,并将其应用于视频生成,将视频切分为“Spacetime Patch”作为Token。
- Sora结合了Diffusion Model和Transformer的优势,被称为“Diffusion Transformer”。
- OpenAI在Sora的训练和使用阶段,充分利用了DALL.E 3和GPT等自家模型,形成了强大的综合优势。
- Sora的成功表明AI竞争已进入综合赛道,局部优势难以抵挡全面领先,数据将成为下一阶段竞争的关键。
Full Content
视频生成的GPT-3.5时刻来了。
这技术进步实在太快了。一年前的文生视频是这个样子的:
这是当时非常出圈的“威尔史密斯吃意面”。根本没法看,对吧?
一年之后,OpenAI发布Sora,达到了这样的效果:
整个构图、人物的肤色、光影等等,都相当逼真了。
用同样的提示词让Pika生成,一对比就会发现,这差距太大了。留给同行的时间不多了。
视频生成,在能用和不能用之间,有一道非常明显的槛:真实度。这个真实指的是,是否符合我们的常识,符合真实世界的运行规律,比如物理定律。
你看Sora的效果,这是第一次,视频生成达到了能用的级别。比如这个无人机视角的片段,把它用在vlog里,完全没毛病。
不过,比起赞叹Sora有多牛逼,更值得我们关注的,是OpenAI究竟是怎么做到这一切的。
如果你是国内从业者的话,了解完之后,可能会有点绝望:我们真的有可能追上OpenAI吗?
要理解Sora,咱们得先回到2016年6月16日。这一天,OpenAI发布了一篇关于生成式模型的文章。文章开头的几段话很关键:
OpenAI的核心诉求之一,是通过算法和技术,让计算机能够理解我们的世界。
要实现这个目标,生成式模型是最有希望途径之一。
为什么非要“生成”?费曼有一句非常名言:
我没法创造的,我就不理解。
也就是说,如果我能生成极其逼真的视频,那我肯定是足够理解真实世界的。
你看OpenAI最新文章的标题:
Video generation models as world simulator。
把视频生成模型作为世界模拟器,这个思路早在很多很多年前就已经确定了。
然后我们再细看Sora背后的技术就会发现,一切都是这么多年一点一滴积累起来的,是祖上三代的传承。
OpenAI在开发Sora时,跟同行最大的不同是,他们用了Transformer架构。
这个架构能够在大规模数据集上训练,并且微调阶段用的成本也更低,所以特别适合大规模训练。
能够规模化,这是OpenAI做一切事情的前提。他们要的不是学术创新,要的是实实在在地模拟世界、改变世界。
Transformer架构之前在自然语言处理领域取得了很大成功。OpenAI认为,一个关键因素是,使用了Token的概念。
文本被输入之后,被分割成Token。每个Token都被转化成向量,然后发送给模型。这样一来,Transformer模型就能利用自注意力机制去处理,去捕捉Token之间的复杂关系,从而方便进行统一的大规模训练。
那么,当文本换成了视频,Token就变成了Patch。
OpenAI先对视频进行压缩,否则计算量太大吃不消;然后再对压缩后的视频进行切割,变成Spacetime Patch。
这些Patch,在Transformer模型中充当Token的角色,这样就能像之前那样进行训练了。
Sora仍然属于Diffusion Model,扩散模型。给它输入低精度、充满噪音的Patch,它被训练成能够预测原始的、高清的Patch。
OpenAI管Sora叫Diffusion Transformer,因为他们把两者的优势结合起来了,这是Sora成功的技术基础。
不过,这还没完。Sora就是个“富二代”,投在它身上的资源,比同行多多了。
在训练阶段,需要给视频素材配上文本说明,这样模型才知道那是什么东西。为了提升训练质量,OpenAI用自家的DALL.E 3去给视频素材做高质量的文本描述。
在使用阶段,模型生成的效果,取决于用户提示词的精准程度。但是,你没法要求用户表达得明明白白、方便模型去理解。于是,OpenAI用自家的GPT去对用户的提示词做更详细的扩写,然后再交给Sora处理。
所以,当你把Sora能成功的要素都放在一起看,就会明白,这根本不是人家突然放个大招的问题:
文生文、文生视频不是两条技术路线吗?结果OpenAI成功合二为一了。
这说明,在这场竞争中,不存在局部战场,只有综合赛道。你不要想着能在某个领域形成局部优势,把巨头挡在外边。是不是很绝望?
训练阶段,有DALL.E 3帮忙开小灶;使用阶段,有GPT打下手。
有哪家公司的模型能有这样的待遇?是不是很绝望?
大模型研发,属于登月级别的难度,比拼的不是人才密度,是天才密度。人家这帮天才怀揣着“让计算机理解世界”的宏大目标,提前好多年开始行动。一旦领先,就是全面领先。
这就是我们今天要面对的OpenAI。
Key Takeaway
- 作者介绍了如何使用ChatGPT和Hedra工具生成吉卜力风格的动画视频。
- 创作流程包括:使用ChatGPT将照片转换为吉卜力风格图片,然后将图片和录制的音频上传到Hedra生成视频。
- 这种方法成本较低(约30美元),且对分辨率和口型要求不高,适合快速生成动画内容。
- 更精确的控制可以通过生成首尾帧图片,再利用其他工具(如可灵)补全中间过程来实现。
- 作者认为AI正在实现艺术创作的平权,鼓励大家积极尝试和利用AI工具进行创作。
Full Content
如果你也想生成这样的吉卜力动画,那么本期视频你一定要看完。
刚才这一段,是我用两个工具完成的:
一个是ChatGPT。他们前几天刚刚把图像生成能力加到GPT-4o里边。现在,只要是Plus会员就可以用,一个月20美金。
一个是Hedra。他们是一个视频生成平台。付费10美金成为会员,给1000个使用点数,不够再买。
所以,我花了30美金,就成为低配版的宫崎骏啦。整个创作过程非常简单:找一张照片,让ChatGPT转成吉卜力风格的图片。用手机录一段你想说的话,MP3格式。然后把图片和音频都给Hedra,等一会儿就可以收货了。
给你们看看我的。这是原始照片,贴给GPT。然后跟它说,生成吉卜力风格,就这么七个字。过一会儿它就生好了。
来到Hedra这边,把图片传上去。把录好的MP3也传上去。Prompt我就简单写了一句话。然后点击发送。等个几分钟,就可以预览和下载了。
做这种风格的好处是,它不太受分辨率的影响。像我这个样子,720P和4K,大家都能接受。至于对口型,本来就是动画,所以口型对个差不多就可以。不像真实系的视频,口型有一点对不上就难受。
我这个只是最简单的做法。如果你想精确控制的话,可以生成两张图片——一张首帧、一张尾帧,也就是开始和结束。然后发给可灵,它会把过程用视频补上。你就一个分镜、一个分镜地做,最后就能做出这种完整的动画作品了。
吉卜力只是一个风格。你还可以用GPT生成更多,比如这个风格也很酷嘛。这就完全取决于你的品味了。就像我前两天说的那样:
这一波就是AI平权,平的是艺术创作的权。上一次是智能手机对摄影的冲击。逻辑一模一样。
所以,我觉得没啥好说的,干就完事了。我都讲到这个程度了,如果你还是无动于衷或者嫌这嫌那,那么,我只能祝你好运。
OK,以上就是本期内容。想交流AI,就来我们newtype社群。那咱们下期见!