多模态
Key Takeaway
- 多模态应用是AI赛道的焦点,GPT4-V作为“眼睛”,GPT-Turbo作为“大脑”,自动化工具作为“手脚”,可实现AI像人一样操作浏览器和电脑。
- AI操作浏览器通过Puppeteer控制Chrome,实现页面搜索、识别和交互,避免传统Scraping的局限性。
- Self-Operating Computer(SOC)项目以GPT4-V为基础,旨在实现人类级别的电脑操作,但目前仍面临鼠标点击精确度等挑战。
- 文章强调AI多模态能力将带来全新的AI应用,并促使创业者和VC关注这一领域。
Full Content
围绕多模态做应用,是未来半年AI赛道的焦点。
如果真的有硅基生命的话,多模态一定是它梦寐以求的能力。打个比方:
- GPT-V作为眼睛。
- GPT- Turbo作为大脑。
- 各种自动化工具作为手脚。
把这三部分组合在一起,AI可以像人一样操作浏览器上网,可以像人一样使用鼠标操作电脑。这是我做这期视频的逻辑。
两个示例:
一、操作浏览器
借助Puppeteer,让AI对Chrome进行控制。大致的步骤是:
- AI根据需求,使用Chrome搜索、打开需要的页面。
- 把页面上的按钮等位置加上红框,标注出来。
- 截图,并把截图发送给GPT4-V进行识别。
- GPT4-V反馈“看到”的内容,回答用户请求。
除了识别页面信息,AI还可以点击链接、打开子页面。
如果你是AI应用的开发者就会明白,这跟过去的逻辑完全不同——过去是通过Scraping的方式,把页面的内容都爬下来。这种方法存在两个问题:
- 需要分析整个网页的所有数据,包括许多完全不相干的,再从其中找到想要的。速度慢,token消耗大。
- 很多网站,尤其是国内的网站,有各种“反爬”手段,或者是要求账号登陆。
与其跟网站、软件站在同一个维度上想解决方案,为什么不升维呢?站在人这个更高的维度,对一切进行操控!
二、操作电脑
Self-Operating Computer(以下简称“SOC”)是GitHub上的项目,已经有5.2K颗星。它以GPT4-V作为基本模型,目标是达到human-level的电脑操作水平。
有GPT4作为大脑,SOC的操作很让我惊讶,比如:它知道用macOS里的搜索功能去搜Google Chrome、然后打开,而不是到应用里去翻找。
目前这个项目还比较初级,最大挑战是,GPT4-V模拟鼠标点击位置的错误率有点高。我在测试的时候明显能感觉到,AI真的是在不断尝试、十分费劲地想去点某个按钮。
一旦这个问题解决,OpenAI能再进一步提升GPT4-V的响应速度的话,SOC就基本可用了。通过语音进行交互和控制也是完全可行的。
半年前,我还想着,也许会有越来越多软件开放接口,让AI接入。现在来看,二者完全不在同一个维度上。
人家都会飞了,你护城河挖再深,又有啥用?
也许三个月后,我们就会看到一批全新的AI应用,充分发挥多模态能力。创业者和VC们都得抓紧跟上了。
Key Takeaway
- Google Gemini通过图像生成和修改能力实现“逆袭”,提供图文并茂的全新交互体验。
- Gemini的原生多模态能力是其核心卖点,能理解并处理文字、音频、图片和视频。
- Gemini在C端市场具有杀手级体验,集成了AI版的PhotoShop和美图秀秀功能。
- Gemini实验版模型可直接读取YouTube链接,利用多模态能力理解视频内容。
- Gemini APP更新了调用搜索记录和Deep Research模型,提升了实用性。
- 文章预测Gemini将在2025年奠定谷歌AI在C端市场的统治地位。
Full Content
OpenAI现在一定很慌。因为谷歌前两天更新了Gemini,带来一个逆袭级别的功能。老规矩,我先演示,再解释。
举个例子,我让它从0到1帮我做一个奇异博士的原创设计,从线稿开始,最终完成上色,并且每一步都用图片展示。
于是,Gemini从概念草图和轮廓开始,完成线稿,完善细节,添加颜色、光影、材质和纹理,以及魔法效果。
第一次生成就能达到这样的程度,能够保持前后一致性,可以说是非常厉害了!
咱们再来试一个。这是马斯克在Twitter上发的照片。我把它贴到Gemini里边,让它不改变背景,只改变表情,改成微笑的样子。
你看,它改得还是很不错的。眼神、鱼尾纹都出来了。说明Gemini对指令的理解和服从、对局部的把控也是不错的。
更夸张的是,我让它给我一个红烧肉的教程,包含每一步的图片。结果它针对每一步都生成了对应的图片。
这个就是Gemini新增加的图像生成和修改能力,给到Gemini 2.0 Flash实验版的模型。大家想体验的话,可以用AI Studio,或者通过API。
实话实说,跟那些专业选手相比,比如SD、Flux,Gemini生成的图片算不上特别好。但是我认为,比专业更重要的,是它找到了切入大众市场的方法。
把图像生成和文字生成融合起来,有两个好处。
第一,模型生成的答案不限于文字,而是可以做到图文并茂。
该上图片就直接生成。注意,是生成,而不是去搜了一张图片、然后放进来。就好比我一边说、一边画。
这种做法,让我想起了去年Claude推出Artifacts功能。我当时还打了个比方,那就好比大学老师在讲课的时候,拉了一块干净的黑板过来,边说边写。
像这样的体验,绝对比只有文字强得多。现在是图文并茂,那之后也许可以生成短视频、融合到答案里。这个在C端市场绝对是杀手级体验。
第二,用户不用切换,在一个产品里全都能满足。
我们平时免不了会有一些修图的需要。现在的Gemini,就好比是集成了AI版的PhotoShop、美图秀秀,太适合了。
至于ComfyUI之类的重型产品,很强大,但门槛也很高,那就专门用来满足专业需求,就别跟大众产品混在一起了。
Gemini这个实验版的模型一推出,我看到不少人已经在琢磨怎么用它赚钱了。
你想嘛,既然它对人类指令的服从性高,那就把脚本给过去,用它来生成分镜稿。然后把分镜稿给到视觉模型,用图来生成视频片段,最后再合成一整个视频。
做自媒体的这下产出效率更高了。你看,强者从来不逼逼。不会像评论区的那些人一样,总觉得这不好、那不好。人家有啥用啥,绝不抱怨,专心挣钱。
言归正传。除了图像生成之外,这个实验版的模型还可以直接读取YouTube链接。它不只是提取视频字幕,而是真的利用多模态能力去“理解”。以后那些日文的视频,或者播客视频,都可以给Gemini 2.0 Flash处理了。
这个就是Gemini一直坚持的核心卖点:原生的多模态能力。在论文里可以看到,不管是文字、音频、图片还是视频,这些都一并输入。然后,模型会根据需要,选择输出文字或者图片。
Gemini属于自回归模型。跟那些扩散模型相比,它的服从性更好,并且针对一致性问题做了优化,比如采用高级注意力机制、多尺度生成等等,解决了架构的先天不足。沉淀了这么久,才有今天的逆袭。
我估计,过一两个月,这个实验版模型就会上架Gemini APP了。其实,这一波更新,APP那边也有很实用的提升。
一是可以调用搜索记录。
比如我问Gemini:最近有搜一个微软的项目,但是不记得了。于是它帮我从搜索记录里找到了,原来是微软的markitdown。
当然,这个功能需要用户的许可。如果你不愿意,可以随时关闭。
二是Deep Research的模型更新了。
果然跟我之前想的一样,从1.5换成了最新的2.0。这样一来,更强的推理,加上谷歌本来就很牛逼的搜索,Gemini Deep Research更好用了。
这一堆功能已经摆在台面上了。想象一下,如果把它们集成到安卓系统中——我相信这只是时间问题,那么,AI手机就不再只是个概念了。
所以,我有大胆的想法:2025年,Gemini会奠定谷歌AI在C端市场的统治地位。
OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!