GPT4-V的正确用法
Key Takeaway
- 多模态应用是AI赛道的焦点,GPT4-V作为“眼睛”,GPT-Turbo作为“大脑”,自动化工具作为“手脚”,可实现AI像人一样操作浏览器和电脑。
- AI操作浏览器通过Puppeteer控制Chrome,实现页面搜索、识别和交互,避免传统Scraping的局限性。
- Self-Operating Computer(SOC)项目以GPT4-V为基础,旨在实现人类级别的电脑操作,但目前仍面临鼠标点击精确度等挑战。
- 文章强调AI多模态能力将带来全新的AI应用,并促使创业者和VC关注这一领域。
Full Content
围绕多模态做应用,是未来半年AI赛道的焦点。
如果真的有硅基生命的话,多模态一定是它梦寐以求的能力。打个比方:
- GPT-V作为眼睛。
- GPT- Turbo作为大脑。
- 各种自动化工具作为手脚。
把这三部分组合在一起,AI可以像人一样操作浏览器上网,可以像人一样使用鼠标操作电脑。这是我做这期视频的逻辑。
两个示例:
一、操作浏览器
借助Puppeteer,让AI对Chrome进行控制。大致的步骤是:
- AI根据需求,使用Chrome搜索、打开需要的页面。
- 把页面上的按钮等位置加上红框,标注出来。
- 截图,并把截图发送给GPT4-V进行识别。
- GPT4-V反馈“看到”的内容,回答用户请求。
除了识别页面信息,AI还可以点击链接、打开子页面。
如果你是AI应用的开发者就会明白,这跟过去的逻辑完全不同——过去是通过Scraping的方式,把页面的内容都爬下来。这种方法存在两个问题:
- 需要分析整个网页的所有数据,包括许多完全不相干的,再从其中找到想要的。速度慢,token消耗大。
- 很多网站,尤其是国内的网站,有各种“反爬”手段,或者是要求账号登陆。
与其跟网站、软件站在同一个维度上想解决方案,为什么不升维呢?站在人这个更高的维度,对一切进行操控!
二、操作电脑
Self-Operating Computer(以下简称“SOC”)是GitHub上的项目,已经有5.2K颗星。它以GPT4-V作为基本模型,目标是达到human-level的电脑操作水平。
有GPT4作为大脑,SOC的操作很让我惊讶,比如:它知道用macOS里的搜索功能去搜Google Chrome、然后打开,而不是到应用里去翻找。
目前这个项目还比较初级,最大挑战是,GPT4-V模拟鼠标点击位置的错误率有点高。我在测试的时候明显能感觉到,AI真的是在不断尝试、十分费劲地想去点某个按钮。
一旦这个问题解决,OpenAI能再进一步提升GPT4-V的响应速度的话,SOC就基本可用了。通过语音进行交互和控制也是完全可行的。
半年前,我还想着,也许会有越来越多软件开放接口,让AI接入。现在来看,二者完全不在同一个维度上。
人家都会飞了,你护城河挖再深,又有啥用?
也许三个月后,我们就会看到一批全新的AI应用,充分发挥多模态能力。创业者和VC们都得抓紧跟上了。