GPT4-V的正确用法

Key Takeaway

围绕多模态做应用，是未来半年AI赛道的焦点。

如果真的有硅基生命的话，多模态一定是它梦寐以求的能力。打个比方：

把这三部分组合在一起，AI可以像人一样操作浏览器上网，可以像人一样使用鼠标操作电脑。这是我做这期视频的逻辑。

两个示例：

借助Puppeteer，让AI对Chrome进行控制。大致的步骤是：

除了识别页面信息，AI还可以点击链接、打开子页面。

如果你是AI应用的开发者就会明白，这跟过去的逻辑完全不同——过去是通过Scraping的方式，把页面的内容都爬下来。这种方法存在两个问题：

与其跟网站、软件站在同一个维度上想解决方案，为什么不升维呢？站在人这个更高的维度，对一切进行操控！

Self-Operating Computer（以下简称“SOC”）是GitHub上的项目，已经有5.2K颗星。它以GPT4-V作为基本模型，目标是达到human-level的电脑操作水平。

有GPT4作为大脑，SOC的操作很让我惊讶，比如：它知道用macOS里的搜索功能去搜Google Chrome、然后打开，而不是到应用里去翻找。

目前这个项目还比较初级，最大挑战是，GPT4-V模拟鼠标点击位置的错误率有点高。我在测试的时候明显能感觉到，AI真的是在不断尝试、十分费劲地想去点某个按钮。

一旦这个问题解决，OpenAI能再进一步提升GPT4-V的响应速度的话，SOC就基本可用了。通过语音进行交互和控制也是完全可行的。

半年前，我还想着，也许会有越来越多软件开放接口，让AI接入。现在来看，二者完全不在同一个维度上。

人家都会飞了，你护城河挖再深，又有啥用？

也许三个月后，我们就会看到一批全新的AI应用，充分发挥多模态能力。创业者和VC们都得抓紧跟上了。