FunctionCall

Key Takeaway

大模型被视为凌驾于所有操作系统之上的“操作系统”，具备内存管理（上下文长度）、文件系统（对话历史、知识库）、驱动程序（Function Call）和用户界面（自然语言交互）等组成部分。
OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级，如提升上下文长度、Function Call能力、记忆功能和自然语言交互速度。
大模型的“操作系统”化将导致其“吃掉”大量应用赛道，对创业者而言，生存空间将受到挤压。
文章通过phidata项目示例，展示了Agent、RAG和GPT-4o如何组装成简易操作系统。

为什么所有互联网巨头都要搞大模型？

因为大模型是凌驾于所有操作系统之上的操作系统。

你以为你的产品体验足够好，但再好也得用户自己动手。大模型会让绝大多数用户第一次体验到使唤别人的快感。

你以为你的技术护城河够深了，但再深也只是二维的。在大模型这种更高维度的、飞在天上的技术面前，地上的护城河、边界这种东西是特别可笑的。

大模型就是指环王里的至尊魔戒：One ring rules all。

既然是操作系统，那就得有操作系统该有的组成部分。

第一，内存管理。对大模型来说，就是上下文长度。目前主流的内存容量已经从最早的KB到MB，再到以DDR为代表的GB时代。而大模型上下文长度也在飞速提升，现在动不动就200K。

第二，文件系统。对大模型来说，文件系统包含两部分：一个是对话历史记录。没有这个，大模型就记不得你，也不可能成为你的私人助手。另一个是知识库，这个大家都明白。

第三，驱动程序。对于计算机来说，驱动程序是用来控制硬件设备工作的。对大模型来说，驱动程序就是Function Call，函数调用，让大模型能跟现有的操作系统、各种软件和在线服务连接。

第四，用户界面。从最早的命令交互到后来的图形交互，它们都是基于键盘和鼠标做的交互设计。结果大模型一来就是掀桌子，通过自然语言交互就行，甚至还能察言观色。相比文字输入，通过语音和表情，大模型能获得的信息丰富得多了。

刚才说的那些都是我自己总结的理论，之前在知识星球newtype里分享过。而且我发现，OpenAI跟我想的一样——他们就是在按照操作系统的逻辑对GPT和ChatGPT进行更新和升级。

上下文长度不用说了，从GPT-3.5到GPT-4 Turbo，从4K、16K、32K、128K，现在日常使用基本不会再担心长度的问题。

Function Call也不用说了，GPT-4在这方面属于遥遥领先级别。

历史聊天记录方面，2月新出的记忆功能，可以让ChatGPT记住用户希望它记住的东西，比如个人偏好等等。

自然语言交互方面，最新的GPT-4o大家都看到了，反馈速度已经非常快了。据说可以在0.23秒内响应音频输入，接近人类的水平。

你看，OpenAI的野心就是操作系统级别的。而GPT-4o登陆iPhone绝对会是一个里程碑事件。

有同样想法的，不只是OpenAI，我相信这一定会成为行业共识和行动方向。一些开发者已经在这么做了，比如phidata。他们把Agent、RAG和GPT-4o组装在一起，变成一个简易的操作系统。

你可以把你想添加的内容喂给GPT，比如网页或者PDF文档。

你可以问GPT任何最新的事件，它可以联网帮你搜索。

你可以让GPT当你的投资顾问，让它帮你分析，英伟达的股票还值不值得买。

想体验这个项目，非常简单，有手就行。

第一步，把包含所有文件的压缩包下载下来，解压缩。

第二步，创建一个虚拟环境。比如可以用conda创建并激活，两行代码搞定。

第三步，安装需要的Library，记得一定按照这个txt安装，别自己瞎搞，到时版本有冲突就跑不起来了。

第四步，把OpenAI和EXA的API Key通过export这行命令提供给系统。

第五步，打开docker，安装PgVector。

第六步，通过Streamlit把这些代码变成APP跑起来，打开一个本地链接，就能看到刚才演示过的界面和功能了。

这些功能，在几个月前都是单独的一个个项目。比如，RAG是RAG，Agent是Agent。最近一个月，我发现大家突然开始做集成了。

这个背后，既是技术在进步，也是大家的认知在迭代。从我的知识星球里的内容就能看得出来：

最开始大家都是问我本地大模型、知识库的东西，现在问Agent也多起来了。整个水位、大家的水平在提升。

而且我有一个感觉，或者说粗略的判断：

既然大模型属于中心化极强的操作系统，那么它一定会吃掉很多很多应用赛道。对于创业者来说，也许只能等这头怪兽吃得差不多了，才能分到一杯羹。

所以，不着急出手。

OK，以上就是本期内容。咱们下期见！