FunctionCall
Key Takeaway
- 大模型被视为凌驾于所有操作系统之上的“操作系统”,具备内存管理(上下文长度)、文件系统(对话历史、知识库)、驱动程序(Function Call)和用户界面(自然语言交互)等组成部分。
- OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级,如提升上下文长度、Function Call能力、记忆功能和自然语言交互速度。
- 大模型的“操作系统”化将导致其“吃掉”大量应用赛道,对创业者而言,生存空间将受到挤压。
- 文章通过phidata项目示例,展示了Agent、RAG和GPT-4o如何组装成简易操作系统。
Full Content
为什么所有互联网巨头都要搞大模型?
因为大模型是凌驾于所有操作系统之上的操作系统。
你以为你的产品体验足够好,但再好也得用户自己动手。大模型会让绝大多数用户第一次体验到使唤别人的快感。
你以为你的技术护城河够深了,但再深也只是二维的。在大模型这种更高维度的、飞在天上的技术面前,地上的护城河、边界这种东西是特别可笑的。
大模型就是指环王里的至尊魔戒:One ring rules all。
既然是操作系统,那就得有操作系统该有的组成部分。
第一,内存管理。对大模型来说,就是上下文长度。目前主流的内存容量已经从最早的KB到MB,再到以DDR为代表的GB时代。而大模型上下文长度也在飞速提升,现在动不动就200K。
第二,文件系统。对大模型来说,文件系统包含两部分:一个是对话历史记录。没有这个,大模型就记不得你,也不可能成为你的私人助手。另一个是知识库,这个大家都明白。
第三,驱动程序。对于计算机来说,驱动程序是用来控制硬件设备工作的。对大模型来说,驱动程序就是Function Call,函数调用,让大模型能跟现有的操作系统、各种软件和在线服务连接。
第四,用户界面。从最早的命令交互到后来的图形交互,它们都是基于键盘和鼠标做的交互设计。结果大模型一来就是掀桌子,通过自然语言交互就行,甚至还能察言观色。相比文字输入,通过语音和表情,大模型能获得的信息丰富得多了。
刚才说的那些都是我自己总结的理论,之前在知识星球newtype里分享过。而且我发现,OpenAI跟我想的一样——他们就是在按照操作系统的逻辑对GPT和ChatGPT进行更新和升级。
上下文长度不用说了,从GPT-3.5到GPT-4 Turbo,从4K、16K、32K、128K,现在日常使用基本不会再担心长度的问题。
Function Call也不用说了,GPT-4在这方面属于遥遥领先级别。
历史聊天记录方面,2月新出的记忆功能,可以让ChatGPT记住用户希望它记住的东西,比如个人偏好等等。
自然语言交互方面,最新的GPT-4o大家都看到了,反馈速度已经非常快了。据说可以在0.23秒内响应音频输入,接近人类的水平。
你看,OpenAI的野心就是操作系统级别的。而GPT-4o登陆iPhone绝对会是一个里程碑事件。
有同样想法的,不只是OpenAI,我相信这一定会成为行业共识和行动方向。一些开发者已经在这么做了,比如phidata。他们把Agent、RAG和GPT-4o组装在一起,变成一个简易的操作系统。
你可以把你想添加的内容喂给GPT,比如网页或者PDF文档。
你可以问GPT任何最新的事件,它可以联网帮你搜索。
你可以让GPT当你的投资顾问,让它帮你分析,英伟达的股票还值不值得买。
想体验这个项目,非常简单,有手就行。
第一步,把包含所有文件的压缩包下载下来,解压缩。
第二步,创建一个虚拟环境。比如可以用conda创建并激活,两行代码搞定。
第三步,安装需要的Library,记得一定按照这个txt安装,别自己瞎搞,到时版本有冲突就跑不起来了。
第四步,把OpenAI和EXA的API Key通过export这行命令提供给系统。
第五步,打开docker,安装PgVector。
第六步,通过Streamlit把这些代码变成APP跑起来,打开一个本地链接,就能看到刚才演示过的界面和功能了。
这些功能,在几个月前都是单独的一个个项目。比如,RAG是RAG,Agent是Agent。最近一个月,我发现大家突然开始做集成了。
这个背后,既是技术在进步,也是大家的认知在迭代。从我的知识星球里的内容就能看得出来:
最开始大家都是问我本地大模型、知识库的东西,现在问Agent也多起来了。整个水位、大家的水平在提升。
而且我有一个感觉,或者说粗略的判断:
既然大模型属于中心化极强的操作系统,那么它一定会吃掉很多很多应用赛道。对于创业者来说,也许只能等这头怪兽吃得差不多了,才能分到一杯羹。
所以,不着急出手。
OK,以上就是本期内容。咱们下期见!