大模型
Key Takeaway
- Unsloth框架显著降低了微调大模型的门槛,仅需7G显存即可微调1.5B模型,消费级PC也能实现。
- DeepSeek的GRPO强化学习算法能提升模型推理能力和可解释性。
- 微调技术可用于打造个人AI分身和私域模型,实现本地化、无需联网的AI交互。
- 高质量数据集和超参数调整是微调成功的关键,但需要大量实践。
- 文章强调了本地部署小尺寸模型在移动端的潜力和价值。
Full Content
用DeepSeek的方法做微调,可以显著提升传统模型的思考能力。
这是我训练好的模型文件,已经传到Hugging Face上了,大家自取。它是基于Qwen2.5 3B,通过微调加强了数学能力,最后生成了Q4、Q5和Q8三个版本。咱们来对比一下Q4精度的效果。我问一个经典问题:
9.9和9.11这两个数字,哪个更大?
先来看原版的回答。不仅答案错了,而且给的理由也是完全混乱的——什么叫“小数部分相同,唯一的区别在于十分位”,简直胡说八道嘛。
再来看微调版本。这就正常了。整数部分一样,那就比较小数部分。很自然就得出9.9比9.11更大。
这套东西不是我搞出来的,而是Unsloth的成果。他们前些天发了一篇博客,介绍了方法,还给出了代码。简单来说,Unsloth这套东西实现了两点:
第一,微调门槛下降。像1.5B之类的小尺寸模型,只需要7G显存就可以微调。而7B、14B这种,15G显存就OK。也就是说,用消费级的PC就能微调。如果是用云端的算力,像我用Google Colab的T4 GPU,花了一个小时就顺利完成。
第二,模型能力提升。GRPO是一种强化学习算法,是DeepSeek发明并开源出来的。用这套算法和数据集,能够训练出具备更强推理能力和更好可解释性的模型。现在Unsloth把它应用到微调里边,想象空间一下就出来了。举个例子:
私域模型。
一个商业博主,有自己的方法论,也有很多交付案例。他把过往积累下来的东西整理成数据集,包含问题、答案以及解题步骤。然后用Unsloth这套东西去微调,生成3B的模型。最后,把模型文件给到他的用户,不管是免费还是收费都可以。
用户拿到之后,用我上上期介绍的方法在手机上使用。这意味着,用户可以随时随地、不需要联网地跟这位博主的AI分身交流。
对自媒体来说,以前只有在你发视频、发文章的时候,或者你在群里说话的时候,你的粉丝、用户才能接收到你的信息。现在,有了这个方法,他们可以无限制地被你这个IP影响。
之前我分享手机上跑模型的方法,一堆人喷我说没意义、没价值。说句扎心的话:眼界太浅,活该挣不着钱。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:用强化学习算法,微调模型。
在介绍Unsloth的工具之前,我还是得先把基本概念用一种通俗易懂的方式讲给你们听。可能不是很严谨,但是包懂。
以前搞强化学习,需要准备大量包含解题步骤的高质量数据,以及非常精确、绝对的奖励函数。然后大力出奇迹,硬生生把模型给培训出来。
后来DeepSeek发现,其实不需要那么高的成本,搞得那么费劲——可以把奖励函数弄得更灵活一些嘛。针对每一个问题,它让模型生成一组答案。然后看这一组答案里边,哪个答案相对好一些,从而给出奖励。
传统方法,比较像我们以前在学校里接受的填鸭式教学,靠着记忆力去刷题,想要蒙混过关。但是,这种搞法,知其然而不知其所以然,所以最后还是个渣渣。而DeepSeek的方法则是反复思考解题步骤,最后不仅知其然而且还知其所以然。于是,模型“顿悟”了,学霸诞生了。
如果还是不太明白,那我再打个比方。传统方法训狗,需要明确定义每个动作,并且给每个动作都设计奖励。只有当狗完全按照指令完成动作时,才能获得奖励。
而DeepSeek的方法是,一个动作让狗做三次。在三次当中,相对较好的那一次获得奖励。然后不断重复这个过程。
大家如果有养狗经历就知道,用DeepSeek的这种训练方法,主人轻松,狗子开心,效果也好。
DeepSeek很大方地分享出来之后,Unsloth就拿来用了。不过在使用之前,有一些限制需要跟大家说清楚:
你拿来微调的模型不能太小了,至少也得有1.5B,不然没法正确生成思考标记。这是我选择用3B尺寸的原因,既符合训练的要求,也能在手机上运行。另外,步数至少要300步,奖励才会真正增加。为了达到良好的效果,建议至少训练12个小时。
在官方给的示例当中,用的数据集是GSM8K。它包含了8500个高质量的小学数学文字题。每个问题需要2到8个步骤才能解决。而且,这个数据集里的解题方法是用自然语言编写,而非纯粹的数学表达式。所以,用它来训练,能够提升模型的多步骤数学推理。
类似GSM8K的数据集还有好几个,比如MATH Dataset、MathQA等等。我建议大家先别着急就导入自己的数据集,可以拿这些练练手。因为,换了数据集之后,由于格式不同、特点不同,奖励函数可能需要做相应的调整。
另外,超参数的调整也需要大量实践。比如:
学习率,用来控制模型学习的速度。设得太高,模型可能学得太快,错过最优解;设得太低,模型可能学得太慢,浪费时间。
Batch size,指的是每次喂给模型的数据量。设得太大,可能会导致内存不足;设得太小,可能导致模型学习不稳定。
微调和RAG一样,都是看起来简单,但真要获得好的效果,需要大量调试。而且这东西没法教,只能“干中学”。但是,有门槛是好事。只要跨过去了,就能甩开一大堆人。
所以,我在Google Colab上买了一些计算单元,这段时间会做各种测试。至于数据集,我突然想到,过去一年我在星球里回答了好多好多问题。这些问题都可以做转换,比如让模型帮我批量处理,然后放进数据集里。
通过微调打造AI分身、训练私域模型的想法,在我去年做Llamafile那期视频的时候就出现了。现在可能性越来越大了。等有进展了,我会在社群里说。
OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!
Key Takeaway
- ChatGPT“裸奔”不足以满足生产力需求,部署Agent能显著提升效率。
- GPT Researcher是开箱即用的Agent方案,擅长资料搜集和报告生成,成本低廉。
- CrewAI是灵活的Agent框架,通过设定Agent、Tool和Task实现自由搭建Agent系统。
- 大模型存在“单核硬伤”(Degeneration-of-Thought),多Agent协作能有效解决复杂推理问题。
- Agent技术在大模型加持下迅速发展,未来将有更多工具和应用出现。
Full Content
ChatGPT会员我是不会再继续订阅了。
轻度体验一下还可以。但如果真要把它当作生产力工具长期使用的话,还是不太行。
咱们来做个对比。同样一个问题:
GPT-4加上联机搜索之后,ChatGPT给出了这样的答案:
你觉得还不错是吧?我给你看看Agent生成的:
也不能说是差距很大,大概就是能用和不能用的区别吧。
所以,从实用的角度来看,我建议大家别再继续用ChatGPT「裸奔」了。花点时间部署一套Agent,能帮你省下非常多时间。
介绍一下我目前在用的两套方案。
GPT Researcher:开箱即用
GPT Researcher是GitHub上的一个项目,主要满足资料搜集、报告生成方面的需求——日常工作刚需,真的能省很多时间。
GPT Researcher搭建了两类Agent:
Planner Agent负责拆解需求、生成尽可能全的问题。Execution Agent拿到问题之后,找到对应的网页、把内容爬下来,再交回给Planner Agent。后者筛选、汇总所有资料,完成调研报告。
这个项目有两点做得很棒:
- 混合使用GPT-3.5和GPT-4,提升速度、降低成本。一般来说,跑一圈下来需要3分钟,花费0.1美元——真的是白菜价了。
- 根据需求生成的Agent都是特定领域的。比如,需求是做金融领域的调研,那么生成的Agent就是金融专家。
只需要懂一点点代码就可以使用GPT Researcher。按照GitHub的教程,把仓库克隆到本地,然后一步一步复制粘贴、执行对应的命令。过程中如果提示缺什么Package,那就pip install安装就行。最后打开一个本地网页就可以使用了。
CrewAI:自由搭建
如果你的需求不只是生成调研报告,那就需要使用现成的框架,亲手搭建一套Agent系统了。
我目前在用的Agent框架叫「CrewAI」。看起来跟微软的AutoGen差不多,但你一上手就会发现,CrewAI比AutoGen逻辑更简单、更直观。
在CrewAI里,你只需要设定三个要素:
- 谁。
- 用什么。
- 做什么。
「谁」指的是Agent。多少个Agent,分别以什么角色进行协作,工作目标是什么,他们各自的背景是什么样的,他们用什么模型作为大脑。
「用什么」指的是Tool。最常见的就是搜索工具。你需要把工具分配给具体使用的Agent。
「做什么」指的是Task。一个项目可以分拆成很多个任务。每个任务需要有具体的描述,以及指定由哪些Agent来完成。
一旦理解了这个逻辑之后,CrewAI的设置就变得极其简单。
还以生成调研报告为例,这是我设计的Agent工作流程:
我特意在最开始的需求分析、方案制定环节安排了两个Agent。这么做,Token花得多,时间也更长,不过很有必要。一切都是为了解决一个核心问题:
大模型在复杂推理的时候,特别容易犯轴。
单核的硬伤
为了加强大模型的推理能力,研发人员想了很多办法。比如,大名鼎鼎的思维链(Chain-of-Thought),还有自我反思(Self-Reflection)。
但是,无论怎么给大模型叠Buff,都改不了这个问题,在论文里管它叫「Degeneration-of-Thought」:
当大模型对自己的答案有信心的时候,即使这个答案不正确,它都没法再通过自我反思去产生新的想法。
跟人一样,沉浸在自己的世界里,迷之自信、死不悔改。
造成这个问题的原因有很多。比如在预训练阶段,输入的概念有偏差,或者思考模式有问题,都会产生认知偏差。
有的问题可以通过技术解决,有的不需要。像这个问题,其实人类社会已经有解了,就是大家最最熟悉的:
讨论与协作。
一个人再聪明,认知水平再高,都会有盲点。
有人点拨的话——其实有时都不用点拨,只要跟自己以外的人聊上几句,就能爬出来。
这就是为什么,都是一样的大模型作为底层驱动,「多核」会比「单核」靠谱得多。
2024 Agent
Agent并不是跟着大模型兴起的。早在这一轮AI爆发之前,Agent就已经有好多年的研究了。大模型充当最强大脑,解决了Agent推理的难题,使得Agent突然被所有人关注。
在设计和部署Agent方面,AutoGen之后有了CrewAI,2024年肯定还会有更多团队想来试一试的。
Key Takeaway
- OpenAI最新发布的Canvas是ChatGPT的重要更新,提供文本撰写和代码生成功能。
- Canvas借鉴了Claude的Artifacts功能,并具有Grammaly的文本撰写风格。
- AI产业已进入商业落地阶段,白领和程序员是AI替代的重点目标。
- Canvas的文本撰写功能包括总结、扩写、调整风格、检查文本和添加表情符号。
- Canvas的代码生成功能支持编写代码、更改编程语言和修复Bug。
- 文章认为Canvas的推出对创业公司构成威胁,但其功能对已使用Artifacts和Cursor的用户而言并非颠覆性。
Full Content
留给打工人的时间真的不多了。
OpenAI最新发布的Canvas,是ChatGPT最重要的一次更新。它带来两个实打实的功能:文本撰写,和代码生成。
我第一眼看到Canvas就想到了两个产品:
一是Claude。Canvas算是借鉴了它的Artifacts功能。
我之前还在newtype社群里提到过,Artifacts特别像大学老师的黑板。你去请教老师的时候,他从身后拉了一块干净的黑板过来,在上边给你详细讲解和演示。
Artifacts推出之后,获得了所有人一致好评。现在OpenAI也跟进,看来这个功能会成为Chatbot类产品的标配。没准国内大模型厂商已经在开发了。
二是Grammaly。这是一款AI写作辅助工具,日活有3000万。
Canvas的文本撰写很有Grammaly的感觉。后续要更新的话,照着Grammaly抄就好——人家在这方面已经研究得很透彻了。这条赛道这么窄,玩不出什么新东西来。
我之所以说留给打工人的时间不多了,是因为:
整个AI产业已经进入到拼商业落地的阶段。大多数模型厂商都要去卷应用。只有少数能像Deepseek那样一心一意只做模型研发。
那么,往哪个方向去卷,能够向资本证明你的阶段性商业价值呢?
柿子捡软的捏。白领是最容易替代也是最好欺负的一个群体。现在底层的模型能力足够,只需要在产品层多下点功夫,把初级白领淘汰掉是没问题的。
程序员是另一个目标。像代码这种东西,标准化表达,数据量又大,AI学起来没问题。之前我介绍过Cursor和Replit Agent,就是在往这个方向走。
所以,打不过就加入。只有那些从现在开始就全力拥抱AI,并且不断琢磨怎么利用AI的打工人才能活下来。你不需要打赢AI,只需要打赢你的同事。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想要链接我,就来newtype社群。已经500多位小伙伴付费加入啦。
回到今天的主题:ChatGPT Canvas。
目前这个功能还是Beta版,不太成熟。比如,它还不是通用功能,需要专门切到带有这个功能的模型版本。以及,我还遇到了聊着聊着GPT突然改用英文的情况。不过瑕不掩瑜,还是值得上手试一试的。
我先测试了它的文本撰写能力。把上期视频的脚本传上去,要求它根据这个内容写一篇博客文章。
这时,类似Artifacts的界面出现了。GPT-4o很快完成了初稿。注意看,OpenAI在右下角放上了几个定制化的功能,包括调整长度等等。
当我们把长度拉满,GPT会在原来基础上做扩写,最多能增加75%的文字量。
第二个功能,看字面的话,你会认为是按照不同学历水平去撰写他们能看得懂的文章。但其实它就是调整文字风格啦。
比如调到幼儿园级别,那么文章会特别通俗易懂。如果调到最高的博士生级别,那基本就是文绉绉甚至有点不说人话的感觉。
说实话,OpenAI这么设计有点冒犯的意思了。这跟学历完全没关系。这又是何必呢?
后边的两个功能很直接。一个是帮你检查文本,看看哪里有错别字,哪里需要加个小标题,等等。
另一个是在文章里加上emoji表情。Twitter上很多人在夸这个功能。我是无感。我绝对不可能在我写的任何文章里加上emoji。
当然,不用右下角这些设定好的功能也OK。咱们可以选中任何一段内容,直接对GPT下需求。比如,把开头改得更吸引人一些。或者,把结尾再升华一下。
以上就是Canvas的文本撰写能力,很简单,很基础。通过提示词和Agent Workflow就可以实现这样的能力。OpenAI把它们都打包进产品里,而且还搞了添加emoji这样的小噱头来取悦用户。你看,他们还是很鸡贼的。
至于代码生成也是差不多的逻辑。
作为测试,我让GPT帮我写个贪吃蛇的小游戏。同样在右下角的位置出现了可以展开的按钮。其中更改编程语言这个有点意思。比如,我们可以让GPT把它已经生成的代码改成JavaScript、TypeScript等等几个主流的语言。
剩下几个功能很简单,比如修复Bug之类的。我就不详细介绍了,看一眼就懂。
目前Canvas的东西就这些。我猜,一些创业公司肯定要睡不着了。OpenAI这是在拿他们的命给自己换时间。作为用户,我感觉还好。可能是因为之前一直在用Artifacts和Cursor,所以看到这个也没那么兴奋。为了体验Canvas,我开了一个月的会员,不打算续费。之后还是继续用Claude。
OK,以上就是本期视频。想交流AI就来newtype社群。那咱们下期见!
Key Takeaway
- DeepSeek新模型V3 0324在MCP调用方面表现出色,性价比极高,性能接近Claude-3.7 Sonnet。
- DeepSeek模型具备清晰的思考和规划能力,能将用户需求拆解为明确任务,并判断所需工具。
- DeepSeek在工具调用能力上显著提升,结合其成本优势,将推动MCP的进一步普及。
- 文章预测Agent发展趋势将从任务编排模式转向模型自由发挥,以超强模型为核心,搭配海量原子化工具。
- DeepSeek的进步,加上MCP协议,预示着AI行业将迎来飞速发展。
Full Content
DeepSeek新出的模型V3 0324可能是跑MCP性价比最高的模型。它在性能上接近Claude-3.7 Sonnet,调用MCP很丝滑,但是成本却低了非常非常多,真的是白菜价了。我给你们看一下就明白了。
这个是我目前用得最多的MCP客户端Cline。DeepSeek最新模型,它已经支持了。我这边选的是付费版。平台虽然也提供免费版,但是不建议用。我前边试过了,速度太慢,而且步骤一多就容易中断,就挺闹心的。所以咱还是老老实实花钱吧。
我的需求很简单:谷歌发布Gemini 2.5模型。这是他们的官方博客。我让DeepSeek帮我把内容扒下来,翻译成中文,并且在开头加上总结,最后存进文档里。
你看,DeepSeek先做了四步规划:
第一,把用户需求拆成明确的任务;
第二,判断需要用哪些工具,包括Tavily MCP里的提取工具,以及写入文件的工具;
第三,当前的环境是,文件已经存在,用户也允许直接进行操作;
第四,给自己设定执行步骤。
这个就是AI比人类强的地方。你想嘛,有几个人能做到这么清晰思考和规划的?
整个过程花了两三分钟,我就不具体展示了。当文档写入完成后,整个任务结束,一共花了0.0358美金。
接下来,咱们加点难度。我让它调用两个MCP:一个是Sequential-thinking,步骤尽可能多。另一个是Tavily,负责联网搜索资料。每一步思考之前,都要搜一次资料,再结合搜到的内容思考。
像这种需求就特别考验模型。因为它既要懂得拆解问题,还得根据实际搜到的信息随时调整思考方向,以及下一步需要搜什么,而且还要频繁调用MCP、不能出错。
我建议大家看完视频也这么去测试,不管是测试模型还是测试客户端都可以。然后你就知道该怎么选了。
咱们回到DeepSeek这边。整个推理过程花了三分多种。DeepSeek一共做了六步思考,最终给出了答案。但是我觉得下边的要点还不够详细,于是让它进一步完善。最终,花了0.039美金,DeepSeek完成了这个回答。
通过这两个例子可以看出,DeepSeek新版本模型在使用MCP方面已经没问题了,而且价格很低。说实话,我这段时间用Claude跑MCP,已经在API上花了十几美金了。日常高频使用的话,真的会肉痛。
高性价比,就是我推荐DeepSeek的原因。官方在公众号文章里介绍了这次小版本升级。模型能力提升包括这几个方面,比如推理任务表现提高、前端开发能力增强、中文写作升级,等等。
其实我最看中的,以及我认为最重要的,是工具调用能力的提升。还是之前说过的逻辑:
AI发展的两条路径,一是获取更多信息,二是调用更多工具。
如果只能处理文本,搞不了多模态,那么AI的世界就是黑白的。这是我看好Gemini的原因。
如果只局限于推理,用不了更多工具,那么AI就只有大脑、没有手脚。这是我看好Claude的原因。
现在DeepSeek终于把工具调用能力提升上来了,叠加它本来就很强的成本优势,肯定能推动MCP进一步普及。
最后,说一下我对今年Agent发展的判断:
以Dify、Coze为代表的任务编排模式会逐渐被取代。这种做法虽然精确度高,但是太费人力,门槛也很高,而且非常限制模型的发挥,所以只适合企业生产环境。
我认为,最优解一定是:人类只需要设定起点,也就是Context、上下文,以及终点,也就是目标。在起点和终点之间一切,都交给模型自由发挥。
一个超强的模型作为单核,搭配海量、原子化的工具,就是AI行业今年发展的重点。
现在,我们已经有Claude和DeepSeek这样的模型了,也有MCP这样的中间层协议了。万事俱备,一切都将飞速展开。
OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!
Key Takeaway
- Gemini 2.0是目前性价比最高的大模型,其Flash-Lite版本价格极低,Flash版本兼顾性能、价格和速度。
- Gemini 2.0 Pro版本上下文窗口提升至200万,适合复杂推理和代码生成。
- Flash Thinking版本具备链式推理能力,适合逻辑推理和多跳问答。
- Gemini 2.0在性能、稳定、速度和价格方面达到平衡,成为作者的主力AI应用。
- 文章强调AI不会替代人,但使用AI的人会替代不使用AI的人。
Full Content
Gemini 2.0是世界上性价比最高的大模型,没有之一。我知道你们在想什么——它比DeepSeek还强。咱们直接来看价格,海外博主已经做好表格了。
Gemini 2.0 Flash-Lite是真的是白菜价:输入只要0.075美金,输出0.3美金。
比它功能多一点的Flash,价格贵一点点:输入0.1美金,输出0.4美金。
再来看DeepSeek:V3输入0.27,输出1.1;R1输入0.55,输出2.19。
谷歌这真的太卷了。要知道,Flash可是支持多模态、支持原生工具使用、有一百万的上下文窗口的最先进的模型。结果它不仅比DeepSeek便宜,而且还压过了GPT-4o mini。看来今年AI竞赛要上强度了。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:性价比之王——Gemini 2.0。
Gemini 2.0是谷歌前几天更新的模型系列,包含Pro和Flash两条线。
Pro很好理解,就是谷歌目前的顶级模型。该有的功能它都有,而且把上下文窗口从一百万提升到了两百万。所以,Pro版本非常适合用来复杂推理、生成代码等等。
而Flash则兼顾了性能、价格和速度,是日常使用的主力模型。其中,Flash还有两个变体:
Flash-Lite砍掉了一点点功能,比如不支持图片和音频的输出,不支持联网搜索,不能执行代码,然后把价格压到最低。所以,如果你需要大规模生成文本的话,那用Lite版最合适。
Flash Thinking顾名思义,就是带上链式推理能力的版本。跟大家很熟悉DeepSeek-R1一样,它在回答之前会先进行多步骤推理。所以对于一些复杂任务,比如需要更强的逻辑推理,或者多跳问答,用Flash Thinking最合适。
前边说Gemini 2.0是性价比之王,我感觉不太准确。因为“性价比”这三个字好像显得它性能不太行的样子。更贴切的称呼应该是“卷王”。我给你们演示一下效果。
先来看看Pro的能力。我给的问题是:
英伟达的CUDA为什么能成功?护城河究竟有多深?AI时代,英伟达的竞争对手有可能赶超或者颠覆吗?
可以看到,Pro虽然比Flash慢,但其实观感上还是很快的。而且它给出的答案,逻辑很清晰,也没什么过多的废话,这一点我真的很喜欢。
再来看Flash Thinking。我来问一个最近讨论特别多的问题:
DeepSeek-R1的成功是否说明,可以不需要英伟达的高算力GPU和CUDA了?
Flash Thinking的思考过程是英文的。它先是拆解了我的问题,得出需要去搜索、调研的关键词,然后再去做相应的搜索。跟Pro一样,它的答案挺干净清爽的。
作为对比,同样的问题我拿去问了DeepSeek-R1。虽然结论差不多,都是具有不可替代性,只是依赖可能会减少,但是思考的过程有挺大差别:
Flash Thinking是先拆解,再搜索。R1直接搜索,再看搜到的网页都讲了什么。从方法的角度来看,我个人是更倾向于先做拆解的。你们觉得呢?
Gemini是我的主力AI应用。最初我是用ChatGPT的。结果在使用过程中遇到各种限制,特别烦。正好Claude 3.5出了,于是就转到Claude那边去。再后来,Claude大面积封号,我三个号都被挂了,于是“逃难”到Gemini,也充了值。
这次2.0的更新,我这几天用下来非常非常满意。不管是哪个版本,都做到了性能、稳定、速度以及价格的平衡。在桌面端用网页版,Pro、Flash和Flash Thinking都有。在手机上就用官方的APP,可以选Pro或者Flash。
只要谷歌那边别出什么幺蛾子,在下一次模型大更新之前,Gemini都会继续是我的日常主力。
我知道,用国外这些产品得跨过好几道门槛。但是,这些门槛其实也帮你筛掉了很多很多人。只要你花点时间、花点钱跨过去了,你就取得巨大领先了。还是那句话:
AI不会替代你,用AI的人,尤其是用先进AI的人才会。
OK,以上就是本期内容。想进一步了解AI,就来我们newtype社群。那咱们下期见!
Key Takeaway
- GraphRAG是微软开源的结合知识图谱的检索增强生成技术,旨在提升AI知识库的精确度,解决传统RAG无法捕捉实体复杂关系和层次结构的局限。
- GraphRAG通过提取实体及其关系,构建庞大的知识图谱,从而实现“全局性”优势。
- 部署GraphRAG需要安装相关库、创建目录、存入文档、初始化项目、配置API Key和模型参数,并创建索引。
- GraphRAG在处理复杂查询时表现出色,但目前使用GPT-4的成本较高,且本地大模型运行存在速度慢和报错问题。
- 微软开源GraphRAG旨在借助社区力量优化其速度和成本,以实现更广泛的应用。
Full Content
微软最近开源了GraphRAG。这是一项结合了知识图谱的检索增强生成技术。简单来说就是,它可以显著提升AI知识库的性能,让AI能根据你提出的文档,更准确地回答你提出的复杂问题。
本期视频,咱们来聊一下,为什么需要GraphRAG,以及现阶段需要付出多少代价。真的,这成本高得吓人。
关于AI知识库,在我们社群里,经常有小伙伴抱怨:精确度不够,AI总答不到点上。这个问题的根源之一,是传统RAG的局限性。
当我们用这套技术搭建知识库的时候,整个索引、检索是基于文本块的。简单来说就是,我们把一个大文档切碎了,变成一个个比较小的文本块;当有请求过来的时候,就根据请求去寻找哪些文本块是最相关、最匹配的;最后,把找到的文本块作为参考资料,连同请求一起给到大模型。
这套技术有两个局限:
第一,它没法有效捕捉实体之间的复杂关系和层次结构。
第二,它通常只能检索固定数量的、最相关的文本块。
这两点一结合,也就导致了传统RAG在面对复杂查询的时候特别吃力。比如,你给它一本小说,问它“这本书的主旨是什么”,那十有八九是给不出靠谱答案的。
为了补上传统RAG的短板,微软推出并且开源了GraphRAG。
就像我前几天在newtype社群里说的,这个技术的核心就一个关键词:全局性。
GraphRAG在对数据集建立索引的时候,会做两件事:
第一,提取实体(Entity)。
第二,提取实体之间的关系(Relationship)。
从视觉上看,这些实体就是一个个点;而有关联的两个实体用线连起来。于是,一张庞大的知识图谱就形成了——这就是它名字里Graph的来源,也是这套技术的聪明之处。
因为,要表达复杂关系,一个非常有效的手段就是,用图谱的方式来处理。大家可以回想一下之前看到的侦探片、警匪片,是不是经常会看到一整面墙的线索板。这其实就是用最直观的图谱方式来表示复杂关系,跟咱们今天聊的主题是一个意思。
因为采用知识图谱,所以GraphRAG能够把握复杂的、细微的数据关系,所以它才能构建一种全局性的优势,从而提升RAG的精确度。
OK,Why讲完了,咱们来说说How,也就是如何使用。
我建议大家都按照官方给的新手教学跑一遍。其实就几行命令,我在Mac上很顺利,没遇到任何报错。
第一步,pip install graphrag,这是就不用说了,很常规。要下载的东西挺多的,大家耐心等等。
第二步,创建目录,名字叫ragtest,并且在这个目录下边创建文件夹,名字叫input。
第三步,在文件夹中存入文档。官方给的Sample文档是查尔斯·狄更斯的《圣诞颂歌》。下载好之后,放到刚才创建好的input文件夹里,并且命名为book.txt。
第四步,初始化整个项目。这时我们会看到多了几个文件。其中最重要的文件是这两个:
一个是.env文件,在里边填入OpenAI的API Key。
另一个是settings.yaml,用来设置encoding和embedding所需要的模型和各种参数。你如果要用本地大模型的话,就在这边设置,我待会儿会演示。
第五步,一切准备妥当之后,就可以创建索引了。这个过程会比较慢,我等了好几分钟。
第六步,可以正式进行问答了。就像前边说的,GraphRAG的强项在于“全局性”。所以作为测试,问题自然是“这个故事的主旨是什么”。
当请求提出之后,我们会看到,GraphRAG根据settings这个文件里的配置要求,比如使用什么模型、最大token多少,开始处理请求和输出。
最终结果挺不错的。要知道,这是一部将近200页的小说。如果不是通过构建全局知识图谱的方式,是搞不定这样的问题的。
但是,一切都是有成本的。就这么一本小说,使用GPT-4创建索引、进行一次问答,居然花了我11美元!
之所以会这么贵是因为,为了搞定这个文档,GraphRAG发起了449次API Request去调用GPT-4。相比之下,嵌入模型才19次。
这个价格真的高得离谱了。即便它降到1美元也还是贵——我传个稍微大一点的文档,一杯瑞幸就没了。
所以,大家关心的问题就来了:如果改用本地大模型会怎么样?
在设置方面完全没问题。比如,我在PC上用LM Studio同时运行Llama 3和nomic embed。在settings文件里,把API Key改成lm-studio——其实用不上,就是满足一下格式需要;把API Base改成localhost:1234/v1(如果是Ollama的话,就是11434);最后把模型名字填上就行。下面的嵌入模型也是这么填。
保存之后,按同样的流程走一遍。这时候,我遇到了两个问题:
第一,提取实体的过程非常漫长。我等了得有20分钟。而之前用OpenAI的模型,几分钟就完事儿了。这个时间上的差别应该是模型性能上的差别造成的。毕竟体量摆在那里,我在本地跑的Llama 3才8B,跟GPT-4差太多了。
第二,好不容易提取完毕,到了嵌入环节的时候,总是报错,根本推进不下去。我试过把嵌入模型换回OpenAI的,还是不行,最多嵌入到70%多又报错。我搞了一晚上,实在没功夫一直耗下去,只能放弃。
其实即使不报错,一个大文档要处理半个多小时,在实际使用过程中也是不能接受的。
我猜这就是微软开源GraphRAG的原因,想要依靠社群的力量去优化它。毕竟现在这个速度和成本,生成的答案效果再好也是亏本的。
OK,以上就是本期内容。大家想找我交流的话,就来newtype社群,我都在。那咱们下期见!
Key Takeaway
- HuggingChat是一款免费体验最先进开源大模型的应用,提供网页版、iOS版和macOS版,设计简洁。
- HuggingChat的核心主张是让所有人都能用上Hugging Face社区最好的模型,并会不定期更新模型列表。
- 作者日常高频使用问答引擎Perplexity和Chatbot Claude,但HuggingChat因其轻量化和便捷性成为日常碎片化需求的承接工具。
- HuggingChat通过快捷键呼出对话框,并优先提升回复速度,Web Search功能需手动开启。
- HuggingChat还提供Tools功能,其中Flux图像生成工具能满足轻量级图像生成需求。
- 文章认为开源模型的性能已追平闭源,开源社区在开发应用方面更具优势。
Full Content
想要免费体验最先进的开源大模型,我推荐大家试试HuggingChat。
这款应用之前有网页版和iOS版。前些天,macOS版推出,在产品设计上还挺有心思的。我特别认同他们这种简洁的设计思路。
macOS版的HuggingChat不像别的APP那样,有一个很重的前端。当按下Command、Shift和回车三个默认的快捷键之后,才会出现一个极简的对话窗口,很像macOS的聚集搜索框。这时我们可以跟跑在云端的大模型对话。
如果要更换模型,点左边的加号进入设置,把模型从初始的Llama 3.1 70B改成国产的Qwen 2.5 72B。这些模型不是固定的,会不定期更新。因为HuggingChat的主张是:
让所有人都能用上来自Hugging Face社区的最好的模型。
这也说明了,Qwen 2.5和Llama 3.1、Command R+等模型一样,成为公认的、当下最好的开源大模型。Qwen确实是国产之光!
哈喽各位好,欢迎来到我的频道。我是国内少有的、能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想链接我,就来newtype社群,已经有500多位小伙伴付费加入啦。
回到今天的主题:HuggingChat。我每天都会高频使用的AI工具有两类:
一是问答引擎。目前世界上最好的问答引擎是Perplexity,这个没有之一,没得挑。但是光有它还不够,因为有很多东西是搜不到的。而且我也经常需要AI提供更多的角度,或者完善我的思路。
于是就有了第二类工具——Chatbot。目前我最满意的是Claude。它不只是模型能力比GPT-4更强,在功能体验上也比ChatGPT要好得多。Artifacts真的非常棒,绝对值回票价。我推荐给好多人了,用过都说好。
不过,对于咱们这些国内用户来说,Perplexity和Claude麻烦的地方就在于,隔段时间就要刷新页面、点一下验证。你别小看就这么一点点的麻烦——当你想用却被打断的时候,会很影响体验。
所以,当这种不方便久了之后,我都是有稍微严肃一点的任务的时候才去用它俩。日常大量的、碎片化的需求,需要有一个轻量化的、拿起来就能用的AI工具来承接——这就是我看上macOS版HuggingChat的原因。
平时隐藏在后边,要用的时候通过快捷键呼出对话框,这种看似不争的做法,其实是想抢AI终端的第一入口。为了实现这个野心,HuggingChat做了大量减法,甚至连上网搜索功能都要手动开启。
在设置里边有个Web Search,把它勾选上之后,模型就会上网搜索了。不过代价就是,回复的速度要慢一些,因为多了搜索和RAG的过程。我猜,这就是上网搜索功能没有默认开启的原因。
尽一切可能把回复速度提上来,这个优先级绝对高于任何其它功能。
如果用户有更重的需求,没问题,在桌面端用网页版,在移动端用iOS版。打开之后你就会发现,ChatGPT里的GPTs它也有,叫Assitants。不过大部分都没啥用啦,跟GPTs一样。
真正有生产力的,是Tools,工具。我用得最多的,是Flux图像生成。
我在前两期视频里介绍过Flux模型。它是SD团队出来做的,是目前世界上最先进的图像生成模型。第一,Flux生成的图像,无论是真实程度还是审美水平都超过别的模型。第二,Flux还能实现精准控制,比如它能在图像上准确生成文字。
Flux有三个版本,其中两个开源。这个工具所用的Flux dev,就是开源版本中性能最强的那一个。当我有一些轻量级的图像生成需求的时候就会用到它。比如生成一个文章配图。由于Flux本身能力强,这种任务对它来说很简单。实在不行就抽几次卡,也能搞定。
有了macOS版之后,加上之前已经在用的iOS版和网页版,我突然发现,HuggingChat已经悄悄成为我使用最频繁的AI工具了。开源模型的性能已经追平闭源。至于开发应用,大家水平都一样。甚至我会觉得开源社区更有优势,因为他们不用考虑什么生态啊、护城河之类的,没那么多包袱,可以放开手脚干。
OK,以上就是本期内容。想交流和学习AI,来newtype社群。那咱们下期见!
Key Takeaway
- 大模型被视为凌驾于所有操作系统之上的“操作系统”,具备内存管理(上下文长度)、文件系统(对话历史、知识库)、驱动程序(Function Call)和用户界面(自然语言交互)等组成部分。
- OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级,如提升上下文长度、Function Call能力、记忆功能和自然语言交互速度。
- 大模型的“操作系统”化将导致其“吃掉”大量应用赛道,对创业者而言,生存空间将受到挤压。
- 文章通过phidata项目示例,展示了Agent、RAG和GPT-4o如何组装成简易操作系统。
Full Content
为什么所有互联网巨头都要搞大模型?
因为大模型是凌驾于所有操作系统之上的操作系统。
你以为你的产品体验足够好,但再好也得用户自己动手。大模型会让绝大多数用户第一次体验到使唤别人的快感。
你以为你的技术护城河够深了,但再深也只是二维的。在大模型这种更高维度的、飞在天上的技术面前,地上的护城河、边界这种东西是特别可笑的。
大模型就是指环王里的至尊魔戒:One ring rules all。
既然是操作系统,那就得有操作系统该有的组成部分。
第一,内存管理。对大模型来说,就是上下文长度。目前主流的内存容量已经从最早的KB到MB,再到以DDR为代表的GB时代。而大模型上下文长度也在飞速提升,现在动不动就200K。
第二,文件系统。对大模型来说,文件系统包含两部分:一个是对话历史记录。没有这个,大模型就记不得你,也不可能成为你的私人助手。另一个是知识库,这个大家都明白。
第三,驱动程序。对于计算机来说,驱动程序是用来控制硬件设备工作的。对大模型来说,驱动程序就是Function Call,函数调用,让大模型能跟现有的操作系统、各种软件和在线服务连接。
第四,用户界面。从最早的命令交互到后来的图形交互,它们都是基于键盘和鼠标做的交互设计。结果大模型一来就是掀桌子,通过自然语言交互就行,甚至还能察言观色。相比文字输入,通过语音和表情,大模型能获得的信息丰富得多了。
刚才说的那些都是我自己总结的理论,之前在知识星球newtype里分享过。而且我发现,OpenAI跟我想的一样——他们就是在按照操作系统的逻辑对GPT和ChatGPT进行更新和升级。
上下文长度不用说了,从GPT-3.5到GPT-4 Turbo,从4K、16K、32K、128K,现在日常使用基本不会再担心长度的问题。
Function Call也不用说了,GPT-4在这方面属于遥遥领先级别。
历史聊天记录方面,2月新出的记忆功能,可以让ChatGPT记住用户希望它记住的东西,比如个人偏好等等。
自然语言交互方面,最新的GPT-4o大家都看到了,反馈速度已经非常快了。据说可以在0.23秒内响应音频输入,接近人类的水平。
你看,OpenAI的野心就是操作系统级别的。而GPT-4o登陆iPhone绝对会是一个里程碑事件。
有同样想法的,不只是OpenAI,我相信这一定会成为行业共识和行动方向。一些开发者已经在这么做了,比如phidata。他们把Agent、RAG和GPT-4o组装在一起,变成一个简易的操作系统。
你可以把你想添加的内容喂给GPT,比如网页或者PDF文档。
你可以问GPT任何最新的事件,它可以联网帮你搜索。
你可以让GPT当你的投资顾问,让它帮你分析,英伟达的股票还值不值得买。
想体验这个项目,非常简单,有手就行。
第一步,把包含所有文件的压缩包下载下来,解压缩。
第二步,创建一个虚拟环境。比如可以用conda创建并激活,两行代码搞定。
第三步,安装需要的Library,记得一定按照这个txt安装,别自己瞎搞,到时版本有冲突就跑不起来了。
第四步,把OpenAI和EXA的API Key通过export这行命令提供给系统。
第五步,打开docker,安装PgVector。
第六步,通过Streamlit把这些代码变成APP跑起来,打开一个本地链接,就能看到刚才演示过的界面和功能了。
这些功能,在几个月前都是单独的一个个项目。比如,RAG是RAG,Agent是Agent。最近一个月,我发现大家突然开始做集成了。
这个背后,既是技术在进步,也是大家的认知在迭代。从我的知识星球里的内容就能看得出来:
最开始大家都是问我本地大模型、知识库的东西,现在问Agent也多起来了。整个水位、大家的水平在提升。
而且我有一个感觉,或者说粗略的判断:
既然大模型属于中心化极强的操作系统,那么它一定会吃掉很多很多应用赛道。对于创业者来说,也许只能等这头怪兽吃得差不多了,才能分到一杯羹。
所以,不着急出手。
OK,以上就是本期内容。咱们下期见!
Key Takeaway
- M4 Mac mini是轻量级AI服务器的理想选择,功耗低且性能出色,能满足本地运行大模型的需求。
- Ollama是本地运行大模型的优秀工具,支持多种模型和精度,可通过设置实现模型常驻内存,达到“随叫随到”的效果。
- 通过修改Ollama的监听地址,可实现局域网内其他设备(如手机)访问本地大模型。
- Enchanted是iOS上连接Ollama的简洁、流畅的APP,适合移动端使用。
- 文章强调了本地部署开源大模型在解决云端服务不稳定、费用高昂等问题上的优势。
Full Content
我宣布,M4 Mac mini就是我个人的年度最佳数码产品。真的,太香了!
我这台24G内存加512G SSD的机子是在闲鱼上下单的。店家跑澳门帮我代购,然后顺丰寄到北京。全部加起来,7千块。我对比了一下国行官网的价格,发现居然便宜了500块。
也就是说,如果买国行,花更多钱,还买的是“阉割版”。这是什么道理?我真的不明白。
拿到Mac mini之后,我安装的第一个软件是Ollama,然后下载Qwen 2.5。因为我一直想实现这样一个场景:
一台足够给力、又足够冷静的机子作为服务器跑本地大模型,然后供给给局域网内的所有设备使用,比如手机。
之前我一直用这台PC跑大模型。但是那个功耗和噪音,我真的不敢一直开着。虽然理性告诉我,消耗不了多少,但心里就是不踏实。于是,M4版Mac mini终于实现我的设想。
现在只要我在家里,通过手机就能用上本地大模型。不知道为什么,我发现这种Self-hosting的方式有一种莫名的快感。跟用别人的服务完全不一样的体验。
在外边其实也可以连接家里的Mac mini,用我之前介绍过的ngrok就行,做个内网穿透。不过这么搞的话,速度就慢下来了,还是算了。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有600多位小伙伴付费加入啦!
回到今天的主题:在M4 Mac mini上运行大模型。
我准备在春节之前做一次升级,目标是彻底解决日常使用AI的问题。现在不管是ChatGPT还是Claude,在国内用总是不让人放心。比如封号的问题就完全不可控。一旦用不了就傻眼了。用M4 Mac mini作为轻量级的服务器跑大模型,算是我第一个尝试。
我们先来做个简单的测试,看看这台24G统一内存的机子能跑什么尺寸的大模型。标准很简单,就是每秒能吐出多少个Token。
测试工具用的是Ollama。把Verbose打开,就能看到运行的速度。
模型方面,我下了7b、14b两个尺寸,包括Q4和Q8两种精度,一共4个模型。32b就不用想了,肯定跑不了,都不用测。
在Q4精度下,7b的生成速度大概在每秒20个Token的样子,特别流畅丝滑。而14b大概是11个Token的水平。
我自己的直观感受是,11的速度基本是能接受的底线,再低肯定不行。到20的话,就算流畅。
我们再来看Q8的速度。在这个精度下,7b速度降到了大概每秒13个Token的水平。而14b就更低了。
所以,综合来看,M4芯片加24G统一内存,我个人选择是跑Q4精度、14b的模型。它的速度我能接受,而且答案的完整程度明显比7b更好。我试过让它挂着跑半小时以上,基本就是温热的程度,比较让我放心。
OK,模型选定了,但是还没完——Ollama还需要做一些设置。
在初始状态下,如果闲置五分钟的话,Ollama就会自动把模型都释放了。这意味着,如果我们突然有了需求、需要对话的话,又得等Ollama加载模型——这个就很不爽了,对吧?
所以,我们要做的第一个设置是,把OLLAMA_KEEP_ALIVE设为-1。这样一来,它就不会自动释放内存,才能达到随时响应的目的。
第二个是关于网络的设置。这个是我问Cursor学来的。
在初始状态下,Ollama只监听Localhost。要让局域网内的其他设备,比如手机也能访问Ollama,需要修改它的监听地址。
在终端里输入这一行命令:OLLAMA_HOST=“0.0.0.0:11434” ollama serve
0.0.0.0指的是让Ollama监听所有网络接口。不管活儿从哪来,都接。11434是它默认的端口,没必要改动。这么改动之后,手机、Pad这些设备都可以通过局域网IP地址接入Ollama。
那么,最后一个问题来了:在移动端用什么APP去连接Ollama?
在桌面端有太多选择了,比如经典的Open WebUI,还有Obsidian的一堆AI插件都支持。在iPhone上,我个人的选择是Enchanted,三个原因:
第一,这款APP特别简洁,就是纯对话,文字或者语音都可以。没有那些杂七杂八的功能,所以特别符合我的需求。
第二,它就是iOS原生的那种丝滑。要长期使用的话,这种体验很重要。
第三,Enchanted支持Ollama。把地址和端口填进去就可以用了,非常方便。当然,也是因为它只支持Ollama,所以我没选LM Studio。
今天的开源大模型已经足够强。量化版本就能满足平时对话的需求。搭配M4 Mac mini真的很舒服。强烈建议大家搞一套试一试。
OK,以上就是本期内容。想聊AI,就来我们newtype社群。那咱们下期见!
Key Takeaway
- LM Studio是Mac上运行大模型的首选工具,尤其支持为M系列芯片优化的模型文件,显著提升运行速度。
- LM Studio新增对苹果MLX框架的支持,该框架专为M系列芯片优化,能高效部署和运行模型。
- 文章通过对比演示,展示了优化版模型在M2芯片Macbook Air上运行速度的优势。
- 苹果在AI领域已迎头赶上,其硬件(统一内存架构)和MLX框架为AI终端提供了强大支持。
- LM Studio正从后端工具向前端应用发展,预示着AI应用将进入大混战阶段。
Full Content
如果你用的是M系列芯片的苹果电脑,想要在机子上跑大模型,那么我强烈推荐你用LM Studio。因为它支持专门为M系列芯片优化过的模型文件,运行速度快了不止一点。
我用手里这台M2芯片的Macbook Air做了一个简单的对比。同一款大模型,同样的需求,左边是优化版,右边是咱们之前常用的GGUF版。肉眼可见,左边的速度快多了。从每秒token生成的速度来看,优化版的模型快了一倍。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注,只要有一个视频你看进去了,就赚大了。如果想链接我,就来newtype社群。已经有500多位小伙伴付费加入啦!
回到今天的主题:LM Studio。
在本地运行大模型的工具中,LM Studio和Ollama是最受欢迎的两款。在最近这一次的更新中,LM Studio新增了对MLX的支持。
这个拗口的MLX,是苹果公司开源的一个机器学习框架,专门为M系列芯片做了优化,比如采用了统一内存模型、对应统一内存架构。所以,使用这个框架就可以非常高效地部署和运行模型。
MLX去年12月才开源,还很新,但是在社区支持下发展很快,主流模型都有对应的版本。在最新版本的LM Studio中也特意做了标注和筛选,方便苹果用户下载。
如果你之前没安装过LM Studio,可以到官网下载对应的版本。安装完毕之后,打开软件,左边栏是它的主要功能页面,包括聊天模式、服务器模式、查看已有模型等等。进入发现页面,就可以搜索和下载模型了。
就像刚才说的,LM Studio把MLX版的模型专门标注出来了,大家在列表里很容易找到。它默认是推荐Staff Pick也就是官方推荐的模型,如果你想要更多,那就选择Hugging Face,会把所有模型都列出来。
不同量化版本的模型,体积不一样,大家根据配置和需求选择。如果下载不动,那大概率是网络原因,这个就只能各自想办法了。
等模型文件下载好了,咱们就可以在聊天模式里加载它。LM Studio提供了各种设置,我这边就用默认的。
为了做这个不严谨的对比,主要是为了给大家一个直观的感受,我让AI帮我写一个贪吃蛇的Python游戏。由于还开着录屏,所以对速度会有影响。不过即使在这种情况下,优化版模型跑起来还是很流畅的。你再看普通版的情况,这差得也太多了。
之前很多人抨击苹果在AI方面落后了,国内媒体也老写小作文。但是,你如果真的有在关注的话就知道,苹果现在绝对已经赶上来了。他们在硬件上的积累远超那些PC厂商。
我之前在社群专属视频里就讲过苹果的自研模型,遥遥领先隔壁安卓厂商。在桌面端,有了MLX框架,就能发挥出统一内存架构的最大优势:
CPU和GPU可以直接访问共享内存中的数据,不需要进行数据传输。小规模操作用CPU搞定。遇到计算密集型的需求再上GPU。
硬件层、系统层、应用层一体化,这才是AI终端该有的样子。这也是我选择在这个时间点做一次大升级:把我用了这么多年的mini换成iPhone 16 Pro——我准备11月托朋友代购个港版,以及M4版Macbook Pro出来后,买个16寸顶配。到时我会给大家分享一系列的使用体验。
最后,one more thing。如果大家一直在用AI软件就会发现,最近有一大波密集更新。各家都在扩张自己的势力范围。比如咱们今天聊的LM Studio,以前它只是一个偏后端的软件,帮你在本地跑跑大模型。现在,它把聊天模式往前提了,添加了RAG功能。这种主动从后端走向前端的打法会逐渐成为各家的共同选择。AI应用大混战的阶段要来了。
OK,以上就是本期内容。想进一步交流AI,来我们newtype社群。那咱们下期见!