大模型

7G显存，训练你自己的DeepSeek-R1 2024-08-31

Key Takeaway

Unsloth框架显著降低了微调大模型的门槛，仅需7G显存即可微调1.5B模型，消费级PC也能实现。
DeepSeek的GRPO强化学习算法能提升模型推理能力和可解释性。
微调技术可用于打造个人AI分身和私域模型，实现本地化、无需联网的AI交互。
高质量数据集和超参数调整是微调成功的关键，但需要大量实践。
文章强调了本地部署小尺寸模型在移动端的潜力和价值。

Full Content

用DeepSeek的方法做微调，可以显著提升传统模型的思考能力。

这是我训练好的模型文件，已经传到Hugging Face上了，大家自取。它是基于Qwen2.5 3B，通过微调加强了数学能力，最后生成了Q4、Q5和Q8三个版本。咱们来对比一下Q4精度的效果。我问一个经典问题：

9.9和9.11这两个数字，哪个更大？

先来看原版的回答。不仅答案错了，而且给的理由也是完全混乱的——什么叫“小数部分相同，唯一的区别在于十分位”，简直胡说八道嘛。

再来看微调版本。这就正常了。整数部分一样，那就比较小数部分。很自然就得出9.9比9.11更大。

这套东西不是我搞出来的，而是Unsloth的成果。他们前些天发了一篇博客，介绍了方法，还给出了代码。简单来说，Unsloth这套东西实现了两点：

第一，微调门槛下降。像1.5B之类的小尺寸模型，只需要7G显存就可以微调。而7B、14B这种，15G显存就OK。也就是说，用消费级的PC就能微调。如果是用云端的算力，像我用Google Colab的T4 GPU，花了一个小时就顺利完成。

第二，模型能力提升。GRPO是一种强化学习算法，是DeepSeek发明并开源出来的。用这套算法和数据集，能够训练出具备更强推理能力和更好可解释性的模型。现在Unsloth把它应用到微调里边，想象空间一下就出来了。举个例子：

私域模型。

一个商业博主，有自己的方法论，也有很多交付案例。他把过往积累下来的东西整理成数据集，包含问题、答案以及解题步骤。然后用Unsloth这套东西去微调，生成3B的模型。最后，把模型文件给到他的用户，不管是免费还是收费都可以。

用户拿到之后，用我上上期介绍的方法在手机上使用。这意味着，用户可以随时随地、不需要联网地跟这位博主的AI分身交流。

对自媒体来说，以前只有在你发视频、发文章的时候，或者你在群里说话的时候，你的粉丝、用户才能接收到你的信息。现在，有了这个方法，他们可以无限制地被你这个IP影响。

之前我分享手机上跑模型的方法，一堆人喷我说没意义、没价值。说句扎心的话：眼界太浅，活该挣不着钱。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有800多位小伙伴付费加入啦！

回到今天的主题：用强化学习算法，微调模型。

在介绍Unsloth的工具之前，我还是得先把基本概念用一种通俗易懂的方式讲给你们听。可能不是很严谨，但是包懂。

以前搞强化学习，需要准备大量包含解题步骤的高质量数据，以及非常精确、绝对的奖励函数。然后大力出奇迹，硬生生把模型给培训出来。

后来DeepSeek发现，其实不需要那么高的成本，搞得那么费劲——可以把奖励函数弄得更灵活一些嘛。针对每一个问题，它让模型生成一组答案。然后看这一组答案里边，哪个答案相对好一些，从而给出奖励。

传统方法，比较像我们以前在学校里接受的填鸭式教学，靠着记忆力去刷题，想要蒙混过关。但是，这种搞法，知其然而不知其所以然，所以最后还是个渣渣。而DeepSeek的方法则是反复思考解题步骤，最后不仅知其然而且还知其所以然。于是，模型“顿悟”了，学霸诞生了。

如果还是不太明白，那我再打个比方。传统方法训狗，需要明确定义每个动作，并且给每个动作都设计奖励。只有当狗完全按照指令完成动作时，才能获得奖励。

而DeepSeek的方法是，一个动作让狗做三次。在三次当中，相对较好的那一次获得奖励。然后不断重复这个过程。

大家如果有养狗经历就知道，用DeepSeek的这种训练方法，主人轻松，狗子开心，效果也好。

DeepSeek很大方地分享出来之后，Unsloth就拿来用了。不过在使用之前，有一些限制需要跟大家说清楚：

你拿来微调的模型不能太小了，至少也得有1.5B，不然没法正确生成思考标记。这是我选择用3B尺寸的原因，既符合训练的要求，也能在手机上运行。另外，步数至少要300步，奖励才会真正增加。为了达到良好的效果，建议至少训练12个小时。

在官方给的示例当中，用的数据集是GSM8K。它包含了8500个高质量的小学数学文字题。每个问题需要2到8个步骤才能解决。而且，这个数据集里的解题方法是用自然语言编写，而非纯粹的数学表达式。所以，用它来训练，能够提升模型的多步骤数学推理。

类似GSM8K的数据集还有好几个，比如MATH Dataset、MathQA等等。我建议大家先别着急就导入自己的数据集，可以拿这些练练手。因为，换了数据集之后，由于格式不同、特点不同，奖励函数可能需要做相应的调整。

另外，超参数的调整也需要大量实践。比如：

学习率，用来控制模型学习的速度。设得太高，模型可能学得太快，错过最优解；设得太低，模型可能学得太慢，浪费时间。

Batch size，指的是每次喂给模型的数据量。设得太大，可能会导致内存不足；设得太小，可能导致模型学习不稳定。

微调和RAG一样，都是看起来简单，但真要获得好的效果，需要大量调试。而且这东西没法教，只能“干中学”。但是，有门槛是好事。只要跨过去了，就能甩开一大堆人。

所以，我在Google Colab上买了一些计算单元，这段时间会做各种测试。至于数据集，我突然想到，过去一年我在星球里回答了好多好多问题。这些问题都可以做转换，比如让模型帮我批量处理，然后放进数据集里。

通过微调打造AI分身、训练私域模型的想法，在我去年做Llamafile那期视频的时候就出现了。现在可能性越来越大了。等有进展了，我会在社群里说。

OK，以上就是本期内容。想了解AI，来我们newtype社群。那咱们下期见！

AI需要「影分身」 2024-08-31

Key Takeaway

ChatGPT“裸奔”不足以满足生产力需求，部署Agent能显著提升效率。
GPT Researcher是开箱即用的Agent方案，擅长资料搜集和报告生成，成本低廉。
CrewAI是灵活的Agent框架，通过设定Agent、Tool和Task实现自由搭建Agent系统。
大模型存在“单核硬伤”（Degeneration-of-Thought），多Agent协作能有效解决复杂推理问题。
Agent技术在大模型加持下迅速发展，未来将有更多工具和应用出现。

Full Content

ChatGPT会员我是不会再继续订阅了。

轻度体验一下还可以。但如果真要把它当作生产力工具长期使用的话，还是不太行。

咱们来做个对比。同样一个问题：

GPT-4加上联机搜索之后，ChatGPT给出了这样的答案：

你觉得还不错是吧？我给你看看Agent生成的：

也不能说是差距很大，大概就是能用和不能用的区别吧。

所以，从实用的角度来看，我建议大家别再继续用ChatGPT「裸奔」了。花点时间部署一套Agent，能帮你省下非常多时间。

介绍一下我目前在用的两套方案。

GPT Researcher：开箱即用

GPT Researcher是GitHub上的一个项目，主要满足资料搜集、报告生成方面的需求——日常工作刚需，真的能省很多时间。

GPT Researcher搭建了两类Agent：

Planner Agent负责拆解需求、生成尽可能全的问题。Execution Agent拿到问题之后，找到对应的网页、把内容爬下来，再交回给Planner Agent。后者筛选、汇总所有资料，完成调研报告。

这个项目有两点做得很棒：

混合使用GPT-3.5和GPT-4，提升速度、降低成本。一般来说，跑一圈下来需要3分钟，花费0.1美元——真的是白菜价了。
根据需求生成的Agent都是特定领域的。比如，需求是做金融领域的调研，那么生成的Agent就是金融专家。

只需要懂一点点代码就可以使用GPT Researcher。按照GitHub的教程，把仓库克隆到本地，然后一步一步复制粘贴、执行对应的命令。过程中如果提示缺什么Package，那就pip install安装就行。最后打开一个本地网页就可以使用了。

CrewAI：自由搭建

如果你的需求不只是生成调研报告，那就需要使用现成的框架，亲手搭建一套Agent系统了。

我目前在用的Agent框架叫「CrewAI」。看起来跟微软的AutoGen差不多，但你一上手就会发现，CrewAI比AutoGen逻辑更简单、更直观。

在CrewAI里，你只需要设定三个要素：

谁。
用什么。
做什么。

「谁」指的是Agent。多少个Agent，分别以什么角色进行协作，工作目标是什么，他们各自的背景是什么样的，他们用什么模型作为大脑。

「用什么」指的是Tool。最常见的就是搜索工具。你需要把工具分配给具体使用的Agent。

「做什么」指的是Task。一个项目可以分拆成很多个任务。每个任务需要有具体的描述，以及指定由哪些Agent来完成。

一旦理解了这个逻辑之后，CrewAI的设置就变得极其简单。

还以生成调研报告为例，这是我设计的Agent工作流程：

我特意在最开始的需求分析、方案制定环节安排了两个Agent。这么做，Token花得多，时间也更长，不过很有必要。一切都是为了解决一个核心问题：

大模型在复杂推理的时候，特别容易犯轴。

单核的硬伤

为了加强大模型的推理能力，研发人员想了很多办法。比如，大名鼎鼎的思维链（Chain-of-Thought），还有自我反思(Self-Reflection)。

但是，无论怎么给大模型叠Buff，都改不了这个问题，在论文里管它叫「Degeneration-of-Thought」：

当大模型对自己的答案有信心的时候，即使这个答案不正确，它都没法再通过自我反思去产生新的想法。

跟人一样，沉浸在自己的世界里，迷之自信、死不悔改。

造成这个问题的原因有很多。比如在预训练阶段，输入的概念有偏差，或者思考模式有问题，都会产生认知偏差。

有的问题可以通过技术解决，有的不需要。像这个问题，其实人类社会已经有解了，就是大家最最熟悉的：

讨论与协作。

一个人再聪明，认知水平再高，都会有盲点。

有人点拨的话——其实有时都不用点拨，只要跟自己以外的人聊上几句，就能爬出来。

这就是为什么，都是一样的大模型作为底层驱动，「多核」会比「单核」靠谱得多。

2024 Agent

Agent并不是跟着大模型兴起的。早在这一轮AI爆发之前，Agent就已经有好多年的研究了。大模型充当最强大脑，解决了Agent推理的难题，使得Agent突然被所有人关注。

在设计和部署Agent方面，AutoGen之后有了CrewAI，2024年肯定还会有更多团队想来试一试的。

ChatGPT最重要的更新：Canvas 2024-08-31

Key Takeaway

OpenAI最新发布的Canvas是ChatGPT的重要更新，提供文本撰写和代码生成功能。
Canvas借鉴了Claude的Artifacts功能，并具有Grammaly的文本撰写风格。
AI产业已进入商业落地阶段，白领和程序员是AI替代的重点目标。
Canvas的文本撰写功能包括总结、扩写、调整风格、检查文本和添加表情符号。
Canvas的代码生成功能支持编写代码、更改编程语言和修复Bug。
文章认为Canvas的推出对创业公司构成威胁，但其功能对已使用Artifacts和Cursor的用户而言并非颠覆性。

Full Content

留给打工人的时间真的不多了。

OpenAI最新发布的Canvas，是ChatGPT最重要的一次更新。它带来两个实打实的功能：文本撰写，和代码生成。

我第一眼看到Canvas就想到了两个产品：

一是Claude。Canvas算是借鉴了它的Artifacts功能。

我之前还在newtype社群里提到过，Artifacts特别像大学老师的黑板。你去请教老师的时候，他从身后拉了一块干净的黑板过来，在上边给你详细讲解和演示。

Artifacts推出之后，获得了所有人一致好评。现在OpenAI也跟进，看来这个功能会成为Chatbot类产品的标配。没准国内大模型厂商已经在开发了。

二是Grammaly。这是一款AI写作辅助工具，日活有3000万。

Canvas的文本撰写很有Grammaly的感觉。后续要更新的话，照着Grammaly抄就好——人家在这方面已经研究得很透彻了。这条赛道这么窄，玩不出什么新东西来。

我之所以说留给打工人的时间不多了，是因为：

整个AI产业已经进入到拼商业落地的阶段。大多数模型厂商都要去卷应用。只有少数能像Deepseek那样一心一意只做模型研发。

那么，往哪个方向去卷，能够向资本证明你的阶段性商业价值呢？

柿子捡软的捏。白领是最容易替代也是最好欺负的一个群体。现在底层的模型能力足够，只需要在产品层多下点功夫，把初级白领淘汰掉是没问题的。

程序员是另一个目标。像代码这种东西，标准化表达，数据量又大，AI学起来没问题。之前我介绍过Cursor和Replit Agent，就是在往这个方向走。

所以，打不过就加入。只有那些从现在开始就全力拥抱AI，并且不断琢磨怎么利用AI的打工人才能活下来。你不需要打赢AI，只需要打赢你的同事。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把AI的Why和How讲明白的博主。记得点一波关注，绝对不亏。如果想要链接我，就来newtype社群。已经500多位小伙伴付费加入啦。

回到今天的主题：ChatGPT Canvas。

目前这个功能还是Beta版，不太成熟。比如，它还不是通用功能，需要专门切到带有这个功能的模型版本。以及，我还遇到了聊着聊着GPT突然改用英文的情况。不过瑕不掩瑜，还是值得上手试一试的。

我先测试了它的文本撰写能力。把上期视频的脚本传上去，要求它根据这个内容写一篇博客文章。

这时，类似Artifacts的界面出现了。GPT-4o很快完成了初稿。注意看，OpenAI在右下角放上了几个定制化的功能，包括调整长度等等。

当我们把长度拉满，GPT会在原来基础上做扩写，最多能增加75%的文字量。

第二个功能，看字面的话，你会认为是按照不同学历水平去撰写他们能看得懂的文章。但其实它就是调整文字风格啦。

比如调到幼儿园级别，那么文章会特别通俗易懂。如果调到最高的博士生级别，那基本就是文绉绉甚至有点不说人话的感觉。

说实话，OpenAI这么设计有点冒犯的意思了。这跟学历完全没关系。这又是何必呢？

后边的两个功能很直接。一个是帮你检查文本，看看哪里有错别字，哪里需要加个小标题，等等。

另一个是在文章里加上emoji表情。Twitter上很多人在夸这个功能。我是无感。我绝对不可能在我写的任何文章里加上emoji。

当然，不用右下角这些设定好的功能也OK。咱们可以选中任何一段内容，直接对GPT下需求。比如，把开头改得更吸引人一些。或者，把结尾再升华一下。

以上就是Canvas的文本撰写能力，很简单，很基础。通过提示词和Agent Workflow就可以实现这样的能力。OpenAI把它们都打包进产品里，而且还搞了添加emoji这样的小噱头来取悦用户。你看，他们还是很鸡贼的。

至于代码生成也是差不多的逻辑。

作为测试，我让GPT帮我写个贪吃蛇的小游戏。同样在右下角的位置出现了可以展开的按钮。其中更改编程语言这个有点意思。比如，我们可以让GPT把它已经生成的代码改成JavaScript、TypeScript等等几个主流的语言。

剩下几个功能很简单，比如修复Bug之类的。我就不详细介绍了，看一眼就懂。

目前Canvas的东西就这些。我猜，一些创业公司肯定要睡不着了。OpenAI这是在拿他们的命给自己换时间。作为用户，我感觉还好。可能是因为之前一直在用Artifacts和Cursor，所以看到这个也没那么兴奋。为了体验Canvas，我开了一个月的会员，不打算续费。之后还是继续用Claude。

OK，以上就是本期视频。想交流AI就来newtype社群。那咱们下期见！

DeepSeek新模型太适合MCP了！ 2024-08-31

Key Takeaway

DeepSeek新模型V3 0324在MCP调用方面表现出色，性价比极高，性能接近Claude-3.7 Sonnet。
DeepSeek模型具备清晰的思考和规划能力，能将用户需求拆解为明确任务，并判断所需工具。
DeepSeek在工具调用能力上显著提升，结合其成本优势，将推动MCP的进一步普及。
文章预测Agent发展趋势将从任务编排模式转向模型自由发挥，以超强模型为核心，搭配海量原子化工具。
DeepSeek的进步，加上MCP协议，预示着AI行业将迎来飞速发展。

Full Content

DeepSeek新出的模型V3 0324可能是跑MCP性价比最高的模型。它在性能上接近Claude-3.7 Sonnet，调用MCP很丝滑，但是成本却低了非常非常多，真的是白菜价了。我给你们看一下就明白了。

这个是我目前用得最多的MCP客户端Cline。DeepSeek最新模型，它已经支持了。我这边选的是付费版。平台虽然也提供免费版，但是不建议用。我前边试过了，速度太慢，而且步骤一多就容易中断，就挺闹心的。所以咱还是老老实实花钱吧。

我的需求很简单：谷歌发布Gemini 2.5模型。这是他们的官方博客。我让DeepSeek帮我把内容扒下来，翻译成中文，并且在开头加上总结，最后存进文档里。

你看，DeepSeek先做了四步规划：

第一，把用户需求拆成明确的任务；

第二，判断需要用哪些工具，包括Tavily MCP里的提取工具，以及写入文件的工具；

第三，当前的环境是，文件已经存在，用户也允许直接进行操作；

第四，给自己设定执行步骤。

这个就是AI比人类强的地方。你想嘛，有几个人能做到这么清晰思考和规划的？

整个过程花了两三分钟，我就不具体展示了。当文档写入完成后，整个任务结束，一共花了0.0358美金。

接下来，咱们加点难度。我让它调用两个MCP：一个是Sequential-thinking，步骤尽可能多。另一个是Tavily，负责联网搜索资料。每一步思考之前，都要搜一次资料，再结合搜到的内容思考。

像这种需求就特别考验模型。因为它既要懂得拆解问题，还得根据实际搜到的信息随时调整思考方向，以及下一步需要搜什么，而且还要频繁调用MCP、不能出错。

我建议大家看完视频也这么去测试，不管是测试模型还是测试客户端都可以。然后你就知道该怎么选了。

咱们回到DeepSeek这边。整个推理过程花了三分多种。DeepSeek一共做了六步思考，最终给出了答案。但是我觉得下边的要点还不够详细，于是让它进一步完善。最终，花了0.039美金，DeepSeek完成了这个回答。

通过这两个例子可以看出，DeepSeek新版本模型在使用MCP方面已经没问题了，而且价格很低。说实话，我这段时间用Claude跑MCP，已经在API上花了十几美金了。日常高频使用的话，真的会肉痛。

高性价比，就是我推荐DeepSeek的原因。官方在公众号文章里介绍了这次小版本升级。模型能力提升包括这几个方面，比如推理任务表现提高、前端开发能力增强、中文写作升级，等等。

其实我最看中的，以及我认为最重要的，是工具调用能力的提升。还是之前说过的逻辑：

AI发展的两条路径，一是获取更多信息，二是调用更多工具。

如果只能处理文本，搞不了多模态，那么AI的世界就是黑白的。这是我看好Gemini的原因。

如果只局限于推理，用不了更多工具，那么AI就只有大脑、没有手脚。这是我看好Claude的原因。

现在DeepSeek终于把工具调用能力提升上来了，叠加它本来就很强的成本优势，肯定能推动MCP进一步普及。

最后，说一下我对今年Agent发展的判断：

以Dify、Coze为代表的任务编排模式会逐渐被取代。这种做法虽然精确度高，但是太费人力，门槛也很高，而且非常限制模型的发挥，所以只适合企业生产环境。

我认为，最优解一定是：人类只需要设定起点，也就是Context、上下文，以及终点，也就是目标。在起点和终点之间一切，都交给模型自由发挥。

一个超强的模型作为单核，搭配海量、原子化的工具，就是AI行业今年发展的重点。

现在，我们已经有Claude和DeepSeek这样的模型了，也有MCP这样的中间层协议了。万事俱备，一切都将飞速展开。

OK，以上就是本期内容。想了解AI，来我们newtype社群。那咱们下期见！

Gemini 2.0：性价比之王 2024-08-31

Key Takeaway

Gemini 2.0是目前性价比最高的大模型，其Flash-Lite版本价格极低，Flash版本兼顾性能、价格和速度。
Gemini 2.0 Pro版本上下文窗口提升至200万，适合复杂推理和代码生成。
Flash Thinking版本具备链式推理能力，适合逻辑推理和多跳问答。
Gemini 2.0在性能、稳定、速度和价格方面达到平衡，成为作者的主力AI应用。
文章强调AI不会替代人，但使用AI的人会替代不使用AI的人。

Full Content

Gemini 2.0是世界上性价比最高的大模型，没有之一。我知道你们在想什么——它比DeepSeek还强。咱们直接来看价格，海外博主已经做好表格了。

Gemini 2.0 Flash-Lite是真的是白菜价：输入只要0.075美金，输出0.3美金。

比它功能多一点的Flash，价格贵一点点：输入0.1美金，输出0.4美金。

再来看DeepSeek：V3输入0.27，输出1.1；R1输入0.55，输出2.19。

谷歌这真的太卷了。要知道，Flash可是支持多模态、支持原生工具使用、有一百万的上下文窗口的最先进的模型。结果它不仅比DeepSeek便宜，而且还压过了GPT-4o mini。看来今年AI竞赛要上强度了。

回到今天的主题：性价比之王——Gemini 2.0。

Gemini 2.0是谷歌前几天更新的模型系列，包含Pro和Flash两条线。

Pro很好理解，就是谷歌目前的顶级模型。该有的功能它都有，而且把上下文窗口从一百万提升到了两百万。所以，Pro版本非常适合用来复杂推理、生成代码等等。

而Flash则兼顾了性能、价格和速度，是日常使用的主力模型。其中，Flash还有两个变体：

Flash-Lite砍掉了一点点功能，比如不支持图片和音频的输出，不支持联网搜索，不能执行代码，然后把价格压到最低。所以，如果你需要大规模生成文本的话，那用Lite版最合适。

Flash Thinking顾名思义，就是带上链式推理能力的版本。跟大家很熟悉DeepSeek-R1一样，它在回答之前会先进行多步骤推理。所以对于一些复杂任务，比如需要更强的逻辑推理，或者多跳问答，用Flash Thinking最合适。

前边说Gemini 2.0是性价比之王，我感觉不太准确。因为“性价比”这三个字好像显得它性能不太行的样子。更贴切的称呼应该是“卷王”。我给你们演示一下效果。

先来看看Pro的能力。我给的问题是：

英伟达的CUDA为什么能成功？护城河究竟有多深？AI时代，英伟达的竞争对手有可能赶超或者颠覆吗？

可以看到，Pro虽然比Flash慢，但其实观感上还是很快的。而且它给出的答案，逻辑很清晰，也没什么过多的废话，这一点我真的很喜欢。

再来看Flash Thinking。我来问一个最近讨论特别多的问题：

DeepSeek-R1的成功是否说明，可以不需要英伟达的高算力GPU和CUDA了？

Flash Thinking的思考过程是英文的。它先是拆解了我的问题，得出需要去搜索、调研的关键词，然后再去做相应的搜索。跟Pro一样，它的答案挺干净清爽的。

作为对比，同样的问题我拿去问了DeepSeek-R1。虽然结论差不多，都是具有不可替代性，只是依赖可能会减少，但是思考的过程有挺大差别：

Flash Thinking是先拆解，再搜索。R1直接搜索，再看搜到的网页都讲了什么。从方法的角度来看，我个人是更倾向于先做拆解的。你们觉得呢？

Gemini是我的主力AI应用。最初我是用ChatGPT的。结果在使用过程中遇到各种限制，特别烦。正好Claude 3.5出了，于是就转到Claude那边去。再后来，Claude大面积封号，我三个号都被挂了，于是“逃难”到Gemini，也充了值。

这次2.0的更新，我这几天用下来非常非常满意。不管是哪个版本，都做到了性能、稳定、速度以及价格的平衡。在桌面端用网页版，Pro、Flash和Flash Thinking都有。在手机上就用官方的APP，可以选Pro或者Flash。

只要谷歌那边别出什么幺蛾子，在下一次模型大更新之前，Gemini都会继续是我的日常主力。

我知道，用国外这些产品得跨过好几道门槛。但是，这些门槛其实也帮你筛掉了很多很多人。只要你花点时间、花点钱跨过去了，你就取得巨大领先了。还是那句话：

AI不会替代你，用AI的人，尤其是用先进AI的人才会。

OK，以上就是本期内容。想进一步了解AI，就来我们newtype社群。那咱们下期见！

GraphRAG：很好，但很贵！ 2024-08-31

Key Takeaway

GraphRAG是微软开源的结合知识图谱的检索增强生成技术，旨在提升AI知识库的精确度，解决传统RAG无法捕捉实体复杂关系和层次结构的局限。
GraphRAG通过提取实体及其关系，构建庞大的知识图谱，从而实现“全局性”优势。
部署GraphRAG需要安装相关库、创建目录、存入文档、初始化项目、配置API Key和模型参数，并创建索引。
GraphRAG在处理复杂查询时表现出色，但目前使用GPT-4的成本较高，且本地大模型运行存在速度慢和报错问题。
微软开源GraphRAG旨在借助社区力量优化其速度和成本，以实现更广泛的应用。

Full Content

微软最近开源了GraphRAG。这是一项结合了知识图谱的检索增强生成技术。简单来说就是，它可以显著提升AI知识库的性能，让AI能根据你提出的文档，更准确地回答你提出的复杂问题。

本期视频，咱们来聊一下，为什么需要GraphRAG，以及现阶段需要付出多少代价。真的，这成本高得吓人。

关于AI知识库，在我们社群里，经常有小伙伴抱怨：精确度不够，AI总答不到点上。这个问题的根源之一，是传统RAG的局限性。

当我们用这套技术搭建知识库的时候，整个索引、检索是基于文本块的。简单来说就是，我们把一个大文档切碎了，变成一个个比较小的文本块；当有请求过来的时候，就根据请求去寻找哪些文本块是最相关、最匹配的；最后，把找到的文本块作为参考资料，连同请求一起给到大模型。

这套技术有两个局限：

第一，它没法有效捕捉实体之间的复杂关系和层次结构。

第二，它通常只能检索固定数量的、最相关的文本块。

这两点一结合，也就导致了传统RAG在面对复杂查询的时候特别吃力。比如，你给它一本小说，问它“这本书的主旨是什么”，那十有八九是给不出靠谱答案的。

为了补上传统RAG的短板，微软推出并且开源了GraphRAG。

就像我前几天在newtype社群里说的，这个技术的核心就一个关键词：全局性。

GraphRAG在对数据集建立索引的时候，会做两件事：

第一，提取实体（Entity）。

第二，提取实体之间的关系（Relationship）。

从视觉上看，这些实体就是一个个点；而有关联的两个实体用线连起来。于是，一张庞大的知识图谱就形成了——这就是它名字里Graph的来源，也是这套技术的聪明之处。

因为，要表达复杂关系，一个非常有效的手段就是，用图谱的方式来处理。大家可以回想一下之前看到的侦探片、警匪片，是不是经常会看到一整面墙的线索板。这其实就是用最直观的图谱方式来表示复杂关系，跟咱们今天聊的主题是一个意思。

因为采用知识图谱，所以GraphRAG能够把握复杂的、细微的数据关系，所以它才能构建一种全局性的优势，从而提升RAG的精确度。

OK，Why讲完了，咱们来说说How，也就是如何使用。

我建议大家都按照官方给的新手教学跑一遍。其实就几行命令，我在Mac上很顺利，没遇到任何报错。

第一步，pip install graphrag，这是就不用说了，很常规。要下载的东西挺多的，大家耐心等等。

第二步，创建目录，名字叫ragtest，并且在这个目录下边创建文件夹，名字叫input。

第三步，在文件夹中存入文档。官方给的Sample文档是查尔斯·狄更斯的《圣诞颂歌》。下载好之后，放到刚才创建好的input文件夹里，并且命名为book.txt。

第四步，初始化整个项目。这时我们会看到多了几个文件。其中最重要的文件是这两个：

一个是.env文件，在里边填入OpenAI的API Key。

另一个是settings.yaml，用来设置encoding和embedding所需要的模型和各种参数。你如果要用本地大模型的话，就在这边设置，我待会儿会演示。

第五步，一切准备妥当之后，就可以创建索引了。这个过程会比较慢，我等了好几分钟。

第六步，可以正式进行问答了。就像前边说的，GraphRAG的强项在于“全局性”。所以作为测试，问题自然是“这个故事的主旨是什么”。

当请求提出之后，我们会看到，GraphRAG根据settings这个文件里的配置要求，比如使用什么模型、最大token多少，开始处理请求和输出。

最终结果挺不错的。要知道，这是一部将近200页的小说。如果不是通过构建全局知识图谱的方式，是搞不定这样的问题的。

但是，一切都是有成本的。就这么一本小说，使用GPT-4创建索引、进行一次问答，居然花了我11美元！

之所以会这么贵是因为，为了搞定这个文档，GraphRAG发起了449次API Request去调用GPT-4。相比之下，嵌入模型才19次。

这个价格真的高得离谱了。即便它降到1美元也还是贵——我传个稍微大一点的文档，一杯瑞幸就没了。

所以，大家关心的问题就来了：如果改用本地大模型会怎么样？

在设置方面完全没问题。比如，我在PC上用LM Studio同时运行Llama 3和nomic embed。在settings文件里，把API Key改成lm-studio——其实用不上，就是满足一下格式需要；把API Base改成localhost:1234/v1（如果是Ollama的话，就是11434）;最后把模型名字填上就行。下面的嵌入模型也是这么填。

保存之后，按同样的流程走一遍。这时候，我遇到了两个问题：

第一，提取实体的过程非常漫长。我等了得有20分钟。而之前用OpenAI的模型，几分钟就完事儿了。这个时间上的差别应该是模型性能上的差别造成的。毕竟体量摆在那里，我在本地跑的Llama 3才8B，跟GPT-4差太多了。

第二，好不容易提取完毕，到了嵌入环节的时候，总是报错，根本推进不下去。我试过把嵌入模型换回OpenAI的，还是不行，最多嵌入到70%多又报错。我搞了一晚上，实在没功夫一直耗下去，只能放弃。

其实即使不报错，一个大文档要处理半个多小时，在实际使用过程中也是不能接受的。

我猜这就是微软开源GraphRAG的原因，想要依靠社群的力量去优化它。毕竟现在这个速度和成本，生成的答案效果再好也是亏本的。

OK，以上就是本期内容。大家想找我交流的话，就来newtype社群，我都在。那咱们下期见！

HuggingChat：用最先进的开源模型，挑战ChatGPT 2024-08-31

Key Takeaway

HuggingChat是一款免费体验最先进开源大模型的应用，提供网页版、iOS版和macOS版，设计简洁。
HuggingChat的核心主张是让所有人都能用上Hugging Face社区最好的模型，并会不定期更新模型列表。
作者日常高频使用问答引擎Perplexity和Chatbot Claude，但HuggingChat因其轻量化和便捷性成为日常碎片化需求的承接工具。
HuggingChat通过快捷键呼出对话框，并优先提升回复速度，Web Search功能需手动开启。
HuggingChat还提供Tools功能，其中Flux图像生成工具能满足轻量级图像生成需求。
文章认为开源模型的性能已追平闭源，开源社区在开发应用方面更具优势。

Full Content

想要免费体验最先进的开源大模型，我推荐大家试试HuggingChat。

这款应用之前有网页版和iOS版。前些天，macOS版推出，在产品设计上还挺有心思的。我特别认同他们这种简洁的设计思路。

macOS版的HuggingChat不像别的APP那样，有一个很重的前端。当按下Command、Shift和回车三个默认的快捷键之后，才会出现一个极简的对话窗口，很像macOS的聚集搜索框。这时我们可以跟跑在云端的大模型对话。

如果要更换模型，点左边的加号进入设置，把模型从初始的Llama 3.1 70B改成国产的Qwen 2.5 72B。这些模型不是固定的，会不定期更新。因为HuggingChat的主张是：

让所有人都能用上来自Hugging Face社区的最好的模型。

这也说明了，Qwen 2.5和Llama 3.1、Command R+等模型一样，成为公认的、当下最好的开源大模型。Qwen确实是国产之光！

哈喽各位好，欢迎来到我的频道。我是国内少有的、能把AI的Why和How讲明白的博主。记得点一波关注，绝对不亏。如果想链接我，就来newtype社群，已经有500多位小伙伴付费加入啦。

回到今天的主题：HuggingChat。我每天都会高频使用的AI工具有两类：

一是问答引擎。目前世界上最好的问答引擎是Perplexity，这个没有之一，没得挑。但是光有它还不够，因为有很多东西是搜不到的。而且我也经常需要AI提供更多的角度，或者完善我的思路。

于是就有了第二类工具——Chatbot。目前我最满意的是Claude。它不只是模型能力比GPT-4更强，在功能体验上也比ChatGPT要好得多。Artifacts真的非常棒，绝对值回票价。我推荐给好多人了，用过都说好。

不过，对于咱们这些国内用户来说，Perplexity和Claude麻烦的地方就在于，隔段时间就要刷新页面、点一下验证。你别小看就这么一点点的麻烦——当你想用却被打断的时候，会很影响体验。

所以，当这种不方便久了之后，我都是有稍微严肃一点的任务的时候才去用它俩。日常大量的、碎片化的需求，需要有一个轻量化的、拿起来就能用的AI工具来承接——这就是我看上macOS版HuggingChat的原因。

平时隐藏在后边，要用的时候通过快捷键呼出对话框，这种看似不争的做法，其实是想抢AI终端的第一入口。为了实现这个野心，HuggingChat做了大量减法，甚至连上网搜索功能都要手动开启。

在设置里边有个Web Search，把它勾选上之后，模型就会上网搜索了。不过代价就是，回复的速度要慢一些，因为多了搜索和RAG的过程。我猜，这就是上网搜索功能没有默认开启的原因。

尽一切可能把回复速度提上来，这个优先级绝对高于任何其它功能。

如果用户有更重的需求，没问题，在桌面端用网页版，在移动端用iOS版。打开之后你就会发现，ChatGPT里的GPTs它也有，叫Assitants。不过大部分都没啥用啦，跟GPTs一样。

真正有生产力的，是Tools，工具。我用得最多的，是Flux图像生成。

我在前两期视频里介绍过Flux模型。它是SD团队出来做的，是目前世界上最先进的图像生成模型。第一，Flux生成的图像，无论是真实程度还是审美水平都超过别的模型。第二，Flux还能实现精准控制，比如它能在图像上准确生成文字。

Flux有三个版本，其中两个开源。这个工具所用的Flux dev，就是开源版本中性能最强的那一个。当我有一些轻量级的图像生成需求的时候就会用到它。比如生成一个文章配图。由于Flux本身能力强，这种任务对它来说很简单。实在不行就抽几次卡，也能搞定。

有了macOS版之后，加上之前已经在用的iOS版和网页版，我突然发现，HuggingChat已经悄悄成为我使用最频繁的AI工具了。开源模型的性能已经追平闭源。至于开发应用，大家水平都一样。甚至我会觉得开源社区更有优势，因为他们不用考虑什么生态啊、护城河之类的，没那么多包袱，可以放开手脚干。

OK，以上就是本期内容。想交流和学习AI，来newtype社群。那咱们下期见！

LLM = OS 2024-08-31

Key Takeaway

大模型被视为凌驾于所有操作系统之上的“操作系统”，具备内存管理（上下文长度）、文件系统（对话历史、知识库）、驱动程序（Function Call）和用户界面（自然语言交互）等组成部分。
OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级，如提升上下文长度、Function Call能力、记忆功能和自然语言交互速度。
大模型的“操作系统”化将导致其“吃掉”大量应用赛道，对创业者而言，生存空间将受到挤压。
文章通过phidata项目示例，展示了Agent、RAG和GPT-4o如何组装成简易操作系统。

Full Content

为什么所有互联网巨头都要搞大模型？

因为大模型是凌驾于所有操作系统之上的操作系统。

你以为你的产品体验足够好，但再好也得用户自己动手。大模型会让绝大多数用户第一次体验到使唤别人的快感。

你以为你的技术护城河够深了，但再深也只是二维的。在大模型这种更高维度的、飞在天上的技术面前，地上的护城河、边界这种东西是特别可笑的。

大模型就是指环王里的至尊魔戒：One ring rules all。

既然是操作系统，那就得有操作系统该有的组成部分。

第一，内存管理。对大模型来说，就是上下文长度。目前主流的内存容量已经从最早的KB到MB，再到以DDR为代表的GB时代。而大模型上下文长度也在飞速提升，现在动不动就200K。

第二，文件系统。对大模型来说，文件系统包含两部分：一个是对话历史记录。没有这个，大模型就记不得你，也不可能成为你的私人助手。另一个是知识库，这个大家都明白。

第三，驱动程序。对于计算机来说，驱动程序是用来控制硬件设备工作的。对大模型来说，驱动程序就是Function Call，函数调用，让大模型能跟现有的操作系统、各种软件和在线服务连接。

第四，用户界面。从最早的命令交互到后来的图形交互，它们都是基于键盘和鼠标做的交互设计。结果大模型一来就是掀桌子，通过自然语言交互就行，甚至还能察言观色。相比文字输入，通过语音和表情，大模型能获得的信息丰富得多了。

刚才说的那些都是我自己总结的理论，之前在知识星球newtype里分享过。而且我发现，OpenAI跟我想的一样——他们就是在按照操作系统的逻辑对GPT和ChatGPT进行更新和升级。

上下文长度不用说了，从GPT-3.5到GPT-4 Turbo，从4K、16K、32K、128K，现在日常使用基本不会再担心长度的问题。

Function Call也不用说了，GPT-4在这方面属于遥遥领先级别。

历史聊天记录方面，2月新出的记忆功能，可以让ChatGPT记住用户希望它记住的东西，比如个人偏好等等。

自然语言交互方面，最新的GPT-4o大家都看到了，反馈速度已经非常快了。据说可以在0.23秒内响应音频输入，接近人类的水平。

你看，OpenAI的野心就是操作系统级别的。而GPT-4o登陆iPhone绝对会是一个里程碑事件。

有同样想法的，不只是OpenAI，我相信这一定会成为行业共识和行动方向。一些开发者已经在这么做了，比如phidata。他们把Agent、RAG和GPT-4o组装在一起，变成一个简易的操作系统。

你可以把你想添加的内容喂给GPT，比如网页或者PDF文档。

你可以问GPT任何最新的事件，它可以联网帮你搜索。

你可以让GPT当你的投资顾问，让它帮你分析，英伟达的股票还值不值得买。

想体验这个项目，非常简单，有手就行。

第一步，把包含所有文件的压缩包下载下来，解压缩。

第二步，创建一个虚拟环境。比如可以用conda创建并激活，两行代码搞定。

第三步，安装需要的Library，记得一定按照这个txt安装，别自己瞎搞，到时版本有冲突就跑不起来了。

第四步，把OpenAI和EXA的API Key通过export这行命令提供给系统。

第五步，打开docker，安装PgVector。

第六步，通过Streamlit把这些代码变成APP跑起来，打开一个本地链接，就能看到刚才演示过的界面和功能了。

这些功能，在几个月前都是单独的一个个项目。比如，RAG是RAG，Agent是Agent。最近一个月，我发现大家突然开始做集成了。

这个背后，既是技术在进步，也是大家的认知在迭代。从我的知识星球里的内容就能看得出来：

最开始大家都是问我本地大模型、知识库的东西，现在问Agent也多起来了。整个水位、大家的水平在提升。

而且我有一个感觉，或者说粗略的判断：

既然大模型属于中心化极强的操作系统，那么它一定会吃掉很多很多应用赛道。对于创业者来说，也许只能等这头怪兽吃得差不多了，才能分到一杯羹。

所以，不着急出手。

OK，以上就是本期内容。咱们下期见！

M4 Mac mini作为轻量级AI服务器，太香了！ 2024-08-31

Key Takeaway

M4 Mac mini是轻量级AI服务器的理想选择，功耗低且性能出色，能满足本地运行大模型的需求。
Ollama是本地运行大模型的优秀工具，支持多种模型和精度，可通过设置实现模型常驻内存，达到“随叫随到”的效果。
通过修改Ollama的监听地址，可实现局域网内其他设备（如手机）访问本地大模型。
Enchanted是iOS上连接Ollama的简洁、流畅的APP，适合移动端使用。
文章强调了本地部署开源大模型在解决云端服务不稳定、费用高昂等问题上的优势。

Full Content

我宣布，M4 Mac mini就是我个人的年度最佳数码产品。真的，太香了！

我这台24G内存加512G SSD的机子是在闲鱼上下单的。店家跑澳门帮我代购，然后顺丰寄到北京。全部加起来，7千块。我对比了一下国行官网的价格，发现居然便宜了500块。

也就是说，如果买国行，花更多钱，还买的是“阉割版”。这是什么道理？我真的不明白。

拿到Mac mini之后，我安装的第一个软件是Ollama，然后下载Qwen 2.5。因为我一直想实现这样一个场景：

一台足够给力、又足够冷静的机子作为服务器跑本地大模型，然后供给给局域网内的所有设备使用，比如手机。

之前我一直用这台PC跑大模型。但是那个功耗和噪音，我真的不敢一直开着。虽然理性告诉我，消耗不了多少，但心里就是不踏实。于是，M4版Mac mini终于实现我的设想。

现在只要我在家里，通过手机就能用上本地大模型。不知道为什么，我发现这种Self-hosting的方式有一种莫名的快感。跟用别人的服务完全不一样的体验。

在外边其实也可以连接家里的Mac mini，用我之前介绍过的ngrok就行，做个内网穿透。不过这么搞的话，速度就慢下来了，还是算了。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有600多位小伙伴付费加入啦！

回到今天的主题：在M4 Mac mini上运行大模型。

我准备在春节之前做一次升级，目标是彻底解决日常使用AI的问题。现在不管是ChatGPT还是Claude，在国内用总是不让人放心。比如封号的问题就完全不可控。一旦用不了就傻眼了。用M4 Mac mini作为轻量级的服务器跑大模型，算是我第一个尝试。

我们先来做个简单的测试，看看这台24G统一内存的机子能跑什么尺寸的大模型。标准很简单，就是每秒能吐出多少个Token。

测试工具用的是Ollama。把Verbose打开，就能看到运行的速度。

模型方面，我下了7b、14b两个尺寸，包括Q4和Q8两种精度，一共4个模型。32b就不用想了，肯定跑不了，都不用测。

在Q4精度下，7b的生成速度大概在每秒20个Token的样子，特别流畅丝滑。而14b大概是11个Token的水平。

我自己的直观感受是，11的速度基本是能接受的底线，再低肯定不行。到20的话，就算流畅。

我们再来看Q8的速度。在这个精度下，7b速度降到了大概每秒13个Token的水平。而14b就更低了。

所以，综合来看，M4芯片加24G统一内存，我个人选择是跑Q4精度、14b的模型。它的速度我能接受，而且答案的完整程度明显比7b更好。我试过让它挂着跑半小时以上，基本就是温热的程度，比较让我放心。

OK，模型选定了，但是还没完——Ollama还需要做一些设置。

在初始状态下，如果闲置五分钟的话，Ollama就会自动把模型都释放了。这意味着，如果我们突然有了需求、需要对话的话，又得等Ollama加载模型——这个就很不爽了，对吧？

所以，我们要做的第一个设置是，把OLLAMA_KEEP_ALIVE设为-1。这样一来，它就不会自动释放内存，才能达到随时响应的目的。

第二个是关于网络的设置。这个是我问Cursor学来的。

在初始状态下，Ollama只监听Localhost。要让局域网内的其他设备，比如手机也能访问Ollama，需要修改它的监听地址。

在终端里输入这一行命令：OLLAMA_HOST=“0.0.0.0:11434” ollama serve

0.0.0.0指的是让Ollama监听所有网络接口。不管活儿从哪来，都接。11434是它默认的端口，没必要改动。这么改动之后，手机、Pad这些设备都可以通过局域网IP地址接入Ollama。

那么，最后一个问题来了：在移动端用什么APP去连接Ollama？

在桌面端有太多选择了，比如经典的Open WebUI，还有Obsidian的一堆AI插件都支持。在iPhone上，我个人的选择是Enchanted，三个原因：

第一，这款APP特别简洁，就是纯对话，文字或者语音都可以。没有那些杂七杂八的功能，所以特别符合我的需求。

第二，它就是iOS原生的那种丝滑。要长期使用的话，这种体验很重要。

第三，Enchanted支持Ollama。把地址和端口填进去就可以用了，非常方便。当然，也是因为它只支持Ollama，所以我没选LM Studio。

今天的开源大模型已经足够强。量化版本就能满足平时对话的需求。搭配M4 Mac mini真的很舒服。强烈建议大家搞一套试一试。

OK，以上就是本期内容。想聊AI，就来我们newtype社群。那咱们下期见！

Mac跑大模型，首选LM Studio 2024-08-31

Key Takeaway

LM Studio是Mac上运行大模型的首选工具，尤其支持为M系列芯片优化的模型文件，显著提升运行速度。
LM Studio新增对苹果MLX框架的支持，该框架专为M系列芯片优化，能高效部署和运行模型。
文章通过对比演示，展示了优化版模型在M2芯片Macbook Air上运行速度的优势。
苹果在AI领域已迎头赶上，其硬件（统一内存架构）和MLX框架为AI终端提供了强大支持。
LM Studio正从后端工具向前端应用发展，预示着AI应用将进入大混战阶段。

Full Content

如果你用的是M系列芯片的苹果电脑，想要在机子上跑大模型，那么我强烈推荐你用LM Studio。因为它支持专门为M系列芯片优化过的模型文件，运行速度快了不止一点。

我用手里这台M2芯片的Macbook Air做了一个简单的对比。同一款大模型，同样的需求，左边是优化版，右边是咱们之前常用的GGUF版。肉眼可见，左边的速度快多了。从每秒token生成的速度来看，优化版的模型快了一倍。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注，只要有一个视频你看进去了，就赚大了。如果想链接我，就来newtype社群。已经有500多位小伙伴付费加入啦！

回到今天的主题：LM Studio。

在本地运行大模型的工具中，LM Studio和Ollama是最受欢迎的两款。在最近这一次的更新中，LM Studio新增了对MLX的支持。

这个拗口的MLX，是苹果公司开源的一个机器学习框架，专门为M系列芯片做了优化，比如采用了统一内存模型、对应统一内存架构。所以，使用这个框架就可以非常高效地部署和运行模型。

MLX去年12月才开源，还很新，但是在社区支持下发展很快，主流模型都有对应的版本。在最新版本的LM Studio中也特意做了标注和筛选，方便苹果用户下载。

如果你之前没安装过LM Studio，可以到官网下载对应的版本。安装完毕之后，打开软件，左边栏是它的主要功能页面，包括聊天模式、服务器模式、查看已有模型等等。进入发现页面，就可以搜索和下载模型了。

就像刚才说的，LM Studio把MLX版的模型专门标注出来了，大家在列表里很容易找到。它默认是推荐Staff Pick也就是官方推荐的模型，如果你想要更多，那就选择Hugging Face，会把所有模型都列出来。

不同量化版本的模型，体积不一样，大家根据配置和需求选择。如果下载不动，那大概率是网络原因，这个就只能各自想办法了。

等模型文件下载好了，咱们就可以在聊天模式里加载它。LM Studio提供了各种设置，我这边就用默认的。

为了做这个不严谨的对比，主要是为了给大家一个直观的感受，我让AI帮我写一个贪吃蛇的Python游戏。由于还开着录屏，所以对速度会有影响。不过即使在这种情况下，优化版模型跑起来还是很流畅的。你再看普通版的情况，这差得也太多了。

之前很多人抨击苹果在AI方面落后了，国内媒体也老写小作文。但是，你如果真的有在关注的话就知道，苹果现在绝对已经赶上来了。他们在硬件上的积累远超那些PC厂商。

我之前在社群专属视频里就讲过苹果的自研模型，遥遥领先隔壁安卓厂商。在桌面端，有了MLX框架，就能发挥出统一内存架构的最大优势：

CPU和GPU可以直接访问共享内存中的数据，不需要进行数据传输。小规模操作用CPU搞定。遇到计算密集型的需求再上GPU。

硬件层、系统层、应用层一体化，这才是AI终端该有的样子。这也是我选择在这个时间点做一次大升级：把我用了这么多年的mini换成iPhone 16 Pro——我准备11月托朋友代购个港版，以及M4版Macbook Pro出来后，买个16寸顶配。到时我会给大家分享一系列的使用体验。

最后，one more thing。如果大家一直在用AI软件就会发现，最近有一大波密集更新。各家都在扩张自己的势力范围。比如咱们今天聊的LM Studio，以前它只是一个偏后端的软件，帮你在本地跑跑大模型。现在，它把聊天模式往前提了，添加了RAG功能。这种主动从后端走向前端的打法会逐渐成为各家的共同选择。AI应用大混战的阶段要来了。

OK，以上就是本期内容。想进一步交流AI，来我们newtype社群。那咱们下期见！