DeepSeek

7G显存，训练你自己的DeepSeek-R1 2024-08-31

Key Takeaway

Unsloth框架显著降低了微调大模型的门槛，仅需7G显存即可微调1.5B模型，消费级PC也能实现。
DeepSeek的GRPO强化学习算法能提升模型推理能力和可解释性。
微调技术可用于打造个人AI分身和私域模型，实现本地化、无需联网的AI交互。
高质量数据集和超参数调整是微调成功的关键，但需要大量实践。
文章强调了本地部署小尺寸模型在移动端的潜力和价值。

Full Content

用DeepSeek的方法做微调，可以显著提升传统模型的思考能力。

这是我训练好的模型文件，已经传到Hugging Face上了，大家自取。它是基于Qwen2.5 3B，通过微调加强了数学能力，最后生成了Q4、Q5和Q8三个版本。咱们来对比一下Q4精度的效果。我问一个经典问题：

9.9和9.11这两个数字，哪个更大？

先来看原版的回答。不仅答案错了，而且给的理由也是完全混乱的——什么叫“小数部分相同，唯一的区别在于十分位”，简直胡说八道嘛。

再来看微调版本。这就正常了。整数部分一样，那就比较小数部分。很自然就得出9.9比9.11更大。

这套东西不是我搞出来的，而是Unsloth的成果。他们前些天发了一篇博客，介绍了方法，还给出了代码。简单来说，Unsloth这套东西实现了两点：

第一，微调门槛下降。像1.5B之类的小尺寸模型，只需要7G显存就可以微调。而7B、14B这种，15G显存就OK。也就是说，用消费级的PC就能微调。如果是用云端的算力，像我用Google Colab的T4 GPU，花了一个小时就顺利完成。

第二，模型能力提升。GRPO是一种强化学习算法，是DeepSeek发明并开源出来的。用这套算法和数据集，能够训练出具备更强推理能力和更好可解释性的模型。现在Unsloth把它应用到微调里边，想象空间一下就出来了。举个例子：

私域模型。

一个商业博主，有自己的方法论，也有很多交付案例。他把过往积累下来的东西整理成数据集，包含问题、答案以及解题步骤。然后用Unsloth这套东西去微调，生成3B的模型。最后，把模型文件给到他的用户，不管是免费还是收费都可以。

用户拿到之后，用我上上期介绍的方法在手机上使用。这意味着，用户可以随时随地、不需要联网地跟这位博主的AI分身交流。

对自媒体来说，以前只有在你发视频、发文章的时候，或者你在群里说话的时候，你的粉丝、用户才能接收到你的信息。现在，有了这个方法，他们可以无限制地被你这个IP影响。

之前我分享手机上跑模型的方法，一堆人喷我说没意义、没价值。说句扎心的话：眼界太浅，活该挣不着钱。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有800多位小伙伴付费加入啦！

回到今天的主题：用强化学习算法，微调模型。

在介绍Unsloth的工具之前，我还是得先把基本概念用一种通俗易懂的方式讲给你们听。可能不是很严谨，但是包懂。

以前搞强化学习，需要准备大量包含解题步骤的高质量数据，以及非常精确、绝对的奖励函数。然后大力出奇迹，硬生生把模型给培训出来。

后来DeepSeek发现，其实不需要那么高的成本，搞得那么费劲——可以把奖励函数弄得更灵活一些嘛。针对每一个问题，它让模型生成一组答案。然后看这一组答案里边，哪个答案相对好一些，从而给出奖励。

传统方法，比较像我们以前在学校里接受的填鸭式教学，靠着记忆力去刷题，想要蒙混过关。但是，这种搞法，知其然而不知其所以然，所以最后还是个渣渣。而DeepSeek的方法则是反复思考解题步骤，最后不仅知其然而且还知其所以然。于是，模型“顿悟”了，学霸诞生了。

如果还是不太明白，那我再打个比方。传统方法训狗，需要明确定义每个动作，并且给每个动作都设计奖励。只有当狗完全按照指令完成动作时，才能获得奖励。

而DeepSeek的方法是，一个动作让狗做三次。在三次当中，相对较好的那一次获得奖励。然后不断重复这个过程。

大家如果有养狗经历就知道，用DeepSeek的这种训练方法，主人轻松，狗子开心，效果也好。

DeepSeek很大方地分享出来之后，Unsloth就拿来用了。不过在使用之前，有一些限制需要跟大家说清楚：

你拿来微调的模型不能太小了，至少也得有1.5B，不然没法正确生成思考标记。这是我选择用3B尺寸的原因，既符合训练的要求，也能在手机上运行。另外，步数至少要300步，奖励才会真正增加。为了达到良好的效果，建议至少训练12个小时。

在官方给的示例当中，用的数据集是GSM8K。它包含了8500个高质量的小学数学文字题。每个问题需要2到8个步骤才能解决。而且，这个数据集里的解题方法是用自然语言编写，而非纯粹的数学表达式。所以，用它来训练，能够提升模型的多步骤数学推理。

类似GSM8K的数据集还有好几个，比如MATH Dataset、MathQA等等。我建议大家先别着急就导入自己的数据集，可以拿这些练练手。因为，换了数据集之后，由于格式不同、特点不同，奖励函数可能需要做相应的调整。

另外，超参数的调整也需要大量实践。比如：

学习率，用来控制模型学习的速度。设得太高，模型可能学得太快，错过最优解；设得太低，模型可能学得太慢，浪费时间。

Batch size，指的是每次喂给模型的数据量。设得太大，可能会导致内存不足；设得太小，可能导致模型学习不稳定。

微调和RAG一样，都是看起来简单，但真要获得好的效果，需要大量调试。而且这东西没法教，只能“干中学”。但是，有门槛是好事。只要跨过去了，就能甩开一大堆人。

所以，我在Google Colab上买了一些计算单元，这段时间会做各种测试。至于数据集，我突然想到，过去一年我在星球里回答了好多好多问题。这些问题都可以做转换，比如让模型帮我批量处理，然后放进数据集里。

通过微调打造AI分身、训练私域模型的想法，在我去年做Llamafile那期视频的时候就出现了。现在可能性越来越大了。等有进展了，我会在社群里说。

OK，以上就是本期内容。想了解AI，来我们newtype社群。那咱们下期见！

DeepSeek新模型太适合MCP了！ 2024-08-31

Key Takeaway

DeepSeek新模型V3 0324在MCP调用方面表现出色，性价比极高，性能接近Claude-3.7 Sonnet。
DeepSeek模型具备清晰的思考和规划能力，能将用户需求拆解为明确任务，并判断所需工具。
DeepSeek在工具调用能力上显著提升，结合其成本优势，将推动MCP的进一步普及。
文章预测Agent发展趋势将从任务编排模式转向模型自由发挥，以超强模型为核心，搭配海量原子化工具。
DeepSeek的进步，加上MCP协议，预示着AI行业将迎来飞速发展。

Full Content

DeepSeek新出的模型V3 0324可能是跑MCP性价比最高的模型。它在性能上接近Claude-3.7 Sonnet，调用MCP很丝滑，但是成本却低了非常非常多，真的是白菜价了。我给你们看一下就明白了。

这个是我目前用得最多的MCP客户端Cline。DeepSeek最新模型，它已经支持了。我这边选的是付费版。平台虽然也提供免费版，但是不建议用。我前边试过了，速度太慢，而且步骤一多就容易中断，就挺闹心的。所以咱还是老老实实花钱吧。

我的需求很简单：谷歌发布Gemini 2.5模型。这是他们的官方博客。我让DeepSeek帮我把内容扒下来，翻译成中文，并且在开头加上总结，最后存进文档里。

你看，DeepSeek先做了四步规划：

第一，把用户需求拆成明确的任务；

第二，判断需要用哪些工具，包括Tavily MCP里的提取工具，以及写入文件的工具；

第三，当前的环境是，文件已经存在，用户也允许直接进行操作；

第四，给自己设定执行步骤。

这个就是AI比人类强的地方。你想嘛，有几个人能做到这么清晰思考和规划的？

整个过程花了两三分钟，我就不具体展示了。当文档写入完成后，整个任务结束，一共花了0.0358美金。

接下来，咱们加点难度。我让它调用两个MCP：一个是Sequential-thinking，步骤尽可能多。另一个是Tavily，负责联网搜索资料。每一步思考之前，都要搜一次资料，再结合搜到的内容思考。

像这种需求就特别考验模型。因为它既要懂得拆解问题，还得根据实际搜到的信息随时调整思考方向，以及下一步需要搜什么，而且还要频繁调用MCP、不能出错。

我建议大家看完视频也这么去测试，不管是测试模型还是测试客户端都可以。然后你就知道该怎么选了。

咱们回到DeepSeek这边。整个推理过程花了三分多种。DeepSeek一共做了六步思考，最终给出了答案。但是我觉得下边的要点还不够详细，于是让它进一步完善。最终，花了0.039美金，DeepSeek完成了这个回答。

通过这两个例子可以看出，DeepSeek新版本模型在使用MCP方面已经没问题了，而且价格很低。说实话，我这段时间用Claude跑MCP，已经在API上花了十几美金了。日常高频使用的话，真的会肉痛。

高性价比，就是我推荐DeepSeek的原因。官方在公众号文章里介绍了这次小版本升级。模型能力提升包括这几个方面，比如推理任务表现提高、前端开发能力增强、中文写作升级，等等。

其实我最看中的，以及我认为最重要的，是工具调用能力的提升。还是之前说过的逻辑：

AI发展的两条路径，一是获取更多信息，二是调用更多工具。

如果只能处理文本，搞不了多模态，那么AI的世界就是黑白的。这是我看好Gemini的原因。

如果只局限于推理，用不了更多工具，那么AI就只有大脑、没有手脚。这是我看好Claude的原因。

现在DeepSeek终于把工具调用能力提升上来了，叠加它本来就很强的成本优势，肯定能推动MCP进一步普及。

最后，说一下我对今年Agent发展的判断：

以Dify、Coze为代表的任务编排模式会逐渐被取代。这种做法虽然精确度高，但是太费人力，门槛也很高，而且非常限制模型的发挥，所以只适合企业生产环境。

我认为，最优解一定是：人类只需要设定起点，也就是Context、上下文，以及终点，也就是目标。在起点和终点之间一切，都交给模型自由发挥。

一个超强的模型作为单核，搭配海量、原子化的工具，就是AI行业今年发展的重点。

现在，我们已经有Claude和DeepSeek这样的模型了，也有MCP这样的中间层协议了。万事俱备，一切都将飞速展开。

OK，以上就是本期内容。想了解AI，来我们newtype社群。那咱们下期见！

手机也能本地部署DeepSeek R1 2024-08-31

Key Takeaway

DeepSeek R1模型可以在手机等本地设备上部署运行，PocketPal AI等免费APP支持。
本地部署AI模型具有运行稳定、速度快、免费、模型选择丰富、使用自由和数据隐私安全等优势，是AI普及的趋势。
DeepSeek R1的发布对AI行业是重大利好，推动了AI普及，促进了模型厂商的竞争，并引发了对算力使用和开源模型价值的反思。
在桌面端，Ollama是本地部署大模型的最佳工具，支持多种开源模型，并可与Open WebUI等前端工具结合。
移动端本地部署主要选择1.5B等小尺寸模型，未来随着技术发展，移动端AI能力将更强。

Full Content

使用DeepSeek R1，不一定非要通过官方的APP。在本地运行也可以。甚至，在手机上。

我手里这台是iPhone 12 mini，已经老得不能再老了，我一直没舍得换。结果它居然也能跑R1，这让我非常惊讶。

我用的是PocketPal AI这款免费APP，之前在社群里推荐过。下载的是1.5B、Q4精度的模型文件，生成挺流畅的。你看，跟官方APP里的表现一样，也是先给出思考过程，然后再给出结果。在Benchmark页面进行测试，可以看到详细的数值：每秒有大概20个Token；峰值内存占用大概是33%。

如果是新一点的iPhone，那么可以下载更高的精度，获得更好的效果。比如我用我老婆这台iPhone 14做了测试。它最高可以跑Q8精度，每秒输出16个Token。再高就没反应了，比如FP16。

说实话，比起DeepSeek R1 1.5B，我个人更喜欢Qwen2.5 1.5B。R1的思考过程太啰嗦，而且最终的结果不见得有质的提升。Anyway，大家根据自己的情况和偏好选择就好。今天还不存在某一个模型会显著超过其它模型。而且我觉得好的模型，对你不一定适用。

另外，我知道这个视频发出去之后，肯定又会有人质疑本地部署的必要性。每次我发这类视频都会被喷。所以在这边我统一回复一下。

老网友应该有印象，在很多年前，谷歌推出Chromebook，一个上网本。它的办公软件都是网页版的应用，谷歌全家桶。按照那些人的逻辑，这就够了啊？为什么还要本地版的Office全家桶呢？结果市场给出了选择。

AI在端侧的落地也一样。如果都依赖云端算力，AI绝对不可能普及。比如，需要网络接入；用的人多了可能要排队；还有莫名其妙的降智和懒惰情况。这些都会限制我们使用AI。此外还有隐私和数据安全的问题。

所以，依靠端侧算力，在移动端运行1.5B或者3B的模型，在桌面端运行7B或者14B的模型，一定是未来一两年的发展趋势。

对超级个人来说，拥有更多算力，就能跑更强大的模型。知道每种设备使用AI的方法，就能更自由地接入AI。这些组合在一起，就能让你在那些普通人面前获得Unfair Advantage。

回到今天的主题：在端侧部署DeepSeek R1。

过年这段时间特别热闹。年前先是川普发币。看起来很不合理，但仔细想想也没啥毛病。人家要干碎一切，发个币算什么？

这一波过去没多久，DeepSeek来了，闹了一整个假期。我的观点很简单：这对所有人来说，都是重大利好。

第一，一款免费且开源、支持深度思考和联网搜索、具备最强中文能力的模型，能让更多的普通用户用上AI。

我在朋友圈里看到，好多之前基本不用AI的小伙伴，这次都用DeepSeek了。前几天跟亲戚聚餐，一位阿姨居然也主动聊起DeepSeek，还向我安利他们的APP，非要我下载体验一下。

能普及AI，就是功德无量的事儿。

第二，R1推出之后，业内都在各种反思。比如，之前对算力的使用是不是过于粗放了，等等。同时也给那些闭源厂商更多紧迫感，比如OpenAI，抓紧推出新的模型和产品。你看，O3 mini不就来了？

我相信经过这一波，各家模型厂商都能有所得。这就是开源、开放权重的意义。之前某些人说“开源就是智商税”、“开源模型只会越来越落后”，现在看是不是特别可笑？

第三，对于投资者来说，这一波既是卖出英伟达的机会，也是买入英伟达的机会。在大跌的那一天，我就开始买入了。逻辑很简单，我在社群里也发了：

DeepSeek的方法如果是可Scalable的，那么买卡还得继续。

他们并不是从零到一发现了一条新的、不同于Scaling Law的道路。其实还是原先的大方向。而且也不存在什么不需要CUDA、不需要高算力、不需要GPU改用ASIC的情况。这全都是外行不懂装懂、为了流量哄你们玩呢。各家公司还是会想方设法买卡，比如从新加坡。

所以，这一波下跌只是一时的恐慌，以及之前涨了那么多，市场普遍预期要回调，等待新的故事。所以大家都不约而同演了这么一出：

普罗大众开心了，扬眉吐气了。资本落袋为安了，开始观望了。美国政府也有理由要求严加管控了。每个人都各取所需。我们都有美好的未来。

我还是坚定认为，在AI这件事儿上，不存在弯道超车。

中国人特别擅长做从1到100的事儿。这一点在互联网和移动互联网时代特别明显。因为，从零到一的基础研发，人家都完成了，也分享出来了。然后我们跟上去做应用落地。你再看中国的VC，有哪家敢真的去投从零到一的项目？他们拿出来吹的投资成绩单，全都是对现成红利的收割。

但是AI这一波不一样——基础研发和落地应用齐头并进。所以不去开拓、只等着摘果子是行不通的。人家也不想当冤大头啊。

DeepSeek和国内的AI公司有很大不同，不管是钱还是人都不太一样。这也许就是他们能成的原因。

好了，这个话题不能再多说了。回头我在社群里发个视频细说。咱们还是回来聊端侧部署DeepSeek R1吧。

大家日常使用的话，如果是在桌面端，最简单的方法肯定是通过我们的老朋友——Ollama。

来到Ollama官网的DeepSeek R1页面，就会看到原始模型，以及蒸馏出来的六个小尺寸模型，从1.5B、7B到70B都有。我拿3060显卡的PC和M4的Mac mini都测了一下。

3060跑7B，每秒Token有46，非常丝滑顺畅。跑8B，每秒Token有44，差不多。跑14B，速度降到26，也完全能接受。

注意：这是在我开着OBS录屏情况下的数据。没开的话，每秒Token数量会多四五个。

再来看M4 Mac mini的情况。24G统一内存，跑7B，每秒Token有19。跑8B，每秒Token有17。跑14B，每秒Token只剩10。

普通人用AI，从元宝开始 2024-08-31

Key Takeaway

腾讯元宝是普通用户入门AI的最佳启蒙工具，因其全场景覆盖、双模型支持和腾讯加持版R1。
元宝提供网页版、桌面客户端、手机APP和微信小程序，并支持微信文件导入，实现多场景无缝切换。
元宝结合DeepSeek-R1（慢思考）和混元Turbo S（快思考）双模型，兼顾深度和效率。
腾讯对R1进行了增强，包括接入公众号文章搜索来源和图片识别能力，使其成为“满血版”R1。
文章强调腾讯在C端市场的强大产品能力和自研能力，以及AI普及对普通用户的意义。

Full Content

DeepSeek火爆，最开心的厂商肯定是腾讯。

因为，当每家公司都接入DeepSeek，模型都一样，模型能力都拉齐之后，拼的是什么？拼产品。那么，拼产品，腾讯有怕过谁？更何况，除了DeepSeek，腾讯手里还有自研的混元大模型。

你发现没有，过完年的这段时间，一直很佛系、很随缘的腾讯突然变得凶狠、坚决了许多？

在B端，腾讯云把DeepSeek融入核心产品线，而且还推出基于DeepSeek的云服务和解决方案。

在C端，元宝一口气冲到APP Store免费榜亚军的位置，力压Kimi、豆包，仅次于DeepSeek官方APP。

我认为，普通人用AI，从元宝开始肯定是最佳的AI启蒙工具。我之前发的视频，大部分都是面向有一定基础的用户。然后每隔一两天就会有人私信问，纯小白该怎么上手AI？

很简单：AI时代最高效的学习方式就是Learning by doing。上手用起来，并且平时高频率使用，比你看一百篇教程都重要。而元宝就是普通用户、非Early Adopter的第一入口。三个原因。

第一，全场景覆盖。

用AI跟拍照其实是一个道理。能带出去的相机就是好相机。同样地，能让你随时用上AI的产品就是好产品。

元宝有全平台的网页版，Mac和Windows双支持的电脑客户端、iOS和安卓双支持的手机APP，以及不需要安装的微信小程序。

四端实时同步的特性，完美适配多场景切换。比如在电脑端没有完成的对话，外出时可通过APP继续讨论。我一般会把那些需要反复讨论的聊天置顶，这样下次就不用去历史记录里找半天了。

在这些基础功能之上，腾讯还做了一件只有腾讯能做到的事：

从微信里导入文档。

我相信，90%以上的用户把微信的“文件传输助手”当做“文件存放助手”来用，啥都往里放。因为在手机上，微信是第一入口。在微信里找文档是顺理成章的事儿。

那么，很自然地，在手机上，如果要把文档给到AI去分析，从微信直接导入过去是最方便的。

所以，当你在元宝APP里点击右下角的加号按钮时，会看到“微信文件”这个选项。它会跳到微信，然后通过元宝小程序作为桥梁，实现微信文件传输这个功能。或者反过来，直接在微信里“用其他应用打开”、选择元宝也可以。

你看，这个就叫产品能力。看起来很小的一个功能点，但是很实用、很贴心。这个就是典型的腾讯风格。

我挺希望接下来能有更多微信和元宝之间的联动的。比如，一篇很长的公众号文章，点右上角的转发按钮，能有一个“在元宝中打开”的选项。然后也像现在的“深度阅读文档”那样，给出总结、精读和脑图三个选项。我相信这肯定会成为爆款功能的。

第二，双模型支持。

DeepSeek-R1很好，但是它并适合所有使用情况。

像R1这类推理模型，通过多阶段训练，尤其是强化学习，最终获得了逐步推理和思维链的构建能力。于是，它们在面对复杂问题的时候，会先分析问题、识别关键点，再逐步得出结论。

但是，我们日常使用的时候，所有问题都是复杂问题吗？所有问题都值得等个好几秒才能获得答案吗？

显然不是啊。所以，光有DeepSeek-R1还不够，还得有别的模型。这个时候，自研能力的重要性就体现出来了。

前两天，腾讯上线了混元Turbo S模型。如果把DeepSeek-R1、混元T1称为“慢思考模型”的话，那么混元Turbo S就是“快思考”模型。它首字时延更低、吐字速度更快。两个字总结：

秒回。

在元宝里，当你选择混元模型，把“深度思考”按钮关了之后，就是用混元Turbo S做快问快答了。

说真的，我之前用了一段时间R1，每次看到一个简单的问题，它在那边琢磨半天，我都特别无语。比如，我说个“哈喽”，它想了5秒才回答，内心戏太足，有一种赛博朋克的荒诞感。

所以，“慢思考”加“快思考”，双模型搭配，日常使用效率才高。

第三，腾讯加持版R1。

现代大模型已进化为"应用平台"，

两年前的模型，基本就是单纯的文字对话。而今天的模型多了许多关键功能。比如你看Google的Gemini 2.0，强调“原生”的概念——原生的图像生成，原生的文字转语音，原生的工具使用。

这种大集成的目标，是为了打造一个universal AI assistant。这也成为现在旗舰模型的标配。

国内媒体为了流量，在吹捧DeepSeek-R1的时候，只聚焦在它的推理能力上，其它方面有意不提。所以，给R1加上更多工具、更多功能的任务，就落到应用厂商身上了。在这方面，元宝有两个点我特别喜欢。

一是搜索来源包括公众号文章。

中文互联网这几年泥沙俱下，能看的内容不多了。所以我在用Perplexity之类的工具时，都会在Prompt里特意强调：即使我用中文提问，你也给我去搜英文的网页。

如果要说还有哪里有不错的内容的话，那应该只剩公众号了。这个平台的内容属于腾讯的独家资源。这次元宝的搜索就用上了。

公众号的高质量内容，加上DeepSeek-R1的强推理能力，等于Quality in，quality out。

二是图片识别能力。

R1本身是不具备识图能力的。所以，包括DeepSeek官方在内的应用，都是添加一个OCR的功能，把图片上的文字提取出来，然后给到模型继续处理。

但是，如果图上没有文字，我就是想分析纯图片呢？

这个就是腾讯对R1的第二个加持。他们先对图片内容进行分析，把结果给到R1做回答参考。