DeepSeek
Key Takeaway
- Unsloth框架显著降低了微调大模型的门槛,仅需7G显存即可微调1.5B模型,消费级PC也能实现。
- DeepSeek的GRPO强化学习算法能提升模型推理能力和可解释性。
- 微调技术可用于打造个人AI分身和私域模型,实现本地化、无需联网的AI交互。
- 高质量数据集和超参数调整是微调成功的关键,但需要大量实践。
- 文章强调了本地部署小尺寸模型在移动端的潜力和价值。
Full Content
用DeepSeek的方法做微调,可以显著提升传统模型的思考能力。
这是我训练好的模型文件,已经传到Hugging Face上了,大家自取。它是基于Qwen2.5 3B,通过微调加强了数学能力,最后生成了Q4、Q5和Q8三个版本。咱们来对比一下Q4精度的效果。我问一个经典问题:
9.9和9.11这两个数字,哪个更大?
先来看原版的回答。不仅答案错了,而且给的理由也是完全混乱的——什么叫“小数部分相同,唯一的区别在于十分位”,简直胡说八道嘛。
再来看微调版本。这就正常了。整数部分一样,那就比较小数部分。很自然就得出9.9比9.11更大。
这套东西不是我搞出来的,而是Unsloth的成果。他们前些天发了一篇博客,介绍了方法,还给出了代码。简单来说,Unsloth这套东西实现了两点:
第一,微调门槛下降。像1.5B之类的小尺寸模型,只需要7G显存就可以微调。而7B、14B这种,15G显存就OK。也就是说,用消费级的PC就能微调。如果是用云端的算力,像我用Google Colab的T4 GPU,花了一个小时就顺利完成。
第二,模型能力提升。GRPO是一种强化学习算法,是DeepSeek发明并开源出来的。用这套算法和数据集,能够训练出具备更强推理能力和更好可解释性的模型。现在Unsloth把它应用到微调里边,想象空间一下就出来了。举个例子:
私域模型。
一个商业博主,有自己的方法论,也有很多交付案例。他把过往积累下来的东西整理成数据集,包含问题、答案以及解题步骤。然后用Unsloth这套东西去微调,生成3B的模型。最后,把模型文件给到他的用户,不管是免费还是收费都可以。
用户拿到之后,用我上上期介绍的方法在手机上使用。这意味着,用户可以随时随地、不需要联网地跟这位博主的AI分身交流。
对自媒体来说,以前只有在你发视频、发文章的时候,或者你在群里说话的时候,你的粉丝、用户才能接收到你的信息。现在,有了这个方法,他们可以无限制地被你这个IP影响。
之前我分享手机上跑模型的方法,一堆人喷我说没意义、没价值。说句扎心的话:眼界太浅,活该挣不着钱。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:用强化学习算法,微调模型。
在介绍Unsloth的工具之前,我还是得先把基本概念用一种通俗易懂的方式讲给你们听。可能不是很严谨,但是包懂。
以前搞强化学习,需要准备大量包含解题步骤的高质量数据,以及非常精确、绝对的奖励函数。然后大力出奇迹,硬生生把模型给培训出来。
后来DeepSeek发现,其实不需要那么高的成本,搞得那么费劲——可以把奖励函数弄得更灵活一些嘛。针对每一个问题,它让模型生成一组答案。然后看这一组答案里边,哪个答案相对好一些,从而给出奖励。
传统方法,比较像我们以前在学校里接受的填鸭式教学,靠着记忆力去刷题,想要蒙混过关。但是,这种搞法,知其然而不知其所以然,所以最后还是个渣渣。而DeepSeek的方法则是反复思考解题步骤,最后不仅知其然而且还知其所以然。于是,模型“顿悟”了,学霸诞生了。
如果还是不太明白,那我再打个比方。传统方法训狗,需要明确定义每个动作,并且给每个动作都设计奖励。只有当狗完全按照指令完成动作时,才能获得奖励。
而DeepSeek的方法是,一个动作让狗做三次。在三次当中,相对较好的那一次获得奖励。然后不断重复这个过程。
大家如果有养狗经历就知道,用DeepSeek的这种训练方法,主人轻松,狗子开心,效果也好。
DeepSeek很大方地分享出来之后,Unsloth就拿来用了。不过在使用之前,有一些限制需要跟大家说清楚:
你拿来微调的模型不能太小了,至少也得有1.5B,不然没法正确生成思考标记。这是我选择用3B尺寸的原因,既符合训练的要求,也能在手机上运行。另外,步数至少要300步,奖励才会真正增加。为了达到良好的效果,建议至少训练12个小时。
在官方给的示例当中,用的数据集是GSM8K。它包含了8500个高质量的小学数学文字题。每个问题需要2到8个步骤才能解决。而且,这个数据集里的解题方法是用自然语言编写,而非纯粹的数学表达式。所以,用它来训练,能够提升模型的多步骤数学推理。
类似GSM8K的数据集还有好几个,比如MATH Dataset、MathQA等等。我建议大家先别着急就导入自己的数据集,可以拿这些练练手。因为,换了数据集之后,由于格式不同、特点不同,奖励函数可能需要做相应的调整。
另外,超参数的调整也需要大量实践。比如:
学习率,用来控制模型学习的速度。设得太高,模型可能学得太快,错过最优解;设得太低,模型可能学得太慢,浪费时间。
Batch size,指的是每次喂给模型的数据量。设得太大,可能会导致内存不足;设得太小,可能导致模型学习不稳定。
微调和RAG一样,都是看起来简单,但真要获得好的效果,需要大量调试。而且这东西没法教,只能“干中学”。但是,有门槛是好事。只要跨过去了,就能甩开一大堆人。
所以,我在Google Colab上买了一些计算单元,这段时间会做各种测试。至于数据集,我突然想到,过去一年我在星球里回答了好多好多问题。这些问题都可以做转换,比如让模型帮我批量处理,然后放进数据集里。
通过微调打造AI分身、训练私域模型的想法,在我去年做Llamafile那期视频的时候就出现了。现在可能性越来越大了。等有进展了,我会在社群里说。
OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!
Key Takeaway
- DeepSeek新模型V3 0324在MCP调用方面表现出色,性价比极高,性能接近Claude-3.7 Sonnet。
- DeepSeek模型具备清晰的思考和规划能力,能将用户需求拆解为明确任务,并判断所需工具。
- DeepSeek在工具调用能力上显著提升,结合其成本优势,将推动MCP的进一步普及。
- 文章预测Agent发展趋势将从任务编排模式转向模型自由发挥,以超强模型为核心,搭配海量原子化工具。
- DeepSeek的进步,加上MCP协议,预示着AI行业将迎来飞速发展。
Full Content
DeepSeek新出的模型V3 0324可能是跑MCP性价比最高的模型。它在性能上接近Claude-3.7 Sonnet,调用MCP很丝滑,但是成本却低了非常非常多,真的是白菜价了。我给你们看一下就明白了。
这个是我目前用得最多的MCP客户端Cline。DeepSeek最新模型,它已经支持了。我这边选的是付费版。平台虽然也提供免费版,但是不建议用。我前边试过了,速度太慢,而且步骤一多就容易中断,就挺闹心的。所以咱还是老老实实花钱吧。
我的需求很简单:谷歌发布Gemini 2.5模型。这是他们的官方博客。我让DeepSeek帮我把内容扒下来,翻译成中文,并且在开头加上总结,最后存进文档里。
你看,DeepSeek先做了四步规划:
第一,把用户需求拆成明确的任务;
第二,判断需要用哪些工具,包括Tavily MCP里的提取工具,以及写入文件的工具;
第三,当前的环境是,文件已经存在,用户也允许直接进行操作;
第四,给自己设定执行步骤。
这个就是AI比人类强的地方。你想嘛,有几个人能做到这么清晰思考和规划的?
整个过程花了两三分钟,我就不具体展示了。当文档写入完成后,整个任务结束,一共花了0.0358美金。
接下来,咱们加点难度。我让它调用两个MCP:一个是Sequential-thinking,步骤尽可能多。另一个是Tavily,负责联网搜索资料。每一步思考之前,都要搜一次资料,再结合搜到的内容思考。
像这种需求就特别考验模型。因为它既要懂得拆解问题,还得根据实际搜到的信息随时调整思考方向,以及下一步需要搜什么,而且还要频繁调用MCP、不能出错。
我建议大家看完视频也这么去测试,不管是测试模型还是测试客户端都可以。然后你就知道该怎么选了。
咱们回到DeepSeek这边。整个推理过程花了三分多种。DeepSeek一共做了六步思考,最终给出了答案。但是我觉得下边的要点还不够详细,于是让它进一步完善。最终,花了0.039美金,DeepSeek完成了这个回答。
通过这两个例子可以看出,DeepSeek新版本模型在使用MCP方面已经没问题了,而且价格很低。说实话,我这段时间用Claude跑MCP,已经在API上花了十几美金了。日常高频使用的话,真的会肉痛。
高性价比,就是我推荐DeepSeek的原因。官方在公众号文章里介绍了这次小版本升级。模型能力提升包括这几个方面,比如推理任务表现提高、前端开发能力增强、中文写作升级,等等。
其实我最看中的,以及我认为最重要的,是工具调用能力的提升。还是之前说过的逻辑:
AI发展的两条路径,一是获取更多信息,二是调用更多工具。
如果只能处理文本,搞不了多模态,那么AI的世界就是黑白的。这是我看好Gemini的原因。
如果只局限于推理,用不了更多工具,那么AI就只有大脑、没有手脚。这是我看好Claude的原因。
现在DeepSeek终于把工具调用能力提升上来了,叠加它本来就很强的成本优势,肯定能推动MCP进一步普及。
最后,说一下我对今年Agent发展的判断:
以Dify、Coze为代表的任务编排模式会逐渐被取代。这种做法虽然精确度高,但是太费人力,门槛也很高,而且非常限制模型的发挥,所以只适合企业生产环境。
我认为,最优解一定是:人类只需要设定起点,也就是Context、上下文,以及终点,也就是目标。在起点和终点之间一切,都交给模型自由发挥。
一个超强的模型作为单核,搭配海量、原子化的工具,就是AI行业今年发展的重点。
现在,我们已经有Claude和DeepSeek这样的模型了,也有MCP这样的中间层协议了。万事俱备,一切都将飞速展开。
OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!
Key Takeaway
- DeepSeek R1模型可以在手机等本地设备上部署运行,PocketPal AI等免费APP支持。
- 本地部署AI模型具有运行稳定、速度快、免费、模型选择丰富、使用自由和数据隐私安全等优势,是AI普及的趋势。
- DeepSeek R1的发布对AI行业是重大利好,推动了AI普及,促进了模型厂商的竞争,并引发了对算力使用和开源模型价值的反思。
- 在桌面端,Ollama是本地部署大模型的最佳工具,支持多种开源模型,并可与Open WebUI等前端工具结合。
- 移动端本地部署主要选择1.5B等小尺寸模型,未来随着技术发展,移动端AI能力将更强。
Full Content
使用DeepSeek R1,不一定非要通过官方的APP。在本地运行也可以。甚至,在手机上。
我手里这台是iPhone 12 mini,已经老得不能再老了,我一直没舍得换。结果它居然也能跑R1,这让我非常惊讶。
我用的是PocketPal AI这款免费APP,之前在社群里推荐过。下载的是1.5B、Q4精度的模型文件,生成挺流畅的。你看,跟官方APP里的表现一样,也是先给出思考过程,然后再给出结果。在Benchmark页面进行测试,可以看到详细的数值:每秒有大概20个Token;峰值内存占用大概是33%。
如果是新一点的iPhone,那么可以下载更高的精度,获得更好的效果。比如我用我老婆这台iPhone 14做了测试。它最高可以跑Q8精度,每秒输出16个Token。再高就没反应了,比如FP16。
说实话,比起DeepSeek R1 1.5B,我个人更喜欢Qwen2.5 1.5B。R1的思考过程太啰嗦,而且最终的结果不见得有质的提升。Anyway,大家根据自己的情况和偏好选择就好。今天还不存在某一个模型会显著超过其它模型。而且我觉得好的模型,对你不一定适用。
另外,我知道这个视频发出去之后,肯定又会有人质疑本地部署的必要性。每次我发这类视频都会被喷。所以在这边我统一回复一下。
老网友应该有印象,在很多年前,谷歌推出Chromebook,一个上网本。它的办公软件都是网页版的应用,谷歌全家桶。按照那些人的逻辑,这就够了啊?为什么还要本地版的Office全家桶呢?结果市场给出了选择。
AI在端侧的落地也一样。如果都依赖云端算力,AI绝对不可能普及。比如,需要网络接入;用的人多了可能要排队;还有莫名其妙的降智和懒惰情况。这些都会限制我们使用AI。此外还有隐私和数据安全的问题。
所以,依靠端侧算力,在移动端运行1.5B或者3B的模型,在桌面端运行7B或者14B的模型,一定是未来一两年的发展趋势。
对超级个人来说,拥有更多算力,就能跑更强大的模型。知道每种设备使用AI的方法,就能更自由地接入AI。这些组合在一起,就能让你在那些普通人面前获得Unfair Advantage。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:在端侧部署DeepSeek R1。
过年这段时间特别热闹。年前先是川普发币。看起来很不合理,但仔细想想也没啥毛病。人家要干碎一切,发个币算什么?
这一波过去没多久,DeepSeek来了,闹了一整个假期。我的观点很简单:这对所有人来说,都是重大利好。
第一,一款免费且开源、支持深度思考和联网搜索、具备最强中文能力的模型,能让更多的普通用户用上AI。
我在朋友圈里看到,好多之前基本不用AI的小伙伴,这次都用DeepSeek了。前几天跟亲戚聚餐,一位阿姨居然也主动聊起DeepSeek,还向我安利他们的APP,非要我下载体验一下。
能普及AI,就是功德无量的事儿。
第二,R1推出之后,业内都在各种反思。比如,之前对算力的使用是不是过于粗放了,等等。同时也给那些闭源厂商更多紧迫感,比如OpenAI,抓紧推出新的模型和产品。你看,O3 mini不就来了?
我相信经过这一波,各家模型厂商都能有所得。这就是开源、开放权重的意义。之前某些人说“开源就是智商税”、“开源模型只会越来越落后”,现在看是不是特别可笑?
第三,对于投资者来说,这一波既是卖出英伟达的机会,也是买入英伟达的机会。在大跌的那一天,我就开始买入了。逻辑很简单,我在社群里也发了:
DeepSeek的方法如果是可Scalable的,那么买卡还得继续。
他们并不是从零到一发现了一条新的、不同于Scaling Law的道路。其实还是原先的大方向。而且也不存在什么不需要CUDA、不需要高算力、不需要GPU改用ASIC的情况。这全都是外行不懂装懂、为了流量哄你们玩呢。各家公司还是会想方设法买卡,比如从新加坡。
所以,这一波下跌只是一时的恐慌,以及之前涨了那么多,市场普遍预期要回调,等待新的故事。所以大家都不约而同演了这么一出:
普罗大众开心了,扬眉吐气了。资本落袋为安了,开始观望了。美国政府也有理由要求严加管控了。每个人都各取所需。我们都有美好的未来。
我还是坚定认为,在AI这件事儿上,不存在弯道超车。
中国人特别擅长做从1到100的事儿。这一点在互联网和移动互联网时代特别明显。因为,从零到一的基础研发,人家都完成了,也分享出来了。然后我们跟上去做应用落地。你再看中国的VC,有哪家敢真的去投从零到一的项目?他们拿出来吹的投资成绩单,全都是对现成红利的收割。
但是AI这一波不一样——基础研发和落地应用齐头并进。所以不去开拓、只等着摘果子是行不通的。人家也不想当冤大头啊。
DeepSeek和国内的AI公司有很大不同,不管是钱还是人都不太一样。这也许就是他们能成的原因。
好了,这个话题不能再多说了。回头我在社群里发个视频细说。咱们还是回来聊端侧部署DeepSeek R1吧。
大家日常使用的话,如果是在桌面端,最简单的方法肯定是通过我们的老朋友——Ollama。
来到Ollama官网的DeepSeek R1页面,就会看到原始模型,以及蒸馏出来的六个小尺寸模型,从1.5B、7B到70B都有。我拿3060显卡的PC和M4的Mac mini都测了一下。
3060跑7B,每秒Token有46,非常丝滑顺畅。跑8B,每秒Token有44,差不多。跑14B,速度降到26,也完全能接受。
注意:这是在我开着OBS录屏情况下的数据。没开的话,每秒Token数量会多四五个。
再来看M4 Mac mini的情况。24G统一内存,跑7B,每秒Token有19。跑8B,每秒Token有17。跑14B,每秒Token只剩10。
Key Takeaway
- 腾讯元宝是普通用户入门AI的最佳启蒙工具,因其全场景覆盖、双模型支持和腾讯加持版R1。
- 元宝提供网页版、桌面客户端、手机APP和微信小程序,并支持微信文件导入,实现多场景无缝切换。
- 元宝结合DeepSeek-R1(慢思考)和混元Turbo S(快思考)双模型,兼顾深度和效率。
- 腾讯对R1进行了增强,包括接入公众号文章搜索来源和图片识别能力,使其成为“满血版”R1。
- 文章强调腾讯在C端市场的强大产品能力和自研能力,以及AI普及对普通用户的意义。
Full Content
DeepSeek火爆,最开心的厂商肯定是腾讯。
因为,当每家公司都接入DeepSeek,模型都一样,模型能力都拉齐之后,拼的是什么?拼产品。那么,拼产品,腾讯有怕过谁?更何况,除了DeepSeek,腾讯手里还有自研的混元大模型。
你发现没有,过完年的这段时间,一直很佛系、很随缘的腾讯突然变得凶狠、坚决了许多?
在B端,腾讯云把DeepSeek融入核心产品线,而且还推出基于DeepSeek的云服务和解决方案。
在C端,元宝一口气冲到APP Store免费榜亚军的位置,力压Kimi、豆包,仅次于DeepSeek官方APP。
我认为,普通人用AI,从元宝开始肯定是最佳的AI启蒙工具。我之前发的视频,大部分都是面向有一定基础的用户。然后每隔一两天就会有人私信问,纯小白该怎么上手AI?
很简单:AI时代最高效的学习方式就是Learning by doing。上手用起来,并且平时高频率使用,比你看一百篇教程都重要。而元宝就是普通用户、非Early Adopter的第一入口。三个原因。
第一,全场景覆盖。
用AI跟拍照其实是一个道理。能带出去的相机就是好相机。同样地,能让你随时用上AI的产品就是好产品。
元宝有全平台的网页版,Mac和Windows双支持的电脑客户端、iOS和安卓双支持的手机APP,以及不需要安装的微信小程序。
四端实时同步的特性,完美适配多场景切换。比如在电脑端没有完成的对话,外出时可通过APP继续讨论。我一般会把那些需要反复讨论的聊天置顶,这样下次就不用去历史记录里找半天了。
在这些基础功能之上,腾讯还做了一件只有腾讯能做到的事:
从微信里导入文档。
我相信,90%以上的用户把微信的“文件传输助手”当做“文件存放助手”来用,啥都往里放。因为在手机上,微信是第一入口。在微信里找文档是顺理成章的事儿。
那么,很自然地,在手机上,如果要把文档给到AI去分析,从微信直接导入过去是最方便的。
所以,当你在元宝APP里点击右下角的加号按钮时,会看到“微信文件”这个选项。它会跳到微信,然后通过元宝小程序作为桥梁,实现微信文件传输这个功能。或者反过来,直接在微信里“用其他应用打开”、选择元宝也可以。
你看,这个就叫产品能力。看起来很小的一个功能点,但是很实用、很贴心。这个就是典型的腾讯风格。
我挺希望接下来能有更多微信和元宝之间的联动的。比如,一篇很长的公众号文章,点右上角的转发按钮,能有一个“在元宝中打开”的选项。然后也像现在的“深度阅读文档”那样,给出总结、精读和脑图三个选项。我相信这肯定会成为爆款功能的。
第二,双模型支持。
DeepSeek-R1很好,但是它并适合所有使用情况。
像R1这类推理模型,通过多阶段训练,尤其是强化学习,最终获得了逐步推理和思维链的构建能力。于是,它们在面对复杂问题的时候,会先分析问题、识别关键点,再逐步得出结论。
但是,我们日常使用的时候,所有问题都是复杂问题吗?所有问题都值得等个好几秒才能获得答案吗?
显然不是啊。所以,光有DeepSeek-R1还不够,还得有别的模型。这个时候,自研能力的重要性就体现出来了。
前两天,腾讯上线了混元Turbo S模型。如果把DeepSeek-R1、混元T1称为“慢思考模型”的话,那么混元Turbo S就是“快思考”模型。它首字时延更低、吐字速度更快。两个字总结:
秒回。
在元宝里,当你选择混元模型,把“深度思考”按钮关了之后,就是用混元Turbo S做快问快答了。
说真的,我之前用了一段时间R1,每次看到一个简单的问题,它在那边琢磨半天,我都特别无语。比如,我说个“哈喽”,它想了5秒才回答,内心戏太足,有一种赛博朋克的荒诞感。
所以,“慢思考”加“快思考”,双模型搭配,日常使用效率才高。
第三,腾讯加持版R1。
现代大模型已进化为"应用平台",
两年前的模型,基本就是单纯的文字对话。而今天的模型多了许多关键功能。比如你看Google的Gemini 2.0,强调“原生”的概念——原生的图像生成,原生的文字转语音,原生的工具使用。
这种大集成的目标,是为了打造一个universal AI assistant。这也成为现在旗舰模型的标配。
国内媒体为了流量,在吹捧DeepSeek-R1的时候,只聚焦在它的推理能力上,其它方面有意不提。所以,给R1加上更多工具、更多功能的任务,就落到应用厂商身上了。在这方面,元宝有两个点我特别喜欢。
一是搜索来源包括公众号文章。
中文互联网这几年泥沙俱下,能看的内容不多了。所以我在用Perplexity之类的工具时,都会在Prompt里特意强调:即使我用中文提问,你也给我去搜英文的网页。
如果要说还有哪里有不错的内容的话,那应该只剩公众号了。这个平台的内容属于腾讯的独家资源。这次元宝的搜索就用上了。
公众号的高质量内容,加上DeepSeek-R1的强推理能力,等于Quality in,quality out。
二是图片识别能力。
R1本身是不具备识图能力的。所以,包括DeepSeek官方在内的应用,都是添加一个OCR的功能,把图片上的文字提取出来,然后给到模型继续处理。
但是,如果图上没有文字,我就是想分析纯图片呢?
这个就是腾讯对R1的第二个加持。他们先对图片内容进行分析,把结果给到R1做回答参考。