大模型

手机也能本地部署DeepSeek R1

Key Takeaway

  • DeepSeek R1模型可以在手机等本地设备上部署运行,PocketPal AI等免费APP支持。
  • 本地部署AI模型具有运行稳定、速度快、免费、模型选择丰富、使用自由和数据隐私安全等优势,是AI普及的趋势。
  • DeepSeek R1的发布对AI行业是重大利好,推动了AI普及,促进了模型厂商的竞争,并引发了对算力使用和开源模型价值的反思。
  • 在桌面端,Ollama是本地部署大模型的最佳工具,支持多种开源模型,并可与Open WebUI等前端工具结合。
  • 移动端本地部署主要选择1.5B等小尺寸模型,未来随着技术发展,移动端AI能力将更强。

Full Content

使用DeepSeek R1,不一定非要通过官方的APP。在本地运行也可以。甚至,在手机上。

我手里这台是iPhone 12 mini,已经老得不能再老了,我一直没舍得换。结果它居然也能跑R1,这让我非常惊讶。

我用的是PocketPal AI这款免费APP,之前在社群里推荐过。下载的是1.5B、Q4精度的模型文件,生成挺流畅的。你看,跟官方APP里的表现一样,也是先给出思考过程,然后再给出结果。在Benchmark页面进行测试,可以看到详细的数值:每秒有大概20个Token;峰值内存占用大概是33%。

如果是新一点的iPhone,那么可以下载更高的精度,获得更好的效果。比如我用我老婆这台iPhone 14做了测试。它最高可以跑Q8精度,每秒输出16个Token。再高就没反应了,比如FP16。

说实话,比起DeepSeek R1 1.5B,我个人更喜欢Qwen2.5 1.5B。R1的思考过程太啰嗦,而且最终的结果不见得有质的提升。Anyway,大家根据自己的情况和偏好选择就好。今天还不存在某一个模型会显著超过其它模型。而且我觉得好的模型,对你不一定适用。

另外,我知道这个视频发出去之后,肯定又会有人质疑本地部署的必要性。每次我发这类视频都会被喷。所以在这边我统一回复一下。

老网友应该有印象,在很多年前,谷歌推出Chromebook,一个上网本。它的办公软件都是网页版的应用,谷歌全家桶。按照那些人的逻辑,这就够了啊?为什么还要本地版的Office全家桶呢?结果市场给出了选择。

AI在端侧的落地也一样。如果都依赖云端算力,AI绝对不可能普及。比如,需要网络接入;用的人多了可能要排队;还有莫名其妙的降智和懒惰情况。这些都会限制我们使用AI。此外还有隐私和数据安全的问题。

所以,依靠端侧算力,在移动端运行1.5B或者3B的模型,在桌面端运行7B或者14B的模型,一定是未来一两年的发展趋势。

对超级个人来说,拥有更多算力,就能跑更强大的模型。知道每种设备使用AI的方法,就能更自由地接入AI。这些组合在一起,就能让你在那些普通人面前获得Unfair Advantage。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!

回到今天的主题:在端侧部署DeepSeek R1。

过年这段时间特别热闹。年前先是川普发币。看起来很不合理,但仔细想想也没啥毛病。人家要干碎一切,发个币算什么?

这一波过去没多久,DeepSeek来了,闹了一整个假期。我的观点很简单:这对所有人来说,都是重大利好。

第一,一款免费且开源、支持深度思考和联网搜索、具备最强中文能力的模型,能让更多的普通用户用上AI。

我在朋友圈里看到,好多之前基本不用AI的小伙伴,这次都用DeepSeek了。前几天跟亲戚聚餐,一位阿姨居然也主动聊起DeepSeek,还向我安利他们的APP,非要我下载体验一下。

能普及AI,就是功德无量的事儿。

第二,R1推出之后,业内都在各种反思。比如,之前对算力的使用是不是过于粗放了,等等。同时也给那些闭源厂商更多紧迫感,比如OpenAI,抓紧推出新的模型和产品。你看,O3 mini不就来了?

我相信经过这一波,各家模型厂商都能有所得。这就是开源、开放权重的意义。之前某些人说“开源就是智商税”、“开源模型只会越来越落后”,现在看是不是特别可笑?

第三,对于投资者来说,这一波既是卖出英伟达的机会,也是买入英伟达的机会。在大跌的那一天,我就开始买入了。逻辑很简单,我在社群里也发了:

DeepSeek的方法如果是可Scalable的,那么买卡还得继续。

他们并不是从零到一发现了一条新的、不同于Scaling Law的道路。其实还是原先的大方向。而且也不存在什么不需要CUDA、不需要高算力、不需要GPU改用ASIC的情况。这全都是外行不懂装懂、为了流量哄你们玩呢。各家公司还是会想方设法买卡,比如从新加坡。

所以,这一波下跌只是一时的恐慌,以及之前涨了那么多,市场普遍预期要回调,等待新的故事。所以大家都不约而同演了这么一出:

普罗大众开心了,扬眉吐气了。资本落袋为安了,开始观望了。美国政府也有理由要求严加管控了。每个人都各取所需。我们都有美好的未来。

我还是坚定认为,在AI这件事儿上,不存在弯道超车。

中国人特别擅长做从1到100的事儿。这一点在互联网和移动互联网时代特别明显。因为,从零到一的基础研发,人家都完成了,也分享出来了。然后我们跟上去做应用落地。你再看中国的VC,有哪家敢真的去投从零到一的项目?他们拿出来吹的投资成绩单,全都是对现成红利的收割。

但是AI这一波不一样——基础研发和落地应用齐头并进。所以不去开拓、只等着摘果子是行不通的。人家也不想当冤大头啊。

DeepSeek和国内的AI公司有很大不同,不管是钱还是人都不太一样。这也许就是他们能成的原因。

好了,这个话题不能再多说了。回头我在社群里发个视频细说。咱们还是回来聊端侧部署DeepSeek R1吧。

大家日常使用的话,如果是在桌面端,最简单的方法肯定是通过我们的老朋友——Ollama。

来到Ollama官网的DeepSeek R1页面,就会看到原始模型,以及蒸馏出来的六个小尺寸模型,从1.5B、7B到70B都有。我拿3060显卡的PC和M4的Mac mini都测了一下。

3060跑7B,每秒Token有46,非常丝滑顺畅。跑8B,每秒Token有44,差不多。跑14B,速度降到26,也完全能接受。

注意:这是在我开着OBS录屏情况下的数据。没开的话,每秒Token数量会多四五个。

再来看M4 Mac mini的情况。24G统一内存,跑7B,每秒Token有19。跑8B,每秒Token有17。跑14B,每秒Token只剩10。

普通人用AI,从元宝开始

Key Takeaway

  • 腾讯元宝是普通用户入门AI的最佳启蒙工具,因其全场景覆盖、双模型支持和腾讯加持版R1。
  • 元宝提供网页版、桌面客户端、手机APP和微信小程序,并支持微信文件导入,实现多场景无缝切换。
  • 元宝结合DeepSeek-R1(慢思考)和混元Turbo S(快思考)双模型,兼顾深度和效率。
  • 腾讯对R1进行了增强,包括接入公众号文章搜索来源和图片识别能力,使其成为“满血版”R1。
  • 文章强调腾讯在C端市场的强大产品能力和自研能力,以及AI普及对普通用户的意义。

Full Content

DeepSeek火爆,最开心的厂商肯定是腾讯。

因为,当每家公司都接入DeepSeek,模型都一样,模型能力都拉齐之后,拼的是什么?拼产品。那么,拼产品,腾讯有怕过谁?更何况,除了DeepSeek,腾讯手里还有自研的混元大模型。

你发现没有,过完年的这段时间,一直很佛系、很随缘的腾讯突然变得凶狠、坚决了许多?

在B端,腾讯云把DeepSeek融入核心产品线,而且还推出基于DeepSeek的云服务和解决方案。

在C端,元宝一口气冲到APP Store免费榜亚军的位置,力压Kimi、豆包,仅次于DeepSeek官方APP。

我认为,普通人用AI,从元宝开始肯定是最佳的AI启蒙工具。我之前发的视频,大部分都是面向有一定基础的用户。然后每隔一两天就会有人私信问,纯小白该怎么上手AI?

很简单:AI时代最高效的学习方式就是Learning by doing。上手用起来,并且平时高频率使用,比你看一百篇教程都重要。而元宝就是普通用户、非Early Adopter的第一入口。三个原因。

第一,全场景覆盖。

用AI跟拍照其实是一个道理。能带出去的相机就是好相机。同样地,能让你随时用上AI的产品就是好产品。

元宝有全平台的网页版,Mac和Windows双支持的电脑客户端、iOS和安卓双支持的手机APP,以及不需要安装的微信小程序。

四端实时同步的特性,完美适配多场景切换。比如在电脑端没有完成的对话,外出时可通过APP继续讨论。我一般会把那些需要反复讨论的聊天置顶,这样下次就不用去历史记录里找半天了。

在这些基础功能之上,腾讯还做了一件只有腾讯能做到的事:

从微信里导入文档。

我相信,90%以上的用户把微信的“文件传输助手”当做“文件存放助手”来用,啥都往里放。因为在手机上,微信是第一入口。在微信里找文档是顺理成章的事儿。

那么,很自然地,在手机上,如果要把文档给到AI去分析,从微信直接导入过去是最方便的。

所以,当你在元宝APP里点击右下角的加号按钮时,会看到“微信文件”这个选项。它会跳到微信,然后通过元宝小程序作为桥梁,实现微信文件传输这个功能。或者反过来,直接在微信里“用其他应用打开”、选择元宝也可以。

你看,这个就叫产品能力。看起来很小的一个功能点,但是很实用、很贴心。这个就是典型的腾讯风格。

我挺希望接下来能有更多微信和元宝之间的联动的。比如,一篇很长的公众号文章,点右上角的转发按钮,能有一个“在元宝中打开”的选项。然后也像现在的“深度阅读文档”那样,给出总结、精读和脑图三个选项。我相信这肯定会成为爆款功能的。

第二,双模型支持。

DeepSeek-R1很好,但是它并适合所有使用情况。

像R1这类推理模型,通过多阶段训练,尤其是强化学习,最终获得了逐步推理和思维链的构建能力。于是,它们在面对复杂问题的时候,会先分析问题、识别关键点,再逐步得出结论。

但是,我们日常使用的时候,所有问题都是复杂问题吗?所有问题都值得等个好几秒才能获得答案吗?

显然不是啊。所以,光有DeepSeek-R1还不够,还得有别的模型。这个时候,自研能力的重要性就体现出来了。

前两天,腾讯上线了混元Turbo S模型。如果把DeepSeek-R1、混元T1称为“慢思考模型”的话,那么混元Turbo S就是“快思考”模型。它首字时延更低、吐字速度更快。两个字总结:

秒回。

在元宝里,当你选择混元模型,把“深度思考”按钮关了之后,就是用混元Turbo S做快问快答了。

说真的,我之前用了一段时间R1,每次看到一个简单的问题,它在那边琢磨半天,我都特别无语。比如,我说个“哈喽”,它想了5秒才回答,内心戏太足,有一种赛博朋克的荒诞感。

所以,“慢思考”加“快思考”,双模型搭配,日常使用效率才高。

第三,腾讯加持版R1。

现代大模型已进化为"应用平台",

两年前的模型,基本就是单纯的文字对话。而今天的模型多了许多关键功能。比如你看Google的Gemini 2.0,强调“原生”的概念——原生的图像生成,原生的文字转语音,原生的工具使用。

这种大集成的目标,是为了打造一个universal AI assistant。这也成为现在旗舰模型的标配。

国内媒体为了流量,在吹捧DeepSeek-R1的时候,只聚焦在它的推理能力上,其它方面有意不提。所以,给R1加上更多工具、更多功能的任务,就落到应用厂商身上了。在这方面,元宝有两个点我特别喜欢。

一是搜索来源包括公众号文章。

中文互联网这几年泥沙俱下,能看的内容不多了。所以我在用Perplexity之类的工具时,都会在Prompt里特意强调:即使我用中文提问,你也给我去搜英文的网页。

如果要说还有哪里有不错的内容的话,那应该只剩公众号了。这个平台的内容属于腾讯的独家资源。这次元宝的搜索就用上了。

公众号的高质量内容,加上DeepSeek-R1的强推理能力,等于Quality in,quality out。

二是图片识别能力。

R1本身是不具备识图能力的。所以,包括DeepSeek官方在内的应用,都是添加一个OCR的功能,把图片上的文字提取出来,然后给到模型继续处理。

但是,如果图上没有文字,我就是想分析纯图片呢?

这个就是腾讯对R1的第二个加持。他们先对图片内容进行分析,把结果给到R1做回答参考。

最适合知识库的大模型

Key Takeaway

  • Cohere及其Command R+模型是专注于RAG和Agent的“业界清流”,其创始人是Transformer论文作者之一。
  • Cohere提供生成模型(Command R+)、嵌入模型(Embed)和重排序模型(Rerank),特别适合复杂RAG工作流和多步骤工具使用。
  • Command R+在某些方面性能达到GPT-4级别,且有量化版本可本地运行。
  • 文章介绍了通过AnythingLLM和OpenRouter调用Command R+的API方法,以及本地部署的硬件要求。
  • 强调了开源模型和开放权重模型的重要性,鼓励用户尝试GPT之外的优秀模型。

Full Content

我最感兴趣的AI公司、最喜欢的大模型,不是OpenAI和他们的GPT,而是Cohere,以及他们的Command R+。

这家公司在国内是没啥名气——大部分人只知道OpenAI,甚至连Anthropic这种级别都很少被关注。但是在业内,Cohere绝对是不容忽视的存在。

别看这家公司的创始人非常年轻,要知道,人家可是《Attention is All You Need》的作者之一。正是这篇论文,开启了这一轮大模型技术的爆发。

在创业之初,他们本来是准备面向C端市场的。后来发现C端产品比想象中的难搞多了,于是果断转向B端市场,帮助企业把大模型落地业务里。Cohere目前提供三类模型:

1、生成模型。Command系列。支持接收用户的指令,也具备对话能力。最新的Command R+非常适合复杂的RAG工作流,以及多步骤的工具使用。它在某些方面的性能甚至达到GPT-4级别。 2、嵌入模型。Embed系列。其中支持多语种的嵌入模型,长长的列表中就包含中文。 3、重排序模型。Rerank系列。对文本块进行相关性重新排序,是提升检索精确度的关键。

这么说吧,Cohere的专精方向,正好就是我长期关注的方向——RAG和Agent。

之前我做了好多期关于个人知识库的视频,因为我有一个判断:

今天最重要的两个技术,Crypto解决的是生产关系问题,AI解决的是生产力的问题。所以,大模型技术的应用落地,肯定是先落在生产力工具层面,需要RAG和Agent的带动。

一直以来,只有少数公司愿意针对RAG和Agent做大模型的优化——大多数还是蒙头搞通用大模型。所以当我了解到还有Cohere这样的“业界清流”存在时,我就对他们保持高度关注。

Cohere最新一批模型推出有一段时间了。我最近看了一下,我平时在用的、也是我之前一直在推荐的工具,都支持他们的API调用了。而且Command R+也有了量化版本,可以跑在本地。于是,就有了这一期视频。

先说API的调用。

大家如果使用AnythingLLM的话,记得看看右上角的版本号。如果版本号是橙色的,说明有新版本。下载、覆盖安装之后,在模型下拉列表中就能看到对Cohere的支持。

至于Obsidian的AI插件Copilot,它的模型列表中并没有Cohere,但是有OpenRouter。这是一个第三方平台,通过它,你可以调用各种大模型,包括Command R+。

所以咱们要做的,就是把OpenRouter的API Key填进来,然后把Command R+的名称复制粘贴过来就OK。之后每次使用,模式选Vault QA,模型选OpenRouter,就可以使用Command R+生成内容了。

通过API调用是最简单的方法。如果你的电脑配置比较给力的话,还可以试试本地运行。

Command R+有1040亿参数,算是很大的模型了。即使是量化版,文件都超过20G。要下载的话,通过LM Studio就可以。

我的PC是32G内存,显卡是3060。根据LM Studio的提示,只有三个版本可以在我的机子上跑。而且即使能跑,也只能把一部分模型放到显存里。看来还是太吃力了。我估计用64G内存加4090显卡应该能顺畅跑起来。

Anyway,不管云端还是本地,我都强烈建议大家都试试。我这几天用下来的体感是,Command R+的生成效果挺好的,我非常满意。

以后知识库的应用,如果要用云端的大模型的话,我肯定就用Command R+。至于本地,我还是选择Qwen,感觉比Llama3的量化版更好一些。

最后多说一句,大家别只盯着GPT一个模型。开源的模型、开放权重的模型当中,也有很多非常优秀的模型。多试试,没准就有惊喜了。

OK以上就是本期内容。咱们下期见!

用Cursor做UI,最有效的两个方法

Key Takeaway

  • 作者介绍了两种使用Cursor进行UI设计的方法:免费的通过通用大模型生成JSON配置,以及付费的通过v0模型API。
  • 通用大模型直接生成UI效果不佳,但通过JSON等结构化数据输入能显著提高准确性和效率。
  • v0模型是专门针对UI和前端开发训练的,通过API接入Cursor可以获得更好的UI生成效果。
  • 完成UI后,可以通过Framer Motion或Reactbits等工具添加动画效果,提升用户体验。
  • 现代前端UI开发工具箱包括React、Radix UI、Tailwind CSS和Framer Motion。

Full Content

用Cursor做UI,我这边有两个最简单、最有效的方法——一个免费,一个付费。不管你是做网页的UI还是应用程序的UI,都可以。

为什么不直接用Cursor里的模型?因为那些模型画UI都太差了,即使是Claude 4也不太行。

举个例子,这是我用Keynote为第二款产品画的UI。我把图片导出来,贴进Cursor里,使用MAX模式,选择目前最牛逼的模型Claude Opus 4,让它照着生成。

你看,这是它最终的成品,真挺拉跨的。比如,大标题分成了两行;Submit按钮没有居中;How It Works部分明明有三个容器,结果有一个跑到下边去了。

我做上一款产品Prompt House的时候,就遇到了模型怎么都画不好UI情况。非常恼火。后来实在没办法,只能让它告诉我具体的代码位置,我手动调整。

那今天要分享的方法,是这几天我新学到的。先说免费的。

当你有了一张UI的图片,不要直接放到Cursor里。你可以打开Gemini、ChatGPT或者Claude——不管哪个都行。比如我这边用的是Gemini,并且打开了Canvas功能。

我把图片贴进去,让它根据图片的样子生成一份JSON格式的设计系统配置文件。这份JSON输出包含了整体设计风格、结构元素和布局原则等等。

然后,再把这份JSON配置贴到Cursor里边,让模型完全按照它来输出。你看,这个结果是不是好多了?基本是一模一样。

那么,为什么这套方法有效?

因为,虽然模型理解自然语言完全没问题,但是一旦涉及需要精确、结构化、无歧义的数据输入场景,JSON这样的结构化数据格式,能让模型的理解更准确、处理更高效、输出更稳定。

OK,这是第一种方法,完全免费,但是略微麻烦一点。如果你做UI的需求比较强,比如需要来回修改什么的,那我推荐,直接通过API调用v0的模型。

v0模型是Vercel推出的,专门针对UI和前端开发做了训练。所以在处理这个类型的工作上,v0会比Claude之类的通用大模型更擅长、更适合。

我之前经常用v0.dev这个网页来生成UI。那如果要用API调用模型的话,就需要订阅,一个月20美金。我一般需要的时候就开一个月,集中把前端的工作都搞定了。

订阅之后,来到后台,可以生成一个API Key。回到Cursor,在模型设置里,选择API Keys选项,在这边我们可以使用自己的Key。

因为v0的API符合OpenAI的规范,所以我们把Override OpenAI Base URL选项打开。把URL中间部分改成v0.dev。填入v0的API Key,再选择Verify就搞定了。

当我们要使用的时候,可以选择一个OpenAI的模型,比如GPT-4o。虽然它显示的是GPT-4o,但其实走的是v0的通道,所以调用的是v0的模型。这样一来,我们就可以直接在Cursor里完成所有工作啦。

最后,one more thing。完成基础的UI之后,我们可以添加一些动画效果来提升用户体验。比如,可以让Cursor添加Framer Motion。我在Prompt House就用上了,网页版和Mac版都有,整体会流畅许多。

或者,你也可以使用Reactbits之类的网站,把动画的代码复制粘贴到Cursor里,让模型去集成。

就像我在社群里说的,整个前端UI会涉及到这四个部分:React是项目经理和架构师;Radix UI是功能工程师;Tailwind CSS是视觉设计师;Framer Motion是动效设计师。它们共同构成了一个非常现代和强大的前端UI开发工具箱。大家在开发的时候可以组合使用。

OK,以上就是本期内容。想交流AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

给大模型无限上下文

Key Takeaway

  • 上下文长度是大模型应用的关键限制,提升其难度高。
  • MemGPT将大模型视为操作系统,通过分级内存管理(Main Context + External Context)来解决上下文限制问题。
  • Main Context包含系统指令、对话上下文和工作上下文,External Context包含事件记忆和事实记录。
  • MemGPT能够自主进行上下文信息的检索和编辑,并具备“觉知”能力。
  • MemGPT支持多种后端模型,并可与AutoGen等Agent系统整合,对Multi-Agent System有重要意义。

Full Content

上下文长度是大模型要跨过的第一道槛。

长度太短,就无法开启很多领域的应用,比如医疗GPT。想象一下,医患20轮对话之后,医生就不记得病人的基本情况了,这怎么搞?

所以,上下文长度约等于大模型的内存,是衡量大模型能力的基本指标之一。

但是要提升大模型的上下文长度,难度很高。

一是训练方面。需要更高的算力和显存,还需要更多的长序列数据。

二是推理方面。Transformer模型的自注意力机制(Self-Attention)要求对序列中的每个元素去计算它与其它元素的相关性。这种机制天然决定了上下文长度不可能太长。于是大家又提出了一系列处理长序列的解决方案,这是另一个超大话题,此处不展开。

MemGPT找到了一个天才解法。

LLM = OS

大模型是什么?

MemGPT认为,大模型本质上就是操作系统。所以,上下文就是内存,上下文长度管理就是内存管理。

操作系统是怎么管理内存的?

等级制。CPU缓存(L1、L2和L3)离核心最近,速度最快,但容量最小。按这个逻辑往外推,其次是内存,最后是硬盘。

根据需要,操作系统会在这三个层级之间调配数据:最着急用的,放CPU缓存;暂时用不着的,放硬盘。

既然大模型是操作系统,那采用相同的内存管理方法,没毛病。

MemGPT就是这么干的。

Main Context + External Context

这是MemGPT的运行逻辑:

当有事件发生时,事件信息通过解析器(Parser)进入虚拟“内存”(Virtual Context)。

大模型作为处理器(Processor),对内存中的数据进行调用、确认,然后再通过解析器输出,变成一个行为。

关键点就在Virtual Context上。它分为两个部分:

一、Main Context:就是有原本有长度限制的上下文。Main Context由三部分组成:

  1. System Instructions,系统指令。简单理解就是每次我们在system message里写的“you are a helpful assistant”。这部分只读,并且每次都会被调用,因为它是底层设定。
  2. Conversational Context,对话上下文。采用“先进先出”(FIFO)规则——超过一定长度后,最旧的对话会被抛弃。
  3. Working Context,工作上下文。简单理解就是大模型的笔记本,上边记录着当前的注意事项。

下图就充分说明了Working Context是怎么一回事。

当用户提到了“今天生日”和“最爱的巧克力熔岩蛋糕”两个关键信息时,大模型迅速在笔记本上写下这两点,然后在回复中应用起来。

二、External Context:就是存储在外部的上下文信息,比如存在硬盘里。External Context由两部分组成:

部署本地大模型和知识库,最简单的方法

Key Takeaway

  • Ollama是本地运行开源大模型的最佳工具,支持多平台,且易于安装和使用。
  • Open WebUI提供ChatGPT风格的Web界面,支持本地大模型交互和RAG能力,可处理网页和文档。
  • Anything LLM是更高级的本地知识库管理工具,支持多种大模型、嵌入模型和向量数据库,并提供Workspace概念和对话/查询模式。
  • 本地部署大模型和知识库能实现数据安全、隐私保护和更灵活的定制化。
  • 文章强调了Ollama的服务器模式,使其能开放端口供其他软件调用大模型能力。

Full Content

在本地跑开源大模型,目前最好的软件肯定是Ollama。

不管你用的是PC、Mac,甚至是树莓派,都能通过Ollama运行大大小小的模型。而且扩展性极强。

我准备分几期详细介绍Ollama的用法。今天这期,先介绍三点:

  1. 怎么用Ollama在本地运行大模型。
  2. 在跑本地大模型的同时,使用像ChatGPT那样的Web UI。
  3. 打造完全本地化的知识库。

大家如果有更好的建议,或者在安装和使用过程中有什么问题,可以到newtype知识星球来找我。

Ollama

安装Ollama超级简单。到官网ollama.com或者.ai下载对应版本就行。

安装完成之后,在终端里输入ollama run,后边接想要运行的大模型名称就行。比如:ollama run llama2。这时系统会自动下载对应的大模型文件。

如果你不确定大模型的名称,到官网的model子页面就能找到目前所有支持的大模型。每一款大模型都有不同的版本,根据你的需求、机器的内存大小,选择对应版本,然后复制命令就行。

一般来说,7b的模型至少需要8G内存,13b需要16G,70b需要64G。大家量力而为,不然跑起来真的非常卡顿。

在默认情况下,你需要在终端里与大模型做交互。不过这种搞法真的太古老了。我们肯定是希望在一个现代的、图形化的界面里操作。这时候就要用到Open WebUI了。

Open WebUI

要安装Open WebUI,需要先安装Docker。

你可以把Docker简单理解为就是一个虚拟的容器。所有应用和依赖都打包成一个容器,然后再在系统上运行。

Docker搞定之后,复制GitHub里的这行命令到终端里执行。一切顺利的话,打开一个本地链接,就能看到非常眼熟的界面了。

这个WebUI,除了具备基本的聊天功能之外,还包含了RAG能力。不管是网页还是文档,都可以作为参考资料给到大模型。

你如果想让大模型读取网页内容的话,在链接前面加个#就行。

你如果想让大模型读取文档的话,可以在对话框的位置导入,也可以在专门的Documents页面导入。

在对话框里输入#,会出现已经导入的所有文档。你可以选中一个,或者干脆让大模型把所有文档都作为参考资料。

如果你的要求不是太高,那么做到这一步就OK了。如果你想对知识库有更多的掌控,就下载这个软件:Anything LLM。

Anything LLM

Ollama其实有两种模式:

  1. 聊天模式
  2. 服务器模式

所谓服务器模式,你可以简单理解为,Ollama在后端运行大模型,然后开放一个端口给到别的软件,让那些软件可以调用大模型的能力。

要开启服务器模式非常简单。在终端里输入两个单词:ollama serve。

启动之后,把这个默认链接填到Anything LLM里。这时,软件会通过链接读取可以加载的模型。这些模型是用来生成内容的模型。

除此之外,搭建一个知识库,会涉及到另外两个关键:

  1. Embedding Model,嵌入模型。它负责把高维度的数据转化为低维度的嵌入空间。这个数据处理过程在RAG中非常重要。
  2. Vector Store,向量数据库,专门用来高效处理大规模向量数据。

这两个我们都用默认的。这样一来,整套系统都跑在你的电脑上。当然,你也可以选择全部跑在云端,比如,大模型和嵌入模型都用OpenAI的,向量数据库用Pinecone,都可以。

完成最基础的三个设置之后,就可以进入主界面了。这款软件的逻辑我挺喜欢的,它有一个Workspace的概念。在每一个Workspace内部,可以创建各种聊天窗口,可以导入各种文档。

所以,你可以根据项目来创建Workspace,一个项目建一个。然后,把关于这个项目的所有文档、所有网页都导入Workspace。最后,聊天模式还有两种可以设置:

  1. 对话模式:大模型会根据你给的文档,以及它本来就有的知识储备,综合起来回答。
  2. 查询模式:大模型只是简单地针对文档进行回答。

这个就是我前边说的,Anything LLM比Open WebUI更进阶的地方,完全可以满足个人对知识库的需求。我已经把它作为我在桌面端Workflow的核心。等这两期视频做完,我专门出一期,讲讲我目前在用的AI工具和工作流吧。

限制大模型的,是输出长度

Key Takeaway

  • 大模型厂商普遍关注上下文长度,但忽略了输出长度的限制。
  • 目前大模型的输出长度普遍在2-3千字,主要原因是缺乏长文本训练素材。
  • 智谱通过增加长输出数据训练,显著提升了模型的输出长度。
  • 文章呼吁厂商应关注并提升模型的输出长度,以满足日常需求。

Full Content

我一直很不理解,怎么所有大模型厂商都在卷上下文长度,但就是没人关注输出长度。

现在要是发个新版本的模型,没个128K的上下文窗口,你都不好意思跟人打招呼。但是,模型的输出长度,也就是一次最多能回复多少字,好像有点停滞不前——两三千字就顶天了。

我拿ChatGPT和Claude做了个测试。我的需求是:

请帮我撰写一个主题为「黑神话·悟空」玄幻小说。小说以孙悟空为核心,讲述一个天庭腐败不堪、祸害三界,孙悟空与妖怪兄弟对抗天庭、拯救苍生的玄幻故事,不少于10000字。

ChatGPT的表现让我非常不满。

丫一上来就摆烂,说什么写10000字太费劲,只能帮我写一部分内容,以及给个大框架,剩下的还是得我自己来。

现在的AI都这么像打工人了吗?

当我要求它继续往下写的时候,ChatGPT就开始敷衍了。它象征性地写了几章,然后就马上宣布整个故事完结了。

真的,我都想骂人了…

相比之下,Claude就好太多了,大家还是订阅Claude吧。

虽然没法一次性输出10000字,但Claude好歹给出了解决办法:分章节输出,一个章节两三千字;用户可以随时给反馈意见。

这个才是AI该有的态度!

我让Claude写了几章。不得不说,它文笔还是不错的,写得有模有样。如果给它具体指导的话,写点小说发表肯定没问题。

这两个例子很有代表性。今天的模型产品,输出长度大概就是2千字。

为什么会这样?

智谱在论文里解释了。核心原因就是,缺少长文本的训练素材。我们给大模型训练用的数据集,很少有超过2千字的材料。所以,它都没见过、没被训练过,那自然写不出来。

为了解决这个问题,智谱的人特意准备了一份长输出的数据,里边的数据长度从2K到32K都有。把它跟通用数据结合,形成完整的数据集,给到两款支持128K上下文窗口的模型做微调,一个是GLM-4-9B,一个是Llama-3.1-8B。效果立竿见影。

我在Google Colab上做了测试,用A100 GPU分别跑两个模型。还是刚才那个写玄幻小说的任务。

GLM-4-9B完成得比较好。我把它写贴到Ulysses里给大家看看。一共1.1万字,分成13章,从世界背景介绍开始,一直到最终大决战、打败天帝。

Llama-3.1-8B的字数没有达标,只有8千多字。不过即使这样,也大大超出平均水平的两三千字。

说实话,当AI把小说写出来的时候,我还是挺震惊、挺兴奋的——毕竟第一次看到输出这么长的内容。之前的典型情况是,我让AI帮我翻译一个论文,或者修改一篇稿子,结果返回了半截就停下来了,这个就非常不爽、不方便了。

如果说,32K的上下文长度算是够用级别的话,那么至少5千字的输出长度才能满足日常需求。

接下来,我会试着用智谱的训练集去多微调几个模型。我也真心希望,国内的厂商别都在那边无脑地追逐超长上下文窗口,把这个当成一个营销噱头,搞得跟手机厂商跑分一样。是时候把输出长度提上来了。

OK,以上就是本期内容。想找我的话,来newtype社群。咱们下期见!

Mac必装AI软件

Key Takeaway

  • 作者分享了MacBook Pro的配置选择,并解释了为何选择14寸M4 Pro而非16寸M4 Max,以及未来将重负载任务交给Mac Studio的规划。
  • 推荐Mac用户安装AI相关软件,如ChatWise,它支持主流闭源模型和开源模型(如Ollama),并提供搜索和Artifacts等工具。
  • 强调了OpenRouter作为统一API管理平台的重要性,避免了多平台注册和绑定信用卡的麻烦。
  • Cursor被认为是强大的AI编程工具,结合Claude 3.7更强大,并可用于知识库管理和AI辅助创作。
  • Obsidian及其AI插件Copilot被推荐用于个人知识库,实现笔记的AI对话和实时信息查询,并强调了数据处理的重要性。
  • 建议个人AI工具选择简单轻量化,企业级才考虑重型引擎。
  • 此外,还推荐了Input Source Pro(输入法提示)、Rectangle(窗口管理)、Raycast(快速搜索)和Manico(应用快捷键)等效率工具,以提升Mac使用体验。

Full Content

我把新款MacBook Pro买回来了。借着新机入手,我给大家分享一下,Mac都有哪些必装软件,尤其是AI方面。这些工具绝对能提高你的日常效率和幸福感。

我订的这台是M4 Pro芯片,统一内存加到48G,1T硬盘。为了方便对着屏幕拍摄,我还加钱上了纳米屏。那么,为什么不上128G的M4 Max?两个原因:

第一,16寸实在太大了。我去店里看过。带着跑来跑去,真不太方便。14寸对我来说刚刚好。

第二,下半年我准备买Mac Studio。根据业内大佬推测,苹果应该会在年中或者下半年推出Mac Studio,芯片是M4 Ultra,比现在的M4 Max还强大。而且按照M2 Ultra的样子,统一内存能加到192G,比MacBook顶配的128G大多了。这样的机子拿来跑大模型不香吗?

所以,我想来想去,还是决定把重负载任务都交给Mac Studio。MacBook Pro就专心负责移动场景,就不为难它了。而且,M4 Pro加上48G统一内存已经足够给力了。

我平时拍的这些视频都是4K 10bit 422的素材,用达芬奇剪辑。这台机子剪起来完全没压力。跑大模型的话,我也测了两个黄金尺寸的效果:14B能达到每秒21个Token;32B能达到11。这样的表现,我非常满意了。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经快1000人付费加入啦!

回到今天的主题:Mac必装软件。咱们先从AI相关的说起。

当你用了一段时间模型厂商出的应用——比如ChatGPT、Claude之后,大概率会希望通过API调用模型,以及试一试在本地运行开源大模型。两个原因:

一是更自由地体验更多的模型,并且用多少Token就付多少钱。二是更自由地去选择和组合一套工具,完全适配自己的习惯和需求,作为日常主力。

这个时候,你就需要一款像ChatWise一样的应用。

在闭源模型方面,主流的模型厂商和主流的算力平台它都支持,肯定有你想用的。

我知道大家最近为了DeepSeek注册了好几个算力平台。但是,要稳定使用的话,我建议用OpenRouter就好了,不用看别的。它不会像国内那些平台那样,总出幺蛾子——你想薅它羊毛,它想割你韭菜。在OpenRouter里,把API Key填进去,市面上所有的模型都可以选择。这就免去了你每家都得注册账号、绑定信用卡的麻烦。

在开源模型方面,大家常用的Ollama和LM Studio都有。像Ollama,你都不用做啥设置,保持软件运行就可以。ChatWise自动把所有模型都列出来了。我平时用最多的就是DeepSeek-R1 14B和Qwen2.5 14B。

光有模型不够,还得给模型配上工具。你看ChatGPT不就是在GPT模型的基础上,加了各种工具,比如搜索和画布。那到了ChatWise这边,同样也有这两个工具。

Artifacts就我之前夸过好多次,就不多说了。搜索方面,你可以用Google的免费API,也可以调用Tavily的。他们是一个专门为大模型优化过的搜索引擎。我之前自己写脚本的时候用过,挺不错的。

或者,还有一个更简单的方法,不用这些搜索引擎,直接用Perplexity的API。他们微调后的模型,有搜索、有推理,效果非常好。

ChatWise这些进阶功能需要付费才能解锁。如果你就是想要免费的,那可以用Cherry Studio。但我还是付费了。并不是冲着功能去的,只是因为它好看,用着舒服。我认为,在功能大差不差的情况下,外观和流畅度就成为选择的关键。

所以,除了Gemini 2.0和Grok 3我是在官方的网站上用,其它的模型,我全通过ChatWise加OpenRouter和Ollama来搞定。

OK,日常AI主力工具说完了,那还有两个补充。

一个是Cursor。市面上的AI编程软件很多,在细分领域各有所长。但综合来看,Cursor就是最强的,没有之一。再加上前几天Claude 3.7发布,Cursor当天就支持了。有了比3.5还强20%的3.7加持,Cursor现在更猛了。

除了编程,Cursor其实还有一些框架之外的奇怪用法。我在上一期“AI学习法”的视频里有介绍过。大家可以找来看看,肯定会有启发的。

另一个是Obsidian。更准确地说,是它的AI插件Copilot。对我来说,它的作用有两个:

第一,当我在写笔记的时候,可以直接在软件内跟AI对话,不需要切换到别的软件去。说真的,切来切去特别打断思路。而且,Copilot也可以连OpenRouter,用Perplexity的模型完成搜索,不用担心查不到实时信息。

MCP实用指南

Key Takeaway

  • MCP(Model Control Protocol)是模型的超级外挂,能显著提升AI生产力,例如通过结合Claude和MCP实现低配版Deep Research。
  • Sequential Thinking MCP有助于模型进行多步骤推理,保持逻辑性和连贯性;Tavily MCP则提供优化过的搜索引擎功能。
  • MCP.so是寻找和托管MCP服务器的首选平台,其核心竞争力在于MCP Server Hosting。
  • 推荐关注三类MCP服务器:搜索相关(如Perplexity, Tavily)、数据相关(如Filesystem, GitHub)和工具相关(与特定应用打通)。
  • MCP的通信方式取决于服务器部署位置:本地运行使用stdio(标准输入输出流),云端运行使用SSE(基于HTTP的远程通信)。
  • 即使MCP服务器在本地运行,也可以通过调用远程API实现联网功能。
  • 建议新手通过实践Tavily(SSE方式)和Filesystem(stdio方式)来理解和掌握MCP的使用。

Full Content

MCP就是模型的超级外挂。装上之后,你会发现,原来AI生产力可以这么高。

举个例子,我给Claude-3.7 Sonnet配上两个MCP,它就成了一个低配版的Deep Research应用。

一个MCP是Sequential Thinking。它是一种标准化的思考模式,可以让模型在处理多步骤推理任务的时候,保持逻辑性和连贯性。比如,把复杂任务分解成清晰的步骤。当有新的信息出现时,还能灵活调整思考路径。

另一个MCP是Tavily。这个之前介绍过,就是一个对模型优化过的搜索引擎。

有了它俩之后,你看,Claude就会边搜索、边思考;根据搜到的内容,调整思考的路径,然后进行下一轮搜索;当它觉得信息足够了,逻辑也完整了,就会输出最终的报告。

这么一大套流程下来,我用1美元的成本,换来了更高质量的回答。这说明了两点:

第一,OpenAI的Deep Research真的是贵有贵的道理。你看刚才那个思考和搜集的过程就知道,太费Token了。OpenAI那边肯定更复杂。

第二,MCP真的有用。我可以给你们看看对比。我把Sequential Thinking拿掉,只留联网搜索。同样的问题,模型给出的答案简单许多。

这个就是我最近一直在推MCP的原因。那么,我们要去哪里找MCP?找到之后又怎么使用呢?本期视频,我给大家做一个详细解答。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经超过1000人付费加入啦!

回到今天的主题:MCP实用指南。

咱们先说第一个问题:MCP哪里找?

如果你想用现成的MCP的话,那么,MCP导航网站就是你的首选。在这个领域,目前排名第一的,就是MCP.so。

MCP.so是国内明星开发者idoubi的项目。他之前做了好多项目,比如AI搜索引擎ThinkAny。我上期视频说,有人已经开始做MCP基础设施,指的就是他。

在MCP.so,已经有超过3000个服务器被收录。其实,它的核心竞争力不是导航——导航谁都能做,技术含量不高,它的核心竞争力是MCP Server Hosting。

对咱们用户来说,面对这么多服务器,该怎么挑呢?我建议,有这三种类型的服务器大家可以留意一下:

第一,搜索相关的。比如,Perplexity、Tavily都是搜索。Fetch、Firecrawl都是爬虫。

第二,数据相关的。比如,Filesystem能让模型调用本地文件,GitHub能让模型接入代码仓库。

第三,工具相关的。比如,Blender、Figma、Slack这些,你看名字就知道是跟什么应用打通了。

OK,现在大家知道去哪找,以及怎么挑MCP了。那么,如何接入、使用?

这个其实很好理解。你想嘛,既然它叫“服务器”,那么,这个服务器放在哪里,就决定了通信方式。

如果放在本地,跑在你自己的机子上,就用stdio;如果是跑在云端,比如MCP.so上边,就用SSE。

stdio就是标准输入输出流,通常用于本地通信。比如,Cursor、Claude、ChatWise之类的MCP客户端跟跑在同一台机子上的MCP服务器之间,通过标准输入(stdin)和标准输出(stdout)进行通信。

SSE则是一种基于HTTP的远程通信方式。MCP服务器远程托管。你本地的客户端通过SSE实现跨机器通信。

不太理解也没关系。我给你们看看实际的样子。

以ChatWise为例。在设置里的“工具”页面,点左下角的加号按钮,可以添加MCP服务器。在“类型”中,咱们可以选择stdio和SSE两种通信方式。

比如Sequential thinking,我是用stdio的方式。命令中的这一串其实就是GitHub上要求写的参数。因为它不需要API Key之类的东西,所以下边的环境变量就空着。

对于一些需要填写环境变量的MCP,比如Tavily,那就把API Key填进去。点击“查看工具”,ChatWise会尝试连接,然后把这个MCP下所有的工具都列出来。

那么,SSE是什么样的呢?

比如Firecrawl,我就是用SSE的方式。这个就简单多了,只需要把链接填进去。那么,链接哪来的?

还记得我刚才说的吗?如果MCP服务器跑在云端,那就通过SSE的方式连接。MCP.so就提供了这样的云端服务。

来到这个网站的Firecrawl页面,在右边填入你的API Key,点击“Connect”,它就会生成一个专属的链接。把这个链接复制下来,贴到ChatWise里边就搞定。

用Kimi K2驱动Claude Code,两个方法

Key Takeaway

  • Kimi K2是月之暗面推出的开源大模型,其代码生成和Agentic能力表现出色,被认为是国产模型在AI编程和Agent产品领域的突破。
  • Kimi K2的能力介于Claude 3.5和Claude 3.7之间,足以驱动Agent产品。
  • 替换Claude Code模型有两种方法:最简单的是通过设置环境变量直接切换到Kimi K2 API;另一种是使用Claude Code Router项目,该项目支持多种模型服务商的API配置。
  • AI编程工具由大模型(大脑)和编程助手(眼睛和手脚)两部分组成,大模型决定上限,编程助手提供工具操作能力。
  • Kimi团队通过特定工作流激发了Kimi K2的工具使用能力,使其在预训练阶段就学会了如何使用工具。

Full Content

如果你用Claude Code有难度,那么,可以把模型换成Kimi K2,照样也能跑得起来。而且,效果可能会让你眼前一亮。

Kimi K2是月之暗面最新推出的模型,开源,1T参数。我最感兴趣的,是它的代码生成和Agentic能力。

说实话,对于国产模型来说,这两个能力,我一直没看到比较出众的。这也导致国产模型在AI编程、Agent产品这一波越来越落后。

直到Kimi K2的出现。

老外对这个模型的热度超过了国内用户。他们说,K2就是又一个“DeepSeek-R1时刻”。Kimi算法小哥的这篇博客也引起了老外极大兴趣。

我自己体验下来,感觉K2的能力大概介于Claude 3.5和Claude 3.7之间。用一句话总结就是:足以驱动Agent产品,能够拿来干活了。

你别觉得我评价低了。要知道,今天大部分Agent产品完全依赖Claude模型。Kimi能把国产模型在这一块的空白补上,是非常牛逼的!

哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。这个社群已经运营500天,有超过1500位小伙伴付费加入啦。

回到今天的主题:用Kimi K2驱动Claude Code。

要更换Claude Code的模型,网上有很多方法。我给大家介绍两个。先来一个对大多数人来说最简单的。

第一步,你去月之暗面官网注册账号,然后生成API Key。如果打算长期使用的话,可以充点钱。你看我就充了50块钱,属于Tier 1级别。Kimi的API费用很低,跟Claude比起来简直就是白菜价。大家可以大胆使用。

第二步,来到终端,运行这两行命令。它们的作用是设置环境变量,把模型的调用渠道切换到月之暗面那边。

设置完之后,输入claude,把Claude Code启动。这时模型就已经换成K2了。

第二个方法,略微折腾一点。不过好处是,可以更换各种模型。

Claude Code Router这个项目就是一个路由器,让你随意配置模型,以及做自定义设置。

它支持的模型服务商很多,包括OpenRouter、DeepSeek、Ollama、Gemini等等。Kimi官方的API也是支持的。

使用起来也挺简单的。运行这一行命令,把npm包安装好。然后打开config.json文件,像我这样配置Kimi官方的API。如果你不想填配置文件也OK,输入ccr start这行命令。按照它的要求,输入provider name、url、api key、model name,就可以完成配置。最后,输入ccr code,就可以正常使用了。

看到这里,可能有人会很奇怪:换了模型之后,Claude Code为什么还能用?

我打个简单粗暴的比方:阿姆罗能开高达,夏亚也可以开!只要Pilot够强,就都能驾驭。

我们使用的AI编程工具包含两个部分:大模型(LLM),和编程助手(Coding Assistant)。

编程除了需要脑子聪明,还需要很强的动手能力。比如要从那么复杂的代码库里找到需要的文件,或者就那么几行代码。