大模型

手机也能本地部署DeepSeek R1 2024-08-31

Key Takeaway

DeepSeek R1模型可以在手机等本地设备上部署运行，PocketPal AI等免费APP支持。
本地部署AI模型具有运行稳定、速度快、免费、模型选择丰富、使用自由和数据隐私安全等优势，是AI普及的趋势。
DeepSeek R1的发布对AI行业是重大利好，推动了AI普及，促进了模型厂商的竞争，并引发了对算力使用和开源模型价值的反思。
在桌面端，Ollama是本地部署大模型的最佳工具，支持多种开源模型，并可与Open WebUI等前端工具结合。
移动端本地部署主要选择1.5B等小尺寸模型，未来随着技术发展，移动端AI能力将更强。

Full Content

使用DeepSeek R1，不一定非要通过官方的APP。在本地运行也可以。甚至，在手机上。

我手里这台是iPhone 12 mini，已经老得不能再老了，我一直没舍得换。结果它居然也能跑R1，这让我非常惊讶。

我用的是PocketPal AI这款免费APP，之前在社群里推荐过。下载的是1.5B、Q4精度的模型文件，生成挺流畅的。你看，跟官方APP里的表现一样，也是先给出思考过程，然后再给出结果。在Benchmark页面进行测试，可以看到详细的数值：每秒有大概20个Token；峰值内存占用大概是33%。

如果是新一点的iPhone，那么可以下载更高的精度，获得更好的效果。比如我用我老婆这台iPhone 14做了测试。它最高可以跑Q8精度，每秒输出16个Token。再高就没反应了，比如FP16。

说实话，比起DeepSeek R1 1.5B，我个人更喜欢Qwen2.5 1.5B。R1的思考过程太啰嗦，而且最终的结果不见得有质的提升。Anyway，大家根据自己的情况和偏好选择就好。今天还不存在某一个模型会显著超过其它模型。而且我觉得好的模型，对你不一定适用。

另外，我知道这个视频发出去之后，肯定又会有人质疑本地部署的必要性。每次我发这类视频都会被喷。所以在这边我统一回复一下。

老网友应该有印象，在很多年前，谷歌推出Chromebook，一个上网本。它的办公软件都是网页版的应用，谷歌全家桶。按照那些人的逻辑，这就够了啊？为什么还要本地版的Office全家桶呢？结果市场给出了选择。

AI在端侧的落地也一样。如果都依赖云端算力，AI绝对不可能普及。比如，需要网络接入；用的人多了可能要排队；还有莫名其妙的降智和懒惰情况。这些都会限制我们使用AI。此外还有隐私和数据安全的问题。

所以，依靠端侧算力，在移动端运行1.5B或者3B的模型，在桌面端运行7B或者14B的模型，一定是未来一两年的发展趋势。

对超级个人来说，拥有更多算力，就能跑更强大的模型。知道每种设备使用AI的方法，就能更自由地接入AI。这些组合在一起，就能让你在那些普通人面前获得Unfair Advantage。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有800多位小伙伴付费加入啦！

回到今天的主题：在端侧部署DeepSeek R1。

过年这段时间特别热闹。年前先是川普发币。看起来很不合理，但仔细想想也没啥毛病。人家要干碎一切，发个币算什么？

这一波过去没多久，DeepSeek来了，闹了一整个假期。我的观点很简单：这对所有人来说，都是重大利好。

第一，一款免费且开源、支持深度思考和联网搜索、具备最强中文能力的模型，能让更多的普通用户用上AI。

我在朋友圈里看到，好多之前基本不用AI的小伙伴，这次都用DeepSeek了。前几天跟亲戚聚餐，一位阿姨居然也主动聊起DeepSeek，还向我安利他们的APP，非要我下载体验一下。

能普及AI，就是功德无量的事儿。

第二，R1推出之后，业内都在各种反思。比如，之前对算力的使用是不是过于粗放了，等等。同时也给那些闭源厂商更多紧迫感，比如OpenAI，抓紧推出新的模型和产品。你看，O3 mini不就来了？

我相信经过这一波，各家模型厂商都能有所得。这就是开源、开放权重的意义。之前某些人说“开源就是智商税”、“开源模型只会越来越落后”，现在看是不是特别可笑？

第三，对于投资者来说，这一波既是卖出英伟达的机会，也是买入英伟达的机会。在大跌的那一天，我就开始买入了。逻辑很简单，我在社群里也发了：

DeepSeek的方法如果是可Scalable的，那么买卡还得继续。

他们并不是从零到一发现了一条新的、不同于Scaling Law的道路。其实还是原先的大方向。而且也不存在什么不需要CUDA、不需要高算力、不需要GPU改用ASIC的情况。这全都是外行不懂装懂、为了流量哄你们玩呢。各家公司还是会想方设法买卡，比如从新加坡。

所以，这一波下跌只是一时的恐慌，以及之前涨了那么多，市场普遍预期要回调，等待新的故事。所以大家都不约而同演了这么一出：

普罗大众开心了，扬眉吐气了。资本落袋为安了，开始观望了。美国政府也有理由要求严加管控了。每个人都各取所需。我们都有美好的未来。

我还是坚定认为，在AI这件事儿上，不存在弯道超车。

中国人特别擅长做从1到100的事儿。这一点在互联网和移动互联网时代特别明显。因为，从零到一的基础研发，人家都完成了，也分享出来了。然后我们跟上去做应用落地。你再看中国的VC，有哪家敢真的去投从零到一的项目？他们拿出来吹的投资成绩单，全都是对现成红利的收割。

但是AI这一波不一样——基础研发和落地应用齐头并进。所以不去开拓、只等着摘果子是行不通的。人家也不想当冤大头啊。

DeepSeek和国内的AI公司有很大不同，不管是钱还是人都不太一样。这也许就是他们能成的原因。

好了，这个话题不能再多说了。回头我在社群里发个视频细说。咱们还是回来聊端侧部署DeepSeek R1吧。

大家日常使用的话，如果是在桌面端，最简单的方法肯定是通过我们的老朋友——Ollama。

来到Ollama官网的DeepSeek R1页面，就会看到原始模型，以及蒸馏出来的六个小尺寸模型，从1.5B、7B到70B都有。我拿3060显卡的PC和M4的Mac mini都测了一下。

3060跑7B，每秒Token有46，非常丝滑顺畅。跑8B，每秒Token有44，差不多。跑14B，速度降到26，也完全能接受。

注意：这是在我开着OBS录屏情况下的数据。没开的话，每秒Token数量会多四五个。

再来看M4 Mac mini的情况。24G统一内存，跑7B，每秒Token有19。跑8B，每秒Token有17。跑14B，每秒Token只剩10。

普通人用AI，从元宝开始 2024-08-31

Key Takeaway

腾讯元宝是普通用户入门AI的最佳启蒙工具，因其全场景覆盖、双模型支持和腾讯加持版R1。
元宝提供网页版、桌面客户端、手机APP和微信小程序，并支持微信文件导入，实现多场景无缝切换。
元宝结合DeepSeek-R1（慢思考）和混元Turbo S（快思考）双模型，兼顾深度和效率。
腾讯对R1进行了增强，包括接入公众号文章搜索来源和图片识别能力，使其成为“满血版”R1。
文章强调腾讯在C端市场的强大产品能力和自研能力，以及AI普及对普通用户的意义。

Full Content

DeepSeek火爆，最开心的厂商肯定是腾讯。

因为，当每家公司都接入DeepSeek，模型都一样，模型能力都拉齐之后，拼的是什么？拼产品。那么，拼产品，腾讯有怕过谁？更何况，除了DeepSeek，腾讯手里还有自研的混元大模型。

你发现没有，过完年的这段时间，一直很佛系、很随缘的腾讯突然变得凶狠、坚决了许多？

在B端，腾讯云把DeepSeek融入核心产品线，而且还推出基于DeepSeek的云服务和解决方案。

在C端，元宝一口气冲到APP Store免费榜亚军的位置，力压Kimi、豆包，仅次于DeepSeek官方APP。

我认为，普通人用AI，从元宝开始肯定是最佳的AI启蒙工具。我之前发的视频，大部分都是面向有一定基础的用户。然后每隔一两天就会有人私信问，纯小白该怎么上手AI？

很简单：AI时代最高效的学习方式就是Learning by doing。上手用起来，并且平时高频率使用，比你看一百篇教程都重要。而元宝就是普通用户、非Early Adopter的第一入口。三个原因。

第一，全场景覆盖。

用AI跟拍照其实是一个道理。能带出去的相机就是好相机。同样地，能让你随时用上AI的产品就是好产品。

元宝有全平台的网页版，Mac和Windows双支持的电脑客户端、iOS和安卓双支持的手机APP，以及不需要安装的微信小程序。

四端实时同步的特性，完美适配多场景切换。比如在电脑端没有完成的对话，外出时可通过APP继续讨论。我一般会把那些需要反复讨论的聊天置顶，这样下次就不用去历史记录里找半天了。

在这些基础功能之上，腾讯还做了一件只有腾讯能做到的事：

从微信里导入文档。

我相信，90%以上的用户把微信的“文件传输助手”当做“文件存放助手”来用，啥都往里放。因为在手机上，微信是第一入口。在微信里找文档是顺理成章的事儿。

那么，很自然地，在手机上，如果要把文档给到AI去分析，从微信直接导入过去是最方便的。

所以，当你在元宝APP里点击右下角的加号按钮时，会看到“微信文件”这个选项。它会跳到微信，然后通过元宝小程序作为桥梁，实现微信文件传输这个功能。或者反过来，直接在微信里“用其他应用打开”、选择元宝也可以。

你看，这个就叫产品能力。看起来很小的一个功能点，但是很实用、很贴心。这个就是典型的腾讯风格。

我挺希望接下来能有更多微信和元宝之间的联动的。比如，一篇很长的公众号文章，点右上角的转发按钮，能有一个“在元宝中打开”的选项。然后也像现在的“深度阅读文档”那样，给出总结、精读和脑图三个选项。我相信这肯定会成为爆款功能的。

第二，双模型支持。

DeepSeek-R1很好，但是它并适合所有使用情况。

像R1这类推理模型，通过多阶段训练，尤其是强化学习，最终获得了逐步推理和思维链的构建能力。于是，它们在面对复杂问题的时候，会先分析问题、识别关键点，再逐步得出结论。

但是，我们日常使用的时候，所有问题都是复杂问题吗？所有问题都值得等个好几秒才能获得答案吗？

显然不是啊。所以，光有DeepSeek-R1还不够，还得有别的模型。这个时候，自研能力的重要性就体现出来了。

前两天，腾讯上线了混元Turbo S模型。如果把DeepSeek-R1、混元T1称为“慢思考模型”的话，那么混元Turbo S就是“快思考”模型。它首字时延更低、吐字速度更快。两个字总结：

秒回。

在元宝里，当你选择混元模型，把“深度思考”按钮关了之后，就是用混元Turbo S做快问快答了。

说真的，我之前用了一段时间R1，每次看到一个简单的问题，它在那边琢磨半天，我都特别无语。比如，我说个“哈喽”，它想了5秒才回答，内心戏太足，有一种赛博朋克的荒诞感。

所以，“慢思考”加“快思考”，双模型搭配，日常使用效率才高。

第三，腾讯加持版R1。

现代大模型已进化为"应用平台"，

两年前的模型，基本就是单纯的文字对话。而今天的模型多了许多关键功能。比如你看Google的Gemini 2.0，强调“原生”的概念——原生的图像生成，原生的文字转语音，原生的工具使用。

这种大集成的目标，是为了打造一个universal AI assistant。这也成为现在旗舰模型的标配。

国内媒体为了流量，在吹捧DeepSeek-R1的时候，只聚焦在它的推理能力上，其它方面有意不提。所以，给R1加上更多工具、更多功能的任务，就落到应用厂商身上了。在这方面，元宝有两个点我特别喜欢。

一是搜索来源包括公众号文章。

中文互联网这几年泥沙俱下，能看的内容不多了。所以我在用Perplexity之类的工具时，都会在Prompt里特意强调：即使我用中文提问，你也给我去搜英文的网页。

如果要说还有哪里有不错的内容的话，那应该只剩公众号了。这个平台的内容属于腾讯的独家资源。这次元宝的搜索就用上了。

公众号的高质量内容，加上DeepSeek-R1的强推理能力，等于Quality in，quality out。

二是图片识别能力。

R1本身是不具备识图能力的。所以，包括DeepSeek官方在内的应用，都是添加一个OCR的功能，把图片上的文字提取出来，然后给到模型继续处理。

但是，如果图上没有文字，我就是想分析纯图片呢？

这个就是腾讯对R1的第二个加持。他们先对图片内容进行分析，把结果给到R1做回答参考。

最适合知识库的大模型 2024-08-31

Key Takeaway

Cohere及其Command R+模型是专注于RAG和Agent的“业界清流”，其创始人是Transformer论文作者之一。
Cohere提供生成模型（Command R+）、嵌入模型（Embed）和重排序模型（Rerank），特别适合复杂RAG工作流和多步骤工具使用。
Command R+在某些方面性能达到GPT-4级别，且有量化版本可本地运行。
文章介绍了通过AnythingLLM和OpenRouter调用Command R+的API方法，以及本地部署的硬件要求。
强调了开源模型和开放权重模型的重要性，鼓励用户尝试GPT之外的优秀模型。

Full Content

我最感兴趣的AI公司、最喜欢的大模型，不是OpenAI和他们的GPT，而是Cohere，以及他们的Command R+。

这家公司在国内是没啥名气——大部分人只知道OpenAI，甚至连Anthropic这种级别都很少被关注。但是在业内，Cohere绝对是不容忽视的存在。

别看这家公司的创始人非常年轻，要知道，人家可是《Attention is All You Need》的作者之一。正是这篇论文，开启了这一轮大模型技术的爆发。

在创业之初，他们本来是准备面向C端市场的。后来发现C端产品比想象中的难搞多了，于是果断转向B端市场，帮助企业把大模型落地业务里。Cohere目前提供三类模型：

1、生成模型。Command系列。支持接收用户的指令，也具备对话能力。最新的Command R+非常适合复杂的RAG工作流，以及多步骤的工具使用。它在某些方面的性能甚至达到GPT-4级别。 2、嵌入模型。Embed系列。其中支持多语种的嵌入模型，长长的列表中就包含中文。 3、重排序模型。Rerank系列。对文本块进行相关性重新排序，是提升检索精确度的关键。

这么说吧，Cohere的专精方向，正好就是我长期关注的方向——RAG和Agent。

之前我做了好多期关于个人知识库的视频，因为我有一个判断：

今天最重要的两个技术，Crypto解决的是生产关系问题，AI解决的是生产力的问题。所以，大模型技术的应用落地，肯定是先落在生产力工具层面，需要RAG和Agent的带动。

一直以来，只有少数公司愿意针对RAG和Agent做大模型的优化——大多数还是蒙头搞通用大模型。所以当我了解到还有Cohere这样的“业界清流”存在时，我就对他们保持高度关注。

Cohere最新一批模型推出有一段时间了。我最近看了一下，我平时在用的、也是我之前一直在推荐的工具，都支持他们的API调用了。而且Command R+也有了量化版本，可以跑在本地。于是，就有了这一期视频。

先说API的调用。

大家如果使用AnythingLLM的话，记得看看右上角的版本号。如果版本号是橙色的，说明有新版本。下载、覆盖安装之后，在模型下拉列表中就能看到对Cohere的支持。

至于Obsidian的AI插件Copilot，它的模型列表中并没有Cohere，但是有OpenRouter。这是一个第三方平台，通过它，你可以调用各种大模型，包括Command R+。

所以咱们要做的，就是把OpenRouter的API Key填进来，然后把Command R+的名称复制粘贴过来就OK。之后每次使用，模式选Vault QA，模型选OpenRouter，就可以使用Command R+生成内容了。

通过API调用是最简单的方法。如果你的电脑配置比较给力的话，还可以试试本地运行。

Command R+有1040亿参数，算是很大的模型了。即使是量化版，文件都超过20G。要下载的话，通过LM Studio就可以。

我的PC是32G内存，显卡是3060。根据LM Studio的提示，只有三个版本可以在我的机子上跑。而且即使能跑，也只能把一部分模型放到显存里。看来还是太吃力了。我估计用64G内存加4090显卡应该能顺畅跑起来。

Anyway，不管云端还是本地，我都强烈建议大家都试试。我这几天用下来的体感是，Command R+的生成效果挺好的，我非常满意。

以后知识库的应用，如果要用云端的大模型的话，我肯定就用Command R+。至于本地，我还是选择Qwen，感觉比Llama3的量化版更好一些。

最后多说一句，大家别只盯着GPT一个模型。开源的模型、开放权重的模型当中，也有很多非常优秀的模型。多试试，没准就有惊喜了。

OK以上就是本期内容。咱们下期见！

用Cursor做UI，最有效的两个方法 2024-08-31

Key Takeaway

作者介绍了两种使用Cursor进行UI设计的方法：免费的通过通用大模型生成JSON配置，以及付费的通过v0模型API。
通用大模型直接生成UI效果不佳，但通过JSON等结构化数据输入能显著提高准确性和效率。
v0模型是专门针对UI和前端开发训练的，通过API接入Cursor可以获得更好的UI生成效果。
完成UI后，可以通过Framer Motion或Reactbits等工具添加动画效果，提升用户体验。
现代前端UI开发工具箱包括React、Radix UI、Tailwind CSS和Framer Motion。

Full Content

用Cursor做UI，我这边有两个最简单、最有效的方法——一个免费，一个付费。不管你是做网页的UI还是应用程序的UI，都可以。

为什么不直接用Cursor里的模型？因为那些模型画UI都太差了，即使是Claude 4也不太行。

举个例子，这是我用Keynote为第二款产品画的UI。我把图片导出来，贴进Cursor里，使用MAX模式，选择目前最牛逼的模型Claude Opus 4，让它照着生成。

你看，这是它最终的成品，真挺拉跨的。比如，大标题分成了两行；Submit按钮没有居中；How It Works部分明明有三个容器，结果有一个跑到下边去了。

我做上一款产品Prompt House的时候，就遇到了模型怎么都画不好UI情况。非常恼火。后来实在没办法，只能让它告诉我具体的代码位置，我手动调整。

那今天要分享的方法，是这几天我新学到的。先说免费的。

当你有了一张UI的图片，不要直接放到Cursor里。你可以打开Gemini、ChatGPT或者Claude——不管哪个都行。比如我这边用的是Gemini，并且打开了Canvas功能。

我把图片贴进去，让它根据图片的样子生成一份JSON格式的设计系统配置文件。这份JSON输出包含了整体设计风格、结构元素和布局原则等等。

然后，再把这份JSON配置贴到Cursor里边，让模型完全按照它来输出。你看，这个结果是不是好多了？基本是一模一样。

那么，为什么这套方法有效？

因为，虽然模型理解自然语言完全没问题，但是一旦涉及需要精确、结构化、无歧义的数据输入场景，JSON这样的结构化数据格式，能让模型的理解更准确、处理更高效、输出更稳定。

OK，这是第一种方法，完全免费，但是略微麻烦一点。如果你做UI的需求比较强，比如需要来回修改什么的，那我推荐，直接通过API调用v0的模型。

v0模型是Vercel推出的，专门针对UI和前端开发做了训练。所以在处理这个类型的工作上，v0会比Claude之类的通用大模型更擅长、更适合。

我之前经常用v0.dev这个网页来生成UI。那如果要用API调用模型的话，就需要订阅，一个月20美金。我一般需要的时候就开一个月，集中把前端的工作都搞定了。

订阅之后，来到后台，可以生成一个API Key。回到Cursor，在模型设置里，选择API Keys选项，在这边我们可以使用自己的Key。

因为v0的API符合OpenAI的规范，所以我们把Override OpenAI Base URL选项打开。把URL中间部分改成v0.dev。填入v0的API Key，再选择Verify就搞定了。

当我们要使用的时候，可以选择一个OpenAI的模型，比如GPT-4o。虽然它显示的是GPT-4o，但其实走的是v0的通道，所以调用的是v0的模型。这样一来，我们就可以直接在Cursor里完成所有工作啦。

最后，one more thing。完成基础的UI之后，我们可以添加一些动画效果来提升用户体验。比如，可以让Cursor添加Framer Motion。我在Prompt House就用上了，网页版和Mac版都有，整体会流畅许多。

或者，你也可以使用Reactbits之类的网站，把动画的代码复制粘贴到Cursor里，让模型去集成。

就像我在社群里说的，整个前端UI会涉及到这四个部分：React是项目经理和架构师；Radix UI是功能工程师；Tailwind CSS是视觉设计师；Framer Motion是动效设计师。它们共同构成了一个非常现代和强大的前端UI开发工具箱。大家在开发的时候可以组合使用。

OK，以上就是本期内容。想交流AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。那咱们下期见！

给大模型无限上下文 2024-08-31

Key Takeaway

上下文长度是大模型应用的关键限制，提升其难度高。
MemGPT将大模型视为操作系统，通过分级内存管理（Main Context + External Context）来解决上下文限制问题。
Main Context包含系统指令、对话上下文和工作上下文，External Context包含事件记忆和事实记录。
MemGPT能够自主进行上下文信息的检索和编辑，并具备“觉知”能力。
MemGPT支持多种后端模型，并可与AutoGen等Agent系统整合，对Multi-Agent System有重要意义。

Full Content

上下文长度是大模型要跨过的第一道槛。

长度太短，就无法开启很多领域的应用，比如医疗GPT。想象一下，医患20轮对话之后，医生就不记得病人的基本情况了，这怎么搞？

所以，上下文长度约等于大模型的内存，是衡量大模型能力的基本指标之一。

但是要提升大模型的上下文长度，难度很高。

一是训练方面。需要更高的算力和显存，还需要更多的长序列数据。

二是推理方面。Transformer模型的自注意力机制（Self-Attention）要求对序列中的每个元素去计算它与其它元素的相关性。这种机制天然决定了上下文长度不可能太长。于是大家又提出了一系列处理长序列的解决方案，这是另一个超大话题，此处不展开。

MemGPT找到了一个天才解法。

LLM = OS

大模型是什么？

MemGPT认为，大模型本质上就是操作系统。所以，上下文就是内存，上下文长度管理就是内存管理。

操作系统是怎么管理内存的？

等级制。CPU缓存（L1、L2和L3）离核心最近，速度最快，但容量最小。按这个逻辑往外推，其次是内存，最后是硬盘。

根据需要，操作系统会在这三个层级之间调配数据：最着急用的，放CPU缓存；暂时用不着的，放硬盘。

既然大模型是操作系统，那采用相同的内存管理方法，没毛病。

MemGPT就是这么干的。

Main Context + External Context

这是MemGPT的运行逻辑：

当有事件发生时，事件信息通过解析器（Parser）进入虚拟“内存”（Virtual Context）。

大模型作为处理器（Processor），对内存中的数据进行调用、确认，然后再通过解析器输出，变成一个行为。

关键点就在Virtual Context上。它分为两个部分：

一、Main Context：就是有原本有长度限制的上下文。Main Context由三部分组成：

System Instructions，系统指令。简单理解就是每次我们在system message里写的“you are a helpful assistant”。这部分只读，并且每次都会被调用，因为它是底层设定。
Conversational Context，对话上下文。采用“先进先出”（FIFO）规则——超过一定长度后，最旧的对话会被抛弃。
Working Context，工作上下文。简单理解就是大模型的笔记本，上边记录着当前的注意事项。

下图就充分说明了Working Context是怎么一回事。

当用户提到了“今天生日”和“最爱的巧克力熔岩蛋糕”两个关键信息时，大模型迅速在笔记本上写下这两点，然后在回复中应用起来。

二、External Context：就是存储在外部的上下文信息，比如存在硬盘里。External Context由两部分组成：

部署本地大模型和知识库，最简单的方法 2024-08-31

Key Takeaway

Ollama是本地运行开源大模型的最佳工具，支持多平台，且易于安装和使用。
Open WebUI提供ChatGPT风格的Web界面，支持本地大模型交互和RAG能力，可处理网页和文档。
Anything LLM是更高级的本地知识库管理工具，支持多种大模型、嵌入模型和向量数据库，并提供Workspace概念和对话/查询模式。
本地部署大模型和知识库能实现数据安全、隐私保护和更灵活的定制化。
文章强调了Ollama的服务器模式，使其能开放端口供其他软件调用大模型能力。

Full Content

在本地跑开源大模型，目前最好的软件肯定是Ollama。

不管你用的是PC、Mac，甚至是树莓派，都能通过Ollama运行大大小小的模型。而且扩展性极强。

我准备分几期详细介绍Ollama的用法。今天这期，先介绍三点：

怎么用Ollama在本地运行大模型。
在跑本地大模型的同时，使用像ChatGPT那样的Web UI。
打造完全本地化的知识库。

大家如果有更好的建议，或者在安装和使用过程中有什么问题，可以到newtype知识星球来找我。

Ollama

安装Ollama超级简单。到官网ollama.com或者.ai下载对应版本就行。

安装完成之后，在终端里输入ollama run，后边接想要运行的大模型名称就行。比如：ollama run llama2。这时系统会自动下载对应的大模型文件。

如果你不确定大模型的名称，到官网的model子页面就能找到目前所有支持的大模型。每一款大模型都有不同的版本，根据你的需求、机器的内存大小，选择对应版本，然后复制命令就行。

一般来说，7b的模型至少需要8G内存，13b需要16G，70b需要64G。大家量力而为，不然跑起来真的非常卡顿。

在默认情况下，你需要在终端里与大模型做交互。不过这种搞法真的太古老了。我们肯定是希望在一个现代的、图形化的界面里操作。这时候就要用到Open WebUI了。

Open WebUI

要安装Open WebUI，需要先安装Docker。

你可以把Docker简单理解为就是一个虚拟的容器。所有应用和依赖都打包成一个容器，然后再在系统上运行。

Docker搞定之后，复制GitHub里的这行命令到终端里执行。一切顺利的话，打开一个本地链接，就能看到非常眼熟的界面了。

这个WebUI，除了具备基本的聊天功能之外，还包含了RAG能力。不管是网页还是文档，都可以作为参考资料给到大模型。

你如果想让大模型读取网页内容的话，在链接前面加个#就行。

你如果想让大模型读取文档的话，可以在对话框的位置导入，也可以在专门的Documents页面导入。

在对话框里输入#，会出现已经导入的所有文档。你可以选中一个，或者干脆让大模型把所有文档都作为参考资料。

如果你的要求不是太高，那么做到这一步就OK了。如果你想对知识库有更多的掌控，就下载这个软件：Anything LLM。

Anything LLM

Ollama其实有两种模式：

聊天模式
服务器模式

所谓服务器模式，你可以简单理解为，Ollama在后端运行大模型，然后开放一个端口给到别的软件，让那些软件可以调用大模型的能力。

要开启服务器模式非常简单。在终端里输入两个单词：ollama serve。

启动之后，把这个默认链接填到Anything LLM里。这时，软件会通过链接读取可以加载的模型。这些模型是用来生成内容的模型。

除此之外，搭建一个知识库，会涉及到另外两个关键：

Embedding Model，嵌入模型。它负责把高维度的数据转化为低维度的嵌入空间。这个数据处理过程在RAG中非常重要。
Vector Store，向量数据库，专门用来高效处理大规模向量数据。

这两个我们都用默认的。这样一来，整套系统都跑在你的电脑上。当然，你也可以选择全部跑在云端，比如，大模型和嵌入模型都用OpenAI的，向量数据库用Pinecone，都可以。

完成最基础的三个设置之后，就可以进入主界面了。这款软件的逻辑我挺喜欢的，它有一个Workspace的概念。在每一个Workspace内部，可以创建各种聊天窗口，可以导入各种文档。

所以，你可以根据项目来创建Workspace，一个项目建一个。然后，把关于这个项目的所有文档、所有网页都导入Workspace。最后，聊天模式还有两种可以设置：

对话模式：大模型会根据你给的文档，以及它本来就有的知识储备，综合起来回答。
查询模式：大模型只是简单地针对文档进行回答。

这个就是我前边说的，Anything LLM比Open WebUI更进阶的地方，完全可以满足个人对知识库的需求。我已经把它作为我在桌面端Workflow的核心。等这两期视频做完，我专门出一期，讲讲我目前在用的AI工具和工作流吧。

限制大模型的，是输出长度 2024-08-31

Key Takeaway

大模型厂商普遍关注上下文长度，但忽略了输出长度的限制。
目前大模型的输出长度普遍在2-3千字，主要原因是缺乏长文本训练素材。
智谱通过增加长输出数据训练，显著提升了模型的输出长度。
文章呼吁厂商应关注并提升模型的输出长度，以满足日常需求。

Full Content

我一直很不理解，怎么所有大模型厂商都在卷上下文长度，但就是没人关注输出长度。

现在要是发个新版本的模型，没个128K的上下文窗口，你都不好意思跟人打招呼。但是，模型的输出长度，也就是一次最多能回复多少字，好像有点停滞不前——两三千字就顶天了。

我拿ChatGPT和Claude做了个测试。我的需求是：

请帮我撰写一个主题为「黑神话·悟空」玄幻小说。小说以孙悟空为核心，讲述一个天庭腐败不堪、祸害三界，孙悟空与妖怪兄弟对抗天庭、拯救苍生的玄幻故事，不少于10000字。

ChatGPT的表现让我非常不满。

丫一上来就摆烂，说什么写10000字太费劲，只能帮我写一部分内容，以及给个大框架，剩下的还是得我自己来。

现在的AI都这么像打工人了吗？

当我要求它继续往下写的时候，ChatGPT就开始敷衍了。它象征性地写了几章，然后就马上宣布整个故事完结了。

真的，我都想骂人了…

相比之下，Claude就好太多了，大家还是订阅Claude吧。

虽然没法一次性输出10000字，但Claude好歹给出了解决办法：分章节输出，一个章节两三千字；用户可以随时给反馈意见。

这个才是AI该有的态度！

我让Claude写了几章。不得不说，它文笔还是不错的，写得有模有样。如果给它具体指导的话，写点小说发表肯定没问题。

这两个例子很有代表性。今天的模型产品，输出长度大概就是2千字。

为什么会这样？

智谱在论文里解释了。核心原因就是，缺少长文本的训练素材。我们给大模型训练用的数据集，很少有超过2千字的材料。所以，它都没见过、没被训练过，那自然写不出来。

为了解决这个问题，智谱的人特意准备了一份长输出的数据，里边的数据长度从2K到32K都有。把它跟通用数据结合，形成完整的数据集，给到两款支持128K上下文窗口的模型做微调，一个是GLM-4-9B，一个是Llama-3.1-8B。效果立竿见影。

我在Google Colab上做了测试，用A100 GPU分别跑两个模型。还是刚才那个写玄幻小说的任务。

GLM-4-9B完成得比较好。我把它写贴到Ulysses里给大家看看。一共1.1万字，分成13章，从世界背景介绍开始，一直到最终大决战、打败天帝。

Llama-3.1-8B的字数没有达标，只有8千多字。不过即使这样，也大大超出平均水平的两三千字。

说实话，当AI把小说写出来的时候，我还是挺震惊、挺兴奋的——毕竟第一次看到输出这么长的内容。之前的典型情况是，我让AI帮我翻译一个论文，或者修改一篇稿子，结果返回了半截就停下来了，这个就非常不爽、不方便了。

如果说，32K的上下文长度算是够用级别的话，那么至少5千字的输出长度才能满足日常需求。

接下来，我会试着用智谱的训练集去多微调几个模型。我也真心希望，国内的厂商别都在那边无脑地追逐超长上下文窗口，把这个当成一个营销噱头，搞得跟手机厂商跑分一样。是时候把输出长度提上来了。

OK，以上就是本期内容。想找我的话，来newtype社群。咱们下期见！

Mac必装AI软件 0001-01-01

Key Takeaway

作者分享了MacBook Pro的配置选择，并解释了为何选择14寸M4 Pro而非16寸M4 Max，以及未来将重负载任务交给Mac Studio的规划。
推荐Mac用户安装AI相关软件，如ChatWise，它支持主流闭源模型和开源模型（如Ollama），并提供搜索和Artifacts等工具。
强调了OpenRouter作为统一API管理平台的重要性，避免了多平台注册和绑定信用卡的麻烦。
Cursor被认为是强大的AI编程工具，结合Claude 3.7更强大，并可用于知识库管理和AI辅助创作。
Obsidian及其AI插件Copilot被推荐用于个人知识库，实现笔记的AI对话和实时信息查询，并强调了数据处理的重要性。
建议个人AI工具选择简单轻量化，企业级才考虑重型引擎。
此外，还推荐了Input Source Pro（输入法提示）、Rectangle（窗口管理）、Raycast（快速搜索）和Manico（应用快捷键）等效率工具，以提升Mac使用体验。

Full Content

我把新款MacBook Pro买回来了。借着新机入手，我给大家分享一下，Mac都有哪些必装软件，尤其是AI方面。这些工具绝对能提高你的日常效率和幸福感。

我订的这台是M4 Pro芯片，统一内存加到48G，1T硬盘。为了方便对着屏幕拍摄，我还加钱上了纳米屏。那么，为什么不上128G的M4 Max？两个原因：

第一，16寸实在太大了。我去店里看过。带着跑来跑去，真不太方便。14寸对我来说刚刚好。

第二，下半年我准备买Mac Studio。根据业内大佬推测，苹果应该会在年中或者下半年推出Mac Studio，芯片是M4 Ultra，比现在的M4 Max还强大。而且按照M2 Ultra的样子，统一内存能加到192G，比MacBook顶配的128G大多了。这样的机子拿来跑大模型不香吗？

所以，我想来想去，还是决定把重负载任务都交给Mac Studio。MacBook Pro就专心负责移动场景，就不为难它了。而且，M4 Pro加上48G统一内存已经足够给力了。

我平时拍的这些视频都是4K 10bit 422的素材，用达芬奇剪辑。这台机子剪起来完全没压力。跑大模型的话，我也测了两个黄金尺寸的效果：14B能达到每秒21个Token；32B能达到11。这样的表现，我非常满意了。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经快1000人付费加入啦！

回到今天的主题：Mac必装软件。咱们先从AI相关的说起。

当你用了一段时间模型厂商出的应用——比如ChatGPT、Claude之后，大概率会希望通过API调用模型，以及试一试在本地运行开源大模型。两个原因：

一是更自由地体验更多的模型，并且用多少Token就付多少钱。二是更自由地去选择和组合一套工具，完全适配自己的习惯和需求，作为日常主力。

这个时候，你就需要一款像ChatWise一样的应用。

在闭源模型方面，主流的模型厂商和主流的算力平台它都支持，肯定有你想用的。

我知道大家最近为了DeepSeek注册了好几个算力平台。但是，要稳定使用的话，我建议用OpenRouter就好了，不用看别的。它不会像国内那些平台那样，总出幺蛾子——你想薅它羊毛，它想割你韭菜。在OpenRouter里，把API Key填进去，市面上所有的模型都可以选择。这就免去了你每家都得注册账号、绑定信用卡的麻烦。

在开源模型方面，大家常用的Ollama和LM Studio都有。像Ollama，你都不用做啥设置，保持软件运行就可以。ChatWise自动把所有模型都列出来了。我平时用最多的就是DeepSeek-R1 14B和Qwen2.5 14B。

光有模型不够，还得给模型配上工具。你看ChatGPT不就是在GPT模型的基础上，加了各种工具，比如搜索和画布。那到了ChatWise这边，同样也有这两个工具。

Artifacts就我之前夸过好多次，就不多说了。搜索方面，你可以用Google的免费API，也可以调用Tavily的。他们是一个专门为大模型优化过的搜索引擎。我之前自己写脚本的时候用过，挺不错的。

或者，还有一个更简单的方法，不用这些搜索引擎，直接用Perplexity的API。他们微调后的模型，有搜索、有推理，效果非常好。

ChatWise这些进阶功能需要付费才能解锁。如果你就是想要免费的，那可以用Cherry Studio。但我还是付费了。并不是冲着功能去的，只是因为它好看，用着舒服。我认为，在功能大差不差的情况下，外观和流畅度就成为选择的关键。

所以，除了Gemini 2.0和Grok 3我是在官方的网站上用，其它的模型，我全通过ChatWise加OpenRouter和Ollama来搞定。

OK，日常AI主力工具说完了，那还有两个补充。

一个是Cursor。市面上的AI编程软件很多，在细分领域各有所长。但综合来看，Cursor就是最强的，没有之一。再加上前几天Claude 3.7发布，Cursor当天就支持了。有了比3.5还强20%的3.7加持，Cursor现在更猛了。

除了编程，Cursor其实还有一些框架之外的奇怪用法。我在上一期“AI学习法”的视频里有介绍过。大家可以找来看看，肯定会有启发的。

另一个是Obsidian。更准确地说，是它的AI插件Copilot。对我来说，它的作用有两个：

第一，当我在写笔记的时候，可以直接在软件内跟AI对话，不需要切换到别的软件去。说真的，切来切去特别打断思路。而且，Copilot也可以连OpenRouter，用Perplexity的模型完成搜索，不用担心查不到实时信息。

MCP实用指南 0001-01-01

Key Takeaway

MCP（Model Control Protocol）是模型的超级外挂，能显著提升AI生产力，例如通过结合Claude和MCP实现低配版Deep Research。
Sequential Thinking MCP有助于模型进行多步骤推理，保持逻辑性和连贯性；Tavily MCP则提供优化过的搜索引擎功能。
MCP.so是寻找和托管MCP服务器的首选平台，其核心竞争力在于MCP Server Hosting。
推荐关注三类MCP服务器：搜索相关（如Perplexity, Tavily）、数据相关（如Filesystem, GitHub）和工具相关（与特定应用打通）。
MCP的通信方式取决于服务器部署位置：本地运行使用stdio（标准输入输出流），云端运行使用SSE（基于HTTP的远程通信）。
即使MCP服务器在本地运行，也可以通过调用远程API实现联网功能。
建议新手通过实践Tavily（SSE方式）和Filesystem（stdio方式）来理解和掌握MCP的使用。

Full Content

MCP就是模型的超级外挂。装上之后，你会发现，原来AI生产力可以这么高。

举个例子，我给Claude-3.7 Sonnet配上两个MCP，它就成了一个低配版的Deep Research应用。

一个MCP是Sequential Thinking。它是一种标准化的思考模式，可以让模型在处理多步骤推理任务的时候，保持逻辑性和连贯性。比如，把复杂任务分解成清晰的步骤。当有新的信息出现时，还能灵活调整思考路径。

另一个MCP是Tavily。这个之前介绍过，就是一个对模型优化过的搜索引擎。

有了它俩之后，你看，Claude就会边搜索、边思考；根据搜到的内容，调整思考的路径，然后进行下一轮搜索；当它觉得信息足够了，逻辑也完整了，就会输出最终的报告。

这么一大套流程下来，我用1美元的成本，换来了更高质量的回答。这说明了两点：

第一，OpenAI的Deep Research真的是贵有贵的道理。你看刚才那个思考和搜集的过程就知道，太费Token了。OpenAI那边肯定更复杂。

第二，MCP真的有用。我可以给你们看看对比。我把Sequential Thinking拿掉，只留联网搜索。同样的问题，模型给出的答案简单许多。

这个就是我最近一直在推MCP的原因。那么，我们要去哪里找MCP？找到之后又怎么使用呢？本期视频，我给大家做一个详细解答。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经超过1000人付费加入啦！

回到今天的主题：MCP实用指南。

咱们先说第一个问题：MCP哪里找？

如果你想用现成的MCP的话，那么，MCP导航网站就是你的首选。在这个领域，目前排名第一的，就是MCP.so。

MCP.so是国内明星开发者idoubi的项目。他之前做了好多项目，比如AI搜索引擎ThinkAny。我上期视频说，有人已经开始做MCP基础设施，指的就是他。

在MCP.so，已经有超过3000个服务器被收录。其实，它的核心竞争力不是导航——导航谁都能做，技术含量不高，它的核心竞争力是MCP Server Hosting。

对咱们用户来说，面对这么多服务器，该怎么挑呢？我建议，有这三种类型的服务器大家可以留意一下：

第一，搜索相关的。比如，Perplexity、Tavily都是搜索。Fetch、Firecrawl都是爬虫。

第二，数据相关的。比如，Filesystem能让模型调用本地文件，GitHub能让模型接入代码仓库。

第三，工具相关的。比如，Blender、Figma、Slack这些，你看名字就知道是跟什么应用打通了。

OK，现在大家知道去哪找，以及怎么挑MCP了。那么，如何接入、使用？

这个其实很好理解。你想嘛，既然它叫“服务器”，那么，这个服务器放在哪里，就决定了通信方式。

如果放在本地，跑在你自己的机子上，就用stdio；如果是跑在云端，比如MCP.so上边，就用SSE。

stdio就是标准输入输出流，通常用于本地通信。比如，Cursor、Claude、ChatWise之类的MCP客户端跟跑在同一台机子上的MCP服务器之间，通过标准输入（stdin）和标准输出（stdout）进行通信。

SSE则是一种基于HTTP的远程通信方式。MCP服务器远程托管。你本地的客户端通过SSE实现跨机器通信。

不太理解也没关系。我给你们看看实际的样子。

以ChatWise为例。在设置里的“工具”页面，点左下角的加号按钮，可以添加MCP服务器。在“类型”中，咱们可以选择stdio和SSE两种通信方式。

比如Sequential thinking，我是用stdio的方式。命令中的这一串其实就是GitHub上要求写的参数。因为它不需要API Key之类的东西，所以下边的环境变量就空着。

对于一些需要填写环境变量的MCP，比如Tavily，那就把API Key填进去。点击“查看工具”，ChatWise会尝试连接，然后把这个MCP下所有的工具都列出来。

那么，SSE是什么样的呢？

比如Firecrawl，我就是用SSE的方式。这个就简单多了，只需要把链接填进去。那么，链接哪来的？

还记得我刚才说的吗？如果MCP服务器跑在云端，那就通过SSE的方式连接。MCP.so就提供了这样的云端服务。

来到这个网站的Firecrawl页面，在右边填入你的API Key，点击“Connect”，它就会生成一个专属的链接。把这个链接复制下来，贴到ChatWise里边就搞定。

用Kimi K2驱动Claude Code，两个方法 0001-01-01

Key Takeaway

Kimi K2是月之暗面推出的开源大模型，其代码生成和Agentic能力表现出色，被认为是国产模型在AI编程和Agent产品领域的突破。
Kimi K2的能力介于Claude 3.5和Claude 3.7之间，足以驱动Agent产品。
替换Claude Code模型有两种方法：最简单的是通过设置环境变量直接切换到Kimi K2 API；另一种是使用Claude Code Router项目，该项目支持多种模型服务商的API配置。
AI编程工具由大模型（大脑）和编程助手（眼睛和手脚）两部分组成，大模型决定上限，编程助手提供工具操作能力。
Kimi团队通过特定工作流激发了Kimi K2的工具使用能力，使其在预训练阶段就学会了如何使用工具。

Full Content

如果你用Claude Code有难度，那么，可以把模型换成Kimi K2，照样也能跑得起来。而且，效果可能会让你眼前一亮。

Kimi K2是月之暗面最新推出的模型，开源，1T参数。我最感兴趣的，是它的代码生成和Agentic能力。

说实话，对于国产模型来说，这两个能力，我一直没看到比较出众的。这也导致国产模型在AI编程、Agent产品这一波越来越落后。

直到Kimi K2的出现。

老外对这个模型的热度超过了国内用户。他们说，K2就是又一个“DeepSeek-R1时刻”。Kimi算法小哥的这篇博客也引起了老外极大兴趣。

我自己体验下来，感觉K2的能力大概介于Claude 3.5和Claude 3.7之间。用一句话总结就是：足以驱动Agent产品，能够拿来干活了。

你别觉得我评价低了。要知道，今天大部分Agent产品完全依赖Claude模型。Kimi能把国产模型在这一块的空白补上，是非常牛逼的！

哈喽各位好，欢迎回到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我，就来我们newtype社群。这个社群已经运营500天，有超过1500位小伙伴付费加入啦。

回到今天的主题：用Kimi K2驱动Claude Code。

要更换Claude Code的模型，网上有很多方法。我给大家介绍两个。先来一个对大多数人来说最简单的。

第一步，你去月之暗面官网注册账号，然后生成API Key。如果打算长期使用的话，可以充点钱。你看我就充了50块钱，属于Tier 1级别。Kimi的API费用很低，跟Claude比起来简直就是白菜价。大家可以大胆使用。

第二步，来到终端，运行这两行命令。它们的作用是设置环境变量，把模型的调用渠道切换到月之暗面那边。

设置完之后，输入claude，把Claude Code启动。这时模型就已经换成K2了。

第二个方法，略微折腾一点。不过好处是，可以更换各种模型。

Claude Code Router这个项目就是一个路由器，让你随意配置模型，以及做自定义设置。

它支持的模型服务商很多，包括OpenRouter、DeepSeek、Ollama、Gemini等等。Kimi官方的API也是支持的。

使用起来也挺简单的。运行这一行命令，把npm包安装好。然后打开config.json文件，像我这样配置Kimi官方的API。如果你不想填配置文件也OK，输入ccr start这行命令。按照它的要求，输入provider name、url、api key、model name，就可以完成配置。最后，输入ccr code，就可以正常使用了。

看到这里，可能有人会很奇怪：换了模型之后，Claude Code为什么还能用？

我打个简单粗暴的比方：阿姆罗能开高达，夏亚也可以开！只要Pilot够强，就都能驾驭。

我们使用的AI编程工具包含两个部分：大模型（LLM），和编程助手（Coding Assistant）。

编程除了需要脑子聪明，还需要很强的动手能力。比如要从那么复杂的代码库里找到需要的文件，或者就那么几行代码。