开源模型

HuggingChat：用最先进的开源模型，挑战ChatGPT 2024-08-31

Key Takeaway

HuggingChat是一款免费体验最先进开源大模型的应用，提供网页版、iOS版和macOS版，设计简洁。
HuggingChat的核心主张是让所有人都能用上Hugging Face社区最好的模型，并会不定期更新模型列表。
作者日常高频使用问答引擎Perplexity和Chatbot Claude，但HuggingChat因其轻量化和便捷性成为日常碎片化需求的承接工具。
HuggingChat通过快捷键呼出对话框，并优先提升回复速度，Web Search功能需手动开启。
HuggingChat还提供Tools功能，其中Flux图像生成工具能满足轻量级图像生成需求。
文章认为开源模型的性能已追平闭源，开源社区在开发应用方面更具优势。

Full Content

想要免费体验最先进的开源大模型，我推荐大家试试HuggingChat。

这款应用之前有网页版和iOS版。前些天，macOS版推出，在产品设计上还挺有心思的。我特别认同他们这种简洁的设计思路。

macOS版的HuggingChat不像别的APP那样，有一个很重的前端。当按下Command、Shift和回车三个默认的快捷键之后，才会出现一个极简的对话窗口，很像macOS的聚集搜索框。这时我们可以跟跑在云端的大模型对话。

如果要更换模型，点左边的加号进入设置，把模型从初始的Llama 3.1 70B改成国产的Qwen 2.5 72B。这些模型不是固定的，会不定期更新。因为HuggingChat的主张是：

让所有人都能用上来自Hugging Face社区的最好的模型。

这也说明了，Qwen 2.5和Llama 3.1、Command R+等模型一样，成为公认的、当下最好的开源大模型。Qwen确实是国产之光！

哈喽各位好，欢迎来到我的频道。我是国内少有的、能把AI的Why和How讲明白的博主。记得点一波关注，绝对不亏。如果想链接我，就来newtype社群，已经有500多位小伙伴付费加入啦。

回到今天的主题：HuggingChat。我每天都会高频使用的AI工具有两类：

一是问答引擎。目前世界上最好的问答引擎是Perplexity，这个没有之一，没得挑。但是光有它还不够，因为有很多东西是搜不到的。而且我也经常需要AI提供更多的角度，或者完善我的思路。

于是就有了第二类工具——Chatbot。目前我最满意的是Claude。它不只是模型能力比GPT-4更强，在功能体验上也比ChatGPT要好得多。Artifacts真的非常棒，绝对值回票价。我推荐给好多人了，用过都说好。

不过，对于咱们这些国内用户来说，Perplexity和Claude麻烦的地方就在于，隔段时间就要刷新页面、点一下验证。你别小看就这么一点点的麻烦——当你想用却被打断的时候，会很影响体验。

所以，当这种不方便久了之后，我都是有稍微严肃一点的任务的时候才去用它俩。日常大量的、碎片化的需求，需要有一个轻量化的、拿起来就能用的AI工具来承接——这就是我看上macOS版HuggingChat的原因。

平时隐藏在后边，要用的时候通过快捷键呼出对话框，这种看似不争的做法，其实是想抢AI终端的第一入口。为了实现这个野心，HuggingChat做了大量减法，甚至连上网搜索功能都要手动开启。

在设置里边有个Web Search，把它勾选上之后，模型就会上网搜索了。不过代价就是，回复的速度要慢一些，因为多了搜索和RAG的过程。我猜，这就是上网搜索功能没有默认开启的原因。

尽一切可能把回复速度提上来，这个优先级绝对高于任何其它功能。

如果用户有更重的需求，没问题，在桌面端用网页版，在移动端用iOS版。打开之后你就会发现，ChatGPT里的GPTs它也有，叫Assitants。不过大部分都没啥用啦，跟GPTs一样。

真正有生产力的，是Tools，工具。我用得最多的，是Flux图像生成。

我在前两期视频里介绍过Flux模型。它是SD团队出来做的，是目前世界上最先进的图像生成模型。第一，Flux生成的图像，无论是真实程度还是审美水平都超过别的模型。第二，Flux还能实现精准控制，比如它能在图像上准确生成文字。

Flux有三个版本，其中两个开源。这个工具所用的Flux dev，就是开源版本中性能最强的那一个。当我有一些轻量级的图像生成需求的时候就会用到它。比如生成一个文章配图。由于Flux本身能力强，这种任务对它来说很简单。实在不行就抽几次卡，也能搞定。

有了macOS版之后，加上之前已经在用的iOS版和网页版，我突然发现，HuggingChat已经悄悄成为我使用最频繁的AI工具了。开源模型的性能已经追平闭源。至于开发应用，大家水平都一样。甚至我会觉得开源社区更有优势，因为他们不用考虑什么生态啊、护城河之类的，没那么多包袱，可以放开手脚干。

OK，以上就是本期内容。想交流和学习AI，来newtype社群。那咱们下期见！

Ollama + Hugging Face：给Ollama添加任何大模型 2024-08-31

Key Takeaway

Ollama是本地运行开源大模型的最佳工具，但官方模型对中文支持有限。
用户可以通过Hugging Face下载GGUF格式的开源大模型文件，并利用Modelfile和ollama create命令将其添加到Ollama中。
GGUF格式是一种压缩格式，能让大模型在消费级终端上运行，但会牺牲精确度。
文章详细介绍了将GGUF模型添加到Ollama的步骤，包括创建Modelfile和使用ollama create命令。
强调了Ollama的开放性，使其能够运行任何开源大模型，为用户提供了更多选择。

Full Content

在本地跑开源大模型，目前最好的软件肯定是Ollama。

但是，对于咱们国内的用户来说，Ollama有一个问题：

官方提供的模型，对中文的支持太少了。

目前就一个中文模型，是基于Llama2微调的。如果你在官网搜“Chinese”这个关键词的话，能找到一个它（Llama2-Chinese）。

如果我们想多一些选择，使用那些国产的开源大模型，该怎么搞呢？本期我就介绍一下方法。还是那句话：

超级简单，有手就行。

理论上，除了官方模型列表里的模型，Ollama可以运行任何开源大模型，只要你有模型的GGUF文件。

那么，第一个问题来了：去哪里下载模型文件？

世界上开源大模型最多的地方，肯定是Hugging Face了。我们可以到这个平台直接搜国产大模型，比如：baichuan gguf，或者qwen gguf。通过下拉列表，就可以找到用户上传到GGUF格式文件。

这个GGUF格式，为了方便理解，你可以先简单把它看作是一种压缩格式——虽然这么解释并不严谨，不过无所谓啦。就像JPG压缩的是图片，那GGUF压缩的是大模型。这样一来，才好在咱们这些消费级的终端上跑。

当然，压缩是有代价的，那就是精确度下降。所以列表里才会有一系列不同体积的文件。大家根据自己机器的配置，选一个合适的下载就好。

下载好之后，创建一个txt文档，名字叫Modelfile，里边只需要写上这么一行：

FROM D:\ollama

这个文档的作用就是告诉Ollama该去哪儿找模型文件。比如，在我这边就是，去D盘、ollama文件夹，找到叫这个文件名的模型文件。

最后一步，打开终端，输入这一行命令：

ollama create

我来解释一下这行命令的意思。其实大家不用紧张，觉得这是命令什么的，肯定看不懂——你就把它当成是英语的阅读理解嘛：

ollama create，很好理解，就是让ollama去创建新的模型文件。

那么，创建好的模型该叫什么名字呢？就是后边跟着的名字，随你设定。

Ollama肯定不能凭空创建出一个模型文件，这就需要使用我们之前下载好的GGUF文件。这时候，我们告诉它，去读取刚才创建的txt文档，里边有GGUF文件的地址。

这样一来，Ollama就知道该从哪里找到大模型，然后创建一个叫什么名字的模型文件了。

这行命令运行之后，稍等个两三分钟就搞定了。

我们在终端里输入：ollama list。这个命令会列出目前你已经拥有的模型。这时我们看到，刚才导入的模型已经存在了。

打开Open WebUI，在模型选择的下拉列表里，同样也能看到最新的模型。

OK，以上就是让Ollama添加任意开源大模型的方法。我刚才下载的那个模型版本，中文的效果不一定好，只是为了演示这个方法。大家可以去Hugging Face或者国内的模型社区下载各种GGUF格式的中文大模型，然后找到最适合自己的版本。

本期内容就这些。大家如果有疑问，或者想进一步交流的话，到知识星球来找我。咱们下期见！

Perplexica：部署完全属于你的问答引擎 2024-08-31

Key Takeaway

Perplexica是一款开源的问答引擎，旨在提供Perplexity的本地部署替代方案，具有高度自由度。
Perplexica支持云端和本地模型，可通过OpenAI、Anthropic、Grok的API调用，或通过Ollama调用开源大模型。
部署Perplexica需要Docker，并可通过docker compose up命令进行安装。
Perplexica的UI与Perplexity相似，支持Copilot功能，能根据提问生成多个搜索关键词以提升效果。
Perplexica还支持云端部署，用户可在RepoCloud等平台一键部署，实现个人专属的问答引擎。

Full Content

我一直想在本地部署一套问答引擎。

在我构想的AI工作系统当中，问答引擎是基础。但是，现在做得最好的Perplexity，它对网络环境挺挑的。想用的时候突然用不了，就很烦。

所以很多时候不是我不想为SaaS付费，而是这客观条件逼得我只能走本地部署这条路。

好在这类型的项目挺多的。我之前就介绍过一款，叫LLocalSearch。折腾了一圈之后，我目前最满意的是Perplexica。

从名字就能看出来，这款产品就是照着Perplexity抄的。放在一起对比，UI几乎一模一样。

我之所以对它满意，主要原因是，它的自由度很高。

在模型方面，你可以走云端，通过OpenAI、Anthropic或者Grok的API去调用相应的模型。你也可以走本地，通过Ollama去调用开源大模型。

我把之前安装的都删了，重新走一遍，大家就明白了。

先把Docker打开，咱们一会儿需要使用。接着老规矩，通过git clone把项目下载下来。然后把config这个文件前边的sample去掉。

对大模型的配置，可以在config里进行。比如填上OpenAI的API Key，或者Ollama的地址。如果你没有改端口的话，那就是默认的11434。要注意：不是填localhost:11434，而是host.docker.internal:11434，因为咱们是在docker里运行。

这边没填也没关系，等全部安装完成之后，可以在应用里边的设置页面进行配置。

最后，使用docker compose up这行命令，就会自动下载、安装需要的所有东西。等个几分钟，就可以通过localhost:3000这个本地页面使用了。

咱们来测试一下效果。先试试GPT-4o。可以看到，大概四到五秒钟能给出结果，还是很不错的。回答的来源，还有追问，都跟Perplexity一样。

如果打开Copilot选项，那么AI会根据你的提问去多生成几个，一起拿去搜，这样能提升整体效果。

接着试试开源模型的效果。语言模型用qwen2，嵌入模型用nomic。第一次启动有点慢，需要加载一下。后边明显快多了。

前边说了，我喜欢Perplexica的主要原因是它的自由度。这个自由度不仅限于模型。

在部署方面，除了本地部署，它还支持云端部署。在官方GitHub页面下方，就有一键部署的按钮。

它应该是跟RepoCloud有合作。你在上边注册之后，会给3美金的免费额度。这时只需要搜索项目名称，找到Perplexica；然后填写OpenAI API Key，以及用户名和密码；最后等上大概5分钟，项目就在云端部署好了。

可以看到，RepoCloud给了一个链接，我们可以在桌面端、移动端随意使用。比如我在iPad上打开，用刚才设置的用户名和密码登陆，就会看到同样的界面。运行起来，速度还OK。RepoCloud会根据你的使用量auto-scaling。

我发现，这种个人专属的感觉特别棒。强烈建议大家试试。不管你是自己使用还是团队共用，都可以。

OK，以上就是本期内容。接下来我准备详细研究一下Perplexica和它所使用的搜索引擎SearXNG。有新发现的话，我会分享到newtype社群。还没加入的小伙伴抓紧加入吧。那咱们下期见！

像用GPT一样使用开源大模型 2024-08-31

Key Takeaway

LM Studio等工具能让用户像使用GPT一样，通过Python脚本和框架（如LangChain、Llama Index）增强和限制开源大模型。
本地运行开源大模型可以实现知识库、搜索引擎等增强功能，并能根据工作流程限制模型发挥。
LM Studio提供本地服务器功能，模拟OpenAI API接口，使得基于GPT开发的应用可以无缝迁移到开源大模型。
这种本地化解决方案不依赖云端算力，无需支付token费用，为用户提供了开发定制化AI应用的自由。
文章强调了本地部署开源大模型在成本和灵活性方面的优势。

Full Content

在本地跑开源大模型，如果只是用来简单对话，那就没什么意思了。我们肯定是希望像用GPT一样，通过Python脚本，借助LangChain、Llama Index等框架、工具，对大模型进行增强和限制，比如：

增强：通过搭载知识库、搜索引擎，提升大模型信息的及时性，补充某个领域的知识。
限制：根据给定的工作流程、思考路径来处理任务，而非随意发挥。

OpenAI提供API接口，让这一切变得简单许多。其实通过LM Studio这类软件，也可以在开源大模型的使用上，达到同样的效果。

在上期视频中，我介绍了LM Studio的基本用法。

你可以把它简单理解为：就像国内的游戏模拟器平台，把模拟器、游戏库全都打包好了。不需要做复杂的调试，下载好了直接可以玩。

在此基础上，LM Studio还提供了进阶用法：

作为本地服务器，提供类似于OpenAI的API接口服务。

方法很简单：

加载量化版的大模型。
启动本地服务器。
获取本地服务器的端点，设置成config_list中的base_url

如果之前有基于GPT开发应用的话，看到这个代码应该会很亲切。

它基本上就是把调用OpenAI API的部分做个替换：

api_key不需要填真实的，可以用“not-needed”来替代。
model部分，原本选择gpt-3.5或者gpt-4，现在填“local-model”

脚本其它部分都不需要变动。这意味着，之前的Python脚本都可以平移过来，给到开源大模型使用。

比如，使用微软的AutoGen配置Agent，对config_list做一些改动就行，照样导入llm_config。

不依赖云端算力，不用支付token费用，基于LM Studio和开源大模型，完全可以开发一套适合自己需求的本地解决方案，这是最吸引我的地方。

微调Llama 3.1，用神器Unsloth 2024-08-31

Key Takeaway

Meta开源Llama 3.1具有里程碑意义，其性能达到GPT-4o水平，可通过知识蒸馏和微调适应特定任务和领域。
微调（Fine-tuning）是将通用大模型（如大学毕业生）训练成掌握特定技能（如公司培训）的过程。
LoRa和QLoRa是微调技术，它们通过在模型上添加“便签纸”而非重写整个模型来高效地进行修改。
数据集是微调的“培训教材”，Alpaca数据集有助于训练高质量的指令跟随型AI助手。
SFTTrainer是简化微调过程的训练工具，相当于培训老师。
过度拟合是指模型“死读书”，失去举一反三的能力，需要通过lora dropout等参数设置来避免。
大模型微调的关键在于“教材的质量”（数据集）和“教学的质量”（参数设置）。
Unsloth框架是微调加速神器，能显著减少显存占用和训练时间，方便新手使用。
微调后的模型可以导出为adapter（技能模块）或GGUF文件，并上传到Hugging Face等平台。

Full Content

Meta开源Llama 3.1是一件功德无量的事。

因为最好的闭源模型代表着天花板，那是人类可以达到的能力上限。而最好的开源代表着全民福利，那是所有人都可以接触到的基准，是科技平权价值观的展现。

这一次，开源的Llama 3.1在性能上达到GPT-4o水平。我们可以通过知识蒸馏，用最大最强的405B模型去打造小模型；也可以通过微调，让8B的模型去适应特定的任务和领域。

之前国内有些人说，开源模型是智商税，开源模型会越来越落后。这种人，不是蠢就是坏，跳梁小丑罢了。

OK不跑题，咱们今天来聊一下微调。之前一直没碰这个领域是因为，我感觉条件还没到。现在模型够强了，工具也成熟了。我试了一下，比预想中的容易多了——你看，上周我在newtype社群里发了消息，说要用Unsloth微调Llama 3.1，结果下午就成功了。

整个过程我都是在Google Colab上跑的，用的是免费的T4 GPU。数据集不大，训练花了11分半。生成q4、q5和q8三个GGUF文件比较慢，我等了应该有半个多小时。最后，这些GGUF文件都自动上传到我的Hugging Face账号上。

之所以会这么快速和顺利，主要是因为我用的是Unsloth框架。这个框架真的是微调加速神器。用了它之后，显存占用更少，训练时间也显著缩短。我强烈建议大家试试。

为了方便像我这样的新手使用，Unsloth提供了模型和代码。我就是在他们给的基础上做了一点修改。

虽然整个过程需要自己动手的地方不多，但微调相关的知识还是得理解的，因为里边的门道很深。我先用大白话分享一些我认为比较关键的点，然后再带大家过一遍代码，不然看得一头雾水也没用。

第一，什么叫微调？

厂商把大模型训练出来，就好比大学生顺利毕业，具备一定的通用技能。但是要入职、要上岗，还得接受公司的培训。这种公司培训就是微调，让大模型这个新人快速掌握一些特定的技能。

第二，lora和qlora是什么？

如果把大模型比作一本百科全书的话，我们做微调，并不是要把书重新写一遍，而是在一些页面上贴上便签纸，上边写上一些额外的信息就可以了。LoRa就是这样的便签纸。而QLoRa更进一步，它这个便签纸可以在更小的纸片上写更多字。

第三，数据集是什么？

前边说了，大模型要接受“上岗培训”。那么，数据集就是培训教材。你可以用自己的数据做成数据集的格式，也可以用公开的。其中，在公开数据集方面，为了让大模型能更好理解人类指令，并且做出恰当回应，斯坦福大学的研究人员创建了Alpaca数据集。有了它，我们就能用相对较少的资源训练出高质量的指令跟随型AI助手。

第四，SFTTrainer是什么？

对我们使用者来说，SFTTrainer就是训练工具。它简化了微调过程，而且提供很多设置和优化选项，特别好用。对大模型来说，SFTTrainer就好比培训班的老师。它接收大模型这些学生，拿到数据集作为教材，然后开始教大模型如何更好地去执行特定的任务。

第五，过度拟合是什么？

我们都遇到过，那些读书读过头的人，考试很厉害，但是遇到教材里没教的问题就不会了。同样，大模型也存在这种可能性，只会应对见过的情况，而失去了举一反三的能力。这种“死读书”的结果，就叫过度拟合。

所以，根据这五个知识点，我们就能得出，大模型微调有两个关键：

第一，教材的质量。数据集不行，那再怎么训练也不行。

第二，教学的质量。怎么用有限的资源把大模型教得恰到好处，这里边涉及到很多参数的设置，就很有门道了。

接下来，我给大家看看我上周第一次微调用的代码。不要有畏难情绪，这个就是一个熟悉的过程。多经历几次之后，再看这些代码就很亲切了。它其实很简单，待会儿看完你就知道，最核心的设置就是“教学设置”和“教材设置”。

在最开始，肯定是把需要的Package都安装和加载。

接着，加载Unsloth已经预处理好的模型。主流的模型都有，包括Mistral、Gemma等等。我的目标是Llama 3.1，所以在模型名称这边就填Llama 3.1。Unsloth的Hugging Face主页有更多模型，包括qwen之类的，大家可以去看一眼。

这个设置当中，有一个参数叫max seq length。它的意思是，模型一次可以处理的最大token的数量。不同模型有不同的默认值，从512、1024、2048，甚至更多。可以简单理解为，大模型阅读教材的话，一次能看多少个字的内容。

这一步完成之后，紧接着是参数配置。其中，target modules指的是，我们打算具体修改模型的哪个部分。把大模型比做一个机器人的话，这个机器人已经会一些基本运动了。这时候，我们要教它跳舞，那就针对它腿部的动作模块做修改，而不需要改动整个机器人。这个设置好了，就能让整个微调过程更有针对性，也更加高效。

另外，还有两个重要的参数：

lora alpha这个值设得越大，lora的影响越显著。也就是说，咱们可以通过这个设定来对模型原始性能和新技能做平衡。

lora dropout指的是，在训练过程中，会随机关闭一定比例的神经元。这就好比是，你在练习钢琴的过程中，有的时候会闭着眼睛弹。这样就强迫你自由发挥，避免“死读书”或者说过度拟合的结果出现。

模型都配置完了，接下来要配置数据集了。我的目标是强化Llama 3.1的Python能力，所以给它配的教材是python code instructions。这个数据集的内容格式包括三列：

本地大模型，免安装！ 2024-08-31

Key Takeaway

Llamafile是一个创新的本地大模型运行项目，只需一个文件即可运行，无需安装，极大降低了本地部署门槛。
Llamafile通过整合llama.cpp（模型推理优化）和Cosmopolitan Libc（跨平台可执行文件），实现了单文件运行大模型。
Llamafile支持多模态（如Llava模型），可进行文字生成和图片描述。
Llamafile的免安装特性使其便于分享和在各种终端设备上运行，有助于大模型的普及和应用。
文章强调了Llamafile的便捷性和对本地大模型生态的积极影响。

Full Content

在本地跑大模型，只需要一个文件，而且免安装。

今天给大家介绍的这个项目叫Llamafile，它是我近期看到的最有意思的项目。

想快速体验Llamafile的话，非常容易，有手就行。

第一步，去GitHub下载官方准备好的大模型文件。

第二步，如果像我一样是Windows系统的话，就在文件后边加上.exe的后缀，把它变成可执行文件。如果是macOS的话，就在终端里运行这一行命令，给系统一个运行权限。

第三步，用cd命令进入大模型文件所在的文件夹，然后复制这条命令去运行。

这个时候，系统会自动打开一个本地页面，这样就可以跟大模型做交互了。

目前这个界面看起来是挺简陋的，不过该有的功能都齐了，之后项目组腾出手来做美化很容易。我们来简单做个测试。

如果是生成文字的话，速度飞快，比ChatGPT肉眼可见的快。

Llava这个大模型支持多模态，所以我们可以上传图片，让它描述图片上的内容。

Llamafile的基本用法就这些。这应该是我介绍过上手最容易的项目了。它让我想起来90年代刚接触互联网那会儿，当时特别流行的绿色版软件。因为都是在网吧玩儿，这种绿色软件不需要碰注册表，特别方便。

Llamafile也是这个思路。

目前本地跑大模型的方法，怎么都得安装一个软件，比如我之前介绍的Ollama。装完之后，还要下载大模型文件。

那么，为什么不能把模型的部分和运行的部分整合起来呢？

模型的部分，就是llama.cpp。它可以把模型参数降低，这样一来，模型推理需要的资源就少了，可以在配置不那么高的电脑上运行。

运行的部分，就是Cosmopolitan Libc。它是一个开源的C语言库，允许开发者编写的C程序高性能、小体积，而且能够随处运行。

把这两部分整合进一个架构里，在本地跑大模型就只需要一个文件。这意味着，大模型的门槛降低非常多。

反正只有一个文件，还不要安装。你可以放在U盘里或者网盘里。愿意的话，你可以把你喜欢的模型转成Llamafile，然后可以分享给同事。国内已经有人这么做了。

在ModelScope社区，有人做了Llamafile合集，包括千问、零一这些国内开源的大模型。大家可以去下载试试。

最后，Llamafile还支持多种系统、多种CPU架构，也支持GPU运行。咱们可以想象一下，把一个小模型转成Llamafile，就可以在各种形态的终端上跑。大模型的普及、应用一下就容易多了。

等这期视频做完，我打算也上手试试。感觉我的AI工具库又可以升级了。

用Kimi K2驱动Claude Code，两个方法 0001-01-01

Key Takeaway

Kimi K2是月之暗面推出的开源大模型，其代码生成和Agentic能力表现出色，被认为是国产模型在AI编程和Agent产品领域的突破。
Kimi K2的能力介于Claude 3.5和Claude 3.7之间，足以驱动Agent产品。
替换Claude Code模型有两种方法：最简单的是通过设置环境变量直接切换到Kimi K2 API；另一种是使用Claude Code Router项目，该项目支持多种模型服务商的API配置。
AI编程工具由大模型（大脑）和编程助手（眼睛和手脚）两部分组成，大模型决定上限，编程助手提供工具操作能力。
Kimi团队通过特定工作流激发了Kimi K2的工具使用能力，使其在预训练阶段就学会了如何使用工具。

Full Content

如果你用Claude Code有难度，那么，可以把模型换成Kimi K2，照样也能跑得起来。而且，效果可能会让你眼前一亮。

Kimi K2是月之暗面最新推出的模型，开源，1T参数。我最感兴趣的，是它的代码生成和Agentic能力。

说实话，对于国产模型来说，这两个能力，我一直没看到比较出众的。这也导致国产模型在AI编程、Agent产品这一波越来越落后。

直到Kimi K2的出现。

老外对这个模型的热度超过了国内用户。他们说，K2就是又一个“DeepSeek-R1时刻”。Kimi算法小哥的这篇博客也引起了老外极大兴趣。

我自己体验下来，感觉K2的能力大概介于Claude 3.5和Claude 3.7之间。用一句话总结就是：足以驱动Agent产品，能够拿来干活了。

你别觉得我评价低了。要知道，今天大部分Agent产品完全依赖Claude模型。Kimi能把国产模型在这一块的空白补上，是非常牛逼的！

哈喽各位好，欢迎回到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我，就来我们newtype社群。这个社群已经运营500天，有超过1500位小伙伴付费加入啦。

回到今天的主题：用Kimi K2驱动Claude Code。

要更换Claude Code的模型，网上有很多方法。我给大家介绍两个。先来一个对大多数人来说最简单的。

第一步，你去月之暗面官网注册账号，然后生成API Key。如果打算长期使用的话，可以充点钱。你看我就充了50块钱，属于Tier 1级别。Kimi的API费用很低，跟Claude比起来简直就是白菜价。大家可以大胆使用。

第二步，来到终端，运行这两行命令。它们的作用是设置环境变量，把模型的调用渠道切换到月之暗面那边。

设置完之后，输入claude，把Claude Code启动。这时模型就已经换成K2了。

第二个方法，略微折腾一点。不过好处是，可以更换各种模型。

Claude Code Router这个项目就是一个路由器，让你随意配置模型，以及做自定义设置。

它支持的模型服务商很多，包括OpenRouter、DeepSeek、Ollama、Gemini等等。Kimi官方的API也是支持的。

使用起来也挺简单的。运行这一行命令，把npm包安装好。然后打开config.json文件，像我这样配置Kimi官方的API。如果你不想填配置文件也OK，输入ccr start这行命令。按照它的要求，输入provider name、url、api key、model name，就可以完成配置。最后，输入ccr code，就可以正常使用了。

看到这里，可能有人会很奇怪：换了模型之后，Claude Code为什么还能用？

我打个简单粗暴的比方：阿姆罗能开高达，夏亚也可以开！只要Pilot够强，就都能驾驭。

我们使用的AI编程工具包含两个部分：大模型（LLM），和编程助手（Coding Assistant）。

编程除了需要脑子聪明，还需要很强的动手能力。比如要从那么复杂的代码库里找到需要的文件，或者就那么几行代码。