开源模型

HuggingChat:用最先进的开源模型,挑战ChatGPT

Key Takeaway

  • HuggingChat是一款免费体验最先进开源大模型的应用,提供网页版、iOS版和macOS版,设计简洁。
  • HuggingChat的核心主张是让所有人都能用上Hugging Face社区最好的模型,并会不定期更新模型列表。
  • 作者日常高频使用问答引擎Perplexity和Chatbot Claude,但HuggingChat因其轻量化和便捷性成为日常碎片化需求的承接工具。
  • HuggingChat通过快捷键呼出对话框,并优先提升回复速度,Web Search功能需手动开启。
  • HuggingChat还提供Tools功能,其中Flux图像生成工具能满足轻量级图像生成需求。
  • 文章认为开源模型的性能已追平闭源,开源社区在开发应用方面更具优势。

Full Content

想要免费体验最先进的开源大模型,我推荐大家试试HuggingChat。

这款应用之前有网页版和iOS版。前些天,macOS版推出,在产品设计上还挺有心思的。我特别认同他们这种简洁的设计思路。

macOS版的HuggingChat不像别的APP那样,有一个很重的前端。当按下Command、Shift和回车三个默认的快捷键之后,才会出现一个极简的对话窗口,很像macOS的聚集搜索框。这时我们可以跟跑在云端的大模型对话。

如果要更换模型,点左边的加号进入设置,把模型从初始的Llama 3.1 70B改成国产的Qwen 2.5 72B。这些模型不是固定的,会不定期更新。因为HuggingChat的主张是:

让所有人都能用上来自Hugging Face社区的最好的模型。

这也说明了,Qwen 2.5和Llama 3.1、Command R+等模型一样,成为公认的、当下最好的开源大模型。Qwen确实是国产之光!

哈喽各位好,欢迎来到我的频道。我是国内少有的、能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想链接我,就来newtype社群,已经有500多位小伙伴付费加入啦。

回到今天的主题:HuggingChat。我每天都会高频使用的AI工具有两类:

一是问答引擎。目前世界上最好的问答引擎是Perplexity,这个没有之一,没得挑。但是光有它还不够,因为有很多东西是搜不到的。而且我也经常需要AI提供更多的角度,或者完善我的思路。

于是就有了第二类工具——Chatbot。目前我最满意的是Claude。它不只是模型能力比GPT-4更强,在功能体验上也比ChatGPT要好得多。Artifacts真的非常棒,绝对值回票价。我推荐给好多人了,用过都说好。

不过,对于咱们这些国内用户来说,Perplexity和Claude麻烦的地方就在于,隔段时间就要刷新页面、点一下验证。你别小看就这么一点点的麻烦——当你想用却被打断的时候,会很影响体验。

所以,当这种不方便久了之后,我都是有稍微严肃一点的任务的时候才去用它俩。日常大量的、碎片化的需求,需要有一个轻量化的、拿起来就能用的AI工具来承接——这就是我看上macOS版HuggingChat的原因。

平时隐藏在后边,要用的时候通过快捷键呼出对话框,这种看似不争的做法,其实是想抢AI终端的第一入口。为了实现这个野心,HuggingChat做了大量减法,甚至连上网搜索功能都要手动开启。

在设置里边有个Web Search,把它勾选上之后,模型就会上网搜索了。不过代价就是,回复的速度要慢一些,因为多了搜索和RAG的过程。我猜,这就是上网搜索功能没有默认开启的原因。

尽一切可能把回复速度提上来,这个优先级绝对高于任何其它功能。

如果用户有更重的需求,没问题,在桌面端用网页版,在移动端用iOS版。打开之后你就会发现,ChatGPT里的GPTs它也有,叫Assitants。不过大部分都没啥用啦,跟GPTs一样。

真正有生产力的,是Tools,工具。我用得最多的,是Flux图像生成。

我在前两期视频里介绍过Flux模型。它是SD团队出来做的,是目前世界上最先进的图像生成模型。第一,Flux生成的图像,无论是真实程度还是审美水平都超过别的模型。第二,Flux还能实现精准控制,比如它能在图像上准确生成文字。

Flux有三个版本,其中两个开源。这个工具所用的Flux dev,就是开源版本中性能最强的那一个。当我有一些轻量级的图像生成需求的时候就会用到它。比如生成一个文章配图。由于Flux本身能力强,这种任务对它来说很简单。实在不行就抽几次卡,也能搞定。

有了macOS版之后,加上之前已经在用的iOS版和网页版,我突然发现,HuggingChat已经悄悄成为我使用最频繁的AI工具了。开源模型的性能已经追平闭源。至于开发应用,大家水平都一样。甚至我会觉得开源社区更有优势,因为他们不用考虑什么生态啊、护城河之类的,没那么多包袱,可以放开手脚干。

OK,以上就是本期内容。想交流和学习AI,来newtype社群。那咱们下期见!

Ollama + Hugging Face:给Ollama添加任何大模型

Key Takeaway

  • Ollama是本地运行开源大模型的最佳工具,但官方模型对中文支持有限。
  • 用户可以通过Hugging Face下载GGUF格式的开源大模型文件,并利用Modelfile和ollama create命令将其添加到Ollama中。
  • GGUF格式是一种压缩格式,能让大模型在消费级终端上运行,但会牺牲精确度。
  • 文章详细介绍了将GGUF模型添加到Ollama的步骤,包括创建Modelfile和使用ollama create命令。
  • 强调了Ollama的开放性,使其能够运行任何开源大模型,为用户提供了更多选择。

Full Content

在本地跑开源大模型,目前最好的软件肯定是Ollama。

但是,对于咱们国内的用户来说,Ollama有一个问题:

官方提供的模型,对中文的支持太少了。

目前就一个中文模型,是基于Llama2微调的。如果你在官网搜“Chinese”这个关键词的话,能找到一个它(Llama2-Chinese)。

如果我们想多一些选择,使用那些国产的开源大模型,该怎么搞呢?本期我就介绍一下方法。还是那句话:

超级简单,有手就行。

理论上,除了官方模型列表里的模型,Ollama可以运行任何开源大模型,只要你有模型的GGUF文件。

那么,第一个问题来了:去哪里下载模型文件?

世界上开源大模型最多的地方,肯定是Hugging Face了。我们可以到这个平台直接搜国产大模型,比如:baichuan gguf,或者qwen gguf。通过下拉列表,就可以找到用户上传到GGUF格式文件。

这个GGUF格式,为了方便理解,你可以先简单把它看作是一种压缩格式——虽然这么解释并不严谨,不过无所谓啦。就像JPG压缩的是图片,那GGUF压缩的是大模型。这样一来,才好在咱们这些消费级的终端上跑。

当然,压缩是有代价的,那就是精确度下降。所以列表里才会有一系列不同体积的文件。大家根据自己机器的配置,选一个合适的下载就好。

下载好之后,创建一个txt文档,名字叫Modelfile,里边只需要写上这么一行:

FROM D:\ollama

这个文档的作用就是告诉Ollama该去哪儿找模型文件。比如,在我这边就是,去D盘、ollama文件夹,找到叫这个文件名的模型文件。

最后一步,打开终端,输入这一行命令:

ollama create

我来解释一下这行命令的意思。其实大家不用紧张,觉得这是命令什么的,肯定看不懂——你就把它当成是英语的阅读理解嘛:

ollama create,很好理解,就是让ollama去创建新的模型文件。

那么,创建好的模型该叫什么名字呢?就是后边跟着的名字,随你设定。

Ollama肯定不能凭空创建出一个模型文件,这就需要使用我们之前下载好的GGUF文件。这时候,我们告诉它,去读取刚才创建的txt文档,里边有GGUF文件的地址。

这样一来,Ollama就知道该从哪里找到大模型,然后创建一个叫什么名字的模型文件了。

这行命令运行之后,稍等个两三分钟就搞定了。

我们在终端里输入:ollama list。这个命令会列出目前你已经拥有的模型。这时我们看到,刚才导入的模型已经存在了。

打开Open WebUI,在模型选择的下拉列表里,同样也能看到最新的模型。

OK,以上就是让Ollama添加任意开源大模型的方法。我刚才下载的那个模型版本,中文的效果不一定好,只是为了演示这个方法。大家可以去Hugging Face或者国内的模型社区下载各种GGUF格式的中文大模型,然后找到最适合自己的版本。

本期内容就这些。大家如果有疑问,或者想进一步交流的话,到知识星球来找我。咱们下期见!

Perplexica:部署完全属于你的问答引擎

Key Takeaway

  • Perplexica是一款开源的问答引擎,旨在提供Perplexity的本地部署替代方案,具有高度自由度。
  • Perplexica支持云端和本地模型,可通过OpenAI、Anthropic、Grok的API调用,或通过Ollama调用开源大模型。
  • 部署Perplexica需要Docker,并可通过docker compose up命令进行安装。
  • Perplexica的UI与Perplexity相似,支持Copilot功能,能根据提问生成多个搜索关键词以提升效果。
  • Perplexica还支持云端部署,用户可在RepoCloud等平台一键部署,实现个人专属的问答引擎。

Full Content

我一直想在本地部署一套问答引擎。

在我构想的AI工作系统当中,问答引擎是基础。但是,现在做得最好的Perplexity,它对网络环境挺挑的。想用的时候突然用不了,就很烦。

所以很多时候不是我不想为SaaS付费,而是这客观条件逼得我只能走本地部署这条路。

好在这类型的项目挺多的。我之前就介绍过一款,叫LLocalSearch。折腾了一圈之后,我目前最满意的是Perplexica。

从名字就能看出来,这款产品就是照着Perplexity抄的。放在一起对比,UI几乎一模一样。

我之所以对它满意,主要原因是,它的自由度很高。

在模型方面,你可以走云端,通过OpenAI、Anthropic或者Grok的API去调用相应的模型。你也可以走本地,通过Ollama去调用开源大模型。

我把之前安装的都删了,重新走一遍,大家就明白了。

先把Docker打开,咱们一会儿需要使用。接着老规矩,通过git clone把项目下载下来。然后把config这个文件前边的sample去掉。

对大模型的配置,可以在config里进行。比如填上OpenAI的API Key,或者Ollama的地址。如果你没有改端口的话,那就是默认的11434。要注意:不是填localhost:11434,而是host.docker.internal:11434,因为咱们是在docker里运行。

这边没填也没关系,等全部安装完成之后,可以在应用里边的设置页面进行配置。

最后,使用docker compose up这行命令,就会自动下载、安装需要的所有东西。等个几分钟,就可以通过localhost:3000这个本地页面使用了。

咱们来测试一下效果。先试试GPT-4o。可以看到,大概四到五秒钟能给出结果,还是很不错的。回答的来源,还有追问,都跟Perplexity一样。

如果打开Copilot选项,那么AI会根据你的提问去多生成几个,一起拿去搜,这样能提升整体效果。

接着试试开源模型的效果。语言模型用qwen2,嵌入模型用nomic。第一次启动有点慢,需要加载一下。后边明显快多了。

前边说了,我喜欢Perplexica的主要原因是它的自由度。这个自由度不仅限于模型。

在部署方面,除了本地部署,它还支持云端部署。在官方GitHub页面下方,就有一键部署的按钮。

它应该是跟RepoCloud有合作。你在上边注册之后,会给3美金的免费额度。这时只需要搜索项目名称,找到Perplexica;然后填写OpenAI API Key,以及用户名和密码;最后等上大概5分钟,项目就在云端部署好了。

可以看到,RepoCloud给了一个链接,我们可以在桌面端、移动端随意使用。比如我在iPad上打开,用刚才设置的用户名和密码登陆,就会看到同样的界面。运行起来,速度还OK。RepoCloud会根据你的使用量auto-scaling。

我发现,这种个人专属的感觉特别棒。强烈建议大家试试。不管你是自己使用还是团队共用,都可以。

OK,以上就是本期内容。接下来我准备详细研究一下Perplexica和它所使用的搜索引擎SearXNG。有新发现的话,我会分享到newtype社群。还没加入的小伙伴抓紧加入吧。那咱们下期见!

像用GPT一样使用开源大模型

Key Takeaway

  • LM Studio等工具能让用户像使用GPT一样,通过Python脚本和框架(如LangChain、Llama Index)增强和限制开源大模型。
  • 本地运行开源大模型可以实现知识库、搜索引擎等增强功能,并能根据工作流程限制模型发挥。
  • LM Studio提供本地服务器功能,模拟OpenAI API接口,使得基于GPT开发的应用可以无缝迁移到开源大模型。
  • 这种本地化解决方案不依赖云端算力,无需支付token费用,为用户提供了开发定制化AI应用的自由。
  • 文章强调了本地部署开源大模型在成本和灵活性方面的优势。

Full Content

在本地跑开源大模型,如果只是用来简单对话,那就没什么意思了。我们肯定是希望像用GPT一样,通过Python脚本,借助LangChain、Llama Index等框架、工具,对大模型进行增强和限制,比如:

  • 增强:通过搭载知识库、搜索引擎,提升大模型信息的及时性,补充某个领域的知识。
  • 限制:根据给定的工作流程、思考路径来处理任务,而非随意发挥。

OpenAI提供API接口,让这一切变得简单许多。其实通过LM Studio这类软件,也可以在开源大模型的使用上,达到同样的效果。

在上期视频中,我介绍了LM Studio的基本用法。

你可以把它简单理解为:就像国内的游戏模拟器平台,把模拟器、游戏库全都打包好了。不需要做复杂的调试,下载好了直接可以玩。

在此基础上,LM Studio还提供了进阶用法:

作为本地服务器,提供类似于OpenAI的API接口服务。

方法很简单:

  1. 加载量化版的大模型。
  2. 启动本地服务器。
  3. 获取本地服务器的端点,设置成config_list中的base_url

如果之前有基于GPT开发应用的话,看到这个代码应该会很亲切。

它基本上就是把调用OpenAI API的部分做个替换:

  • api_key不需要填真实的,可以用“not-needed”来替代。
  • model部分,原本选择gpt-3.5或者gpt-4,现在填“local-model”

脚本其它部分都不需要变动。这意味着,之前的Python脚本都可以平移过来,给到开源大模型使用。

比如,使用微软的AutoGen配置Agent,对config_list做一些改动就行,照样导入llm_config。

不依赖云端算力,不用支付token费用,基于LM Studio和开源大模型,完全可以开发一套适合自己需求的本地解决方案,这是最吸引我的地方。

微调Llama 3.1,用神器Unsloth

Key Takeaway

  • Meta开源Llama 3.1具有里程碑意义,其性能达到GPT-4o水平,可通过知识蒸馏和微调适应特定任务和领域。
  • 微调(Fine-tuning)是将通用大模型(如大学毕业生)训练成掌握特定技能(如公司培训)的过程。
  • LoRa和QLoRa是微调技术,它们通过在模型上添加“便签纸”而非重写整个模型来高效地进行修改。
  • 数据集是微调的“培训教材”,Alpaca数据集有助于训练高质量的指令跟随型AI助手。
  • SFTTrainer是简化微调过程的训练工具,相当于培训老师。
  • 过度拟合是指模型“死读书”,失去举一反三的能力,需要通过lora dropout等参数设置来避免。
  • 大模型微调的关键在于“教材的质量”(数据集)和“教学的质量”(参数设置)。
  • Unsloth框架是微调加速神器,能显著减少显存占用和训练时间,方便新手使用。
  • 微调后的模型可以导出为adapter(技能模块)或GGUF文件,并上传到Hugging Face等平台。

Full Content

Meta开源Llama 3.1是一件功德无量的事。

因为最好的闭源模型代表着天花板,那是人类可以达到的能力上限。而最好的开源代表着全民福利,那是所有人都可以接触到的基准,是科技平权价值观的展现。

这一次,开源的Llama 3.1在性能上达到GPT-4o水平。我们可以通过知识蒸馏,用最大最强的405B模型去打造小模型;也可以通过微调,让8B的模型去适应特定的任务和领域。

之前国内有些人说,开源模型是智商税,开源模型会越来越落后。这种人,不是蠢就是坏,跳梁小丑罢了。

OK不跑题,咱们今天来聊一下微调。之前一直没碰这个领域是因为,我感觉条件还没到。现在模型够强了,工具也成熟了。我试了一下,比预想中的容易多了——你看,上周我在newtype社群里发了消息,说要用Unsloth微调Llama 3.1,结果下午就成功了。

整个过程我都是在Google Colab上跑的,用的是免费的T4 GPU。数据集不大,训练花了11分半。生成q4、q5和q8三个GGUF文件比较慢,我等了应该有半个多小时。最后,这些GGUF文件都自动上传到我的Hugging Face账号上。

之所以会这么快速和顺利,主要是因为我用的是Unsloth框架。这个框架真的是微调加速神器。用了它之后,显存占用更少,训练时间也显著缩短。我强烈建议大家试试。

为了方便像我这样的新手使用,Unsloth提供了模型和代码。我就是在他们给的基础上做了一点修改。

虽然整个过程需要自己动手的地方不多,但微调相关的知识还是得理解的,因为里边的门道很深。我先用大白话分享一些我认为比较关键的点,然后再带大家过一遍代码,不然看得一头雾水也没用。

第一,什么叫微调?

厂商把大模型训练出来,就好比大学生顺利毕业,具备一定的通用技能。但是要入职、要上岗,还得接受公司的培训。这种公司培训就是微调,让大模型这个新人快速掌握一些特定的技能。

第二,lora和qlora是什么?

如果把大模型比作一本百科全书的话,我们做微调,并不是要把书重新写一遍,而是在一些页面上贴上便签纸,上边写上一些额外的信息就可以了。LoRa就是这样的便签纸。而QLoRa更进一步,它这个便签纸可以在更小的纸片上写更多字。

第三,数据集是什么?

前边说了,大模型要接受“上岗培训”。那么,数据集就是培训教材。你可以用自己的数据做成数据集的格式,也可以用公开的。其中,在公开数据集方面,为了让大模型能更好理解人类指令,并且做出恰当回应,斯坦福大学的研究人员创建了Alpaca数据集。有了它,我们就能用相对较少的资源训练出高质量的指令跟随型AI助手。

第四,SFTTrainer是什么?

对我们使用者来说,SFTTrainer就是训练工具。它简化了微调过程,而且提供很多设置和优化选项,特别好用。对大模型来说,SFTTrainer就好比培训班的老师。它接收大模型这些学生,拿到数据集作为教材,然后开始教大模型如何更好地去执行特定的任务。

第五,过度拟合是什么?

我们都遇到过,那些读书读过头的人,考试很厉害,但是遇到教材里没教的问题就不会了。同样,大模型也存在这种可能性,只会应对见过的情况,而失去了举一反三的能力。这种“死读书”的结果,就叫过度拟合。

所以,根据这五个知识点,我们就能得出,大模型微调有两个关键:

第一,教材的质量。数据集不行,那再怎么训练也不行。

第二,教学的质量。怎么用有限的资源把大模型教得恰到好处,这里边涉及到很多参数的设置,就很有门道了。

接下来,我给大家看看我上周第一次微调用的代码。不要有畏难情绪,这个就是一个熟悉的过程。多经历几次之后,再看这些代码就很亲切了。它其实很简单,待会儿看完你就知道,最核心的设置就是“教学设置”和“教材设置”。

在最开始,肯定是把需要的Package都安装和加载。

接着,加载Unsloth已经预处理好的模型。主流的模型都有,包括Mistral、Gemma等等。我的目标是Llama 3.1,所以在模型名称这边就填Llama 3.1。Unsloth的Hugging Face主页有更多模型,包括qwen之类的,大家可以去看一眼。

这个设置当中,有一个参数叫max seq length。它的意思是,模型一次可以处理的最大token的数量。不同模型有不同的默认值,从512、1024、2048,甚至更多。可以简单理解为,大模型阅读教材的话,一次能看多少个字的内容。

这一步完成之后,紧接着是参数配置。其中,target modules指的是,我们打算具体修改模型的哪个部分。把大模型比做一个机器人的话,这个机器人已经会一些基本运动了。这时候,我们要教它跳舞,那就针对它腿部的动作模块做修改,而不需要改动整个机器人。这个设置好了,就能让整个微调过程更有针对性,也更加高效。

另外,还有两个重要的参数:

lora alpha这个值设得越大,lora的影响越显著。也就是说,咱们可以通过这个设定来对模型原始性能和新技能做平衡。

lora dropout指的是,在训练过程中,会随机关闭一定比例的神经元。这就好比是,你在练习钢琴的过程中,有的时候会闭着眼睛弹。这样就强迫你自由发挥,避免“死读书”或者说过度拟合的结果出现。

模型都配置完了,接下来要配置数据集了。我的目标是强化Llama 3.1的Python能力,所以给它配的教材是python code instructions。这个数据集的内容格式包括三列:

本地大模型,免安装!

Key Takeaway

  • Llamafile是一个创新的本地大模型运行项目,只需一个文件即可运行,无需安装,极大降低了本地部署门槛。
  • Llamafile通过整合llama.cpp(模型推理优化)和Cosmopolitan Libc(跨平台可执行文件),实现了单文件运行大模型。
  • Llamafile支持多模态(如Llava模型),可进行文字生成和图片描述。
  • Llamafile的免安装特性使其便于分享和在各种终端设备上运行,有助于大模型的普及和应用。
  • 文章强调了Llamafile的便捷性和对本地大模型生态的积极影响。

Full Content

在本地跑大模型,只需要一个文件,而且免安装。

今天给大家介绍的这个项目叫Llamafile,它是我近期看到的最有意思的项目。

想快速体验Llamafile的话,非常容易,有手就行。

第一步,去GitHub下载官方准备好的大模型文件。

第二步,如果像我一样是Windows系统的话,就在文件后边加上.exe的后缀,把它变成可执行文件。如果是macOS的话,就在终端里运行这一行命令,给系统一个运行权限。

第三步,用cd命令进入大模型文件所在的文件夹,然后复制这条命令去运行。

这个时候,系统会自动打开一个本地页面,这样就可以跟大模型做交互了。

目前这个界面看起来是挺简陋的,不过该有的功能都齐了,之后项目组腾出手来做美化很容易。我们来简单做个测试。

如果是生成文字的话,速度飞快,比ChatGPT肉眼可见的快。

Llava这个大模型支持多模态,所以我们可以上传图片,让它描述图片上的内容。

Llamafile的基本用法就这些。这应该是我介绍过上手最容易的项目了。它让我想起来90年代刚接触互联网那会儿,当时特别流行的绿色版软件。因为都是在网吧玩儿,这种绿色软件不需要碰注册表,特别方便。

Llamafile也是这个思路。

目前本地跑大模型的方法,怎么都得安装一个软件,比如我之前介绍的Ollama。装完之后,还要下载大模型文件。

那么,为什么不能把模型的部分和运行的部分整合起来呢?

模型的部分,就是llama.cpp。它可以把模型参数降低,这样一来,模型推理需要的资源就少了,可以在配置不那么高的电脑上运行。

运行的部分,就是Cosmopolitan Libc。它是一个开源的C语言库,允许开发者编写的C程序高性能、小体积,而且能够随处运行。

把这两部分整合进一个架构里,在本地跑大模型就只需要一个文件。这意味着,大模型的门槛降低非常多。

反正只有一个文件,还不要安装。你可以放在U盘里或者网盘里。愿意的话,你可以把你喜欢的模型转成Llamafile,然后可以分享给同事。国内已经有人这么做了。

在ModelScope社区,有人做了Llamafile合集,包括千问、零一这些国内开源的大模型。大家可以去下载试试。

最后,Llamafile还支持多种系统、多种CPU架构,也支持GPU运行。咱们可以想象一下,把一个小模型转成Llamafile,就可以在各种形态的终端上跑。大模型的普及、应用一下就容易多了。

等这期视频做完,我打算也上手试试。感觉我的AI工具库又可以升级了。

用Kimi K2驱动Claude Code,两个方法

Key Takeaway

  • Kimi K2是月之暗面推出的开源大模型,其代码生成和Agentic能力表现出色,被认为是国产模型在AI编程和Agent产品领域的突破。
  • Kimi K2的能力介于Claude 3.5和Claude 3.7之间,足以驱动Agent产品。
  • 替换Claude Code模型有两种方法:最简单的是通过设置环境变量直接切换到Kimi K2 API;另一种是使用Claude Code Router项目,该项目支持多种模型服务商的API配置。
  • AI编程工具由大模型(大脑)和编程助手(眼睛和手脚)两部分组成,大模型决定上限,编程助手提供工具操作能力。
  • Kimi团队通过特定工作流激发了Kimi K2的工具使用能力,使其在预训练阶段就学会了如何使用工具。

Full Content

如果你用Claude Code有难度,那么,可以把模型换成Kimi K2,照样也能跑得起来。而且,效果可能会让你眼前一亮。

Kimi K2是月之暗面最新推出的模型,开源,1T参数。我最感兴趣的,是它的代码生成和Agentic能力。

说实话,对于国产模型来说,这两个能力,我一直没看到比较出众的。这也导致国产模型在AI编程、Agent产品这一波越来越落后。

直到Kimi K2的出现。

老外对这个模型的热度超过了国内用户。他们说,K2就是又一个“DeepSeek-R1时刻”。Kimi算法小哥的这篇博客也引起了老外极大兴趣。

我自己体验下来,感觉K2的能力大概介于Claude 3.5和Claude 3.7之间。用一句话总结就是:足以驱动Agent产品,能够拿来干活了。

你别觉得我评价低了。要知道,今天大部分Agent产品完全依赖Claude模型。Kimi能把国产模型在这一块的空白补上,是非常牛逼的!

哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。这个社群已经运营500天,有超过1500位小伙伴付费加入啦。

回到今天的主题:用Kimi K2驱动Claude Code。

要更换Claude Code的模型,网上有很多方法。我给大家介绍两个。先来一个对大多数人来说最简单的。

第一步,你去月之暗面官网注册账号,然后生成API Key。如果打算长期使用的话,可以充点钱。你看我就充了50块钱,属于Tier 1级别。Kimi的API费用很低,跟Claude比起来简直就是白菜价。大家可以大胆使用。

第二步,来到终端,运行这两行命令。它们的作用是设置环境变量,把模型的调用渠道切换到月之暗面那边。

设置完之后,输入claude,把Claude Code启动。这时模型就已经换成K2了。

第二个方法,略微折腾一点。不过好处是,可以更换各种模型。

Claude Code Router这个项目就是一个路由器,让你随意配置模型,以及做自定义设置。

它支持的模型服务商很多,包括OpenRouter、DeepSeek、Ollama、Gemini等等。Kimi官方的API也是支持的。

使用起来也挺简单的。运行这一行命令,把npm包安装好。然后打开config.json文件,像我这样配置Kimi官方的API。如果你不想填配置文件也OK,输入ccr start这行命令。按照它的要求,输入provider name、url、api key、model name,就可以完成配置。最后,输入ccr code,就可以正常使用了。

看到这里,可能有人会很奇怪:换了模型之后,Claude Code为什么还能用?

我打个简单粗暴的比方:阿姆罗能开高达,夏亚也可以开!只要Pilot够强,就都能驾驭。

我们使用的AI编程工具包含两个部分:大模型(LLM),和编程助手(Coding Assistant)。

编程除了需要脑子聪明,还需要很强的动手能力。比如要从那么复杂的代码库里找到需要的文件,或者就那么几行代码。