国产模型能用Skills吗
国产模型搭配Claude Code框架,运行Skills效果如何?我测试了三款:智谱GLM-4.6,Minimax M2,月之暗面K2。
Key Takeaway
测试方法:用Claude Code Router配置国产模型(GLM-4.6/M2/K2)通过ccr ui/model命令,搭配Super Analyst Skill分析ChatGPT Atlas胜算,强调遵守SOP。
模型表现:GLM-4.6调用混乱需多次尝试、M2搜索失败不按流程(信息错误)、K2顺利工具调用基本合规(仅Python时机错)。
结论原则:K2最佳(同行衬托),国产整体指令/工具遵循差;推荐K2但坚持全球最佳工具(如Claude),性价比高。
国产模型能用Skills吗?这个是最近我被问到比较多的问题。
社群内不少小伙伴因为种种原因没法用Claude,所以就想着能否通过Claude Code搭配国产模型的方法来使用Claude Skills。
目前市面上确实有不少这样第三方的插件,比如我一直在用的Claude Code Router。
通过ccr ui这行命令,打开后台。我都是用OpenRouter作为供应商,所有模型都有,非常方便。只需要到官网搜索模型的名称,然后复制粘贴过来就搞定了。
回到终端,通过ccr model命令进行模型配置。默认模型、思考模型、长上下文模型、搜索模型,以及生成图片的模型,全都可以详细设置。
之前我做了两期视频,介绍了我做的第一个Skill——Super Analyst。Claude模型搭配这个Skill效果非常出色。作为对比,我还是用这个Skill,还是用同样的问题,测试三款国产模型:智谱的GLM-4.6,Minimax的M2,以及月之暗面的K2。我给大家展示一下,国产模型搭配Claude Code这个框架,调用Skills到底行不行。
哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。这个社群已经运营600天,有超过1800位小伙伴付费加入啦。
如果你是国内用户,可以从知识星球加入。如果你是海外用户,可以从Substack加入。我的第一套课程、日常的Newsletter以及专属视频,在社群内都可以看到。
回到今天的主题:国产模型运行Skills。
我们先来看看智谱的模型。
我把默认模型、思考模型和长上下文模型都设置成GLM-4.6。
问题很简单:OpenAI最近推出了ChatGPT Atlas。使用Super Analyst这个Skill,帮我分析一下这款AI浏览器的胜算。
考虑到这些模型可能在训练的时候没有接触过Skills,所以我在结尾特意加了一句:请严格遵守Skills的要求。
跑起来之后可以看到,智谱的模型确实可以调用Skills,似乎也完成了任务。但是,整个过程我并没有看到任何MCP的调用。而且最终的结论就是那种典型的AI糊弄人的口吻。所以我追问了一句:你刚才使用Prompt House MCP了吗?
果然啊,它自己承认,没有按照要求使用工具,就自己想当然地弄了一份结果出来。
所以,再给智谱一次机会,我让它重新执行一遍。而且再次强调,务必严格按照Skills的要求来。
这一次似乎正常了。但是,还好这个Skill是我做的。我非常清楚整个SOP。
在分析框架的选择环节,有一个Python脚本是用来辅助模型做出选择的。
看起来智谱的模型运行了这个脚本。但是,它的顺序完全错了:
它先得出了结论,再运行脚本,去验证它框架选择是否正确。
也就是说,它还是没有按照Skill里的SOP走,自己瞎搞了一套!
你看,它自己也承认了:Python脚本使用时机错误。流程顺序混乱。
直到第三次,智谱的GLM-4.6模型才算按照Skill的要求跑完SOP。
说实话,我对这个模型是非常非常不爽的。看起来是能调用,但跑起来完全不是那么回事儿。太糟心了。
也难怪,星球内有位小伙伴留言说,他先做了一个Skill,用提示词来限制它不跑偏,不糊弄。这个就很无语了。
好吧,让我们来看第二个登场的模型:Minimax的M2。
还是同样的设置,以及同样的问题。这一运行起来,我就有一种不祥的预感:你看,Web Search显示,它做了0个搜索。
果然,在最终结果里,M2说,OpenAI的AI浏览器可能并不存在,或者信息极其有限。
我真的无语了。我明明记得,他们新闻稿里写着,具有深度搜索能力,还超过了一堆国外模型,达到第一梯队水平。
而且,整个过程也没有按照规定使用MCP。
我又试了一次。这次更潦草了。直接出结果。
我强调之后,它才意识到,必须按照Skill的要求走。
我不知道这是指令遵循的问题,还是工具调用的问题。似乎这些模型一旦遇到复杂一点的需求就完全不知所措了。
算了,就这么着吧。作为用户,我没必要替他们考虑。让我们来看第三款模型:Kimi K2。
说实话,被刚才两个模型折腾之后,当我看到K2顺利调用工具,并且制定出搜索策略,我心里有一种解脱的感觉——终于有一个正常表现的模型了!
整个过程基本按照SOP走的。唯一有问题的地方是那个Python脚本的使用时机。本应该是完成搜索之后,要开始决定用什么框架的时候,才运行这个脚本,而不是在最开始的时候。
怎么说呢,有句话叫:全靠同行衬托。我发现这句话在国内特别特别适用。
你回想一下刚才那两个模型的表现,再看Kimi K2的表现,我只能说,已经非常不错了。
我记得之前有人发评论问我,为什么都不介绍国产模型。现在你们知道原因了。
如果你真的就是没办法,只能用国产的,那就试试Kimi吧。
我还是坚持我的原则:在生产力方面,只用全球最好的。我相信,这一定是性价比最高的选择。
OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

