国产模型能用Skills吗

国产模型搭配Claude Code框架，运行Skills效果如何？我测试了三款：智谱GLM-4.6，Minimax M2，月之暗面K2。

huangyihe

Nov 06, 2025

Key Takeaway

测试方法：用Claude Code Router配置国产模型（GLM-4.6/M2/K2）通过ccr ui/model命令，搭配Super Analyst Skill分析ChatGPT Atlas胜算，强调遵守SOP。
模型表现：GLM-4.6调用混乱需多次尝试、M2搜索失败不按流程（信息错误）、K2顺利工具调用基本合规（仅Python时机错）。
结论原则：K2最佳（同行衬托），国产整体指令/工具遵循差；推荐K2但坚持全球最佳工具（如Claude），性价比高。

国产模型能用Skills吗？这个是最近我被问到比较多的问题。

社群内不少小伙伴因为种种原因没法用Claude，所以就想着能否通过Claude Code搭配国产模型的方法来使用Claude Skills。

目前市面上确实有不少这样第三方的插件，比如我一直在用的Claude Code Router。

通过ccr ui这行命令，打开后台。我都是用OpenRouter作为供应商，所有模型都有，非常方便。只需要到官网搜索模型的名称，然后复制粘贴过来就搞定了。

回到终端，通过ccr model命令进行模型配置。默认模型、思考模型、长上下文模型、搜索模型，以及生成图片的模型，全都可以详细设置。

之前我做了两期视频，介绍了我做的第一个Skill——Super Analyst。Claude模型搭配这个Skill效果非常出色。作为对比，我还是用这个Skill，还是用同样的问题，测试三款国产模型：智谱的GLM-4.6，Minimax的M2，以及月之暗面的K2。我给大家展示一下，国产模型搭配Claude Code这个框架，调用Skills到底行不行。

哈喽各位好，欢迎回到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我，就来我们newtype社群。这个社群已经运营600天，有超过1800位小伙伴付费加入啦。

如果你是国内用户，可以从知识星球加入。如果你是海外用户，可以从Substack加入。我的第一套课程、日常的Newsletter以及专属视频，在社群内都可以看到。

回到今天的主题：国产模型运行Skills。

我们先来看看智谱的模型。

我把默认模型、思考模型和长上下文模型都设置成GLM-4.6。

问题很简单：OpenAI最近推出了ChatGPT Atlas。使用Super Analyst这个Skill，帮我分析一下这款AI浏览器的胜算。

考虑到这些模型可能在训练的时候没有接触过Skills，所以我在结尾特意加了一句：请严格遵守Skills的要求。

跑起来之后可以看到，智谱的模型确实可以调用Skills，似乎也完成了任务。但是，整个过程我并没有看到任何MCP的调用。而且最终的结论就是那种典型的AI糊弄人的口吻。所以我追问了一句：你刚才使用Prompt House MCP了吗？

果然啊，它自己承认，没有按照要求使用工具，就自己想当然地弄了一份结果出来。

所以，再给智谱一次机会，我让它重新执行一遍。而且再次强调，务必严格按照Skills的要求来。

这一次似乎正常了。但是，还好这个Skill是我做的。我非常清楚整个SOP。

在分析框架的选择环节，有一个Python脚本是用来辅助模型做出选择的。

看起来智谱的模型运行了这个脚本。但是，它的顺序完全错了：

它先得出了结论，再运行脚本，去验证它框架选择是否正确。

也就是说，它还是没有按照Skill里的SOP走，自己瞎搞了一套！

你看，它自己也承认了：Python脚本使用时机错误。流程顺序混乱。

直到第三次，智谱的GLM-4.6模型才算按照Skill的要求跑完SOP。

说实话，我对这个模型是非常非常不爽的。看起来是能调用，但跑起来完全不是那么回事儿。太糟心了。

也难怪，星球内有位小伙伴留言说，他先做了一个Skill，用提示词来限制它不跑偏，不糊弄。这个就很无语了。

好吧，让我们来看第二个登场的模型：Minimax的M2。

还是同样的设置，以及同样的问题。这一运行起来，我就有一种不祥的预感：你看，Web Search显示，它做了0个搜索。

果然，在最终结果里，M2说，OpenAI的AI浏览器可能并不存在，或者信息极其有限。

我真的无语了。我明明记得，他们新闻稿里写着，具有深度搜索能力，还超过了一堆国外模型，达到第一梯队水平。

而且，整个过程也没有按照规定使用MCP。

我又试了一次。这次更潦草了。直接出结果。

我强调之后，它才意识到，必须按照Skill的要求走。

我不知道这是指令遵循的问题，还是工具调用的问题。似乎这些模型一旦遇到复杂一点的需求就完全不知所措了。

算了，就这么着吧。作为用户，我没必要替他们考虑。让我们来看第三款模型：Kimi K2。

说实话，被刚才两个模型折腾之后，当我看到K2顺利调用工具，并且制定出搜索策略，我心里有一种解脱的感觉——终于有一个正常表现的模型了！

整个过程基本按照SOP走的。唯一有问题的地方是那个Python脚本的使用时机。本应该是完成搜索之后，要开始决定用什么框架的时候，才运行这个脚本，而不是在最开始的时候。

怎么说呢，有句话叫：全靠同行衬托。我发现这句话在国内特别特别适用。

你回想一下刚才那两个模型的表现，再看Kimi K2的表现，我只能说，已经非常不错了。

我记得之前有人发评论问我，为什么都不介绍国产模型。现在你们知道原因了。

如果你真的就是没办法，只能用国产的，那就试试Kimi吧。

我还是坚持我的原则：在生产力方面，只用全球最好的。我相信，这一定是性价比最高的选择。

OK，以上就是本期内容。想了解AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。那咱们下期见！

newtype

Discussion about this post

Ready for more?