性价比
Key Takeaway
- DeepSeek新模型V3 0324在MCP调用方面表现出色,性价比极高,性能接近Claude-3.7 Sonnet。
- DeepSeek模型具备清晰的思考和规划能力,能将用户需求拆解为明确任务,并判断所需工具。
- DeepSeek在工具调用能力上显著提升,结合其成本优势,将推动MCP的进一步普及。
- 文章预测Agent发展趋势将从任务编排模式转向模型自由发挥,以超强模型为核心,搭配海量原子化工具。
- DeepSeek的进步,加上MCP协议,预示着AI行业将迎来飞速发展。
Full Content
DeepSeek新出的模型V3 0324可能是跑MCP性价比最高的模型。它在性能上接近Claude-3.7 Sonnet,调用MCP很丝滑,但是成本却低了非常非常多,真的是白菜价了。我给你们看一下就明白了。
这个是我目前用得最多的MCP客户端Cline。DeepSeek最新模型,它已经支持了。我这边选的是付费版。平台虽然也提供免费版,但是不建议用。我前边试过了,速度太慢,而且步骤一多就容易中断,就挺闹心的。所以咱还是老老实实花钱吧。
我的需求很简单:谷歌发布Gemini 2.5模型。这是他们的官方博客。我让DeepSeek帮我把内容扒下来,翻译成中文,并且在开头加上总结,最后存进文档里。
你看,DeepSeek先做了四步规划:
第一,把用户需求拆成明确的任务;
第二,判断需要用哪些工具,包括Tavily MCP里的提取工具,以及写入文件的工具;
第三,当前的环境是,文件已经存在,用户也允许直接进行操作;
第四,给自己设定执行步骤。
这个就是AI比人类强的地方。你想嘛,有几个人能做到这么清晰思考和规划的?
整个过程花了两三分钟,我就不具体展示了。当文档写入完成后,整个任务结束,一共花了0.0358美金。
接下来,咱们加点难度。我让它调用两个MCP:一个是Sequential-thinking,步骤尽可能多。另一个是Tavily,负责联网搜索资料。每一步思考之前,都要搜一次资料,再结合搜到的内容思考。
像这种需求就特别考验模型。因为它既要懂得拆解问题,还得根据实际搜到的信息随时调整思考方向,以及下一步需要搜什么,而且还要频繁调用MCP、不能出错。
我建议大家看完视频也这么去测试,不管是测试模型还是测试客户端都可以。然后你就知道该怎么选了。
咱们回到DeepSeek这边。整个推理过程花了三分多种。DeepSeek一共做了六步思考,最终给出了答案。但是我觉得下边的要点还不够详细,于是让它进一步完善。最终,花了0.039美金,DeepSeek完成了这个回答。
通过这两个例子可以看出,DeepSeek新版本模型在使用MCP方面已经没问题了,而且价格很低。说实话,我这段时间用Claude跑MCP,已经在API上花了十几美金了。日常高频使用的话,真的会肉痛。
高性价比,就是我推荐DeepSeek的原因。官方在公众号文章里介绍了这次小版本升级。模型能力提升包括这几个方面,比如推理任务表现提高、前端开发能力增强、中文写作升级,等等。
其实我最看中的,以及我认为最重要的,是工具调用能力的提升。还是之前说过的逻辑:
AI发展的两条路径,一是获取更多信息,二是调用更多工具。
如果只能处理文本,搞不了多模态,那么AI的世界就是黑白的。这是我看好Gemini的原因。
如果只局限于推理,用不了更多工具,那么AI就只有大脑、没有手脚。这是我看好Claude的原因。
现在DeepSeek终于把工具调用能力提升上来了,叠加它本来就很强的成本优势,肯定能推动MCP进一步普及。
最后,说一下我对今年Agent发展的判断:
以Dify、Coze为代表的任务编排模式会逐渐被取代。这种做法虽然精确度高,但是太费人力,门槛也很高,而且非常限制模型的发挥,所以只适合企业生产环境。
我认为,最优解一定是:人类只需要设定起点,也就是Context、上下文,以及终点,也就是目标。在起点和终点之间一切,都交给模型自由发挥。
一个超强的模型作为单核,搭配海量、原子化的工具,就是AI行业今年发展的重点。
现在,我们已经有Claude和DeepSeek这样的模型了,也有MCP这样的中间层协议了。万事俱备,一切都将飞速展开。
OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!
Key Takeaway
- Gemini 2.0是目前性价比最高的大模型,其Flash-Lite版本价格极低,Flash版本兼顾性能、价格和速度。
- Gemini 2.0 Pro版本上下文窗口提升至200万,适合复杂推理和代码生成。
- Flash Thinking版本具备链式推理能力,适合逻辑推理和多跳问答。
- Gemini 2.0在性能、稳定、速度和价格方面达到平衡,成为作者的主力AI应用。
- 文章强调AI不会替代人,但使用AI的人会替代不使用AI的人。
Full Content
Gemini 2.0是世界上性价比最高的大模型,没有之一。我知道你们在想什么——它比DeepSeek还强。咱们直接来看价格,海外博主已经做好表格了。
Gemini 2.0 Flash-Lite是真的是白菜价:输入只要0.075美金,输出0.3美金。
比它功能多一点的Flash,价格贵一点点:输入0.1美金,输出0.4美金。
再来看DeepSeek:V3输入0.27,输出1.1;R1输入0.55,输出2.19。
谷歌这真的太卷了。要知道,Flash可是支持多模态、支持原生工具使用、有一百万的上下文窗口的最先进的模型。结果它不仅比DeepSeek便宜,而且还压过了GPT-4o mini。看来今年AI竞赛要上强度了。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:性价比之王——Gemini 2.0。
Gemini 2.0是谷歌前几天更新的模型系列,包含Pro和Flash两条线。
Pro很好理解,就是谷歌目前的顶级模型。该有的功能它都有,而且把上下文窗口从一百万提升到了两百万。所以,Pro版本非常适合用来复杂推理、生成代码等等。
而Flash则兼顾了性能、价格和速度,是日常使用的主力模型。其中,Flash还有两个变体:
Flash-Lite砍掉了一点点功能,比如不支持图片和音频的输出,不支持联网搜索,不能执行代码,然后把价格压到最低。所以,如果你需要大规模生成文本的话,那用Lite版最合适。
Flash Thinking顾名思义,就是带上链式推理能力的版本。跟大家很熟悉DeepSeek-R1一样,它在回答之前会先进行多步骤推理。所以对于一些复杂任务,比如需要更强的逻辑推理,或者多跳问答,用Flash Thinking最合适。
前边说Gemini 2.0是性价比之王,我感觉不太准确。因为“性价比”这三个字好像显得它性能不太行的样子。更贴切的称呼应该是“卷王”。我给你们演示一下效果。
先来看看Pro的能力。我给的问题是:
英伟达的CUDA为什么能成功?护城河究竟有多深?AI时代,英伟达的竞争对手有可能赶超或者颠覆吗?
可以看到,Pro虽然比Flash慢,但其实观感上还是很快的。而且它给出的答案,逻辑很清晰,也没什么过多的废话,这一点我真的很喜欢。
再来看Flash Thinking。我来问一个最近讨论特别多的问题:
DeepSeek-R1的成功是否说明,可以不需要英伟达的高算力GPU和CUDA了?
Flash Thinking的思考过程是英文的。它先是拆解了我的问题,得出需要去搜索、调研的关键词,然后再去做相应的搜索。跟Pro一样,它的答案挺干净清爽的。
作为对比,同样的问题我拿去问了DeepSeek-R1。虽然结论差不多,都是具有不可替代性,只是依赖可能会减少,但是思考的过程有挺大差别:
Flash Thinking是先拆解,再搜索。R1直接搜索,再看搜到的网页都讲了什么。从方法的角度来看,我个人是更倾向于先做拆解的。你们觉得呢?
Gemini是我的主力AI应用。最初我是用ChatGPT的。结果在使用过程中遇到各种限制,特别烦。正好Claude 3.5出了,于是就转到Claude那边去。再后来,Claude大面积封号,我三个号都被挂了,于是“逃难”到Gemini,也充了值。
这次2.0的更新,我这几天用下来非常非常满意。不管是哪个版本,都做到了性能、稳定、速度以及价格的平衡。在桌面端用网页版,Pro、Flash和Flash Thinking都有。在手机上就用官方的APP,可以选Pro或者Flash。
只要谷歌那边别出什么幺蛾子,在下一次模型大更新之前,Gemini都会继续是我的日常主力。
我知道,用国外这些产品得跨过好几道门槛。但是,这些门槛其实也帮你筛掉了很多很多人。只要你花点时间、花点钱跨过去了,你就取得巨大领先了。还是那句话:
AI不会替代你,用AI的人,尤其是用先进AI的人才会。
OK,以上就是本期内容。想进一步了解AI,就来我们newtype社群。那咱们下期见!