Agent

学习Agent,从dify开始

Key Takeaway

  • Agent平台分为生态流派(如钉钉)和工具流程流派(如dify),dify通过提供知识库和工具来创建Multi-Agent System。
  • 学习Agent应从dify入手,因为它将代码逻辑以直观的流程图形式呈现,便于理解和实践。
  • dify的工作流设计强调逻辑和流程的整体性,大模型仅在需要时介入,而非主导一切。
  • 工作流可以根据用户输入进行条件判断和分支处理,实现更精细化的任务执行。
  • dify的工作流示例(如文本总结)展示了如何结合知识库和Prompt来提升大模型的专业能力。
  • 通过dify实践Agent,有助于建立对Multi-Agent System的基本认知,并为学习其他Agent框架打下基础。

Full Content

Agent平台有两大流派:

一是生态。比如钉钉这种。

在钉钉上边,已经承载了大量企业的部分业务,沉淀了很多内部数据。这时候你在原有生态基础上添加Agent,让企业能调用大模型的能力,并且围绕这个能力去构建智能化的工作流,是非常顺理成章的事儿。

二是工具流程。比如dify这种。

dify提供了创建Multi-Agent System需要的两个基础:

知识库和工具。其中,工具你可以用现成的,也可以自己创建。在这两个基础上,你再去搭建Chatbot、Agent,或者一大套工作流。

很多小伙伴看了我前几期视频,跑来私信问我该怎么学习Agent。我的建议是,通过擅长工具和流程的dify来上手。两个原因:

第一,之前在知识星球newtype里反复讲的——Agent最核心的,不是技术,而是工作流,是你想让它们具体怎么做。

dify在这方面做得特别直观——它把代码的逻辑,用流程的方式,在画板上呈现出来。你一用就明白。我待会儿会演示。

第二,也是我之前总强调的,Learning by Doing,边做边学。

对咱们来说,AI不是一个理论问题,而是一个实操问题。而dify特别适合拿来拆卸和组装。你就把它当作玩具、当作积木。当你把一个Workflow跑通了,不仅能学到点东西,而且还挺有成就感的。

那么,具体该怎么上手好呢?很简单:

先看看人家是怎么做的。dify官方提供了好多现成的工作流,你随便挑一个感兴趣的,拆开研究研究。然后再自己亲自动手,搭建一个简单的试试。

我带大家过一遍官方提供的工作流Sample,这个叫“文本总结工作流”。

一般来说,一套工作流是以用户的输入作为起点的。在这个文本总结工作流里,它要求用户输入需要总结的文本,并且选择总结之后是个概述,还是技术摘要:

如果只是概述的话,那很简单,直接让大模型搞就好;如果是技术摘要的话,就会涉及到很多专业的概念和表述,这就需要用到知识库,毕竟大模型的预训练资料中不包含这些Domain Knowledge。

第一步让用户二选一,那么在第二步,就需要根据用户的选择,做一个条件判断,用到if、else——这个对有编程经验的小伙伴来说,应该非常亲切。

因为有了条件判断,所以在第三步出现分叉,就像前边说的:

如果用户要的东西会涉及到专业内容,那么就去知识库里检索一下。然后把用户要总结的文本,以及从知识库里找到的相关内容一起给到GPT-3.5。

如果用户单纯只是要一个文本的概述,那就直接把需要总结的文本给到GPT-3.5,省掉知识库检索的步骤,速度会快一些。

当分叉的第四步完成之后,第五步就是把两个分支进行合并。不管是哪种情况,反正把结果拿过来,给到第六步,套进一个模板,最后全部完成。

这就是一个典型的工作流。我之所以拿出来介绍,是希望大家能理解人家的思路:

第一,大模型并不是全部,而是在一些需要它发挥作用的环节才出手。最重要的还是逻辑、流程,是一个整体性的东西,需要你有全局观。

就像刚才那个分叉,你如果在一开始没有特意让用户帮你做一个选择,以及后边不加条件判断环节的话,那你只能不管三七二十一都去知识库里做检索,这样速度会慢很多。

第二,如果涉及到知识库的话,需要给大模型提供两个东西:知识库里检索到的信息,和最初用户的需求。这一步跟RAG里的流程是一样的。

这两个输入,可以在大模型的Prompt里交代清楚。你愿意的话,可以在这边把你期望的格式也告诉大模型,其实也就是CrewAI里的expected output。

除了我刚演示的官方Sample,其它的也建议大家看看,就知道一般都有哪些玩法了。举个例子:

如果需要根据用户的输入来判断后边怎么执行的话,除了刚才那个if、else的条件判断,还可以用“问题分类条件”——根据不同的内容,去对应的知识库里找参考资料,然后再给大模型回答。

当你把这些现成的工作流都吃透了,就可以自己上手组装一个了。一旦跑通了,你对Multi-Agent System的基本认知就有了。

假如你之后学了某个Agent框架(比如AutoGen)就会发现,逻辑都是一样的。而有了在dify上建立起来的理解,你再用Agent框架应该会顺手得多。

OK,以上就是本期内容。有什么想聊的,来知识星球newtype找我,我都在。咱们下期见!

我对2025年AI的判断

Key Takeaway

  • 2025年AI的关键词是Agent,其本质是“任务引擎”,而非简单的“智能体”。
  • AI发展将从“信息引擎”阶段(大模型引领)进入“任务引擎”阶段(Agent引领)。
  • Chatbot只是Agent的初级形态,未来可能被淘汰,因为其缺乏“上下文”信息,限制了任务完成能力。
  • 拥有用户“上下文”的巨头(如Google、Apple)在Agent发展上具有天然优势。
  • Agent的产品形态将从“人造形态”(软件/APP封装)发展到“自造形态”(AI自动生成Agent)。
  • RAG和Agent是AI原生应用的基础技术,理解它们是把握AI时代的关键。

Full Content

2025年,AI的关键词只有一个,就是Agent。不管是搞模型的还是搞应用的,都会把火力集中到Agent这个点上。

单纯比拼模型的阶段已经过去了。注意,我不是说模型不重要了。模型能力肯定还会继续提升。但是,单纯依靠模型去抢市场,早就行不通了。你回顾一下御三家最近这半年的动作就知道了:

Anthropic给Claude添加了Artifacts功能,推出了控制电脑能力,还有MCP协议;

OpenAI也给ChatGPT加上了类似的canvas功能,还上了搜索,虽然做得不怎么好;

Google之前一直很拉跨,最近一次更新直接追平。Gemini的多模态、超长上下文,以及Deep Search功能都非常惊艳。

这三家的动作都是同一个指向、同一个意思:模型即应用。这个应用,就是Agent。

Agent概念,国内吹了得有一年。我看了一圈,好像都没讲明白基本的逻辑,只是停留在“智能体”这个模糊的名字上。我建议大家忘了那些定义,就记住这四个字:

任务引擎。

从底层逻辑来看,AI有一半是在延续互联网的逻辑。

互联网本质上就是信息的组织和分发。从上古时期的雅虎、Google、各种门户,到后来的淘宝、今天的抖音,全都是对各种信息的重新组织、重新分发,最后重新划分地盘。

AI也是这样。大模型能够处理以前难以想象的信息规模,从中提取出有价值的知识和模式。而且,除了文本、图像、视频这些传统形式,AI还可以处理更复杂和抽象的信息,比如知识图谱、语义网络等等。

所以,AI延续了互联网的底层逻辑,继续做信息的组织和分发,而且做得更好。但是,这并不是AI的真正使命。Agent才是AI的真面目。

信息组织和分发侧重于信息的静态方面。而Agent要做的,是对信息进行动态应用,用信息来完成特定任务。

所以我认为,“任务引擎”才是对Agent更准确、更好理解的表述。我特别烦“智能体”这三个字。国内媒体和厂商特别喜欢搞虚头巴脑、说了跟没说一样的概念。

为了方便大家理解,我再做一个提炼和总结:

这一轮AI发展,也就是从GPT-3.5开始的第一阶段,是大模型引领的阶段,特征是“信息引擎”,它是比之前互联网和移动互联网的任何产品都更加强大的“信息引擎”。

从2025年开始,将进入第二阶段,由Agent引领,特征是“任务引擎”。Agent和大模型不是割裂的。正因为有了足够强大的大模型,正因为有了足够强大的“信息引擎”,“任务引擎”才有实现的可能。

OK,理解了Agent,理解了AI发展的底层逻辑之后,下一个问题就来了:Agent长什么样?或者说,它的产品形态是什么样的?

软件和APP都是我们特别熟悉的产品形态。到了AI时代,像ChatGPT一样的聊天机器人会是Agent的标准形态吗?

我认为不是。Chatbot只是最最初级的Agent,甚至这种形态很有可能会被淘汰。

你就想一个问题:Agent要很好地完成任务,最重要的是什么?

就好比一个人一样,要完成领导交代的任务,最关键的是个人能力吗?并不是。最关键的因素是“背景信息”,或者说是“上下文”。

这个任务的前因后果是什么?领导交代这个任务的预期是什么?他的言外之意是什么?如果不搞明白这些,你能力再强有什么用?

Agent也是一个道理。你的生成能力很强,那又怎么样呢?真有什么需求的时候,还得先交代一大堆。比如我要写一篇稿子,我得告诉AI:客户需求是这样的,参考资料是这些,等等。而且99%的人根本想不明白也说不明白。我们今天一直在强调的自然语言交互,其实只适合少数人。

正是这些前置条件限制了我们使用Chatbot。你看现在这些产品的数据,每天有多少活跃用户,每天使用几次,就很能反映出问题。

所以,ChatGPT这种形态就好比当年的移动梦网。这个概念,没经历过那个年代的人肯定都没听过。在移动互联网早期,移动梦网就是一个大超市,囊括了短信、彩信,手机上网也就是WAP,以及百宝箱也就是手机游戏在内的各种信息服务。听起来是不是特别像今天的ChatGPT?

而我们都知道,真正让移动互联网爆发和普及的,是今日头条和抖音这种依靠算法推荐的产品形态。AI如果要爆发和普及,同样需要这种适合普罗大众的“傻瓜产品”。这其中最关键的,就是要补上前边说的“上下文”。

这个东西,是OpenAI天生就没有的。谁有?Google有,Apple有,Meta有,腾讯有,阿里有,字节有。

举个例子,大家来想象一下:Chrome浏览器和Gemini彻底打通了。它本来就有我保存的书签、所有浏览记录,对吧?这些就可以作为非常宝贵的上下文信息,让AI版的Chrome给我提供我真正想要的东西。

这就是我为什么说,像ChatGPT一样的聊天机器人只是最最初级的Agent,而且很有可能会被淘汰的原因。OpenAI现在的领先,只是阶段性的。就像当年的移动梦网一样,后来又有谁还记得它呢?

OK,理解了“上下文”是Agent的关键之后,再来看产品形态。我认为,Agent会有两种形态,对应两个发展阶段。

第一种形态就是现在的“人造形态”。

ChatGPT是Agent,Perplexity是Agent,Cursor是Agent。现在这些Agent都是人造的,都是我们用软件、用APP的外壳,把Agent给封装进去,从而完成特定的任务,比如搜索和编程。

人造Agent数量不会太多,也只是早期阶段的特色。我估计,最多到2026年,就会进入第二阶段,迎来第二种形态——“自造形态”。

所谓“自造形态”,顾名思义,AI会自动生成Agent。因为每个人的每个需求其实都千奇百怪。非要用软件或者APP的形态去事先提取最大公约数、把它们都框起来,只能满足一部分共通的需求。

当刚才提到的“上下文”全面接入之后,各种个性化的需求就可以变成大大小小的任务。从任务出发,AI可以自主生成相应的Agent去处理。这才是AI时代全面到来的样子。

如果你是做投资的,或者搞开发的,可以好好想想我说的这些。我知道公开做判断、下定论,肯定会有很多人喷。没问题,我特别欢迎大家半年、一年后来挖坟,看看谁对谁错。

过去一年我做的几十期视频,大多数都是关于RAG和Agent的。我当时就说,这两项技术是所有应用的基础。要处理更多相关信息,必须用RAG;要执行各种任务,必须用Agent。而且,让AI自动生成Agent,我之前也有出一期,介绍过这样的技术。没记错的话,应该是用微软的框架。

所以当你一直在关注和实践的话,最终得出本期视频的结论是很自然的。站在今天这个时间点回头看,猛然发现,一切都串起来了,而且指向无比清晰。

OK,不多说了。还是那句话,我是国内少数几个能把AI的WHY和HOW讲明白的博主。想链接我,就来我们newtype社群。那咱们下期见!

最强AI编程工具Claude Code,五个使用Tips

Key Takeaway

  • Claude Code被认为是地球上最强的AI编程工具,因为它与Claude模型深度适配和优化,且不计较上下文长度消耗。
  • /init命令用于初始化项目,创建CLAUDE.md文件,记录项目背景信息,提高效率和上下文一致性。
  • Plan Mode允许用户在执行复杂功能前,让Claude Code进行规划,尤其适用于不确定如何操作的场景。
  • /ide命令支持Claude Code与VS Code、Cursor等IDE集成,提供更好的代码修改和提示体验。
  • 用户可以自定义命令,将常用操作(如解释代码)转化为快捷命令,提高工作效率。
  • /cost命令用于查看API消耗,并可通过/model命令切换模型以节省成本。
  • 作者强调,模型能力相同时,拥有更多工具的AI生产力更高,鼓励用户积极使用和探索MCP。

Full Content

地球上最好的AI编程工具,肯定是Claude Code。而且它接下来还会越来越好。

为什么它最强?我在社群里发过这么一段话:

如果把Claude模型比作引擎的话,那么,虽然各家公司都可以买到这个引擎,然后组装成赛车,但是只有Anthropic能发挥出它的究极实力。

大概率,Anthropic在训练Claude 4的时候,就已经把Claude Code内置的十几种工具给它用上了,对它做针对性的强化训练。

也就是说,这款引擎在研发阶段就已经跟底盘等等系统做适配、做优化了。它们就是最佳组合。其他厂商又怎么可能跟得上。

而且为了效果,Anthropic现在特别豪气,可以不计较上下文长度的消耗。相比之下,Cursor他们就得精打细算过日子,导致有时用户体验会很差。

Claude Code这么强,但是国内介绍得不多。原因很简单:中国的自媒体水平太差了。他们就只会喊“震惊”、“放大招”。碰上这种复杂的工具,还是命令行,而且还需要配置纯净的住宅IP,他们就不知道怎么下手了。

没有关系,我会出一系列视频深度介绍这款工具。今天先来五个非常实用的Tips,帮助大家用好Claude Code。

/init

当你开始一个新的项目,或者让Claude Code中途参与某个项目的时候,一定要先运行/init这条命令,也就是initialize,初始化。

这条命令最主要的作用,是创建一个CLAUDE.md文件。这个文件会包含项目所有的背景信息,包括:项目的核心概述和目标;重要的代码约定和风格指南;关键的文件和工具函数列表,等等。

有了这份文件,每次你启动Claude Code,它就会自动加载,这样它就明白整个项目的情况,不需要你重复说明。另外,当你的项目开发有了任何进展,也可以让Claude把进展写进这个文档。

所以,这行简单的命令,以及它生成的CLAUDE.md文件对于提高效率、保持上下文一致性非常重要。大家记得用起来。

Plan Mode

大部分情况下,我们都是让Claude Code在那边“自动驾驶”。但是,当有一些比较复杂的功能想要实现,或者我们自己也没想好究竟该怎么做的时候,可以切换到Plan Mode,让Claude Code先帮我们做好规划,然后再执行。

要切换到Plan Mode很简单,按快捷键shift加tab就行。比如,我想要提升高并发、服务器断连的应对能力。我自己想了一些解决方案,比如搞个API Key的备用池子等等。我把这些告诉Claude Code,让它帮我完整规划。

接到需求后,它会把需求有关的代码全部过一遍,然后给出非常详细的方案。如果觉得OK,可以让它照着开始执行。

说真的,这个模式挺好用的。当你拿不准的时候,记得让Claude帮你规划。

/ide

虽然Claude Code主要通过命令行界面,也就是CLI进行交互,在终端里运行,但是它也支持跟VS Code、Cursor集成,让用户在IDE的环境中获得更好的体验。

比如,集成之后,你可以看到文件中代码的改动,就像在Cursor里看到的一样。另外,当你选中几行代码之后,Claude Code那边也会有提示。

那么,要做到这一点,你需要做两件事,非常简单:

第一,安装Claude Code插件。这个搜一下就有,然后点击install安装。

第二,运行/ide命令,然后选择对应的IDE,比如我这边是Cursor。然后回车就搞定了。

Custom Command

Claude Code有很多现成的命令可以使用。除此之外,其实你也可以根据自己的需要去自定义命令。

最适合知识库的大模型

Key Takeaway

  • Cohere及其Command R+模型是专注于RAG和Agent的“业界清流”,其创始人是Transformer论文作者之一。
  • Cohere提供生成模型(Command R+)、嵌入模型(Embed)和重排序模型(Rerank),特别适合复杂RAG工作流和多步骤工具使用。
  • Command R+在某些方面性能达到GPT-4级别,且有量化版本可本地运行。
  • 文章介绍了通过AnythingLLM和OpenRouter调用Command R+的API方法,以及本地部署的硬件要求。
  • 强调了开源模型和开放权重模型的重要性,鼓励用户尝试GPT之外的优秀模型。

Full Content

我最感兴趣的AI公司、最喜欢的大模型,不是OpenAI和他们的GPT,而是Cohere,以及他们的Command R+。

这家公司在国内是没啥名气——大部分人只知道OpenAI,甚至连Anthropic这种级别都很少被关注。但是在业内,Cohere绝对是不容忽视的存在。

别看这家公司的创始人非常年轻,要知道,人家可是《Attention is All You Need》的作者之一。正是这篇论文,开启了这一轮大模型技术的爆发。

在创业之初,他们本来是准备面向C端市场的。后来发现C端产品比想象中的难搞多了,于是果断转向B端市场,帮助企业把大模型落地业务里。Cohere目前提供三类模型:

1、生成模型。Command系列。支持接收用户的指令,也具备对话能力。最新的Command R+非常适合复杂的RAG工作流,以及多步骤的工具使用。它在某些方面的性能甚至达到GPT-4级别。 2、嵌入模型。Embed系列。其中支持多语种的嵌入模型,长长的列表中就包含中文。 3、重排序模型。Rerank系列。对文本块进行相关性重新排序,是提升检索精确度的关键。

这么说吧,Cohere的专精方向,正好就是我长期关注的方向——RAG和Agent。

之前我做了好多期关于个人知识库的视频,因为我有一个判断:

今天最重要的两个技术,Crypto解决的是生产关系问题,AI解决的是生产力的问题。所以,大模型技术的应用落地,肯定是先落在生产力工具层面,需要RAG和Agent的带动。

一直以来,只有少数公司愿意针对RAG和Agent做大模型的优化——大多数还是蒙头搞通用大模型。所以当我了解到还有Cohere这样的“业界清流”存在时,我就对他们保持高度关注。

Cohere最新一批模型推出有一段时间了。我最近看了一下,我平时在用的、也是我之前一直在推荐的工具,都支持他们的API调用了。而且Command R+也有了量化版本,可以跑在本地。于是,就有了这一期视频。

先说API的调用。

大家如果使用AnythingLLM的话,记得看看右上角的版本号。如果版本号是橙色的,说明有新版本。下载、覆盖安装之后,在模型下拉列表中就能看到对Cohere的支持。

至于Obsidian的AI插件Copilot,它的模型列表中并没有Cohere,但是有OpenRouter。这是一个第三方平台,通过它,你可以调用各种大模型,包括Command R+。

所以咱们要做的,就是把OpenRouter的API Key填进来,然后把Command R+的名称复制粘贴过来就OK。之后每次使用,模式选Vault QA,模型选OpenRouter,就可以使用Command R+生成内容了。

通过API调用是最简单的方法。如果你的电脑配置比较给力的话,还可以试试本地运行。

Command R+有1040亿参数,算是很大的模型了。即使是量化版,文件都超过20G。要下载的话,通过LM Studio就可以。

我的PC是32G内存,显卡是3060。根据LM Studio的提示,只有三个版本可以在我的机子上跑。而且即使能跑,也只能把一部分模型放到显存里。看来还是太吃力了。我估计用64G内存加4090显卡应该能顺畅跑起来。

Anyway,不管云端还是本地,我都强烈建议大家都试试。我这几天用下来的体感是,Command R+的生成效果挺好的,我非常满意。

以后知识库的应用,如果要用云端的大模型的话,我肯定就用Command R+。至于本地,我还是选择Qwen,感觉比Llama3的量化版更好一些。

最后多说一句,大家别只盯着GPT一个模型。开源的模型、开放权重的模型当中,也有很多非常优秀的模型。多试试,没准就有惊喜了。

OK以上就是本期内容。咱们下期见!

未来三年最值钱的工作

Key Takeaway

  • Agent Designer(智能体设计师)是未来三年最有价值的工作,因为AI技术价值的实现依赖于Agent。
  • Agent可以类比为高达的躯体,大模型是动力源,工具是武器,用户是驾驶员。
  • Agent设计师需要同时懂AI和业务,能够将人类意图“翻译”给AI,并设计Agent的工作流。
  • Agent设计师需要打通软件、数据库,将它们转化为Agent的工具,并从系统角度设计Agent协作。
  • Agent和RAG将成为AI原生应用的标配。

Full Content

未来三年,最值钱的工作是:Agent Designer,智能体设计师。

顾名思义,它就是设计Agent的。

为什么值钱?

因为AI技术要产生价值,大模型厂商想收回巨额开发成本,必须依靠Agent。

那么,Agent是什么?

我发现,很多人会把这个概念跟大模型概念混在一起,理不清楚。我拿高达来打个比方,你肯定就明白了。

Agent就好比高达的躯体,就是我们看到的那一副机甲。

这个机甲要动起来,需要动力,对吧?大模型就是高达里最牛逼的动力源——太阳炉。

看过高达的小伙伴就知道,有太阳炉和没有太阳炉,那是天壤之别。对于Agent来说也是如此。

早在大模型技术出来之前,Computer Science和AI领域的研究人员就已经研究Agent好多好多年了。直到大模型火爆,Agent这副机甲才终于装上了太阳炉。

但是,对高达来说,光有动力还不行——你拿什么打呢?

于是,高达手里那些各式各样的武器就等同于Agent的工具:

高达根据使用的武器不同,有的属于近战型,有的属于狙击型,有的属于重装防御型。

Agent也是这样。有的Agent装备了搜索工具,负责上网查资料;有的Agent装备了Scraping的工具,可以把网页上的内容都扒下来,等等。

高达要行动,需要驾驶员的操作。Agent也一样,需要用户下指令。当然,高达和Agent在一定程度上都可以自动运行。

既然驾驶员是人类,那肯定有水平的高低。在高达的设定中,最牛逼的驾驶员是newtpye。他们拥有更强的分析能力等等。

同样,在Agent这边,用户的水平也有很明显的高低之分。我在上一期视频中就提到过,只有少于5%的少数派能在当下这个早期阶段用好AI。而我把自己的知识星球取名为newtypye,出处就是高达,目的就是想聚拢AI时代的超级个体。

所以,你按照我这套理论再去看Agent这个概念,就会清晰得多。而且我很肯定,我这样的理解是正确的。因为我这套东西是从代码里看来的。

以CrewAI的代码为例。在编写每个Agent的时候,除了描述它的职责和背景之外,都会设定它装备什么大模型,以及可以调用哪些工具——当时我看到这个的第一反应,就是高达。

这就是为什么我在上一期视频里建议大家一定要学编程。你能看得懂代码,你对AI的理解就一定比别人更深,也不会被那些一知半解的媒体和商业大佬给忽悠了。

OK,Agent的定义大家理解了。那么,为什么说Agent设计师是AI技术产生价值的关键呢?

我上个月在知识星球newtype里有提到过:

“关于如何搭建一套Multi-Agent System。它在技术上一点都不难。难的是,你得想清楚,你想让Agent【怎么做】。

Agent的价值在于Workflow。而这个Workflow怎么设计,要求你既要懂AI,又要懂业务。”

Agent设计师就是那个既懂AI又懂业务的人。

他既要知道怎么跟AI“沟通”,把人类的意图“翻译”给AI听;也要知道怎么跟各个业务单元的人沟通,界定需求和问题;他还要知道怎么跟掌握预算的人沟通,比如老板,管理好对方的预期。

他需要知道怎么打通各种软件、数据库,把这些通道变成工具,给Agent装备上。

他需要知道怎么站在系统的角度去设计工作流,让不同的Agent分工合作,并且每一个环节交付的东西都有清晰的定义,可以评估、衡量。

这样一个人,横跨人类世界和AI世界,通过设计和搭建一套Agent系统把两个世界衔接起来。你想想,有这样的能力和价值,他得值多少钱?

如果你对这样的工作、这样的角色感兴趣的话,现在就是行动的最好时候。一切都才刚刚开始。

我之后也会持续分享Agent相关内容。就像我在知识星球newtype里说的:Agent和RAG一定会成为AI原生应用的标配。感兴趣的小伙伴记得点个关注。我分享的东西很值钱的。

OK以上就是本期内容。咱们下期见!

每个IP都需要AI分身,每家企业都需要AI客服

Key Takeaway

  • AI分身和AI客服的普及是AI技术落地和应用爆发的重要代表,云厂商的加入加速了这一进程。
  • 腾讯云大模型知识引擎通过提供精调知识大模型、灵活的知识库设置(如语义切块)和搜索增强功能,驱动AI分身和AI客服。
  • 知识库设置支持文档和问答集,并强调评测和效果调优的重要性。
  • 腾讯云知识引擎的“工作流管理”功能,能将复杂流程转化为AI可执行的任务,实现高度定制化。
  • 知识库和工作流是智能体的核心能力,分别对应知识和经验。
  • 腾讯云知识引擎还提供多轮改写、Embedding、Rerank和文档解析等原子能力,方便开发者集成。

Full Content

每个IP都需要AI分身,每家企业都需要AI客服。大家可以记住我这句话,半年之后来考古。

我很确信,这一轮AI技术落地、AI应用爆发,一个代表就是AI分身、AI客服的普及。前者对应超级个体,后者对应超级组织。这个进程正在加速,因为云厂商已经加入进来了。市场格局肯定会变,不再是模型厂商占主导的局面。

你看,我就给自己的公众号加了个AI分身。这个智能体应用的背后,是腾讯云大模型知识引擎在驱动。

我记得一年前刚开始做视频介绍AI的时候,市面上的RAG工具特别稀少,而且还得靠自己各种组合、调试,才能实现一些定制需求。我甚至一度都想自己手搓一套系统了。

你再对比现在就会发现,这一年的发展实在太快了,出现了RAG as Service,出现了一大堆开箱即用的产品。就拿我刚才提到的智能体应用来说吧:

大模型我用的是“精调知识大模型高级版”,打开了“上下文改写”,把记忆轮数加到10轮。这个模型你可以理解为就是专门为RAG特训过的模型。当然,如果你觉得上下文长度不够的话,可以选别的,比如256K长文本版的混元大模型,这长度绝对够用了。

看这一串的列表你就知道,为什么大厂都要搞基础模型研发了。那么多的业务场景等着特定的大模型开锅呢。这种战略主动权不抓自己手里,脑子真就坏掉了。

在知识库设置方面,我选的是“文档”,因为都是现成的视频脚本。如果你本来就有人工客服,想转成AI客服,那肯定会有QA,对吧?这时就可以选择“问答”。

一般来说,问答类型的资料,对提升检索的精确度会更有帮助。之后我也会慢慢积累一批关于AI的问答,根据我的知识储备、我对AI的理解来调整。目的是让这个AI分身尽可能接近我的认知。

召回设置方面,一个是召回数量,也就是召回多少个切块给到模型;另一个是检索匹配度,也就是相似度达到一定数值之后才会被纳入。

至于切块的大小,并不需要用户设置。腾讯云知识引擎会根据语义、根据整篇文章的意思,自己决定该从哪里切割,这样才不会把上下文的意思给硬生生截断。这一点我特别喜欢。如果你之前有用过RAG工具的话,就知道要决定切块大小有多麻烦了。

最后,我把“搜索增强”打开了。也就是说,模型在回答的时候,除了会参考我给的知识库,还会去调用微信搜一搜和搜狗搜索的能力,从微信生态内,比如海量的公众号文章,补充更多信息进来。

之所以打开“搜索增强”,主要是因为我不想要一个只会鹦鹉学舌的AI分身。如果你的需求是AI客服的话,那可以不打开,这样更可控、更保险一些。

当这些基本设置都搞定之后,大家别着急上线,记得做评测。

先导入样本集,然后去创建评测任务。评测的目的是看看模型回答的准确率能到多少。如果准确率不达标,要么回去改设置,要么去改资料。

说实话,我之前见过太多人搞了RAG之后大骂没效果、AI胡说八道了。其实绝大多数都是因为想当然地认为,把资料全喂进去就可以。在真实世界里,现有的技术还没到这么傻瓜的程度,还是需要你做评测、做调试的。

不仅如此,正式上线之后,还会遇到用户对回答不满意的情况。这时就会用到“效果调优”。在这个页面,我们会看到所有用户不满意的回答。

刚才说的评测只是模拟情况,而这边是实际业务场景。两个加起来,才能把这个AI分身、AI客服调到最佳状态。腾讯云能想到这一点,并且把它产品化,真的是功德无量。

哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有600多位小伙伴付费加入啦!

回到今天的主题:腾讯云大模型知识引擎。

很多人都在关注C端市场的AI应用。我其实更多是在看B端,两个原因:

第一,现阶段的AI能力距离市场的期待还挺有距离的,C端很难出现现象级的、能解决大问题的产品。

第二,B端对AI有明确需求,赛道非常清晰,回报也很可观。所以这边更有可能出现好东西。

对我这种“个体户”来说,用上企业级的产品,那就是降维打击。这是我看上云厂商产品的原因,也是我推荐给大家的原因。

腾讯云大模型知识引擎是一款PaaS产品。刚才我介绍的只是RAG的基础功能。如果你理解原理的话,那这部分的操作应该非常容易。快的话,十分钟搞定。

更进一步,如果你想对这个智能体应用有更清晰的指导,如果想把你的SOP教给AI,那一定要试试工作流管理功能。

举个典型的例子:图书馆客服服务。用户找图书馆一般会需要三种服务:要么借书,要么还书,要么咨询相关规则。于是,在这个画布上,大家可以看到三条路径,对应三种服务。

在工作流的开端,AI会先根据用户的询问做一个条件判断,决定是要进入哪条路径。我以借书为例。整个过程,AI会主动引导用户提供相应的信息。

首先是要借什么书,以及借多久。因为涉及到时间,很多用户表述会很不一致,比如两周、一个月等等,所以需要做个参数归一,把所有表述都统一成天数。

接着,AI会根据书名和要借的时长去调用接口、查询能不能借。

如果能借,那就走上边的分支,要求用户提供账号ID。如果不能借,那就走下边的分支,问用户要不要换一本书。

我在调试页面演示一下对话的效果,大家感受一下。

任何涉及到流程的交互,都可以变成工作流。比如很多人问我怎么学AI,如果用我的AI分身来处理的话,就可以把工作流给用上。根据我本人的回复和理解,设计一系列的条件判断、各种分支路径,然后全部教给AI。所以大家一定要把思路打开,别觉得这一大套东西只能用到客服上边。

另外,一个智能体应用可以挂上N个工作流。也就是说,你可以设想多种场景,创建多个工作流。AI会根据对话内容,自主判断需要进入哪一个工作流。这一点非常有用,可玩性太高了!

知识库加工作流,就是目前智能体的所有能力。前者对应知识,后者对应经验。腾讯云知识引擎把这些都打包好了。所以,用户只需要把精力放在设计、调试和调用上。

设计和调试刚才都介绍过了。那么在调用方面,这个知识引擎以API为主,毕竟是PaaS。如果你有比较强的开发能力和需求,只需要引擎的其中一部分能力的话,可以选择“原子能力”,包括:

多轮改写,其实就是针对用户可能提问不完整的情况。模型会结合上下文语义去完整还原。这个挺有用的。

Embedding和Rerank,一个是把文本进行向量化,一个是把召回的切块进行重排序,都是RAG必备能力。

文档解析,很基础、很重要,也很容易被大家忽略。好的解析是一切RAG的出发点。腾讯云在这方面很有优势。市面上很多知名的AI产品都在调用他们的文档解析技术。他们可以把各种文档转成Markdown格式。而且还可以解析表格、图片,以及页眉、页脚、标题等等内容元素。这个真就帮了大忙了,省去了我们大量处理文档的时间。

这四个“原子能力”的调用,腾讯云知识引擎都有很详细的文档介绍,我这边就不演示了。

我这个频道算是介绍RAG起家的。从本地大模型的使用,到RAG引擎的部署,过去一年我分享了好多这方面的内容。到了年底,终于有厂商推出开箱即用的综合型产品了。大家看完视频记得去试试腾讯云知识引擎。

OK,以上就是本期内容。想讨论AI,来我们newtype社群。那咱们下期见!

现在,你可以让AI自己生成Agent了

Key Takeaway

  • 降低Multi-Agent System的设计门槛是实现AI私人助理Agent普及的关键。
  • Agent AutoBuild项目旨在让AI自动生成Agent,简化Agent系统的搭建过程。
  • Agent AutoBuild通过不到20行代码的配置,能让AI根据任务自动生成并协调多个Agent角色(如Research Analyst、Content Writer等)。
  • AutoBuild支持为Builder和Agent指定不同的LLM,并可保存和调用Agent配置。
  • 文章强调AutoGen和AutoBuild的出现,使得Multi-Agent System的搭建不再是难题,并期待LLM在成本、速度和稳定性方面的进一步提升。

Full Content

比尔·盖茨说,五年内,每个人都将拥有AI私人助理Agent。

要实现这个目标,有个门槛必须跨过:

降低Multi-Agent System的设计门槛。

微软之前推出的AutoGen很强大、很好用,但对开发者的要求其实挺高的——懂AI,懂业务流。而且一旦换了新场景,又得再搞一套。

既然都让AI代处理问题了,为什么不干脆让AI把Agent也一并生成了?

于是,Agent AutoBuild项目诞生了。

就像我在视频中演示的那样,不到20行代码就完成配置。启动之后,AI根据任务,自动生成一批Agents,并让它们分工协作。

比如针对写稿需求,Research Analyst、Content Writer、Editor和SEO Specialist四个角色诞生了。

在没调教的情况下,它们所完成的稿件,质量超出我的预期。

AutoBuild可以分别针对Builder和Agent指定LLM。目前我都是用GPT4-Turbo。理论上可以根据需要配不同的LLM,比如开源的,不一定非得是GPT4-Turbo——毕竟现在又贵又不稳定。

最后,如果对生成的Agents满意,可以保存config。后续使用的时候,AutoBuild可以直接调用,不必又去prompting the build manager。如果不满意,或者之后会有新任务,也可以删除。

有了AutoGen和AutoBuild,Multi-Agent System已经不是难事了。就等LLM下一轮更新了:更便宜,反馈更快,运行更稳定。

给大模型无限上下文

Key Takeaway

  • 上下文长度是大模型应用的关键限制,提升其难度高。
  • MemGPT将大模型视为操作系统,通过分级内存管理(Main Context + External Context)来解决上下文限制问题。
  • Main Context包含系统指令、对话上下文和工作上下文,External Context包含事件记忆和事实记录。
  • MemGPT能够自主进行上下文信息的检索和编辑,并具备“觉知”能力。
  • MemGPT支持多种后端模型,并可与AutoGen等Agent系统整合,对Multi-Agent System有重要意义。

Full Content

上下文长度是大模型要跨过的第一道槛。

长度太短,就无法开启很多领域的应用,比如医疗GPT。想象一下,医患20轮对话之后,医生就不记得病人的基本情况了,这怎么搞?

所以,上下文长度约等于大模型的内存,是衡量大模型能力的基本指标之一。

但是要提升大模型的上下文长度,难度很高。

一是训练方面。需要更高的算力和显存,还需要更多的长序列数据。

二是推理方面。Transformer模型的自注意力机制(Self-Attention)要求对序列中的每个元素去计算它与其它元素的相关性。这种机制天然决定了上下文长度不可能太长。于是大家又提出了一系列处理长序列的解决方案,这是另一个超大话题,此处不展开。

MemGPT找到了一个天才解法。

LLM = OS

大模型是什么?

MemGPT认为,大模型本质上就是操作系统。所以,上下文就是内存,上下文长度管理就是内存管理。

操作系统是怎么管理内存的?

等级制。CPU缓存(L1、L2和L3)离核心最近,速度最快,但容量最小。按这个逻辑往外推,其次是内存,最后是硬盘。

根据需要,操作系统会在这三个层级之间调配数据:最着急用的,放CPU缓存;暂时用不着的,放硬盘。

既然大模型是操作系统,那采用相同的内存管理方法,没毛病。

MemGPT就是这么干的。

Main Context + External Context

这是MemGPT的运行逻辑:

当有事件发生时,事件信息通过解析器(Parser)进入虚拟“内存”(Virtual Context)。

大模型作为处理器(Processor),对内存中的数据进行调用、确认,然后再通过解析器输出,变成一个行为。

关键点就在Virtual Context上。它分为两个部分:

一、Main Context:就是有原本有长度限制的上下文。Main Context由三部分组成:

  1. System Instructions,系统指令。简单理解就是每次我们在system message里写的“you are a helpful assistant”。这部分只读,并且每次都会被调用,因为它是底层设定。
  2. Conversational Context,对话上下文。采用“先进先出”(FIFO)规则——超过一定长度后,最旧的对话会被抛弃。
  3. Working Context,工作上下文。简单理解就是大模型的笔记本,上边记录着当前的注意事项。

下图就充分说明了Working Context是怎么一回事。

当用户提到了“今天生日”和“最爱的巧克力熔岩蛋糕”两个关键信息时,大模型迅速在笔记本上写下这两点,然后在回复中应用起来。

二、External Context:就是存储在外部的上下文信息,比如存在硬盘里。External Context由两部分组成:

让Agent自动搜集每日资讯

Key Takeaway

  • 作者通过运行Python脚本,利用Agent自动搜集Reddit和全球媒体的AI相关资讯,生成每日简报“AI内参”。
  • 有价值的AI内容主要在国外,掌握英文和直接学习源头信息至关重要。
  • Reddit的LocalLlaMa频道、Medium和YouTube是获取AI资讯和学习RAG、LangChain等技术的重要来源。
  • CrewAI和GPT Researcher是搭建Agent系统的实用工具,CrewAI适合自由搭建多Agent流程,GPT Researcher擅长资料搜集和报告生成。
  • Agent技术能帮助用户高效处理信息,提升信息获取和整理的效率。

Full Content

我每天起床的第一件事,是运行两个Python脚本。

由GPT-4驱动的Agent会帮我把AI相关的资讯和讨论全都搜集好。

信息来源有两个地方:

  1. Reddit上的LocalLlaMa频道的讨论。
  2. 全球各大媒体报道的热门新闻。

这么做,最大的好处是,让我可以在一个集中的、完整的时间段内,把需要了解的信息都处理完毕。

当这件事儿了了之后,除非今天发生特别重大的事件,比如Sora或者GPT-5发布这种级别,否则我是不会再分心去看那些杂七杂八的文章。

这份由AI生成的关于AI的每日简报,我叫AI内参。

哈喽各位好,欢迎回到我的频道。我分享关于AI的Why和How。如果你想真正参与进来,把握住AI这个一生一遇的大机会的话,一定点个关注。我们一起探讨。

回到今天的主题:AI、大模型相关的信息来源和获取。

我知道大家对AI相关的资讯和知识非常饥渴。不过有一个很残酷的事实是:

有价值的内容,都在国外。

如果你不懂英文,只能看国内的二手消息,那真的很难不被割。

我分享一下我日常必看的几个来源。

Reddit/LocalLlaMa

如果你是从业者,或者对大模型技术已经有不错的了解的话,LocalLlaMa频道一定要看,讨论质量挺高的。

我随便打开两个帖子:

要学技术的话,这边有教程:这哥们用Mistral-7B进行微调,用它来做Agent的效果比Gemini Pro还好。他给出了具体方法。

要看新闻观点的话,这边也有懂哥:谷歌用Reddit数据去训练AI,这条新闻你怎么看?跟知乎一样,最高赞的是抖机灵:Garbage in, garbage out。不过还是有正经回答的:之所以用Reddit数据集,不是让AI学事实,而是让AI学怎么对话——这一下就make sense了。

LocalLlaMa频道的内容,我每天都会看。当然,是先用开头说的Python脚本帮我先筛选、汇总一遍,这个后边再介绍。

Medium

如果你想了解哪个技术,可以直接到Medium上搜,基本上都有文章详细讲解。而且这个平台的作者都非常有耐心,写得很详细。

比如这篇文章:Build a Personal AI Tech News Agent。作者从原理到AWS设置,等等,都手把手地教,算得上是保姆级教程了。

另外值得一提的是,Medium的推荐机制挺厉害的。推的都是我想看的内容。所以这个平台,除了我想搜什么的时候,我大概三天会主动上去看一圈,遇到好的文章会加个书签保存起来。

YouTube

我最早学RAG、LangChain等等用法,就是从油管的这两位老哥开始的。

第一位是Sam。他的Advanced RAG系列和LangChain系列都特别好,对我非常非常有帮助。另外,每当有新的热门大模型出现了,他都会出教学。

第二位是James。他同样也出了RAG和LangChain系列教学,并且着重介绍了怎么接入Pinecone之类的向量数据库。

入门的话,把他俩的视频看完,肯定就会了。而且视频里的代码,他们都用Google Colab的方式分享出来了,你可以直接在云端跑一遍、感受一下。

AI内参

我在开头说的两个Python脚本,都不是我写的,都来自于GitHub。

第一个脚本来自这位小姐姐。我是顺着她的油管频道找来的。

在脚本里,她用了CrewAI搭建一套包含三个Agent的流程。CrewAI是一个Agent框架,特别简单、直观,强烈推荐大家上手试试。

这个脚本的关键,其实是给Agent配上读取Reddit数据的工具。作者用了PRAW,也就是Python Reddit API Wrapper。它是一个Python包,允许你以编程方式访问和操作Reddit的数据。

前边介绍的Medium,其实我也尝试过用Agent去抓取数据,不过效果不好。有没有开放数据接口,差别还是很大的。

第二个脚本也是现成的,叫GPT Researcher。把GitHub仓库克隆下来,运行之后,会提供一个本地链接,打开就是这样一个可视化的界面。然后输入你想让它帮你搜集的信息就好。等差不多10秒钟,一份有模有样的简报就生成了。

这才是AI电脑该有的样子

Key Takeaway

  • Raycast通过其AI插件功能,实现了AI PC/Mac的理想形态,能无缝集成所有软件,并通过自然语言交互进行跨应用调度。
  • Raycast的AI Extensions提供自然语言交互、跨应用调度(通过Preset)和AI对话功能。
  • 用户可以通过Raycast的AI插件,直接控制终端、预定会议、管理任务等,无需打开具体应用。
  • Raycast的AI对话功能支持多种主流大模型,并可通过快捷键提升使用效率。
  • 文章强调了Raycast在提升效率和专注度方面的优势,并认为其在AI PC/Mac领域具有宝贵的先发优势。

Full Content

苹果、微软没做到的事儿,这家公司做到了。这也许是现阶段AI PC、AI Mac该有的样子。

我举个最简单的例子:帮我打开三个Tab,分别是YouTube、X和Medium。

在Chrome浏览器里打开三个指定网页,很简单就完成了。

再来一个:在Video Production下创建新任务“完成剪辑”,截止时间周三晚上8点。

你看,它会先去todoist里边获取我的项目列表,然后在Video Production这个项目下边创建任务,并且设定截止时间。

最后再来一个:在桌面创建一个名为123的文件夹。

看吧,很轻松就搞定了。

我刚才演示的软件叫作Raycast。它是Mac上的一款效率工具。我用了一段时间之后,发现它不只是一个工具,而是一个Hub、一个枢纽,去调度所有软件。

比如,要搜本地文档的话,就选择Search Files,然后输入关键词。它会特别顺滑地列出相关文档。

要用Google搜索的话,就选择Search Google,回车之后输入关键词就好。它会自动打开一个新的网页。

要用Perplexity搜索的话,就选择Ask Perplexity。它会打开一个对话框。除了输入问题之外,还可以选择搜索的范围,就跟官网一样。

要翻译的话,就选择Translate。如果只是要了解个意思的话,那用它基本就足够了。

要关闭进程的话,就选择Kill Progress。它会列出目前所有正在运行的进程。你可以选择按CPU占用排序,或者按内存占用排序。

要设置桌面布局的话,就选择Window Layout。你可以让几个软件按照你的意愿在屏幕排列。

要查看自己的行程安排的话,就选择My Schedule,它会把日历里的行程都列出来。

要给现在听的这首歌加个“喜爱”的话,就选择Favorite Track,它会操作Apple Music加星。

这些功能,一部分通过Raycast内置的核心功能实现,比如基础搜索、系统操作等等高频场景;另一部分则通过插件实现,目的是去满足长尾需求。

今年年初,Raycast推出AI Extentions。虽然还只是Beta版,但是,这几十个AI插件已经实现了三个功能:

第一,自然语言交互。

视频开头的例子大家都看到了。现在,你只需要@某个AI插件,告诉它你要什么,它就会帮你去操作对应的软件。

一个典型例子是终端。我只需要@shell,然后输入命令,它就会帮我调用终端去执行,并且把结果拿过来显示。

比如,输入ollama list这条命令,它会列出我已经下载好的模型。而且,这个AI插件还懂得做个表格来展现结果。

第二,跨应用调度。

举个例子:帮我预定一个视频会议,明天中午12点,主题:新选题讨论。

AI插件会调用两个软件:一是Zoom,因为是视频会议,所以它得帮我创建一个会议链接;二是Calendar,它得帮我把这个会给Book上。

这种跨应用调度不需要你一个一个去安排,可以通过Preset实现。你可以自己创建Preset,也可以去官网下载别人的。

比如我刚才演示的那个,就是现成的Calendar Assistant。它的结构很简单:一是Instructions,就是你要干吗;二是都需要哪些AI参与,比如Calendar和Zoom,以及用什么模型。

官网上已经有几十个Preset了,大家感兴趣可以去翻一翻,我就不多演示了。

第三,AI对话。

这个功能最早是一年前推出的。只不过当时支持的模型很少,只有GPT-3.5和GPT-4。后来慢慢添加了Claude、Mistral等知名模型。

到了今天,Raycast的AI对话已经覆盖市面上的主流模型。我个人最常用的有两个——Gemini 2.0 Flash和Sonar Reasoning Pro。有推理,有联网搜索,很舒服。而且我还给它设了个快捷键,用起来更顺手了。

说真的,自从安装了Raycast之后,我打开ChatWise的次数都变少了。因为基本功能重合了,人家用起来更轻便,特别适合日常讨论几句的场景。