Agent

学习Agent，从dify开始 2024-08-31

Key Takeaway

Agent平台分为生态流派（如钉钉）和工具流程流派（如dify），dify通过提供知识库和工具来创建Multi-Agent System。
学习Agent应从dify入手，因为它将代码逻辑以直观的流程图形式呈现，便于理解和实践。
dify的工作流设计强调逻辑和流程的整体性，大模型仅在需要时介入，而非主导一切。
工作流可以根据用户输入进行条件判断和分支处理，实现更精细化的任务执行。
dify的工作流示例（如文本总结）展示了如何结合知识库和Prompt来提升大模型的专业能力。
通过dify实践Agent，有助于建立对Multi-Agent System的基本认知，并为学习其他Agent框架打下基础。

Full Content

Agent平台有两大流派：

一是生态。比如钉钉这种。

在钉钉上边，已经承载了大量企业的部分业务，沉淀了很多内部数据。这时候你在原有生态基础上添加Agent，让企业能调用大模型的能力，并且围绕这个能力去构建智能化的工作流，是非常顺理成章的事儿。

二是工具流程。比如dify这种。

dify提供了创建Multi-Agent System需要的两个基础：

知识库和工具。其中，工具你可以用现成的，也可以自己创建。在这两个基础上，你再去搭建Chatbot、Agent，或者一大套工作流。

很多小伙伴看了我前几期视频，跑来私信问我该怎么学习Agent。我的建议是，通过擅长工具和流程的dify来上手。两个原因：

第一，之前在知识星球newtype里反复讲的——Agent最核心的，不是技术，而是工作流，是你想让它们具体怎么做。

dify在这方面做得特别直观——它把代码的逻辑，用流程的方式，在画板上呈现出来。你一用就明白。我待会儿会演示。

第二，也是我之前总强调的，Learning by Doing，边做边学。

对咱们来说，AI不是一个理论问题，而是一个实操问题。而dify特别适合拿来拆卸和组装。你就把它当作玩具、当作积木。当你把一个Workflow跑通了，不仅能学到点东西，而且还挺有成就感的。

那么，具体该怎么上手好呢？很简单：

先看看人家是怎么做的。dify官方提供了好多现成的工作流，你随便挑一个感兴趣的，拆开研究研究。然后再自己亲自动手，搭建一个简单的试试。

我带大家过一遍官方提供的工作流Sample，这个叫“文本总结工作流”。

一般来说，一套工作流是以用户的输入作为起点的。在这个文本总结工作流里，它要求用户输入需要总结的文本，并且选择总结之后是个概述，还是技术摘要：

如果只是概述的话，那很简单，直接让大模型搞就好；如果是技术摘要的话，就会涉及到很多专业的概念和表述，这就需要用到知识库，毕竟大模型的预训练资料中不包含这些Domain Knowledge。

第一步让用户二选一，那么在第二步，就需要根据用户的选择，做一个条件判断，用到if、else——这个对有编程经验的小伙伴来说，应该非常亲切。

因为有了条件判断，所以在第三步出现分叉，就像前边说的：

如果用户要的东西会涉及到专业内容，那么就去知识库里检索一下。然后把用户要总结的文本，以及从知识库里找到的相关内容一起给到GPT-3.5。

如果用户单纯只是要一个文本的概述，那就直接把需要总结的文本给到GPT-3.5，省掉知识库检索的步骤，速度会快一些。

当分叉的第四步完成之后，第五步就是把两个分支进行合并。不管是哪种情况，反正把结果拿过来，给到第六步，套进一个模板，最后全部完成。

这就是一个典型的工作流。我之所以拿出来介绍，是希望大家能理解人家的思路：

第一，大模型并不是全部，而是在一些需要它发挥作用的环节才出手。最重要的还是逻辑、流程，是一个整体性的东西，需要你有全局观。

就像刚才那个分叉，你如果在一开始没有特意让用户帮你做一个选择，以及后边不加条件判断环节的话，那你只能不管三七二十一都去知识库里做检索，这样速度会慢很多。

第二，如果涉及到知识库的话，需要给大模型提供两个东西：知识库里检索到的信息，和最初用户的需求。这一步跟RAG里的流程是一样的。

这两个输入，可以在大模型的Prompt里交代清楚。你愿意的话，可以在这边把你期望的格式也告诉大模型，其实也就是CrewAI里的expected output。

除了我刚演示的官方Sample，其它的也建议大家看看，就知道一般都有哪些玩法了。举个例子：

如果需要根据用户的输入来判断后边怎么执行的话，除了刚才那个if、else的条件判断，还可以用“问题分类条件”——根据不同的内容，去对应的知识库里找参考资料，然后再给大模型回答。

当你把这些现成的工作流都吃透了，就可以自己上手组装一个了。一旦跑通了，你对Multi-Agent System的基本认知就有了。

假如你之后学了某个Agent框架（比如AutoGen）就会发现，逻辑都是一样的。而有了在dify上建立起来的理解，你再用Agent框架应该会顺手得多。

OK，以上就是本期内容。有什么想聊的，来知识星球newtype找我，我都在。咱们下期见！

我对2025年AI的判断 2024-08-31

Key Takeaway

2025年AI的关键词是Agent，其本质是“任务引擎”，而非简单的“智能体”。
AI发展将从“信息引擎”阶段（大模型引领）进入“任务引擎”阶段（Agent引领）。
Chatbot只是Agent的初级形态，未来可能被淘汰，因为其缺乏“上下文”信息，限制了任务完成能力。
拥有用户“上下文”的巨头（如Google、Apple）在Agent发展上具有天然优势。
Agent的产品形态将从“人造形态”（软件/APP封装）发展到“自造形态”（AI自动生成Agent）。
RAG和Agent是AI原生应用的基础技术，理解它们是把握AI时代的关键。

Full Content

2025年，AI的关键词只有一个，就是Agent。不管是搞模型的还是搞应用的，都会把火力集中到Agent这个点上。

单纯比拼模型的阶段已经过去了。注意，我不是说模型不重要了。模型能力肯定还会继续提升。但是，单纯依靠模型去抢市场，早就行不通了。你回顾一下御三家最近这半年的动作就知道了：

Anthropic给Claude添加了Artifacts功能，推出了控制电脑能力，还有MCP协议；

OpenAI也给ChatGPT加上了类似的canvas功能，还上了搜索，虽然做得不怎么好；

Google之前一直很拉跨，最近一次更新直接追平。Gemini的多模态、超长上下文，以及Deep Search功能都非常惊艳。

这三家的动作都是同一个指向、同一个意思：模型即应用。这个应用，就是Agent。

Agent概念，国内吹了得有一年。我看了一圈，好像都没讲明白基本的逻辑，只是停留在“智能体”这个模糊的名字上。我建议大家忘了那些定义，就记住这四个字：

任务引擎。

从底层逻辑来看，AI有一半是在延续互联网的逻辑。

互联网本质上就是信息的组织和分发。从上古时期的雅虎、Google、各种门户，到后来的淘宝、今天的抖音，全都是对各种信息的重新组织、重新分发，最后重新划分地盘。

AI也是这样。大模型能够处理以前难以想象的信息规模，从中提取出有价值的知识和模式。而且，除了文本、图像、视频这些传统形式，AI还可以处理更复杂和抽象的信息，比如知识图谱、语义网络等等。

所以，AI延续了互联网的底层逻辑，继续做信息的组织和分发，而且做得更好。但是，这并不是AI的真正使命。Agent才是AI的真面目。

信息组织和分发侧重于信息的静态方面。而Agent要做的，是对信息进行动态应用，用信息来完成特定任务。

所以我认为，“任务引擎”才是对Agent更准确、更好理解的表述。我特别烦“智能体”这三个字。国内媒体和厂商特别喜欢搞虚头巴脑、说了跟没说一样的概念。

为了方便大家理解，我再做一个提炼和总结：

这一轮AI发展，也就是从GPT-3.5开始的第一阶段，是大模型引领的阶段，特征是“信息引擎”，它是比之前互联网和移动互联网的任何产品都更加强大的“信息引擎”。

从2025年开始，将进入第二阶段，由Agent引领，特征是“任务引擎”。Agent和大模型不是割裂的。正因为有了足够强大的大模型，正因为有了足够强大的“信息引擎”，“任务引擎”才有实现的可能。

OK，理解了Agent，理解了AI发展的底层逻辑之后，下一个问题就来了：Agent长什么样？或者说，它的产品形态是什么样的？

软件和APP都是我们特别熟悉的产品形态。到了AI时代，像ChatGPT一样的聊天机器人会是Agent的标准形态吗？

我认为不是。Chatbot只是最最初级的Agent，甚至这种形态很有可能会被淘汰。

你就想一个问题：Agent要很好地完成任务，最重要的是什么？

就好比一个人一样，要完成领导交代的任务，最关键的是个人能力吗？并不是。最关键的因素是“背景信息”，或者说是“上下文”。

这个任务的前因后果是什么？领导交代这个任务的预期是什么？他的言外之意是什么？如果不搞明白这些，你能力再强有什么用？

Agent也是一个道理。你的生成能力很强，那又怎么样呢？真有什么需求的时候，还得先交代一大堆。比如我要写一篇稿子，我得告诉AI：客户需求是这样的，参考资料是这些，等等。而且99%的人根本想不明白也说不明白。我们今天一直在强调的自然语言交互，其实只适合少数人。

正是这些前置条件限制了我们使用Chatbot。你看现在这些产品的数据，每天有多少活跃用户，每天使用几次，就很能反映出问题。

所以，ChatGPT这种形态就好比当年的移动梦网。这个概念，没经历过那个年代的人肯定都没听过。在移动互联网早期，移动梦网就是一个大超市，囊括了短信、彩信，手机上网也就是WAP，以及百宝箱也就是手机游戏在内的各种信息服务。听起来是不是特别像今天的ChatGPT？

而我们都知道，真正让移动互联网爆发和普及的，是今日头条和抖音这种依靠算法推荐的产品形态。AI如果要爆发和普及，同样需要这种适合普罗大众的“傻瓜产品”。这其中最关键的，就是要补上前边说的“上下文”。

这个东西，是OpenAI天生就没有的。谁有？Google有，Apple有，Meta有，腾讯有，阿里有，字节有。

举个例子，大家来想象一下：Chrome浏览器和Gemini彻底打通了。它本来就有我保存的书签、所有浏览记录，对吧？这些就可以作为非常宝贵的上下文信息，让AI版的Chrome给我提供我真正想要的东西。

这就是我为什么说，像ChatGPT一样的聊天机器人只是最最初级的Agent，而且很有可能会被淘汰的原因。OpenAI现在的领先，只是阶段性的。就像当年的移动梦网一样，后来又有谁还记得它呢？

OK，理解了“上下文”是Agent的关键之后，再来看产品形态。我认为，Agent会有两种形态，对应两个发展阶段。

第一种形态就是现在的“人造形态”。

ChatGPT是Agent，Perplexity是Agent，Cursor是Agent。现在这些Agent都是人造的，都是我们用软件、用APP的外壳，把Agent给封装进去，从而完成特定的任务，比如搜索和编程。

人造Agent数量不会太多，也只是早期阶段的特色。我估计，最多到2026年，就会进入第二阶段，迎来第二种形态——“自造形态”。

所谓“自造形态”，顾名思义，AI会自动生成Agent。因为每个人的每个需求其实都千奇百怪。非要用软件或者APP的形态去事先提取最大公约数、把它们都框起来，只能满足一部分共通的需求。

当刚才提到的“上下文”全面接入之后，各种个性化的需求就可以变成大大小小的任务。从任务出发，AI可以自主生成相应的Agent去处理。这才是AI时代全面到来的样子。

如果你是做投资的，或者搞开发的，可以好好想想我说的这些。我知道公开做判断、下定论，肯定会有很多人喷。没问题，我特别欢迎大家半年、一年后来挖坟，看看谁对谁错。

过去一年我做的几十期视频，大多数都是关于RAG和Agent的。我当时就说，这两项技术是所有应用的基础。要处理更多相关信息，必须用RAG；要执行各种任务，必须用Agent。而且，让AI自动生成Agent，我之前也有出一期，介绍过这样的技术。没记错的话，应该是用微软的框架。

所以当你一直在关注和实践的话，最终得出本期视频的结论是很自然的。站在今天这个时间点回头看，猛然发现，一切都串起来了，而且指向无比清晰。

OK，不多说了。还是那句话，我是国内少数几个能把AI的WHY和HOW讲明白的博主。想链接我，就来我们newtype社群。那咱们下期见！

最强AI编程工具Claude Code，五个使用Tips 2024-08-31

Key Takeaway

Claude Code被认为是地球上最强的AI编程工具，因为它与Claude模型深度适配和优化，且不计较上下文长度消耗。
/init命令用于初始化项目，创建CLAUDE.md文件，记录项目背景信息，提高效率和上下文一致性。
Plan Mode允许用户在执行复杂功能前，让Claude Code进行规划，尤其适用于不确定如何操作的场景。
/ide命令支持Claude Code与VS Code、Cursor等IDE集成，提供更好的代码修改和提示体验。
用户可以自定义命令，将常用操作（如解释代码）转化为快捷命令，提高工作效率。
/cost命令用于查看API消耗，并可通过/model命令切换模型以节省成本。
作者强调，模型能力相同时，拥有更多工具的AI生产力更高，鼓励用户积极使用和探索MCP。

Full Content

地球上最好的AI编程工具，肯定是Claude Code。而且它接下来还会越来越好。

为什么它最强？我在社群里发过这么一段话：

如果把Claude模型比作引擎的话，那么，虽然各家公司都可以买到这个引擎，然后组装成赛车，但是只有Anthropic能发挥出它的究极实力。

大概率，Anthropic在训练Claude 4的时候，就已经把Claude Code内置的十几种工具给它用上了，对它做针对性的强化训练。

也就是说，这款引擎在研发阶段就已经跟底盘等等系统做适配、做优化了。它们就是最佳组合。其他厂商又怎么可能跟得上。

而且为了效果，Anthropic现在特别豪气，可以不计较上下文长度的消耗。相比之下，Cursor他们就得精打细算过日子，导致有时用户体验会很差。

Claude Code这么强，但是国内介绍得不多。原因很简单：中国的自媒体水平太差了。他们就只会喊“震惊”、“放大招”。碰上这种复杂的工具，还是命令行，而且还需要配置纯净的住宅IP，他们就不知道怎么下手了。

没有关系，我会出一系列视频深度介绍这款工具。今天先来五个非常实用的Tips，帮助大家用好Claude Code。

/init

当你开始一个新的项目，或者让Claude Code中途参与某个项目的时候，一定要先运行/init这条命令，也就是initialize，初始化。

这条命令最主要的作用，是创建一个CLAUDE.md文件。这个文件会包含项目所有的背景信息，包括：项目的核心概述和目标；重要的代码约定和风格指南；关键的文件和工具函数列表，等等。

有了这份文件，每次你启动Claude Code，它就会自动加载，这样它就明白整个项目的情况，不需要你重复说明。另外，当你的项目开发有了任何进展，也可以让Claude把进展写进这个文档。

所以，这行简单的命令，以及它生成的CLAUDE.md文件对于提高效率、保持上下文一致性非常重要。大家记得用起来。

Plan Mode

大部分情况下，我们都是让Claude Code在那边“自动驾驶”。但是，当有一些比较复杂的功能想要实现，或者我们自己也没想好究竟该怎么做的时候，可以切换到Plan Mode，让Claude Code先帮我们做好规划，然后再执行。

要切换到Plan Mode很简单，按快捷键shift加tab就行。比如，我想要提升高并发、服务器断连的应对能力。我自己想了一些解决方案，比如搞个API Key的备用池子等等。我把这些告诉Claude Code，让它帮我完整规划。

接到需求后，它会把需求有关的代码全部过一遍，然后给出非常详细的方案。如果觉得OK，可以让它照着开始执行。

说真的，这个模式挺好用的。当你拿不准的时候，记得让Claude帮你规划。

/ide

虽然Claude Code主要通过命令行界面，也就是CLI进行交互，在终端里运行，但是它也支持跟VS Code、Cursor集成，让用户在IDE的环境中获得更好的体验。

比如，集成之后，你可以看到文件中代码的改动，就像在Cursor里看到的一样。另外，当你选中几行代码之后，Claude Code那边也会有提示。

那么，要做到这一点，你需要做两件事，非常简单：

第一，安装Claude Code插件。这个搜一下就有，然后点击install安装。

第二，运行/ide命令，然后选择对应的IDE，比如我这边是Cursor。然后回车就搞定了。

Custom Command

Claude Code有很多现成的命令可以使用。除此之外，其实你也可以根据自己的需要去自定义命令。

最适合知识库的大模型 2024-08-31

Key Takeaway

Cohere及其Command R+模型是专注于RAG和Agent的“业界清流”，其创始人是Transformer论文作者之一。
Cohere提供生成模型（Command R+）、嵌入模型（Embed）和重排序模型（Rerank），特别适合复杂RAG工作流和多步骤工具使用。
Command R+在某些方面性能达到GPT-4级别，且有量化版本可本地运行。
文章介绍了通过AnythingLLM和OpenRouter调用Command R+的API方法，以及本地部署的硬件要求。
强调了开源模型和开放权重模型的重要性，鼓励用户尝试GPT之外的优秀模型。

Full Content

我最感兴趣的AI公司、最喜欢的大模型，不是OpenAI和他们的GPT，而是Cohere，以及他们的Command R+。

这家公司在国内是没啥名气——大部分人只知道OpenAI，甚至连Anthropic这种级别都很少被关注。但是在业内，Cohere绝对是不容忽视的存在。

别看这家公司的创始人非常年轻，要知道，人家可是《Attention is All You Need》的作者之一。正是这篇论文，开启了这一轮大模型技术的爆发。

在创业之初，他们本来是准备面向C端市场的。后来发现C端产品比想象中的难搞多了，于是果断转向B端市场，帮助企业把大模型落地业务里。Cohere目前提供三类模型：

1、生成模型。Command系列。支持接收用户的指令，也具备对话能力。最新的Command R+非常适合复杂的RAG工作流，以及多步骤的工具使用。它在某些方面的性能甚至达到GPT-4级别。 2、嵌入模型。Embed系列。其中支持多语种的嵌入模型，长长的列表中就包含中文。 3、重排序模型。Rerank系列。对文本块进行相关性重新排序，是提升检索精确度的关键。

这么说吧，Cohere的专精方向，正好就是我长期关注的方向——RAG和Agent。

之前我做了好多期关于个人知识库的视频，因为我有一个判断：

今天最重要的两个技术，Crypto解决的是生产关系问题，AI解决的是生产力的问题。所以，大模型技术的应用落地，肯定是先落在生产力工具层面，需要RAG和Agent的带动。

一直以来，只有少数公司愿意针对RAG和Agent做大模型的优化——大多数还是蒙头搞通用大模型。所以当我了解到还有Cohere这样的“业界清流”存在时，我就对他们保持高度关注。

Cohere最新一批模型推出有一段时间了。我最近看了一下，我平时在用的、也是我之前一直在推荐的工具，都支持他们的API调用了。而且Command R+也有了量化版本，可以跑在本地。于是，就有了这一期视频。

先说API的调用。

大家如果使用AnythingLLM的话，记得看看右上角的版本号。如果版本号是橙色的，说明有新版本。下载、覆盖安装之后，在模型下拉列表中就能看到对Cohere的支持。

至于Obsidian的AI插件Copilot，它的模型列表中并没有Cohere，但是有OpenRouter。这是一个第三方平台，通过它，你可以调用各种大模型，包括Command R+。

所以咱们要做的，就是把OpenRouter的API Key填进来，然后把Command R+的名称复制粘贴过来就OK。之后每次使用，模式选Vault QA，模型选OpenRouter，就可以使用Command R+生成内容了。

通过API调用是最简单的方法。如果你的电脑配置比较给力的话，还可以试试本地运行。

Command R+有1040亿参数，算是很大的模型了。即使是量化版，文件都超过20G。要下载的话，通过LM Studio就可以。

我的PC是32G内存，显卡是3060。根据LM Studio的提示，只有三个版本可以在我的机子上跑。而且即使能跑，也只能把一部分模型放到显存里。看来还是太吃力了。我估计用64G内存加4090显卡应该能顺畅跑起来。

Anyway，不管云端还是本地，我都强烈建议大家都试试。我这几天用下来的体感是，Command R+的生成效果挺好的，我非常满意。

以后知识库的应用，如果要用云端的大模型的话，我肯定就用Command R+。至于本地，我还是选择Qwen，感觉比Llama3的量化版更好一些。

最后多说一句，大家别只盯着GPT一个模型。开源的模型、开放权重的模型当中，也有很多非常优秀的模型。多试试，没准就有惊喜了。

OK以上就是本期内容。咱们下期见！

未来三年最值钱的工作 2024-08-31

Key Takeaway

Agent Designer（智能体设计师）是未来三年最有价值的工作，因为AI技术价值的实现依赖于Agent。
Agent可以类比为高达的躯体，大模型是动力源，工具是武器，用户是驾驶员。
Agent设计师需要同时懂AI和业务，能够将人类意图“翻译”给AI，并设计Agent的工作流。
Agent设计师需要打通软件、数据库，将它们转化为Agent的工具，并从系统角度设计Agent协作。
Agent和RAG将成为AI原生应用的标配。

Full Content

未来三年，最值钱的工作是：Agent Designer，智能体设计师。

顾名思义，它就是设计Agent的。

为什么值钱？

因为AI技术要产生价值，大模型厂商想收回巨额开发成本，必须依靠Agent。

那么，Agent是什么？

我发现，很多人会把这个概念跟大模型概念混在一起，理不清楚。我拿高达来打个比方，你肯定就明白了。

Agent就好比高达的躯体，就是我们看到的那一副机甲。

这个机甲要动起来，需要动力，对吧？大模型就是高达里最牛逼的动力源——太阳炉。

看过高达的小伙伴就知道，有太阳炉和没有太阳炉，那是天壤之别。对于Agent来说也是如此。

早在大模型技术出来之前，Computer Science和AI领域的研究人员就已经研究Agent好多好多年了。直到大模型火爆，Agent这副机甲才终于装上了太阳炉。

但是，对高达来说，光有动力还不行——你拿什么打呢？

于是，高达手里那些各式各样的武器就等同于Agent的工具：

高达根据使用的武器不同，有的属于近战型，有的属于狙击型，有的属于重装防御型。

Agent也是这样。有的Agent装备了搜索工具，负责上网查资料；有的Agent装备了Scraping的工具，可以把网页上的内容都扒下来，等等。

高达要行动，需要驾驶员的操作。Agent也一样，需要用户下指令。当然，高达和Agent在一定程度上都可以自动运行。

既然驾驶员是人类，那肯定有水平的高低。在高达的设定中，最牛逼的驾驶员是newtpye。他们拥有更强的分析能力等等。

同样，在Agent这边，用户的水平也有很明显的高低之分。我在上一期视频中就提到过，只有少于5%的少数派能在当下这个早期阶段用好AI。而我把自己的知识星球取名为newtypye，出处就是高达，目的就是想聚拢AI时代的超级个体。

所以，你按照我这套理论再去看Agent这个概念，就会清晰得多。而且我很肯定，我这样的理解是正确的。因为我这套东西是从代码里看来的。

以CrewAI的代码为例。在编写每个Agent的时候，除了描述它的职责和背景之外，都会设定它装备什么大模型，以及可以调用哪些工具——当时我看到这个的第一反应，就是高达。

这就是为什么我在上一期视频里建议大家一定要学编程。你能看得懂代码，你对AI的理解就一定比别人更深，也不会被那些一知半解的媒体和商业大佬给忽悠了。

OK，Agent的定义大家理解了。那么，为什么说Agent设计师是AI技术产生价值的关键呢？

我上个月在知识星球newtype里有提到过：

“关于如何搭建一套Multi-Agent System。它在技术上一点都不难。难的是，你得想清楚，你想让Agent【怎么做】。

Agent的价值在于Workflow。而这个Workflow怎么设计，要求你既要懂AI，又要懂业务。”

Agent设计师就是那个既懂AI又懂业务的人。

他既要知道怎么跟AI“沟通”，把人类的意图“翻译”给AI听；也要知道怎么跟各个业务单元的人沟通，界定需求和问题；他还要知道怎么跟掌握预算的人沟通，比如老板，管理好对方的预期。

他需要知道怎么打通各种软件、数据库，把这些通道变成工具，给Agent装备上。

他需要知道怎么站在系统的角度去设计工作流，让不同的Agent分工合作，并且每一个环节交付的东西都有清晰的定义，可以评估、衡量。

这样一个人，横跨人类世界和AI世界，通过设计和搭建一套Agent系统把两个世界衔接起来。你想想，有这样的能力和价值，他得值多少钱？

如果你对这样的工作、这样的角色感兴趣的话，现在就是行动的最好时候。一切都才刚刚开始。

我之后也会持续分享Agent相关内容。就像我在知识星球newtype里说的：Agent和RAG一定会成为AI原生应用的标配。感兴趣的小伙伴记得点个关注。我分享的东西很值钱的。

OK以上就是本期内容。咱们下期见！

每个IP都需要AI分身，每家企业都需要AI客服 2024-08-31

Key Takeaway

AI分身和AI客服的普及是AI技术落地和应用爆发的重要代表，云厂商的加入加速了这一进程。
腾讯云大模型知识引擎通过提供精调知识大模型、灵活的知识库设置（如语义切块）和搜索增强功能，驱动AI分身和AI客服。
知识库设置支持文档和问答集，并强调评测和效果调优的重要性。
腾讯云知识引擎的“工作流管理”功能，能将复杂流程转化为AI可执行的任务，实现高度定制化。
知识库和工作流是智能体的核心能力，分别对应知识和经验。
腾讯云知识引擎还提供多轮改写、Embedding、Rerank和文档解析等原子能力，方便开发者集成。

Full Content

每个IP都需要AI分身，每家企业都需要AI客服。大家可以记住我这句话，半年之后来考古。

我很确信，这一轮AI技术落地、AI应用爆发，一个代表就是AI分身、AI客服的普及。前者对应超级个体，后者对应超级组织。这个进程正在加速，因为云厂商已经加入进来了。市场格局肯定会变，不再是模型厂商占主导的局面。

你看，我就给自己的公众号加了个AI分身。这个智能体应用的背后，是腾讯云大模型知识引擎在驱动。

我记得一年前刚开始做视频介绍AI的时候，市面上的RAG工具特别稀少，而且还得靠自己各种组合、调试，才能实现一些定制需求。我甚至一度都想自己手搓一套系统了。

你再对比现在就会发现，这一年的发展实在太快了，出现了RAG as Service，出现了一大堆开箱即用的产品。就拿我刚才提到的智能体应用来说吧：

大模型我用的是“精调知识大模型高级版”，打开了“上下文改写”，把记忆轮数加到10轮。这个模型你可以理解为就是专门为RAG特训过的模型。当然，如果你觉得上下文长度不够的话，可以选别的，比如256K长文本版的混元大模型，这长度绝对够用了。

看这一串的列表你就知道，为什么大厂都要搞基础模型研发了。那么多的业务场景等着特定的大模型开锅呢。这种战略主动权不抓自己手里，脑子真就坏掉了。

在知识库设置方面，我选的是“文档”，因为都是现成的视频脚本。如果你本来就有人工客服，想转成AI客服，那肯定会有QA，对吧？这时就可以选择“问答”。

一般来说，问答类型的资料，对提升检索的精确度会更有帮助。之后我也会慢慢积累一批关于AI的问答，根据我的知识储备、我对AI的理解来调整。目的是让这个AI分身尽可能接近我的认知。

召回设置方面，一个是召回数量，也就是召回多少个切块给到模型；另一个是检索匹配度，也就是相似度达到一定数值之后才会被纳入。

至于切块的大小，并不需要用户设置。腾讯云知识引擎会根据语义、根据整篇文章的意思，自己决定该从哪里切割，这样才不会把上下文的意思给硬生生截断。这一点我特别喜欢。如果你之前有用过RAG工具的话，就知道要决定切块大小有多麻烦了。

最后，我把“搜索增强”打开了。也就是说，模型在回答的时候，除了会参考我给的知识库，还会去调用微信搜一搜和搜狗搜索的能力，从微信生态内，比如海量的公众号文章，补充更多信息进来。

之所以打开“搜索增强”，主要是因为我不想要一个只会鹦鹉学舌的AI分身。如果你的需求是AI客服的话，那可以不打开，这样更可控、更保险一些。

当这些基本设置都搞定之后，大家别着急上线，记得做评测。

先导入样本集，然后去创建评测任务。评测的目的是看看模型回答的准确率能到多少。如果准确率不达标，要么回去改设置，要么去改资料。

说实话，我之前见过太多人搞了RAG之后大骂没效果、AI胡说八道了。其实绝大多数都是因为想当然地认为，把资料全喂进去就可以。在真实世界里，现有的技术还没到这么傻瓜的程度，还是需要你做评测、做调试的。

不仅如此，正式上线之后，还会遇到用户对回答不满意的情况。这时就会用到“效果调优”。在这个页面，我们会看到所有用户不满意的回答。

刚才说的评测只是模拟情况，而这边是实际业务场景。两个加起来，才能把这个AI分身、AI客服调到最佳状态。腾讯云能想到这一点，并且把它产品化，真的是功德无量。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有600多位小伙伴付费加入啦！

回到今天的主题：腾讯云大模型知识引擎。

很多人都在关注C端市场的AI应用。我其实更多是在看B端，两个原因：

第一，现阶段的AI能力距离市场的期待还挺有距离的，C端很难出现现象级的、能解决大问题的产品。

第二，B端对AI有明确需求，赛道非常清晰，回报也很可观。所以这边更有可能出现好东西。

对我这种“个体户”来说，用上企业级的产品，那就是降维打击。这是我看上云厂商产品的原因，也是我推荐给大家的原因。

腾讯云大模型知识引擎是一款PaaS产品。刚才我介绍的只是RAG的基础功能。如果你理解原理的话，那这部分的操作应该非常容易。快的话，十分钟搞定。

更进一步，如果你想对这个智能体应用有更清晰的指导，如果想把你的SOP教给AI，那一定要试试工作流管理功能。

举个典型的例子：图书馆客服服务。用户找图书馆一般会需要三种服务：要么借书，要么还书，要么咨询相关规则。于是，在这个画布上，大家可以看到三条路径，对应三种服务。

在工作流的开端，AI会先根据用户的询问做一个条件判断，决定是要进入哪条路径。我以借书为例。整个过程，AI会主动引导用户提供相应的信息。

首先是要借什么书，以及借多久。因为涉及到时间，很多用户表述会很不一致，比如两周、一个月等等，所以需要做个参数归一，把所有表述都统一成天数。

接着，AI会根据书名和要借的时长去调用接口、查询能不能借。

如果能借，那就走上边的分支，要求用户提供账号ID。如果不能借，那就走下边的分支，问用户要不要换一本书。

我在调试页面演示一下对话的效果，大家感受一下。

任何涉及到流程的交互，都可以变成工作流。比如很多人问我怎么学AI，如果用我的AI分身来处理的话，就可以把工作流给用上。根据我本人的回复和理解，设计一系列的条件判断、各种分支路径，然后全部教给AI。所以大家一定要把思路打开，别觉得这一大套东西只能用到客服上边。

另外，一个智能体应用可以挂上N个工作流。也就是说，你可以设想多种场景，创建多个工作流。AI会根据对话内容，自主判断需要进入哪一个工作流。这一点非常有用，可玩性太高了！

知识库加工作流，就是目前智能体的所有能力。前者对应知识，后者对应经验。腾讯云知识引擎把这些都打包好了。所以，用户只需要把精力放在设计、调试和调用上。

设计和调试刚才都介绍过了。那么在调用方面，这个知识引擎以API为主，毕竟是PaaS。如果你有比较强的开发能力和需求，只需要引擎的其中一部分能力的话，可以选择“原子能力”，包括：

多轮改写，其实就是针对用户可能提问不完整的情况。模型会结合上下文语义去完整还原。这个挺有用的。

Embedding和Rerank，一个是把文本进行向量化，一个是把召回的切块进行重排序，都是RAG必备能力。

文档解析，很基础、很重要，也很容易被大家忽略。好的解析是一切RAG的出发点。腾讯云在这方面很有优势。市面上很多知名的AI产品都在调用他们的文档解析技术。他们可以把各种文档转成Markdown格式。而且还可以解析表格、图片，以及页眉、页脚、标题等等内容元素。这个真就帮了大忙了，省去了我们大量处理文档的时间。

这四个“原子能力”的调用，腾讯云知识引擎都有很详细的文档介绍，我这边就不演示了。

我这个频道算是介绍RAG起家的。从本地大模型的使用，到RAG引擎的部署，过去一年我分享了好多这方面的内容。到了年底，终于有厂商推出开箱即用的综合型产品了。大家看完视频记得去试试腾讯云知识引擎。

OK，以上就是本期内容。想讨论AI，来我们newtype社群。那咱们下期见！

现在，你可以让AI自己生成Agent了 2024-08-31

Key Takeaway

降低Multi-Agent System的设计门槛是实现AI私人助理Agent普及的关键。
Agent AutoBuild项目旨在让AI自动生成Agent，简化Agent系统的搭建过程。
Agent AutoBuild通过不到20行代码的配置，能让AI根据任务自动生成并协调多个Agent角色（如Research Analyst、Content Writer等）。
AutoBuild支持为Builder和Agent指定不同的LLM，并可保存和调用Agent配置。
文章强调AutoGen和AutoBuild的出现，使得Multi-Agent System的搭建不再是难题，并期待LLM在成本、速度和稳定性方面的进一步提升。

Full Content

比尔·盖茨说，五年内，每个人都将拥有AI私人助理Agent。

要实现这个目标，有个门槛必须跨过：

降低Multi-Agent System的设计门槛。

微软之前推出的AutoGen很强大、很好用，但对开发者的要求其实挺高的——懂AI，懂业务流。而且一旦换了新场景，又得再搞一套。

既然都让AI代处理问题了，为什么不干脆让AI把Agent也一并生成了？

于是，Agent AutoBuild项目诞生了。

就像我在视频中演示的那样，不到20行代码就完成配置。启动之后，AI根据任务，自动生成一批Agents，并让它们分工协作。

比如针对写稿需求，Research Analyst、Content Writer、Editor和SEO Specialist四个角色诞生了。

在没调教的情况下，它们所完成的稿件，质量超出我的预期。

AutoBuild可以分别针对Builder和Agent指定LLM。目前我都是用GPT4-Turbo。理论上可以根据需要配不同的LLM，比如开源的，不一定非得是GPT4-Turbo——毕竟现在又贵又不稳定。

最后，如果对生成的Agents满意，可以保存config。后续使用的时候，AutoBuild可以直接调用，不必又去prompting the build manager。如果不满意，或者之后会有新任务，也可以删除。

有了AutoGen和AutoBuild，Multi-Agent System已经不是难事了。就等LLM下一轮更新了：更便宜，反馈更快，运行更稳定。

给大模型无限上下文 2024-08-31

Key Takeaway

上下文长度是大模型应用的关键限制，提升其难度高。
MemGPT将大模型视为操作系统，通过分级内存管理（Main Context + External Context）来解决上下文限制问题。
Main Context包含系统指令、对话上下文和工作上下文，External Context包含事件记忆和事实记录。
MemGPT能够自主进行上下文信息的检索和编辑，并具备“觉知”能力。
MemGPT支持多种后端模型，并可与AutoGen等Agent系统整合，对Multi-Agent System有重要意义。

Full Content

上下文长度是大模型要跨过的第一道槛。

长度太短，就无法开启很多领域的应用，比如医疗GPT。想象一下，医患20轮对话之后，医生就不记得病人的基本情况了，这怎么搞？

所以，上下文长度约等于大模型的内存，是衡量大模型能力的基本指标之一。

但是要提升大模型的上下文长度，难度很高。

一是训练方面。需要更高的算力和显存，还需要更多的长序列数据。

二是推理方面。Transformer模型的自注意力机制（Self-Attention）要求对序列中的每个元素去计算它与其它元素的相关性。这种机制天然决定了上下文长度不可能太长。于是大家又提出了一系列处理长序列的解决方案，这是另一个超大话题，此处不展开。

MemGPT找到了一个天才解法。

LLM = OS

大模型是什么？

MemGPT认为，大模型本质上就是操作系统。所以，上下文就是内存，上下文长度管理就是内存管理。

操作系统是怎么管理内存的？

等级制。CPU缓存（L1、L2和L3）离核心最近，速度最快，但容量最小。按这个逻辑往外推，其次是内存，最后是硬盘。

根据需要，操作系统会在这三个层级之间调配数据：最着急用的，放CPU缓存；暂时用不着的，放硬盘。

既然大模型是操作系统，那采用相同的内存管理方法，没毛病。

MemGPT就是这么干的。

Main Context + External Context

这是MemGPT的运行逻辑：

当有事件发生时，事件信息通过解析器（Parser）进入虚拟“内存”（Virtual Context）。

大模型作为处理器（Processor），对内存中的数据进行调用、确认，然后再通过解析器输出，变成一个行为。

关键点就在Virtual Context上。它分为两个部分：

一、Main Context：就是有原本有长度限制的上下文。Main Context由三部分组成：

System Instructions，系统指令。简单理解就是每次我们在system message里写的“you are a helpful assistant”。这部分只读，并且每次都会被调用，因为它是底层设定。
Conversational Context，对话上下文。采用“先进先出”（FIFO）规则——超过一定长度后，最旧的对话会被抛弃。
Working Context，工作上下文。简单理解就是大模型的笔记本，上边记录着当前的注意事项。

下图就充分说明了Working Context是怎么一回事。

当用户提到了“今天生日”和“最爱的巧克力熔岩蛋糕”两个关键信息时，大模型迅速在笔记本上写下这两点，然后在回复中应用起来。

二、External Context：就是存储在外部的上下文信息，比如存在硬盘里。External Context由两部分组成：

让Agent自动搜集每日资讯 2024-08-31

Key Takeaway

作者通过运行Python脚本，利用Agent自动搜集Reddit和全球媒体的AI相关资讯，生成每日简报“AI内参”。
有价值的AI内容主要在国外，掌握英文和直接学习源头信息至关重要。
Reddit的LocalLlaMa频道、Medium和YouTube是获取AI资讯和学习RAG、LangChain等技术的重要来源。
CrewAI和GPT Researcher是搭建Agent系统的实用工具，CrewAI适合自由搭建多Agent流程，GPT Researcher擅长资料搜集和报告生成。
Agent技术能帮助用户高效处理信息，提升信息获取和整理的效率。

Full Content

我每天起床的第一件事，是运行两个Python脚本。

由GPT-4驱动的Agent会帮我把AI相关的资讯和讨论全都搜集好。

信息来源有两个地方：

Reddit上的LocalLlaMa频道的讨论。
全球各大媒体报道的热门新闻。

这么做，最大的好处是，让我可以在一个集中的、完整的时间段内，把需要了解的信息都处理完毕。

当这件事儿了了之后，除非今天发生特别重大的事件，比如Sora或者GPT-5发布这种级别，否则我是不会再分心去看那些杂七杂八的文章。

这份由AI生成的关于AI的每日简报，我叫AI内参。

哈喽各位好，欢迎回到我的频道。我分享关于AI的Why和How。如果你想真正参与进来，把握住AI这个一生一遇的大机会的话，一定点个关注。我们一起探讨。

回到今天的主题：AI、大模型相关的信息来源和获取。

我知道大家对AI相关的资讯和知识非常饥渴。不过有一个很残酷的事实是：

有价值的内容，都在国外。

如果你不懂英文，只能看国内的二手消息，那真的很难不被割。

我分享一下我日常必看的几个来源。

Reddit/LocalLlaMa

如果你是从业者，或者对大模型技术已经有不错的了解的话，LocalLlaMa频道一定要看，讨论质量挺高的。

我随便打开两个帖子：

要学技术的话，这边有教程：这哥们用Mistral-7B进行微调，用它来做Agent的效果比Gemini Pro还好。他给出了具体方法。

要看新闻观点的话，这边也有懂哥：谷歌用Reddit数据去训练AI，这条新闻你怎么看？跟知乎一样，最高赞的是抖机灵：Garbage in, garbage out。不过还是有正经回答的：之所以用Reddit数据集，不是让AI学事实，而是让AI学怎么对话——这一下就make sense了。

LocalLlaMa频道的内容，我每天都会看。当然，是先用开头说的Python脚本帮我先筛选、汇总一遍，这个后边再介绍。

Medium

如果你想了解哪个技术，可以直接到Medium上搜，基本上都有文章详细讲解。而且这个平台的作者都非常有耐心，写得很详细。

比如这篇文章：Build a Personal AI Tech News Agent。作者从原理到AWS设置，等等，都手把手地教，算得上是保姆级教程了。

另外值得一提的是，Medium的推荐机制挺厉害的。推的都是我想看的内容。所以这个平台，除了我想搜什么的时候，我大概三天会主动上去看一圈，遇到好的文章会加个书签保存起来。

YouTube

我最早学RAG、LangChain等等用法，就是从油管的这两位老哥开始的。

第一位是Sam。他的Advanced RAG系列和LangChain系列都特别好，对我非常非常有帮助。另外，每当有新的热门大模型出现了，他都会出教学。

第二位是James。他同样也出了RAG和LangChain系列教学，并且着重介绍了怎么接入Pinecone之类的向量数据库。

入门的话，把他俩的视频看完，肯定就会了。而且视频里的代码，他们都用Google Colab的方式分享出来了，你可以直接在云端跑一遍、感受一下。

AI内参

我在开头说的两个Python脚本，都不是我写的，都来自于GitHub。

第一个脚本来自这位小姐姐。我是顺着她的油管频道找来的。

在脚本里，她用了CrewAI搭建一套包含三个Agent的流程。CrewAI是一个Agent框架，特别简单、直观，强烈推荐大家上手试试。

这个脚本的关键，其实是给Agent配上读取Reddit数据的工具。作者用了PRAW，也就是Python Reddit API Wrapper。它是一个Python包，允许你以编程方式访问和操作Reddit的数据。

前边介绍的Medium，其实我也尝试过用Agent去抓取数据，不过效果不好。有没有开放数据接口，差别还是很大的。

第二个脚本也是现成的，叫GPT Researcher。把GitHub仓库克隆下来，运行之后，会提供一个本地链接，打开就是这样一个可视化的界面。然后输入你想让它帮你搜集的信息就好。等差不多10秒钟，一份有模有样的简报就生成了。

这才是AI电脑该有的样子 2024-08-31

Key Takeaway

Raycast通过其AI插件功能，实现了AI PC/Mac的理想形态，能无缝集成所有软件，并通过自然语言交互进行跨应用调度。
Raycast的AI Extensions提供自然语言交互、跨应用调度（通过Preset）和AI对话功能。
用户可以通过Raycast的AI插件，直接控制终端、预定会议、管理任务等，无需打开具体应用。
Raycast的AI对话功能支持多种主流大模型，并可通过快捷键提升使用效率。
文章强调了Raycast在提升效率和专注度方面的优势，并认为其在AI PC/Mac领域具有宝贵的先发优势。

Full Content

苹果、微软没做到的事儿，这家公司做到了。这也许是现阶段AI PC、AI Mac该有的样子。

我举个最简单的例子：帮我打开三个Tab，分别是YouTube、X和Medium。

在Chrome浏览器里打开三个指定网页，很简单就完成了。

再来一个：在Video Production下创建新任务“完成剪辑”，截止时间周三晚上8点。

你看，它会先去todoist里边获取我的项目列表，然后在Video Production这个项目下边创建任务，并且设定截止时间。

最后再来一个：在桌面创建一个名为123的文件夹。

看吧，很轻松就搞定了。

我刚才演示的软件叫作Raycast。它是Mac上的一款效率工具。我用了一段时间之后，发现它不只是一个工具，而是一个Hub、一个枢纽，去调度所有软件。

比如，要搜本地文档的话，就选择Search Files，然后输入关键词。它会特别顺滑地列出相关文档。

要用Google搜索的话，就选择Search Google，回车之后输入关键词就好。它会自动打开一个新的网页。

要用Perplexity搜索的话，就选择Ask Perplexity。它会打开一个对话框。除了输入问题之外，还可以选择搜索的范围，就跟官网一样。

要翻译的话，就选择Translate。如果只是要了解个意思的话，那用它基本就足够了。

要关闭进程的话，就选择Kill Progress。它会列出目前所有正在运行的进程。你可以选择按CPU占用排序，或者按内存占用排序。

要设置桌面布局的话，就选择Window Layout。你可以让几个软件按照你的意愿在屏幕排列。

要查看自己的行程安排的话，就选择My Schedule，它会把日历里的行程都列出来。

要给现在听的这首歌加个“喜爱”的话，就选择Favorite Track，它会操作Apple Music加星。

这些功能，一部分通过Raycast内置的核心功能实现，比如基础搜索、系统操作等等高频场景；另一部分则通过插件实现，目的是去满足长尾需求。

今年年初，Raycast推出AI Extentions。虽然还只是Beta版，但是，这几十个AI插件已经实现了三个功能：

第一，自然语言交互。

视频开头的例子大家都看到了。现在，你只需要@某个AI插件，告诉它你要什么，它就会帮你去操作对应的软件。

一个典型例子是终端。我只需要@shell，然后输入命令，它就会帮我调用终端去执行，并且把结果拿过来显示。

比如，输入ollama list这条命令，它会列出我已经下载好的模型。而且，这个AI插件还懂得做个表格来展现结果。

第二，跨应用调度。

举个例子：帮我预定一个视频会议，明天中午12点，主题：新选题讨论。

AI插件会调用两个软件：一是Zoom，因为是视频会议，所以它得帮我创建一个会议链接；二是Calendar，它得帮我把这个会给Book上。

这种跨应用调度不需要你一个一个去安排，可以通过Preset实现。你可以自己创建Preset，也可以去官网下载别人的。

比如我刚才演示的那个，就是现成的Calendar Assistant。它的结构很简单：一是Instructions，就是你要干吗；二是都需要哪些AI参与，比如Calendar和Zoom，以及用什么模型。

官网上已经有几十个Preset了，大家感兴趣可以去翻一翻，我就不多演示了。

第三，AI对话。

这个功能最早是一年前推出的。只不过当时支持的模型很少，只有GPT-3.5和GPT-4。后来慢慢添加了Claude、Mistral等知名模型。

到了今天，Raycast的AI对话已经覆盖市面上的主流模型。我个人最常用的有两个——Gemini 2.0 Flash和Sonar Reasoning Pro。有推理，有联网搜索，很舒服。而且我还给它设了个快捷键，用起来更顺手了。

说真的，自从安装了Raycast之后，我打开ChatWise的次数都变少了。因为基本功能重合了，人家用起来更轻便，特别适合日常讨论几句的场景。