AI应用

严肃生产，还得看Claude 2024-08-31

Key Takeaway

Claude推出的Analysis tool（数据分析工具）能够帮助用户对数据表格进行分析和可视化呈现。
该工具基于Claude强大的代码能力和Artifacts功能，能够处理CSV文件并进行数据可视化。
AI在数据分析领域的应用，将像AI编程一样，赋能更多非专业人士。
Claude的数据分析能力使其在“严肃生产”场景中具有显著优势，可应用于市场营销、销售、IT等领域。
文章强调“严肃生产”是AI应用落地最有价值的场景。

Full Content

AI不只是要抢程序员的饭碗，现在连数据分析师也不放过。Claude前些天推出的Analysis tool特别好用。你手里如果有一份数据表格，想让AI帮你做些分析，并且可视化呈现，一定要试试这个功能。

目前这个分析工具还处于预览阶段，默认是没有打开的，就像最开始的Artifacts一样。所以需要咱们去Feature Preview选项里，把它勾选上，然后就开心使用啦。

对数据表格做分析，一直是很多人的刚需，但却是大模型的短板。像Claude之类的头部产品，虽说硬着头皮也能做，但它提供的结果是概括性的、比较宏观的，还做不到更加细致、精确的分析。这次新出的数据分析工具就补上了这个短板。它建立在两个基础上：

第一，代码能力。目前Claude的代码能力是全球公认最强的，没有之一。所以它可以直接使用JavaScript对用户上传的CSV文件进行读取、解析和重构，就像咱们人类数据分析师一样的处理方式。而且在处理的过程中如果遇到什么错误的话，它还会自己修复。

第二，Artifacts功能。对Claude以及所有Chatbot来说，Artifacts都是一个非常重要的创新。它在主对话窗口之外单开了一个专用窗口。所有根据用户请求而生成的内容都在专用窗口里显示。为了确保安全性，它还采用了类似沙盒的技术，创建了一个安全游乐场。

所以，Claude能在数据分析上取得惊艳的效果，全都来自于基础能力的遥遥领先。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注。只要有一个视频你看进去了，就赚大了。如果想链接我，就来newtype社群。已经有600位小伙伴付费加入啦！

回到今天的主题：Claude Analysis tool。

之前我在社群里说过，AI的价值不只是降低成本、给老板一个压榨员工的理由，更重要的是带来了新的能力。AI编程的价值很多人已经享受到了。接下来，数据分析也会像编程一样，通过AI下放给更多人。从这一点来看，Claude真的是功德无量。

为了给大家演示新的数据分析功能，我下载了一份比特币的历史数据，包括价格、交易量等等。格式好像有点小问题，我没细看。反正直接拖进对话框，都让AI处理就好。

接到需求之后，Claude会先对数据进行处理，然后再启动Artifacts功能，通过代码创建一个可视化的展示。

大家之前可能只接触过用Excel做数据分析。但是Excel只能搞定一些简单的活儿。如果比较专业的话，就会用到Python，它的pandas、numpy都是非常流行的数据分析库，它俩各有所长。如果涉及到统计学的话，还有R语言。它的学习曲线比Python陡峭多了。当然啦，无论是哪一个，对咱们来说，想要掌握都不是一天两天的事儿。这就是AI的价值所在。

回到Claude这边。可以看到，它已经做完可视化呈现了，通过数据还原出价格走势图。不仅如此，它还主动做了一些初步总结，发现比特币波动性大，目前处于上升态势，而且价格处于历史高位区间。

大家注意看，在稍微停顿了一下之后，Claude还给出三个建议的问题。这个设计显然是为了引导普通用户继续往下分析。不然很多人看到这一大堆东西就懵逼了。那咱们就让AI继续创建一个互动式的价格走势图。

可能是这个功能还处于预览阶段的原因，会有一些报错。不过没关系，咱们让Claude自己修复就好。或者，如果有什么不满意的地方，也可以直接提。比如，我希望它尽可能把时间周期拉长。于是Claude就会返回去查看数据，然后调整代码，最终展示更长时间周期的分析。

Claude这些报错都是小问题。现阶段，我觉得有两个最需要改进的地方：一是Rate Limit，目前太低了，一下就用没了，希望官方能尽快调高一些。二是刚才提到的建议问题，问得太水了，起不到引导的作用。

通过刚才这段演示，大家可以看到，Claude的理解范围已经从之前的文字扩展到了数据。在文字方面，我之前做过对比，Claude的逻辑性显著强于ChatGPT。现在又把对数据的精确分析给加上了。这样一来，Claude就牢牢占据了严肃生产这个场景。

如果你做市场营销的，可以上传客户互动数据；如果你是做销售的，可以上传各个销售大区的业绩；如果你是搞IT的，可以上传服务器日志。这些Claude都能处理，都能帮到你。这个可比帮小白领写一段小红书文案，或者想一句品牌Slogan要值钱多了。

我认为，严肃生产一定是AI应用落地最有价值的场景，也是现在大部分AI厂商都忽视的。

OK，以上就是本期内容。想链接我，就来newtype社群。那咱们下期见！

会聊天，就会编程 2024-08-31

Key Takeaway

Cursor是一款强大的AI编程IDE，能够原生支持AI功能，实现与AI的纯聊天式编程。
作者通过Cursor在10分钟内不写代码，仅通过与AI对话，开发出Chrome浏览器插件，展示了AI编程的高效性。
Cursor的“Apply”功能能够自动定位代码修改位置，提升调试效率。
AI编程工具的价值在于赋予用户不具备的新技能，而非仅仅替代现有工作。
文章强调AI能够将个体技能放大，创造更多价值，并展望了AI在产品开发中的广阔前景。

Full Content

三年之后，世界上最流行的编程语言是什么？

大概率不是Python、不是Java Script，而是英语。

最近在AI圈有一款IDE、编程软件超火，叫Cursor。你用过之后，估计也会有这样的想法。

我把Cursor看作是VS Code的终极进化版。它是VS Code的fork版本，各种功能基本一样，可以无缝导入过来。但是，在AI方面，Cursor就做得好多了。它不是像GitHub Copilot那样，以插件的形式植入进去，而是原生地、天然地支持——这一点非常重要，会带来质的不同。

在模型方面，Cursor很大方：你可以用它的模型，一个月订阅费用是20美金，也可以用你自己的模型，填入API Key就行。甚至，它还允许你用GitHub Copilot，不过它会提示你，不建议使用，因为性能上不如它的东西啦。

上个周末，我集中测试了一下Cursor。最好的一次，只花不到10分钟，不写任何一行代码，就是跟AI纯聊天，就开发出一个Chrome浏览器插件，能调用GPT去总结网页内容。

这10分钟的前3分钟，我用来写需求：

我希望开发一个浏览器插件，主要功能是用大模型总结网页。它会先做Scraping，也就是把网页内容都扒下来。然后把这些内容给到模型，按照Summary、Key Facts的格式输出。

在具体功能方面，插件上有三个按钮：Summarize就是总结。Settings就是设置，会要求用户输入OpenAI的API Key。插件先去确认这个Key是否可用。如果可以，就把可以使用的模型以列表都拉过来，让用户选择、保存。Clear就是清除上一次的总结结果，或者中断当前的总结任务。

当我在Word上把这些都写完之后，复制下来，打开Cursor，通过控制面板打开聊天界面，全部粘贴进去。接下来的体验跟咱们使用ChatGPT、Claude基本一样：

Cursor的反馈速度非常快，只用几秒钟就理解、拆解了需求。它告诉我们，要创建哪几个文件，每个文件的名称和代码都给到了。这时，我们只需要根据指示把文件创建好，把对应的文件开着，然后点击Apply，AI会把代码填进去。

Apply功能特别方便。因为在debug过程中，肯定要修改代码。Cursor不会把代码全部生成一遍——那就太慢、太消耗token了。所以，它只会输出需要修改的那几行。这时候，压力就给到用户这边了——因为要在几百行代码里边找到要修改的地方，还是挺费神的。所以，Apply功能会自动找到修改位置，用红色标注出原来的代码，用绿色标注出建议的代码，用户确认之后，它再自动替换。

等我们把所有代码都贴进文件里，就可以测试了。

打开Chrome浏览器的插件页面，进入开发者模式，打开代码所在的文件夹，就可以加载插件。

第一次测试肯定会有Bug。这边我们发现，Settings按钮没反应。很简单，回到Cursor里边，把问题告诉AI，然后把新生成的代码通过刚才说的Apply功能替换进去。

刷新插件，现在可以打开设置页面了。填入API Key，就像需求里说的那样，插件会先Verify一下，然后把Model List拉出来。这时会发现，List不全，只有两个模型，我猜是Cursor自作主张预设了，并没有真的去拉取。另外，点击Summarize并没有正常工作，只是显示了一个demo。

所以再次跟Cursor沟通，把这两个问题反馈了。像这样的debug过程会经常遇到。不过这一次挺幸运的，只来回处理了两趟。

再次刷新插件、重新测试。这下可以看到，模型列表正确显示出来了。点击Summarize，插件开始工作。等个几秒钟，成功总结出来了。为了确认真的可以用，我又找了两个网页，也都总结成功了。

我看了一眼时间，从写需求到测试成功，大概10分钟。这不是我第一次这么干。其实前一天也试过，不过不太成功，过程让我有点崩溃。

每一次修改代码都会带来新的Bug。我眼睁睁看着原本只有30行的代码膨胀了10倍，变成300多行，而且问题还没解决。

后来我心想，要不换个实现方式，改用多模态。先把整个页面截图下来，再给到GPT去识别和提取。结果还是不行。反正折腾了快一个小时。

到了第二天，我反思了一下。其实这个插件的工作流程就两步：先Scrape，再Summarize。之前我自己写Agent Workflow的时候就是这么处理的。于是我把需求改了一些，产品经理的活儿我干了，Cursor就专心Coding。果然，效果立竿见影。成功那一刻的快感，跟游戏通关差不多。

这款总结插件还很粗糙。如果要做到能上架的程度，可能还需要投入点时间：

第一，它的Scraping比较简单，还可以再强化，这样才能应对更多的网页。

第二，它的总结还不够好。这个调整起来很简单，不需要AI修改，我直接在提示词那边做详细要求就可以。

第三，现在只支持OpenAI，可以把Google、Anthropic等等都加上。

第四，把UI弄得好看一点。这个也简单。我找个别人的产品，截图下来给到AI，它肯定能照着做出来。

这四个要改进的地方，顺利的话，我估计再花个半小时应该能完成。全部搞定之后，就可以提交给Google审核、然后上架了。

我不喜欢说什么“未来已来”这种话，但是，Cursor给我的震撼是远超两年前的ChatGPT的。可能是因为，ChatGPT做的都是我会的东西，不就是生成一些文字嘛，而且还没我干得好。所以它带给我的只是一种新鲜和惊讶。

但是Cursor不一样。像开发一款浏览器插件这种事儿，我是完全不会，更别提在10分钟之内把原型搞定。所以这是一种震撼——它给了我完全不具备的新技能。我觉得，这个才是AI的真正价值。

今天很多人，尤其是国内的很多老板认为，AI就是用来降本，用来替代员工，成为裁员的借口。他们是把人力看做成本。他们眼中的世界是有限的，就这么点地方，所以得到处节省。

但其实，这个世界可以不是一个“有限游戏”，是可以变成“无限游戏”的。AI赋予个体从没有过的技能，或者把个体原有的技能放大好几倍。去满足更多，去创造更多，这不是更美好吗？

对我来说，如果要开发个小工具，可以在Cursor的帮助下直接完成。如果稍微复杂一点，那我也可以先做个原型出来，再花钱找前端和后端帮我完善。

突然感觉，我的整个世界变得好宽阔。也许到明年，我给到大家的，不只是这样的视频和文章，还有更多形态，可以是网页，可以是APP，甚至可以是一个小模型。我太期待了！

OK，以上就是本期内容。我要继续拉着Cursor做开发了。后续更多的发现，我会发在newtype社群里。还没加入的小伙伴抓紧吧，社群已经400多人了。今年肯定会到500人以上，明年争取突破1000。我那天想到一个Slogan很适合我这个频道以及社群，叫做“AI时代，摸着老黄过河”。好了，不扯了，咱们下期见！

再见，GPTs 2024-08-31

Key Takeaway

OpenGPTs是LangChain推出的开源项目，旨在替代OpenAI的GPTs，提供更彻底的自定义能力。
OpenGPTs支持更多模型（开源、闭源、云端、本地），可完全本地化运行，数据更安全，隐私性更强，费用更低。
OpenGPTs高度定制化，代码开放，可随意修改，并能生成公开链接供团队共用。
OpenGPTs功能模块包括Chatbot（模型选择、指令设置）、RAG（检索增强生成，支持文档检索）和Application（Chatbot+RAG+工具）。
OpenGPTs提供了多种工具，如通用搜索和垂直搜索工具，弥补了ChatGPT工具的不足。
OpenGPTs的真正潜力在于自定义和二次开发，为用户提供了极高的自由度。

Full Content

看完这期视频，你就不再需要ChatGPT了。因为你完全可以用OpenGPTs替代，而且能做得更好。

OpenGPTs是LangChain前段时间推出的开源项目。看起来跟OpenAI的GPTs一样，支持一定程度的自定义，比如可以上传文档作为知识库，可以添加文生图、联机搜索等工具。不过说实话，要让AI成为真正的智能助理，这种程度还远远不够。

OpenGPTs在自定义方面做得更彻底：

支持更多模型，不只是OpenAI的。开源的、闭源的，云端的、本地的，都可以。
可以完全本地化运行。不只是大模型跑在本地，知识库中的文档也是放在本地，所以数据更安全、隐私性更强，费用也更低。
高度定制化。代码完全开放，可以随意修改。可玩性非常高。我去年之所以做newtype项目，就是对ChatGPT不满意，想要更高的自由度。
全部改装完了，还可以生成公开链接。比如给到团队共用，这一点非常棒！

OpenGPTs的安装有点麻烦。想先体验再做决定的话，官方有现成的demo，我拿这个跟大家具体介绍一下。

OpenGPTs的功能模块就三个：Chatbot、Rag，以及Application。你别看只有三个，但它们仨涵盖了所有类型的GPT应用。

Chatbot很简单，就两个设定：

第一、选择大模型。

官方在demo里把当前主流的大模型都列上了：三巨头GPT、Claude、Gemini，以及来自欧洲的Mixtral。

如果你想用别的大模型，比如通过Ollama跑开源大模型，找到backend文件夹里的app文件夹，对llms.py做一点点修改就行。

第二、下达指令，也就是大家很熟悉的Prompt。通过这个设置，AI就会按照你要求的角色、人格和做事方式去运行。

比如，我们可以创建一个专门翻译科技文章的bot。

首先定义角色和任务：

你是一位精通简体中文的专业翻译，尤其擅长将专业学术论文翻译成浅显易懂的科普文章。我希望你能帮我将以下英文论文段落翻译成中文，风格与科普杂志的中文版相似。

然后定义规则：

翻译时要准确传达原文的事实和背景。
即使上意译也要保留原始段落格式，以及保留术语，例如 FLAC，JPEG 等。保留公司缩写，例如 Microsoft, Amazon 等。
同时要保留引用的论文，例如 [20] 这样的引用。
对于 Figure 和 Table，翻译的同时保留原有格式，例如：“Figure 1: ”翻译为“图 1: ”，“Table 1: ”翻译为：“表 1: ”。
全角括号换成半角括号，并在左括号前面加半角空格，右括号后面加半角空格。
输入格式为 Markdown 格式，输出格式也必须保留原始 Markdown 格式
以下是常见的 AI 相关术语词汇对应表：
- Transformer -> Transformer
- Token -> Token
- LLM/Large Language Model -> 大语言模型
- Generative AI -> 生成式 AI

最后定义策略：

套壳之王：Perplexity 2024-08-31

Key Takeaway

Perplexity是一款现象级的AI原生问答引擎，有望替代传统搜索引擎，其核心价值在于直接提供组织好的答案而非网页链接。
Perplexity通过“Copilot”模式扩展搜索关键词，并提供“Focus”选项进行特定类型搜索，提升用户体验。
Perplexity强调答案的严谨性，提供清晰的来源标注，并支持多轮交互和“Collection”功能。
尽管被质疑“套壳”，但Perplexity通过微调GPT模型、使用其他大模型以及自研开源模型，展现了其技术实力。
Perplexity在搜索基础上融入了强大的RAG技术，并具备知识库功能，未来有望推出更多产品。

Full Content

我最近看到一句非常霸气的话：

拥有十万用户的套壳产品，比拥有自有模型却没有用户更有意义。

如果你身边有投大模型或者做大模型的小伙伴，记得把这句话转给他。

这么拉仇恨的人是Perplexity的CEO。他们刚完成了B轮融资，估值5.2亿美元。跟投的公司包括英伟达，以及贝佐斯这样的大佬。

Perplexity的产品是一款现象级的AI原生应用，有可能替代传统搜索引擎的问答引擎。

什么是问答引擎？

截至目前的搜索引擎返回的都是网页。但是，网页是我们想要的结果吗？我们要的是网页里包含的内容。大模型的价值就体现在这里了：

它会帮我们把搜到的所有网页都过一遍，把相关的内容都抓出来，然后组织逻辑，最终把结果一步到位地呈现出来。

这是传统搜索引擎技术做不到的。这也是为什么，搜索是一个确定的赛道，必然会被大模型技术彻底改造。

过去一年，我体验了好多AI应用。但是，是能让我持续使用、不得不用的，就两个：

GitHub Copilot
Perplexity AI

我强烈建议大家试一试Perplexity。它是对每一个人都有帮助的AI应用。用过之后，你大概率就不再需要Google了，更别提什么百度。

我用网页版做个演示。这款产品还有手机和iPad版本，非常方便。

“Copilot”打开之后，它会提供更准确、更深入的答案，代价是稍微慢一点点。免费版好像是每四个小时有5个额度，订阅版每天有300额度，基本够用。

“Focus”选项很好理解，可以让大模型聚集搜某个类型，比如：学术论文，Reddit讨论，或者YouTube视频。如果选择Writing的话，那么就不会联网，相当于直接用大模型的效果。

Perplexity订阅价格是每个月20刀。从实用角度来看，我建议大家可以不订阅ChatGPT Plus，但是要订阅这个。毕竟搜索是高频需求。Perplexity的搜索比ChatGPT强。而且，如果你需要GPT-4直接生成的话，选Writing模式就行。

我们来个简单的。比如，搜“GitHub Copilot”。大模型会先理解问题或者关键词，然后基于理解对它们做扩展。

由于我们只输入了“GitHub Copilot”，比较泛，大模型判断，用户此时大概率是想做个初步了解，比如它是什么、有什么用途、有什么优缺点等等。于是，它帮我们做了一系列扩展，再拿去搜索，找到一堆来源，最后给出答案。

有了第一次交互之后，Perplexity会引导用户，要么查询相关问题，要么继续追问。

从一个问题或者关键词出发展开的多轮交互，就形成了一个合集，存档在Library里，相当于历史记录，以后可以再来查询或者继续提问。这也是我非常喜欢这个产品的一个点。

“Collection”是最新功能。你可以针对某一个主题，通过Prompt的形式做更细致的设定，并且可以共享给其他小伙伴。

至于Discover，就是官方推的热点，无聊的时候可以看看。

Perplexity是公认的用户体验最好、结果精确度最高的AI问答引擎。

先说用户体验。

“以用户为中心”对他们来说不是一句口号，人家是真的信这个。我举两个例子。

第一、Perplexity为什么要帮用户先去扩展搜索关键词？

因为，绝大多数用户不懂得提问。

就像前边演示的那样，我只给了一个关键词。如果是传统搜索引擎的话，由于用户输入太少或者太不准确，往往结果不会太好。

那么，是用户的错吗？

用户没有错。是你技术的问题，是你产品设计的问题。这个就是做应用要面对现实情况。

多说一句，我觉得这一轮大模型技术爆发，带来的不是人机之间的自然语言交互，而是意图交互。有很多项目都在朝着这个方向走了，就看谁先跑出来。回到正题。

第二、Perplexity已经提供最终答案了，为什么要把来源列出来？

因为，用户总是会担心。

既担心你的答案的权威性，也担心大模型的幻觉会不会发作。

尤其是答案里要是有些观点跟我的预判不一致的话，我肯定会把来源的网页或者视频看一遍。

Perplexity是做产品的，技术只是实现的手段。但并不代表他们没技术。

他们CEO之所以会说开头那句拉仇恨的话，就是因为在起步阶段，Perplexity像很多别的项目一样，使用OpenAI的大模型，然后就被冠上了“套壳”的帽子。

不过，接了GPT-3.5或者GPT-4就完事儿了吗？

首先，Perplexity用的GPT-3.5，是自己微调后的版本，性能得到显著提升，但是费用比GPT-4低，速度也比GPT-4快。

其次，除了GPT，别的大模型他们也用，比如Claude，因为它支持更长的上下文，特别适合用来满足用户上传文档这个需求。

最后，Perplexity知道不能一直依赖OpenAI。所以，他们使用开源大模型进行微调，打造了两款大模型：pplx-7b-online和pplx-70b-online。前者是基于mistral-7b，后者是基于llama2-70b。这两款大模型专门用来处理网上的实时数据。而且，微调的工作也会持续进行，不断提升性能。训练用的数据也是他们自己准备的，高质量、多样化。

估计等开源大模型的性能跟GPT-4全面持平的时候，Perplexity肯定会把开源大模型作为基础，彻底摆脱对OpenAI的依赖。

有了为搜索定制化的大模型还不够，要做好这摊事儿，还需要很强的RAG技术。

所以，Perplexity绝对不是一个套壳项目，他们的技术实力绝对不差。同时，Perplexity也不是那种纯技术的项目，他们知道怎么用技术满足需求。

而且，搜索肯定不会是他们的唯一产品。随着大模型技术的发展，这个团队之后绝对会再拿出更多的新产品。这也是我会持续关注他们的一个原因。

如何搭建一套Agent系统 2024-08-31

Key Takeaway

Agent是AI智能体的核心，用于自动化执行任务，其搭建关键在于明确需求和工作流设计。
Multi-Agent System通过角色分工协作，解决复杂任务，例如Researcher、Editor和Note Taker的组合。
Agent除了大模型作为“大脑”，还需要工具作为“手脚”，如搜索工具（Tavily）和笔记工具（Obsidian）。
搭建Agent系统需要Python脚本，即使编程能力不高，也能通过现有脚本进行修改和拼装。
RAG和Agent是AI原生应用的关键技术，理解并实践它们能提升AI使用效率。

Full Content

我对自己的笔记系统做了一点小升级。

之前的系统只是“离线版”，只能根据已有的内容去生成新内容。

升级之后的系统就是“联机版”：增加了AI搜索、报告生成的功能。而且，全都搞定之后，还会自动生成一条笔记，省得我还要手动贴进Obsidian。

这些功能的背后，是Agent / AI智能体的能力。

我在上期视频介绍了Agent的基本概念。有些小伙伴说，想看看具体的案例。所以这期也算是一个简单的演示，让你知道Agent是怎么搭建的、怎么工作的。

现在虽然有不少工具，比如difi.ai之类的，能让你点几下鼠标就完成搭建。但是，要完全实现自己的需求，完全按照自己的心意来，还是得靠代码。

不过也不用担心，一是网上有很多现成的Python脚本，你稍微改一改、拼装一下，完全可以用；二是它也不要求你有多高的编程能力，看得懂就行。甚至你把它当成英语四级的阅读理解都OK。像我这种小学生水平都能上手，你肯定没问题。

OK，咱们进入正题。

Agent是用来干活儿的。所以，一切的出发点肯定是需求，越明确越好。

我的需求很简单，来自于我日常经常遇到的情况：

当我在Obsidian里整理笔记或者写东西的时候，经常会需要去查点资料。搜到好多个网页之后，我需要创建一条新笔记，把里边有用的内容提取出来，规整一下，变成一个比较有逻辑的东西，存在笔记里边，方便下一步处理。

这些繁琐的、技术含量不高的工作，我希望能交给几个Agent合作完成。

就像我在知识星球newtype里说的，搭建一套Multi-Agent System，最重要的是，你想让它怎么做。

所以，为了满足这个需求，需要三个角色，分别完成三个任务：

Researcher：负责上网查资料，然后把找到的内容汇总成一份报告。 Editor：它的内容能力强、文笔好，负责根据Researcher提供的报告，撰写一篇笔记。 Note Taker：它的任务很简单，就是在Obsidian里创建一条新笔记，然后把Editor写好的东西贴进去。

这是一个非常简单的分工，很好理解。难点在于给Agent配什么工具。

你可以把大模型看作是一个单独的大脑，就像科幻电影里的那种。它只有“思考”能力，没有行为能力。所以，Agent除了装上大模型这个大脑之外，还得拿上工具——咱不能人家不能空手去干，对吧？

根据分工内容，Agent需要用到两个工具：

搜索工具：有了这个，Agent才能联网搜索。笔记工具：Agent需要知道，笔记放在哪个位置，什么格式，以及新笔记的标题该叫啥。

关于搜索工具，今天已经有很多现成的了。比如Google、DuckduckGO，都可以直接用。我这边选择的是Tavily。他们提供的搜索API，专门为大模型和RAG优化过，效果挺好的。直接加两行代码就可以用。

关于笔记工具，这边需要动点脑子，因为Obsidian并没有提供一个接口让其它程序能够接入去创建笔记。不过，解法还是有的：

Obsidian的所有笔记都是md格式的。那么，咱们就直接在笔记所在的文件夹创建一个md格式的文件。也就是说，通过在外部创建笔记的方式，绕开在软件内创建的这一步。

所以，基于这个解法，就有了CustomTools这几行代码，指明了笔记文件夹的位置，以及文件名的规则——按照笔记创建的时间来命名。

当把这些组合在一起之后，就形成了这样一份脚本，包含这几部分：

基础设置，包括API Key是什么，具体的模型用哪个，以及工具的设置。刚才介绍过的那三个Agent，它们分别负责干什么，以及允许它们使用什么工具。分几个子任务完成，以及每一个子任务都由哪些Agent参与。

当把这些拼装完毕之后，运行脚本，等个十几秒，任务就完成了。

以后每次使用，我只需要把这一行修改了，也就是告诉Agent，让它帮我搜什么。

其实我也可以用Gradio添加一个可视化的界面。不过我自己使用就不讲究那么多了。

按照同样的逻辑，我们可以对这个脚本做一些修改。比如，输入一个公众号文章的链接，让Agent读取它，然后把内容全扒下来，做提炼和总结，最后存进笔记里，都可以。

我这边介绍的都是最简单的Workflow，主要是想让大家有个概念。真要是搞大一些的项目，整套系统设计会麻烦得多，会用到更多的工具和大模型，Agent之间以及Agent和用户之间的协作也会复杂起来。

OK以上就是本期内容。希望通过这期和上一期视频，大家能对Agent有一个基本的认知。还是那句话：RAG和Agent是用好AI的关键。大家有什么问题就来知识星球newtype找我。咱们下期见！

如何让ChatGPT做PPT 2024-08-31

Key Takeaway

ChatGPT无法直接生成PPT，但可以通过Marp和CSS语言作为桥梁，生成Markdown格式的代码，再转换为PPT。
Marp是一款能将Markdown文件转换为PPT的工具，其语法简单，能满足日常PPT需求。
结合VS Code和Marp for VS Code插件，用户可以实现ChatGPT生成PPT代码，并在VS Code中预览和导出。
这种方法的核心在于利用Markdown的简洁性和Marp的转换能力，将PPT内容和排版通过代码实现。
文章强调PPT的核心是逻辑而非花哨排版，Marp和CSS能满足日常需求，但生成的PPT无法手动修改，只能通过代码修改。

Full Content

我终于找到让ChatGPT做PPT的方法了。

ChatGPT逻辑好、能联网，让它生成文字内容没问题。但是，要它生成PPT的话，就有点难办了。因为它回给你的还是文字，需要你自己去创建一个PPT，然后手动贴进去做排版。

举个例子。我跟ChatGPT说：帮我写一份介绍本田Dax E的介绍PPT。

ChatGPT会勤勤恳恳地把每一页的内容都写给我。但是，就像刚才说的，这些都只是文字，离PPT还有点距离。

让我来换一个问法。跟ChatGPT说：使用Marp和CSS语言，帮我写一份介绍本田Dax E的PPT。

这时候，ChatGPT给到的不是文字，而是代码。当这一长串的代码都输出完毕后，整个复制下来，贴到VS Code里边。可以看到，右边出现了PPT的预览效果。

跟之前需要手搓的方法相比，现在只需要借助一个软件，也就是VS Code，只需要一个操作，也就是复制、粘贴，就能实现PPT的生成。

要把PPT导出也很简单：

在VS Code命令面板里选择“显示并运行命令”，然后选导出Slide Deck。根据默认选项，它是导出PDF格式。需要PPT的话，在格式列表里选上就OK。等个几秒，它导出后会自动打开。然后咱们打工人就看到非常熟悉的界面了。

我这边使用的方法，核心思路就是通过Marp语言作为桥梁。Marp指的就是Markdown Presentation Ecosystem。顾名思义，它可以把Markdown格式的文件转成PPT。

所以，ChatGPT或者别的AI工具负责按Markdown格式输出，把PPT里该有的内容都放在里边，然后一起交给Marp做转换。这个就是我说它是桥梁的原因。

关于Markdown，你如果之前用过很多生产力工具，比如我之前推荐的Obsidian，还有世界上最好的写作软件Ulysses，那你对Markdown应该不陌生。它的语法超级简单，比如一级、二级、三级标题，还有加粗、加序号、加图片之类的。这些换到PPT里边也是成立的——一般来说，PPT的内容主要是由文本块和图片构成。

而且，根据我这十几年做PPT的经验——请相信我，我在传播营销行业，我们这行业的人是地球上最会做PPT的一群人，越是成功的PPT，越不复杂。因为，PowerPoint的核心是Point；Point的核心是逻辑，不是那些花里胡哨的排版。所以，Marp语言本身对版式的支持，再加上CSS的能力，基本上能满足日常PPT需求。

OK，ChatGPT能输出Markdown，那么，该用什么显示和导出呢？工具有好几种。我选择的是VS Code，因为我平时写Python都是用它。所以我只需要再安装一个Marp for VS Code插件就好了。

就像刚才演示的那样，在VS Code里新建一个md格式的文件，把ChatGPT给的代码都贴进去。如果有任何地方要修改的话，就直接让ChatGPT改去，不管是内容还是版式，让它重新生成一遍。反正Plus包月了，不需要考虑token费用，可以让ChatGPT一直改到满意为止。

不过，从效率角度出发，我建议大家也别全依赖ChatGPT。弄差不多了就自己上手改改代码呗，反正挺简单的。

最后我要提醒两点：

第一，用这种方式生成的PPT，没法手动修改。要改的话只能回到代码里去修改。

第二，Marp的优点是简单、好上手。如果你觉得它太简单的话，还有别的，比如Slidev。这个真的挺复杂的，上手难度高，我之后在社群里分享吧。

OK，以上就是本期内容。想进一步交流的话，来newtype找我，我都在。那咱们下期见！

学习Agent，从dify开始 2024-08-31

Key Takeaway

Agent平台分为生态流派（如钉钉）和工具流程流派（如dify），dify通过提供知识库和工具来创建Multi-Agent System。
学习Agent应从dify入手，因为它将代码逻辑以直观的流程图形式呈现，便于理解和实践。
dify的工作流设计强调逻辑和流程的整体性，大模型仅在需要时介入，而非主导一切。
工作流可以根据用户输入进行条件判断和分支处理，实现更精细化的任务执行。
dify的工作流示例（如文本总结）展示了如何结合知识库和Prompt来提升大模型的专业能力。
通过dify实践Agent，有助于建立对Multi-Agent System的基本认知，并为学习其他Agent框架打下基础。

Full Content

Agent平台有两大流派：

一是生态。比如钉钉这种。

在钉钉上边，已经承载了大量企业的部分业务，沉淀了很多内部数据。这时候你在原有生态基础上添加Agent，让企业能调用大模型的能力，并且围绕这个能力去构建智能化的工作流，是非常顺理成章的事儿。

二是工具流程。比如dify这种。

dify提供了创建Multi-Agent System需要的两个基础：

知识库和工具。其中，工具你可以用现成的，也可以自己创建。在这两个基础上，你再去搭建Chatbot、Agent，或者一大套工作流。

很多小伙伴看了我前几期视频，跑来私信问我该怎么学习Agent。我的建议是，通过擅长工具和流程的dify来上手。两个原因：

第一，之前在知识星球newtype里反复讲的——Agent最核心的，不是技术，而是工作流，是你想让它们具体怎么做。

dify在这方面做得特别直观——它把代码的逻辑，用流程的方式，在画板上呈现出来。你一用就明白。我待会儿会演示。

第二，也是我之前总强调的，Learning by Doing，边做边学。

对咱们来说，AI不是一个理论问题，而是一个实操问题。而dify特别适合拿来拆卸和组装。你就把它当作玩具、当作积木。当你把一个Workflow跑通了，不仅能学到点东西，而且还挺有成就感的。

那么，具体该怎么上手好呢？很简单：

先看看人家是怎么做的。dify官方提供了好多现成的工作流，你随便挑一个感兴趣的，拆开研究研究。然后再自己亲自动手，搭建一个简单的试试。

我带大家过一遍官方提供的工作流Sample，这个叫“文本总结工作流”。

一般来说，一套工作流是以用户的输入作为起点的。在这个文本总结工作流里，它要求用户输入需要总结的文本，并且选择总结之后是个概述，还是技术摘要：

如果只是概述的话，那很简单，直接让大模型搞就好；如果是技术摘要的话，就会涉及到很多专业的概念和表述，这就需要用到知识库，毕竟大模型的预训练资料中不包含这些Domain Knowledge。

第一步让用户二选一，那么在第二步，就需要根据用户的选择，做一个条件判断，用到if、else——这个对有编程经验的小伙伴来说，应该非常亲切。

因为有了条件判断，所以在第三步出现分叉，就像前边说的：

如果用户要的东西会涉及到专业内容，那么就去知识库里检索一下。然后把用户要总结的文本，以及从知识库里找到的相关内容一起给到GPT-3.5。

如果用户单纯只是要一个文本的概述，那就直接把需要总结的文本给到GPT-3.5，省掉知识库检索的步骤，速度会快一些。

当分叉的第四步完成之后，第五步就是把两个分支进行合并。不管是哪种情况，反正把结果拿过来，给到第六步，套进一个模板，最后全部完成。

这就是一个典型的工作流。我之所以拿出来介绍，是希望大家能理解人家的思路：

第一，大模型并不是全部，而是在一些需要它发挥作用的环节才出手。最重要的还是逻辑、流程，是一个整体性的东西，需要你有全局观。

就像刚才那个分叉，你如果在一开始没有特意让用户帮你做一个选择，以及后边不加条件判断环节的话，那你只能不管三七二十一都去知识库里做检索，这样速度会慢很多。

第二，如果涉及到知识库的话，需要给大模型提供两个东西：知识库里检索到的信息，和最初用户的需求。这一步跟RAG里的流程是一样的。

这两个输入，可以在大模型的Prompt里交代清楚。你愿意的话，可以在这边把你期望的格式也告诉大模型，其实也就是CrewAI里的expected output。

除了我刚演示的官方Sample，其它的也建议大家看看，就知道一般都有哪些玩法了。举个例子：

如果需要根据用户的输入来判断后边怎么执行的话，除了刚才那个if、else的条件判断，还可以用“问题分类条件”——根据不同的内容，去对应的知识库里找参考资料，然后再给大模型回答。

当你把这些现成的工作流都吃透了，就可以自己上手组装一个了。一旦跑通了，你对Multi-Agent System的基本认知就有了。

假如你之后学了某个Agent框架（比如AutoGen）就会发现，逻辑都是一样的。而有了在dify上建立起来的理解，你再用Agent框架应该会顺手得多。

OK，以上就是本期内容。有什么想聊的，来知识星球newtype找我，我都在。咱们下期见！

当浏览器与大模型打通：Brave浏览器 + Ollama 2024-08-31

Key Takeaway

Brave浏览器通过与本地大模型（如Ollama）打通，实现了浏览器内置AI功能，提升了用户上网冲浪时的效率和便捷性。
Brave的AI功能支持直接对话、选中文字总结以及将当前网页内容作为大模型参考。
文章强调了浏览器与AI打通的必要性，并认为Brave在大方向上是正确的，但未来大厂（如Chrome与Gemini）的跟进将带来竞争。
尽管Brave的AI功能仍处于测试阶段，但其本地化部署和与开源大模型的结合，为用户提供了更多选择和自由度。

Full Content

所有软件都应该跟AI打通。比如我们最常用的浏览器。

当你上网冲浪，突然想问些什么或者想生成点什么，这时还要特意打开个网页（比如ChatGPT），或者切换到别的APP（比如Obsidian），这就特别麻烦、有点不爽。

于是，Brave浏览器就来了。这款产品存在应该有好几年了。免广告之类的常规功能就不说了，它最吸引我的点在于，可以跟本地大模型打通，比如在自己的电脑上运行千问之类的，然后去实现我刚才说的那些场景功能。

大家想尝试的话，记得下载Nightly版本。这是测试版本，每晚更新。下载好了一路安装。搞定之后，来到设置页面，点击这个Leo——这是他们给自己的AI Assistant起的名字。然后在添加模型的设置里，跟Ollama关联上。

Ollama是目前特别主流的在本地跑开源大模型的工具。你可以去他们官网下载软件，然后在终端里通过一行命令就可以下载你想要的大模型，比如我用得最多的qwen2。

当软件和模型都准备完成后，打开Ollama，你会看到，它会驻留在状态栏里。每当要调用大模型的时候，它才会启动。好处是可以一直挂着，坏处是第一次启动的时候可能得稍等个差不多10秒，需要把大模型加载一下。一旦启动起来就特别快了，真的比云端的爽多了。

要把Brave跟Ollama关联上很简单。如果你像我一样没有对Ollama做一些设置调整的话，那就按照提示，把地址填进去，把要跑的模型名称填进去。只要名称对得上，那基本不会有问题。

回到前端的交互页面，从侧边栏可以打开Leo AI。官方有提供大模型，不过咱们这边是要用本地的，所以选择刚才设置好的千问。直接对话交流完全没问题。要结合正在浏览的网页的话，有两个方式：

第一，可以在网页当中选中一部分文字，右键就能看到官方预设好的AI功能，比如总结之类的。

第二，把输入框上边这个按钮勾选上之后，就会自动把当前浏览的网页给到大模型作为回答参考。

不过我发现，这不是我们平时用RAG的那种处理方法。因为我试过，如果是一篇长文章的网页，它会提示只阅读了一部分，这说明它的方法很简单粗暴，就是把所有内容都作为上下文给过去。当超出上下文窗口的限制了，才会提示没有读完。

但话又说回来，如果真用RAG那套东西的话，还要搞Embedding什么的，就会变得特别重，不适合浏览网页这个场景。因为用户会不断打开新网页，并且来回切换的。

目前Brave浏览器的AI功能还属于测试阶段。就像前边说的，我觉得浏览器和AI打通特别有必要。Brave这个大方向是OK的。不过，大厂肯定会跟进，比如Chrome，绝对会通过Gemini实现同样的功能。对于Brave这种产品来说，活下来的一个方法是，给到用户更多自由。我特别希望它后续能加上更多自定义功能，至少把模型提示词先放出来，肯定能提升日常使用频率。

OK，以上就是本期内容。大家想找我的话，来newtype社群，我都在。那咱们下期见！

普通人用AI，从元宝开始 2024-08-31

Key Takeaway

腾讯元宝是普通用户入门AI的最佳启蒙工具，因其全场景覆盖、双模型支持和腾讯加持版R1。
元宝提供网页版、桌面客户端、手机APP和微信小程序，并支持微信文件导入，实现多场景无缝切换。
元宝结合DeepSeek-R1（慢思考）和混元Turbo S（快思考）双模型，兼顾深度和效率。
腾讯对R1进行了增强，包括接入公众号文章搜索来源和图片识别能力，使其成为“满血版”R1。
文章强调腾讯在C端市场的强大产品能力和自研能力，以及AI普及对普通用户的意义。

Full Content

DeepSeek火爆，最开心的厂商肯定是腾讯。

因为，当每家公司都接入DeepSeek，模型都一样，模型能力都拉齐之后，拼的是什么？拼产品。那么，拼产品，腾讯有怕过谁？更何况，除了DeepSeek，腾讯手里还有自研的混元大模型。

你发现没有，过完年的这段时间，一直很佛系、很随缘的腾讯突然变得凶狠、坚决了许多？

在B端，腾讯云把DeepSeek融入核心产品线，而且还推出基于DeepSeek的云服务和解决方案。

在C端，元宝一口气冲到APP Store免费榜亚军的位置，力压Kimi、豆包，仅次于DeepSeek官方APP。

我认为，普通人用AI，从元宝开始肯定是最佳的AI启蒙工具。我之前发的视频，大部分都是面向有一定基础的用户。然后每隔一两天就会有人私信问，纯小白该怎么上手AI？

很简单：AI时代最高效的学习方式就是Learning by doing。上手用起来，并且平时高频率使用，比你看一百篇教程都重要。而元宝就是普通用户、非Early Adopter的第一入口。三个原因。

第一，全场景覆盖。

用AI跟拍照其实是一个道理。能带出去的相机就是好相机。同样地，能让你随时用上AI的产品就是好产品。

元宝有全平台的网页版，Mac和Windows双支持的电脑客户端、iOS和安卓双支持的手机APP，以及不需要安装的微信小程序。

四端实时同步的特性，完美适配多场景切换。比如在电脑端没有完成的对话，外出时可通过APP继续讨论。我一般会把那些需要反复讨论的聊天置顶，这样下次就不用去历史记录里找半天了。

在这些基础功能之上，腾讯还做了一件只有腾讯能做到的事：

从微信里导入文档。

我相信，90%以上的用户把微信的“文件传输助手”当做“文件存放助手”来用，啥都往里放。因为在手机上，微信是第一入口。在微信里找文档是顺理成章的事儿。

那么，很自然地，在手机上，如果要把文档给到AI去分析，从微信直接导入过去是最方便的。

所以，当你在元宝APP里点击右下角的加号按钮时，会看到“微信文件”这个选项。它会跳到微信，然后通过元宝小程序作为桥梁，实现微信文件传输这个功能。或者反过来，直接在微信里“用其他应用打开”、选择元宝也可以。

你看，这个就叫产品能力。看起来很小的一个功能点，但是很实用、很贴心。这个就是典型的腾讯风格。

我挺希望接下来能有更多微信和元宝之间的联动的。比如，一篇很长的公众号文章，点右上角的转发按钮，能有一个“在元宝中打开”的选项。然后也像现在的“深度阅读文档”那样，给出总结、精读和脑图三个选项。我相信这肯定会成为爆款功能的。

第二，双模型支持。

DeepSeek-R1很好，但是它并适合所有使用情况。

像R1这类推理模型，通过多阶段训练，尤其是强化学习，最终获得了逐步推理和思维链的构建能力。于是，它们在面对复杂问题的时候，会先分析问题、识别关键点，再逐步得出结论。

但是，我们日常使用的时候，所有问题都是复杂问题吗？所有问题都值得等个好几秒才能获得答案吗？

显然不是啊。所以，光有DeepSeek-R1还不够，还得有别的模型。这个时候，自研能力的重要性就体现出来了。

前两天，腾讯上线了混元Turbo S模型。如果把DeepSeek-R1、混元T1称为“慢思考模型”的话，那么混元Turbo S就是“快思考”模型。它首字时延更低、吐字速度更快。两个字总结：

秒回。

在元宝里，当你选择混元模型，把“深度思考”按钮关了之后，就是用混元Turbo S做快问快答了。

说真的，我之前用了一段时间R1，每次看到一个简单的问题，它在那边琢磨半天，我都特别无语。比如，我说个“哈喽”，它想了5秒才回答，内心戏太足，有一种赛博朋克的荒诞感。

所以，“慢思考”加“快思考”，双模型搭配，日常使用效率才高。

第三，腾讯加持版R1。

现代大模型已进化为"应用平台"，

两年前的模型，基本就是单纯的文字对话。而今天的模型多了许多关键功能。比如你看Google的Gemini 2.0，强调“原生”的概念——原生的图像生成，原生的文字转语音，原生的工具使用。

这种大集成的目标，是为了打造一个universal AI assistant。这也成为现在旗舰模型的标配。

国内媒体为了流量，在吹捧DeepSeek-R1的时候，只聚焦在它的推理能力上，其它方面有意不提。所以，给R1加上更多工具、更多功能的任务，就落到应用厂商身上了。在这方面，元宝有两个点我特别喜欢。

一是搜索来源包括公众号文章。

中文互联网这几年泥沙俱下，能看的内容不多了。所以我在用Perplexity之类的工具时，都会在Prompt里特意强调：即使我用中文提问，你也给我去搜英文的网页。

如果要说还有哪里有不错的内容的话，那应该只剩公众号了。这个平台的内容属于腾讯的独家资源。这次元宝的搜索就用上了。

公众号的高质量内容，加上DeepSeek-R1的强推理能力，等于Quality in，quality out。

二是图片识别能力。

R1本身是不具备识图能力的。所以，包括DeepSeek官方在内的应用，都是添加一个OCR的功能，把图片上的文字提取出来，然后给到模型继续处理。

但是，如果图上没有文字，我就是想分析纯图片呢？

这个就是腾讯对R1的第二个加持。他们先对图片内容进行分析，把结果给到R1做回答参考。

最适合普通人的知识库 2024-08-31

Key Takeaway

QAnything是一款适合普通用户的知识库产品，支持创建多个知识库，并能处理文档和网页内容。
QAnything的机器人功能可将知识库以链接形式发布，用于团队协作或AI客服。
QAnything在RAG技术上有所创新，采用了Rerank技术（二阶段检索）提升检索精确度。
文章强调了国内厂商在AI应用方面的优势，以及知识库作为用户数据资产的重要性。
知识库的未来发展方向包括根据语义进行文本切割，以及支持多模态内容。

Full Content

今天给大家介绍一款普通用户也能马上上手的知识库。

我有一个感觉：国内厂商要开始卷知识库类产品了。现在大体上有两个阵营在蠢蠢欲动。

一个是模型厂商阵营，像月之暗面、Minimax。在研发大模型的同时，他们一定会围绕知识库去打造面向C端的产品。我打个比方你就理解了：

如果AI是【水】的话，那么今天每家都有的Chatbot就是【瓶装水】。这些【瓶装水】已经满大街都在卖，价值肯定越来越低。即使是头部的ChatGPT也会面临用户流失的压力。

所以，围绕AI这个【水】去开发新品类，一定是各家模型厂商必须要做的事儿。而知识库已经是公认的刚需，C端有需求，B端也有市场，而且在Chatbot上做加法，逻辑上是通的，所以大家一定会往这个方向走。

另一个阵营是传统互联网厂商。原因也很简单。

知识库里装的是什么？用户数据资产。而且是用户最重视的数据资产。这些数据资产落在哪个平台，用户就会留存或者迁移去哪边。所以，谁能利用好大模型技术，先打造出性能最好、最容易上手的知识库产品，谁在这一轮AI竞赛中就能守住地盘，甚至去挖别家的墙角。

传统互联网厂商阵营中，我看到走得比较快的，是网易。这家公司一直都很有做产品的基因。本期要给大家推荐的产品叫【QAnything】，我前两天在知识星球里推荐过。

我之前介绍了很多知识库的项目，实话实说，都需要一定的动手能力才能跑起来，其实不太适合普通用户。

我觉得对大家来说，在这个AI时代，先上手，先用起来，比什么都重要。

QAnything就是特别适合普通用户的产品。产品很直观，而且比很多老外的产品都做得更好。

就拿知识库的创建和选择来说吧。

很多同类型产品，要么是只有一个大知识库，要么虽然可以创建多个知识库，但只能选定一个知识库，只能针对一个知识库内的文档进行对话。

QAnything支持创建多个知识库。所以，你可以像使用文件夹一样来管理资料。比如我就创建了三个知识库：

一个放大模型相关的论文，都是PDF文档；
一个放我newtype公众号的文章，其实也就是我视频的脚本；
一个放平时看到的、想保存的各种文章。

如果要选择不同的知识库，非常简单，就点几下就好了，看一眼就明白什么意思。

在做应用方面，你永远可以相信国内厂商。

我特别喜欢QAnything的Slogan：万物皆可问。这个就是技术趋势。

目前可以提问的对象是文档和网页。等之后大模型多模态速度提升、费用下降之后，视频肯定也会支持。

上传文档的功能我就不多说了。大家可以多试试【添加网址】功能。我把平时看到不错的公众号文章都传了一份进去。因为我发现，经常会想不起来在哪篇文章里看到的一个观点。那现在有了知识库，我直接问AI就好了，相当于模糊查询，还挺实用的。

在知识库的基础上，有道团队还加了机器人功能。你可以给机器人设定一些Prompt，然后关联上知识库，最后以链接的形式发布出去。

在我看来，机器人功能有两个作用。

第一，把链接分享给同事。比如，你可以安排一个实习生小朋友定期把团队文档上传到知识库里，然后以机器人的形态对内发布。这对团队来说肯定有帮助。

第二，把链接分享给客户。比如，可以把链接挂到公众号菜单栏里，当作AI客服来用。

之所以会有这个想法，是因为我看到，在知识库里，除了上传文档集，还可以上传问答集，也就是大家最熟悉的QA。比如公司介绍、产品介绍等等。这些信息，每个公司肯定有有现成的，传上去就能直接用起来了。一个简单的AI客服就搞定了。

我这几天使用下来发现，QAnything的精确度还不错。有道团队对RAG技术还是有关注的，他们使用了Rerank技术，也就是官方所说的【二阶段检索】。

Rerank并不是什么特别高深的技术。大概半年前，我看油管就有大佬在介绍，并且分享了代码。它的原理很简单：

根据用户的提问，我们从向量数据库里筛选出50个相关的文本块。但是，肯定不能把这50个全都输入给大模型，一方面是上下文长度有限制，另一方面是这50个文本块中肯定有些相关性还差一些。这时就进入Rerank阶段，对这50个文本块进行相关性排序，比如，我们设定了把相关性最高的3个或者5个给到大模型。

这么一套操作下来，由于添加了Rerank步骤，那检索的精确度肯定会提升。不过代价也是有的，那就是速度下降。

RAG技术里有很多门道。刚才说的是检索阶段的Rerank。在前边的文本切割阶段也有很大提升的空间。

传统的做法，不管你怎么设定文本块的大小，其实都不是最合适的。最理想的做法，是根据语义做切割，这样才不会把上下文意思给硬生生切断了。那谁来做这个判断呢？当然是大模型啦。

像这些新发现、新技术，国外一直在出。希望咱们国内厂商也能保持高度关注。我发现，国内对技术的了解落后非常多。这种信息差比技术差还大。

OK，以上就是本期内容。接下来，我会多介绍一些门槛不那么高的产品，让更多人都能快速用起来。大家如果有问题的话，可以来知识星球找我。咱们下期见！