AI应用
Key Takeaway
- Claude推出的Analysis tool(数据分析工具)能够帮助用户对数据表格进行分析和可视化呈现。
- 该工具基于Claude强大的代码能力和Artifacts功能,能够处理CSV文件并进行数据可视化。
- AI在数据分析领域的应用,将像AI编程一样,赋能更多非专业人士。
- Claude的数据分析能力使其在“严肃生产”场景中具有显著优势,可应用于市场营销、销售、IT等领域。
- 文章强调“严肃生产”是AI应用落地最有价值的场景。
Full Content
AI不只是要抢程序员的饭碗,现在连数据分析师也不放过。Claude前些天推出的Analysis tool特别好用。你手里如果有一份数据表格,想让AI帮你做些分析,并且可视化呈现,一定要试试这个功能。
目前这个分析工具还处于预览阶段,默认是没有打开的,就像最开始的Artifacts一样。所以需要咱们去Feature Preview选项里,把它勾选上,然后就开心使用啦。
对数据表格做分析,一直是很多人的刚需,但却是大模型的短板。像Claude之类的头部产品,虽说硬着头皮也能做,但它提供的结果是概括性的、比较宏观的,还做不到更加细致、精确的分析。这次新出的数据分析工具就补上了这个短板。它建立在两个基础上:
第一,代码能力。目前Claude的代码能力是全球公认最强的,没有之一。所以它可以直接使用JavaScript对用户上传的CSV文件进行读取、解析和重构,就像咱们人类数据分析师一样的处理方式。而且在处理的过程中如果遇到什么错误的话,它还会自己修复。
第二,Artifacts功能。对Claude以及所有Chatbot来说,Artifacts都是一个非常重要的创新。它在主对话窗口之外单开了一个专用窗口。所有根据用户请求而生成的内容都在专用窗口里显示。为了确保安全性,它还采用了类似沙盒的技术,创建了一个安全游乐场。
所以,Claude能在数据分析上取得惊艳的效果,全都来自于基础能力的遥遥领先。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注。只要有一个视频你看进去了,就赚大了。如果想链接我,就来newtype社群。已经有600位小伙伴付费加入啦!
回到今天的主题:Claude Analysis tool。
之前我在社群里说过,AI的价值不只是降低成本、给老板一个压榨员工的理由,更重要的是带来了新的能力。AI编程的价值很多人已经享受到了。接下来,数据分析也会像编程一样,通过AI下放给更多人。从这一点来看,Claude真的是功德无量。
为了给大家演示新的数据分析功能,我下载了一份比特币的历史数据,包括价格、交易量等等。格式好像有点小问题,我没细看。反正直接拖进对话框,都让AI处理就好。
接到需求之后,Claude会先对数据进行处理,然后再启动Artifacts功能,通过代码创建一个可视化的展示。
大家之前可能只接触过用Excel做数据分析。但是Excel只能搞定一些简单的活儿。如果比较专业的话,就会用到Python,它的pandas、numpy都是非常流行的数据分析库,它俩各有所长。如果涉及到统计学的话,还有R语言。它的学习曲线比Python陡峭多了。当然啦,无论是哪一个,对咱们来说,想要掌握都不是一天两天的事儿。这就是AI的价值所在。
回到Claude这边。可以看到,它已经做完可视化呈现了,通过数据还原出价格走势图。不仅如此,它还主动做了一些初步总结,发现比特币波动性大,目前处于上升态势,而且价格处于历史高位区间。
大家注意看,在稍微停顿了一下之后,Claude还给出三个建议的问题。这个设计显然是为了引导普通用户继续往下分析。不然很多人看到这一大堆东西就懵逼了。那咱们就让AI继续创建一个互动式的价格走势图。
可能是这个功能还处于预览阶段的原因,会有一些报错。不过没关系,咱们让Claude自己修复就好。或者,如果有什么不满意的地方,也可以直接提。比如,我希望它尽可能把时间周期拉长。于是Claude就会返回去查看数据,然后调整代码,最终展示更长时间周期的分析。
Claude这些报错都是小问题。现阶段,我觉得有两个最需要改进的地方:一是Rate Limit,目前太低了,一下就用没了,希望官方能尽快调高一些。二是刚才提到的建议问题,问得太水了,起不到引导的作用。
通过刚才这段演示,大家可以看到,Claude的理解范围已经从之前的文字扩展到了数据。在文字方面,我之前做过对比,Claude的逻辑性显著强于ChatGPT。现在又把对数据的精确分析给加上了。这样一来,Claude就牢牢占据了严肃生产这个场景。
如果你做市场营销的,可以上传客户互动数据;如果你是做销售的,可以上传各个销售大区的业绩;如果你是搞IT的,可以上传服务器日志。这些Claude都能处理,都能帮到你。这个可比帮小白领写一段小红书文案,或者想一句品牌Slogan要值钱多了。
我认为,严肃生产一定是AI应用落地最有价值的场景,也是现在大部分AI厂商都忽视的。
OK,以上就是本期内容。想链接我,就来newtype社群。那咱们下期见!
Key Takeaway
- Cursor是一款强大的AI编程IDE,能够原生支持AI功能,实现与AI的纯聊天式编程。
- 作者通过Cursor在10分钟内不写代码,仅通过与AI对话,开发出Chrome浏览器插件,展示了AI编程的高效性。
- Cursor的“Apply”功能能够自动定位代码修改位置,提升调试效率。
- AI编程工具的价值在于赋予用户不具备的新技能,而非仅仅替代现有工作。
- 文章强调AI能够将个体技能放大,创造更多价值,并展望了AI在产品开发中的广阔前景。
Full Content
三年之后,世界上最流行的编程语言是什么?
大概率不是Python、不是Java Script,而是英语。
最近在AI圈有一款IDE、编程软件超火,叫Cursor。你用过之后,估计也会有这样的想法。
我把Cursor看作是VS Code的终极进化版。它是VS Code的fork版本,各种功能基本一样,可以无缝导入过来。但是,在AI方面,Cursor就做得好多了。它不是像GitHub Copilot那样,以插件的形式植入进去,而是原生地、天然地支持——这一点非常重要,会带来质的不同。
在模型方面,Cursor很大方:你可以用它的模型,一个月订阅费用是20美金,也可以用你自己的模型,填入API Key就行。甚至,它还允许你用GitHub Copilot,不过它会提示你,不建议使用,因为性能上不如它的东西啦。
上个周末,我集中测试了一下Cursor。最好的一次,只花不到10分钟,不写任何一行代码,就是跟AI纯聊天,就开发出一个Chrome浏览器插件,能调用GPT去总结网页内容。
这10分钟的前3分钟,我用来写需求:
我希望开发一个浏览器插件,主要功能是用大模型总结网页。它会先做Scraping,也就是把网页内容都扒下来。然后把这些内容给到模型,按照Summary、Key Facts的格式输出。
在具体功能方面,插件上有三个按钮:Summarize就是总结。Settings就是设置,会要求用户输入OpenAI的API Key。插件先去确认这个Key是否可用。如果可以,就把可以使用的模型以列表都拉过来,让用户选择、保存。Clear就是清除上一次的总结结果,或者中断当前的总结任务。
当我在Word上把这些都写完之后,复制下来,打开Cursor,通过控制面板打开聊天界面,全部粘贴进去。接下来的体验跟咱们使用ChatGPT、Claude基本一样:
Cursor的反馈速度非常快,只用几秒钟就理解、拆解了需求。它告诉我们,要创建哪几个文件,每个文件的名称和代码都给到了。这时,我们只需要根据指示把文件创建好,把对应的文件开着,然后点击Apply,AI会把代码填进去。
Apply功能特别方便。因为在debug过程中,肯定要修改代码。Cursor不会把代码全部生成一遍——那就太慢、太消耗token了。所以,它只会输出需要修改的那几行。这时候,压力就给到用户这边了——因为要在几百行代码里边找到要修改的地方,还是挺费神的。所以,Apply功能会自动找到修改位置,用红色标注出原来的代码,用绿色标注出建议的代码,用户确认之后,它再自动替换。
等我们把所有代码都贴进文件里,就可以测试了。
打开Chrome浏览器的插件页面,进入开发者模式,打开代码所在的文件夹,就可以加载插件。
第一次测试肯定会有Bug。这边我们发现,Settings按钮没反应。很简单,回到Cursor里边,把问题告诉AI,然后把新生成的代码通过刚才说的Apply功能替换进去。
刷新插件,现在可以打开设置页面了。填入API Key,就像需求里说的那样,插件会先Verify一下,然后把Model List拉出来。这时会发现,List不全,只有两个模型,我猜是Cursor自作主张预设了,并没有真的去拉取。另外,点击Summarize并没有正常工作,只是显示了一个demo。
所以再次跟Cursor沟通,把这两个问题反馈了。像这样的debug过程会经常遇到。不过这一次挺幸运的,只来回处理了两趟。
再次刷新插件、重新测试。这下可以看到,模型列表正确显示出来了。点击Summarize,插件开始工作。等个几秒钟,成功总结出来了。为了确认真的可以用,我又找了两个网页,也都总结成功了。
我看了一眼时间,从写需求到测试成功,大概10分钟。这不是我第一次这么干。其实前一天也试过,不过不太成功,过程让我有点崩溃。
每一次修改代码都会带来新的Bug。我眼睁睁看着原本只有30行的代码膨胀了10倍,变成300多行,而且问题还没解决。
后来我心想,要不换个实现方式,改用多模态。先把整个页面截图下来,再给到GPT去识别和提取。结果还是不行。反正折腾了快一个小时。
到了第二天,我反思了一下。其实这个插件的工作流程就两步:先Scrape,再Summarize。之前我自己写Agent Workflow的时候就是这么处理的。于是我把需求改了一些,产品经理的活儿我干了,Cursor就专心Coding。果然,效果立竿见影。成功那一刻的快感,跟游戏通关差不多。
这款总结插件还很粗糙。如果要做到能上架的程度,可能还需要投入点时间:
第一,它的Scraping比较简单,还可以再强化,这样才能应对更多的网页。
第二,它的总结还不够好。这个调整起来很简单,不需要AI修改,我直接在提示词那边做详细要求就可以。
第三,现在只支持OpenAI,可以把Google、Anthropic等等都加上。
第四,把UI弄得好看一点。这个也简单。我找个别人的产品,截图下来给到AI,它肯定能照着做出来。
这四个要改进的地方,顺利的话,我估计再花个半小时应该能完成。全部搞定之后,就可以提交给Google审核、然后上架了。
我不喜欢说什么“未来已来”这种话,但是,Cursor给我的震撼是远超两年前的ChatGPT的。可能是因为,ChatGPT做的都是我会的东西,不就是生成一些文字嘛,而且还没我干得好。所以它带给我的只是一种新鲜和惊讶。
但是Cursor不一样。像开发一款浏览器插件这种事儿,我是完全不会,更别提在10分钟之内把原型搞定。所以这是一种震撼——它给了我完全不具备的新技能。我觉得,这个才是AI的真正价值。
今天很多人,尤其是国内的很多老板认为,AI就是用来降本,用来替代员工,成为裁员的借口。他们是把人力看做成本。他们眼中的世界是有限的,就这么点地方,所以得到处节省。
但其实,这个世界可以不是一个“有限游戏”,是可以变成“无限游戏”的。AI赋予个体从没有过的技能,或者把个体原有的技能放大好几倍。去满足更多,去创造更多,这不是更美好吗?
对我来说,如果要开发个小工具,可以在Cursor的帮助下直接完成。如果稍微复杂一点,那我也可以先做个原型出来,再花钱找前端和后端帮我完善。
突然感觉,我的整个世界变得好宽阔。也许到明年,我给到大家的,不只是这样的视频和文章,还有更多形态,可以是网页,可以是APP,甚至可以是一个小模型。我太期待了!
OK,以上就是本期内容。我要继续拉着Cursor做开发了。后续更多的发现,我会发在newtype社群里。还没加入的小伙伴抓紧吧,社群已经400多人了。今年肯定会到500人以上,明年争取突破1000。我那天想到一个Slogan很适合我这个频道以及社群,叫做“AI时代,摸着老黄过河”。好了,不扯了,咱们下期见!
Key Takeaway
- OpenGPTs是LangChain推出的开源项目,旨在替代OpenAI的GPTs,提供更彻底的自定义能力。
- OpenGPTs支持更多模型(开源、闭源、云端、本地),可完全本地化运行,数据更安全,隐私性更强,费用更低。
- OpenGPTs高度定制化,代码开放,可随意修改,并能生成公开链接供团队共用。
- OpenGPTs功能模块包括Chatbot(模型选择、指令设置)、RAG(检索增强生成,支持文档检索)和Application(Chatbot+RAG+工具)。
- OpenGPTs提供了多种工具,如通用搜索和垂直搜索工具,弥补了ChatGPT工具的不足。
- OpenGPTs的真正潜力在于自定义和二次开发,为用户提供了极高的自由度。
Full Content
看完这期视频,你就不再需要ChatGPT了。因为你完全可以用OpenGPTs替代,而且能做得更好。
OpenGPTs是LangChain前段时间推出的开源项目。看起来跟OpenAI的GPTs一样,支持一定程度的自定义,比如可以上传文档作为知识库,可以添加文生图、联机搜索等工具。不过说实话,要让AI成为真正的智能助理,这种程度还远远不够。
OpenGPTs在自定义方面做得更彻底:
- 支持更多模型,不只是OpenAI的。开源的、闭源的,云端的、本地的,都可以。
- 可以完全本地化运行。不只是大模型跑在本地,知识库中的文档也是放在本地,所以数据更安全、隐私性更强,费用也更低。
- 高度定制化。代码完全开放,可以随意修改。可玩性非常高。我去年之所以做newtype项目,就是对ChatGPT不满意,想要更高的自由度。
- 全部改装完了,还可以生成公开链接。比如给到团队共用,这一点非常棒!
OpenGPTs的安装有点麻烦。想先体验再做决定的话,官方有现成的demo,我拿这个跟大家具体介绍一下。
OpenGPTs的功能模块就三个:Chatbot、Rag,以及Application。你别看只有三个,但它们仨涵盖了所有类型的GPT应用。
Chatbot很简单,就两个设定:
第一、选择大模型。
官方在demo里把当前主流的大模型都列上了:三巨头GPT、Claude、Gemini,以及来自欧洲的Mixtral。
如果你想用别的大模型,比如通过Ollama跑开源大模型,找到backend文件夹里的app文件夹,对llms.py做一点点修改就行。
第二、下达指令,也就是大家很熟悉的Prompt。通过这个设置,AI就会按照你要求的角色、人格和做事方式去运行。
比如,我们可以创建一个专门翻译科技文章的bot。
首先定义角色和任务:
你是一位精通简体中文的专业翻译,尤其擅长将专业学术论文翻译成浅显易懂的科普文章。我希望你能帮我将以下英文论文段落翻译成中文,风格与科普杂志的中文版相似。
然后定义规则:
- 翻译时要准确传达原文的事实和背景。
- 即使上意译也要保留原始段落格式,以及保留术语,例如 FLAC,JPEG 等。保留公司缩写,例如 Microsoft, Amazon 等。
- 同时要保留引用的论文,例如 [20] 这样的引用。
- 对于 Figure 和 Table,翻译的同时保留原有格式,例如:“Figure 1: ”翻译为“图 1: ”,“Table 1: ”翻译为:“表 1: ”。
- 全角括号换成半角括号,并在左括号前面加半角空格,右括号后面加半角空格。
- 输入格式为 Markdown 格式,输出格式也必须保留原始 Markdown 格式
- 以下是常见的 AI 相关术语词汇对应表:
- Transformer -> Transformer
- Token -> Token
- LLM/Large Language Model -> 大语言模型
- Generative AI -> 生成式 AI
最后定义策略:
Key Takeaway
- Perplexity是一款现象级的AI原生问答引擎,有望替代传统搜索引擎,其核心价值在于直接提供组织好的答案而非网页链接。
- Perplexity通过“Copilot”模式扩展搜索关键词,并提供“Focus”选项进行特定类型搜索,提升用户体验。
- Perplexity强调答案的严谨性,提供清晰的来源标注,并支持多轮交互和“Collection”功能。
- 尽管被质疑“套壳”,但Perplexity通过微调GPT模型、使用其他大模型以及自研开源模型,展现了其技术实力。
- Perplexity在搜索基础上融入了强大的RAG技术,并具备知识库功能,未来有望推出更多产品。
Full Content
我最近看到一句非常霸气的话:
拥有十万用户的套壳产品,比拥有自有模型却没有用户更有意义。
如果你身边有投大模型或者做大模型的小伙伴,记得把这句话转给他。
这么拉仇恨的人是Perplexity的CEO。他们刚完成了B轮融资,估值5.2亿美元。跟投的公司包括英伟达,以及贝佐斯这样的大佬。
Perplexity的产品是一款现象级的AI原生应用,有可能替代传统搜索引擎的问答引擎。
什么是问答引擎?
截至目前的搜索引擎返回的都是网页。但是,网页是我们想要的结果吗?我们要的是网页里包含的内容。大模型的价值就体现在这里了:
它会帮我们把搜到的所有网页都过一遍,把相关的内容都抓出来,然后组织逻辑,最终把结果一步到位地呈现出来。
这是传统搜索引擎技术做不到的。这也是为什么,搜索是一个确定的赛道,必然会被大模型技术彻底改造。
过去一年,我体验了好多AI应用。但是,是能让我持续使用、不得不用的,就两个:
- GitHub Copilot
- Perplexity AI
我强烈建议大家试一试Perplexity。它是对每一个人都有帮助的AI应用。用过之后,你大概率就不再需要Google了,更别提什么百度。
我用网页版做个演示。这款产品还有手机和iPad版本,非常方便。
“Copilot”打开之后,它会提供更准确、更深入的答案,代价是稍微慢一点点。免费版好像是每四个小时有5个额度,订阅版每天有300额度,基本够用。
“Focus”选项很好理解,可以让大模型聚集搜某个类型,比如:学术论文,Reddit讨论,或者YouTube视频。如果选择Writing的话,那么就不会联网,相当于直接用大模型的效果。
Perplexity订阅价格是每个月20刀。从实用角度来看,我建议大家可以不订阅ChatGPT Plus,但是要订阅这个。毕竟搜索是高频需求。Perplexity的搜索比ChatGPT强。而且,如果你需要GPT-4直接生成的话,选Writing模式就行。
我们来个简单的。比如,搜“GitHub Copilot”。大模型会先理解问题或者关键词,然后基于理解对它们做扩展。
由于我们只输入了“GitHub Copilot”,比较泛,大模型判断,用户此时大概率是想做个初步了解,比如它是什么、有什么用途、有什么优缺点等等。于是,它帮我们做了一系列扩展,再拿去搜索,找到一堆来源,最后给出答案。
有了第一次交互之后,Perplexity会引导用户,要么查询相关问题,要么继续追问。
从一个问题或者关键词出发展开的多轮交互,就形成了一个合集,存档在Library里,相当于历史记录,以后可以再来查询或者继续提问。这也是我非常喜欢这个产品的一个点。
“Collection”是最新功能。你可以针对某一个主题,通过Prompt的形式做更细致的设定,并且可以共享给其他小伙伴。
至于Discover,就是官方推的热点,无聊的时候可以看看。
Perplexity是公认的用户体验最好、结果精确度最高的AI问答引擎。
先说用户体验。
“以用户为中心”对他们来说不是一句口号,人家是真的信这个。我举两个例子。
第一、Perplexity为什么要帮用户先去扩展搜索关键词?
因为,绝大多数用户不懂得提问。
就像前边演示的那样,我只给了一个关键词。如果是传统搜索引擎的话,由于用户输入太少或者太不准确,往往结果不会太好。
那么,是用户的错吗?
用户没有错。是你技术的问题,是你产品设计的问题。这个就是做应用要面对现实情况。
多说一句,我觉得这一轮大模型技术爆发,带来的不是人机之间的自然语言交互,而是意图交互。有很多项目都在朝着这个方向走了,就看谁先跑出来。回到正题。
第二、Perplexity已经提供最终答案了,为什么要把来源列出来?
因为,用户总是会担心。
既担心你的答案的权威性,也担心大模型的幻觉会不会发作。
尤其是答案里要是有些观点跟我的预判不一致的话,我肯定会把来源的网页或者视频看一遍。
Perplexity是做产品的,技术只是实现的手段。但并不代表他们没技术。
他们CEO之所以会说开头那句拉仇恨的话,就是因为在起步阶段,Perplexity像很多别的项目一样,使用OpenAI的大模型,然后就被冠上了“套壳”的帽子。
不过,接了GPT-3.5或者GPT-4就完事儿了吗?
首先,Perplexity用的GPT-3.5,是自己微调后的版本,性能得到显著提升,但是费用比GPT-4低,速度也比GPT-4快。
其次,除了GPT,别的大模型他们也用,比如Claude,因为它支持更长的上下文,特别适合用来满足用户上传文档这个需求。
最后,Perplexity知道不能一直依赖OpenAI。所以,他们使用开源大模型进行微调,打造了两款大模型:pplx-7b-online和pplx-70b-online。前者是基于mistral-7b,后者是基于llama2-70b。这两款大模型专门用来处理网上的实时数据。而且,微调的工作也会持续进行,不断提升性能。训练用的数据也是他们自己准备的,高质量、多样化。
估计等开源大模型的性能跟GPT-4全面持平的时候,Perplexity肯定会把开源大模型作为基础,彻底摆脱对OpenAI的依赖。
有了为搜索定制化的大模型还不够,要做好这摊事儿,还需要很强的RAG技术。
所以,Perplexity绝对不是一个套壳项目,他们的技术实力绝对不差。同时,Perplexity也不是那种纯技术的项目,他们知道怎么用技术满足需求。
而且,搜索肯定不会是他们的唯一产品。随着大模型技术的发展,这个团队之后绝对会再拿出更多的新产品。这也是我会持续关注他们的一个原因。
Key Takeaway
- Agent是AI智能体的核心,用于自动化执行任务,其搭建关键在于明确需求和工作流设计。
- Multi-Agent System通过角色分工协作,解决复杂任务,例如Researcher、Editor和Note Taker的组合。
- Agent除了大模型作为“大脑”,还需要工具作为“手脚”,如搜索工具(Tavily)和笔记工具(Obsidian)。
- 搭建Agent系统需要Python脚本,即使编程能力不高,也能通过现有脚本进行修改和拼装。
- RAG和Agent是AI原生应用的关键技术,理解并实践它们能提升AI使用效率。
Full Content
我对自己的笔记系统做了一点小升级。
之前的系统只是“离线版”,只能根据已有的内容去生成新内容。
升级之后的系统就是“联机版”:增加了AI搜索、报告生成的功能。而且,全都搞定之后,还会自动生成一条笔记,省得我还要手动贴进Obsidian。
这些功能的背后,是Agent / AI智能体的能力。
我在上期视频介绍了Agent的基本概念。有些小伙伴说,想看看具体的案例。所以这期也算是一个简单的演示,让你知道Agent是怎么搭建的、怎么工作的。
现在虽然有不少工具,比如difi.ai之类的,能让你点几下鼠标就完成搭建。但是,要完全实现自己的需求,完全按照自己的心意来,还是得靠代码。
不过也不用担心,一是网上有很多现成的Python脚本,你稍微改一改、拼装一下,完全可以用;二是它也不要求你有多高的编程能力,看得懂就行。甚至你把它当成英语四级的阅读理解都OK。像我这种小学生水平都能上手,你肯定没问题。
OK,咱们进入正题。
Agent是用来干活儿的。所以,一切的出发点肯定是需求,越明确越好。
我的需求很简单,来自于我日常经常遇到的情况:
当我在Obsidian里整理笔记或者写东西的时候,经常会需要去查点资料。搜到好多个网页之后,我需要创建一条新笔记,把里边有用的内容提取出来,规整一下,变成一个比较有逻辑的东西,存在笔记里边,方便下一步处理。
这些繁琐的、技术含量不高的工作,我希望能交给几个Agent合作完成。
就像我在知识星球newtype里说的,搭建一套Multi-Agent System,最重要的是,你想让它怎么做。
所以,为了满足这个需求,需要三个角色,分别完成三个任务:
Researcher:负责上网查资料,然后把找到的内容汇总成一份报告。 Editor:它的内容能力强、文笔好,负责根据Researcher提供的报告,撰写一篇笔记。 Note Taker:它的任务很简单,就是在Obsidian里创建一条新笔记,然后把Editor写好的东西贴进去。
这是一个非常简单的分工,很好理解。难点在于给Agent配什么工具。
你可以把大模型看作是一个单独的大脑,就像科幻电影里的那种。它只有“思考”能力,没有行为能力。所以,Agent除了装上大模型这个大脑之外,还得拿上工具——咱不能人家不能空手去干,对吧?
根据分工内容,Agent需要用到两个工具:
搜索工具:有了这个,Agent才能联网搜索。 笔记工具:Agent需要知道,笔记放在哪个位置,什么格式,以及新笔记的标题该叫啥。
关于搜索工具,今天已经有很多现成的了。比如Google、DuckduckGO,都可以直接用。我这边选择的是Tavily。他们提供的搜索API,专门为大模型和RAG优化过,效果挺好的。直接加两行代码就可以用。
关于笔记工具,这边需要动点脑子,因为Obsidian并没有提供一个接口让其它程序能够接入去创建笔记。不过,解法还是有的:
Obsidian的所有笔记都是md格式的。那么,咱们就直接在笔记所在的文件夹创建一个md格式的文件。也就是说,通过在外部创建笔记的方式,绕开在软件内创建的这一步。
所以,基于这个解法,就有了CustomTools这几行代码,指明了笔记文件夹的位置,以及文件名的规则——按照笔记创建的时间来命名。
当把这些组合在一起之后,就形成了这样一份脚本,包含这几部分:
基础设置,包括API Key是什么,具体的模型用哪个,以及工具的设置。 刚才介绍过的那三个Agent,它们分别负责干什么,以及允许它们使用什么工具。 分几个子任务完成,以及每一个子任务都由哪些Agent参与。
当把这些拼装完毕之后,运行脚本,等个十几秒,任务就完成了。
以后每次使用,我只需要把这一行修改了,也就是告诉Agent,让它帮我搜什么。
其实我也可以用Gradio添加一个可视化的界面。不过我自己使用就不讲究那么多了。
按照同样的逻辑,我们可以对这个脚本做一些修改。比如,输入一个公众号文章的链接,让Agent读取它,然后把内容全扒下来,做提炼和总结,最后存进笔记里,都可以。
我这边介绍的都是最简单的Workflow,主要是想让大家有个概念。真要是搞大一些的项目,整套系统设计会麻烦得多,会用到更多的工具和大模型,Agent之间以及Agent和用户之间的协作也会复杂起来。
OK以上就是本期内容。希望通过这期和上一期视频,大家能对Agent有一个基本的认知。还是那句话:RAG和Agent是用好AI的关键。大家有什么问题就来知识星球newtype找我。咱们下期见!
Key Takeaway
- ChatGPT无法直接生成PPT,但可以通过Marp和CSS语言作为桥梁,生成Markdown格式的代码,再转换为PPT。
- Marp是一款能将Markdown文件转换为PPT的工具,其语法简单,能满足日常PPT需求。
- 结合VS Code和Marp for VS Code插件,用户可以实现ChatGPT生成PPT代码,并在VS Code中预览和导出。
- 这种方法的核心在于利用Markdown的简洁性和Marp的转换能力,将PPT内容和排版通过代码实现。
- 文章强调PPT的核心是逻辑而非花哨排版,Marp和CSS能满足日常需求,但生成的PPT无法手动修改,只能通过代码修改。
Full Content
我终于找到让ChatGPT做PPT的方法了。
ChatGPT逻辑好、能联网,让它生成文字内容没问题。但是,要它生成PPT的话,就有点难办了。因为它回给你的还是文字,需要你自己去创建一个PPT,然后手动贴进去做排版。
举个例子。我跟ChatGPT说:帮我写一份介绍本田Dax E的介绍PPT。
ChatGPT会勤勤恳恳地把每一页的内容都写给我。但是,就像刚才说的,这些都只是文字,离PPT还有点距离。
让我来换一个问法。跟ChatGPT说:使用Marp和CSS语言,帮我写一份介绍本田Dax E的PPT。
这时候,ChatGPT给到的不是文字,而是代码。当这一长串的代码都输出完毕后,整个复制下来,贴到VS Code里边。可以看到,右边出现了PPT的预览效果。
跟之前需要手搓的方法相比,现在只需要借助一个软件,也就是VS Code,只需要一个操作,也就是复制、粘贴,就能实现PPT的生成。
要把PPT导出也很简单:
在VS Code命令面板里选择“显示并运行命令”,然后选导出Slide Deck。根据默认选项,它是导出PDF格式。需要PPT的话,在格式列表里选上就OK。等个几秒,它导出后会自动打开。然后咱们打工人就看到非常熟悉的界面了。
我这边使用的方法,核心思路就是通过Marp语言作为桥梁。Marp指的就是Markdown Presentation Ecosystem。顾名思义,它可以把Markdown格式的文件转成PPT。
所以,ChatGPT或者别的AI工具负责按Markdown格式输出,把PPT里该有的内容都放在里边,然后一起交给Marp做转换。这个就是我说它是桥梁的原因。
关于Markdown,你如果之前用过很多生产力工具,比如我之前推荐的Obsidian,还有世界上最好的写作软件Ulysses,那你对Markdown应该不陌生。它的语法超级简单,比如一级、二级、三级标题,还有加粗、加序号、加图片之类的。这些换到PPT里边也是成立的——一般来说,PPT的内容主要是由文本块和图片构成。
而且,根据我这十几年做PPT的经验——请相信我,我在传播营销行业,我们这行业的人是地球上最会做PPT的一群人,越是成功的PPT,越不复杂。因为,PowerPoint的核心是Point;Point的核心是逻辑,不是那些花里胡哨的排版。所以,Marp语言本身对版式的支持,再加上CSS的能力,基本上能满足日常PPT需求。
OK,ChatGPT能输出Markdown,那么,该用什么显示和导出呢?工具有好几种。我选择的是VS Code,因为我平时写Python都是用它。所以我只需要再安装一个Marp for VS Code插件就好了。
就像刚才演示的那样,在VS Code里新建一个md格式的文件,把ChatGPT给的代码都贴进去。如果有任何地方要修改的话,就直接让ChatGPT改去,不管是内容还是版式,让它重新生成一遍。反正Plus包月了,不需要考虑token费用,可以让ChatGPT一直改到满意为止。
不过,从效率角度出发,我建议大家也别全依赖ChatGPT。弄差不多了就自己上手改改代码呗,反正挺简单的。
最后我要提醒两点:
第一,用这种方式生成的PPT,没法手动修改。要改的话只能回到代码里去修改。
第二,Marp的优点是简单、好上手。如果你觉得它太简单的话,还有别的,比如Slidev。这个真的挺复杂的,上手难度高,我之后在社群里分享吧。
OK,以上就是本期内容。想进一步交流的话,来newtype找我,我都在。那咱们下期见!
Key Takeaway
- Agent平台分为生态流派(如钉钉)和工具流程流派(如dify),dify通过提供知识库和工具来创建Multi-Agent System。
- 学习Agent应从dify入手,因为它将代码逻辑以直观的流程图形式呈现,便于理解和实践。
- dify的工作流设计强调逻辑和流程的整体性,大模型仅在需要时介入,而非主导一切。
- 工作流可以根据用户输入进行条件判断和分支处理,实现更精细化的任务执行。
- dify的工作流示例(如文本总结)展示了如何结合知识库和Prompt来提升大模型的专业能力。
- 通过dify实践Agent,有助于建立对Multi-Agent System的基本认知,并为学习其他Agent框架打下基础。
Full Content
Agent平台有两大流派:
一是生态。比如钉钉这种。
在钉钉上边,已经承载了大量企业的部分业务,沉淀了很多内部数据。这时候你在原有生态基础上添加Agent,让企业能调用大模型的能力,并且围绕这个能力去构建智能化的工作流,是非常顺理成章的事儿。
二是工具流程。比如dify这种。
dify提供了创建Multi-Agent System需要的两个基础:
知识库和工具。其中,工具你可以用现成的,也可以自己创建。在这两个基础上,你再去搭建Chatbot、Agent,或者一大套工作流。
很多小伙伴看了我前几期视频,跑来私信问我该怎么学习Agent。我的建议是,通过擅长工具和流程的dify来上手。两个原因:
第一,之前在知识星球newtype里反复讲的——Agent最核心的,不是技术,而是工作流,是你想让它们具体怎么做。
dify在这方面做得特别直观——它把代码的逻辑,用流程的方式,在画板上呈现出来。你一用就明白。我待会儿会演示。
第二,也是我之前总强调的,Learning by Doing,边做边学。
对咱们来说,AI不是一个理论问题,而是一个实操问题。而dify特别适合拿来拆卸和组装。你就把它当作玩具、当作积木。当你把一个Workflow跑通了,不仅能学到点东西,而且还挺有成就感的。
那么,具体该怎么上手好呢?很简单:
先看看人家是怎么做的。dify官方提供了好多现成的工作流,你随便挑一个感兴趣的,拆开研究研究。然后再自己亲自动手,搭建一个简单的试试。
我带大家过一遍官方提供的工作流Sample,这个叫“文本总结工作流”。
一般来说,一套工作流是以用户的输入作为起点的。在这个文本总结工作流里,它要求用户输入需要总结的文本,并且选择总结之后是个概述,还是技术摘要:
如果只是概述的话,那很简单,直接让大模型搞就好;如果是技术摘要的话,就会涉及到很多专业的概念和表述,这就需要用到知识库,毕竟大模型的预训练资料中不包含这些Domain Knowledge。
第一步让用户二选一,那么在第二步,就需要根据用户的选择,做一个条件判断,用到if、else——这个对有编程经验的小伙伴来说,应该非常亲切。
因为有了条件判断,所以在第三步出现分叉,就像前边说的:
如果用户要的东西会涉及到专业内容,那么就去知识库里检索一下。然后把用户要总结的文本,以及从知识库里找到的相关内容一起给到GPT-3.5。
如果用户单纯只是要一个文本的概述,那就直接把需要总结的文本给到GPT-3.5,省掉知识库检索的步骤,速度会快一些。
当分叉的第四步完成之后,第五步就是把两个分支进行合并。不管是哪种情况,反正把结果拿过来,给到第六步,套进一个模板,最后全部完成。
这就是一个典型的工作流。我之所以拿出来介绍,是希望大家能理解人家的思路:
第一,大模型并不是全部,而是在一些需要它发挥作用的环节才出手。最重要的还是逻辑、流程,是一个整体性的东西,需要你有全局观。
就像刚才那个分叉,你如果在一开始没有特意让用户帮你做一个选择,以及后边不加条件判断环节的话,那你只能不管三七二十一都去知识库里做检索,这样速度会慢很多。
第二,如果涉及到知识库的话,需要给大模型提供两个东西:知识库里检索到的信息,和最初用户的需求。这一步跟RAG里的流程是一样的。
这两个输入,可以在大模型的Prompt里交代清楚。你愿意的话,可以在这边把你期望的格式也告诉大模型,其实也就是CrewAI里的expected output。
除了我刚演示的官方Sample,其它的也建议大家看看,就知道一般都有哪些玩法了。举个例子:
如果需要根据用户的输入来判断后边怎么执行的话,除了刚才那个if、else的条件判断,还可以用“问题分类条件”——根据不同的内容,去对应的知识库里找参考资料,然后再给大模型回答。
当你把这些现成的工作流都吃透了,就可以自己上手组装一个了。一旦跑通了,你对Multi-Agent System的基本认知就有了。
假如你之后学了某个Agent框架(比如AutoGen)就会发现,逻辑都是一样的。而有了在dify上建立起来的理解,你再用Agent框架应该会顺手得多。
OK,以上就是本期内容。有什么想聊的,来知识星球newtype找我,我都在。咱们下期见!
Key Takeaway
- Brave浏览器通过与本地大模型(如Ollama)打通,实现了浏览器内置AI功能,提升了用户上网冲浪时的效率和便捷性。
- Brave的AI功能支持直接对话、选中文字总结以及将当前网页内容作为大模型参考。
- 文章强调了浏览器与AI打通的必要性,并认为Brave在大方向上是正确的,但未来大厂(如Chrome与Gemini)的跟进将带来竞争。
- 尽管Brave的AI功能仍处于测试阶段,但其本地化部署和与开源大模型的结合,为用户提供了更多选择和自由度。
Full Content
所有软件都应该跟AI打通。比如我们最常用的浏览器。
当你上网冲浪,突然想问些什么或者想生成点什么,这时还要特意打开个网页(比如ChatGPT),或者切换到别的APP(比如Obsidian),这就特别麻烦、有点不爽。
于是,Brave浏览器就来了。这款产品存在应该有好几年了。免广告之类的常规功能就不说了,它最吸引我的点在于,可以跟本地大模型打通,比如在自己的电脑上运行千问之类的,然后去实现我刚才说的那些场景功能。
大家想尝试的话,记得下载Nightly版本。这是测试版本,每晚更新。下载好了一路安装。搞定之后,来到设置页面,点击这个Leo——这是他们给自己的AI Assistant起的名字。然后在添加模型的设置里,跟Ollama关联上。
Ollama是目前特别主流的在本地跑开源大模型的工具。你可以去他们官网下载软件,然后在终端里通过一行命令就可以下载你想要的大模型,比如我用得最多的qwen2。
当软件和模型都准备完成后,打开Ollama,你会看到,它会驻留在状态栏里。每当要调用大模型的时候,它才会启动。好处是可以一直挂着,坏处是第一次启动的时候可能得稍等个差不多10秒,需要把大模型加载一下。一旦启动起来就特别快了,真的比云端的爽多了。
要把Brave跟Ollama关联上很简单。如果你像我一样没有对Ollama做一些设置调整的话,那就按照提示,把地址填进去,把要跑的模型名称填进去。只要名称对得上,那基本不会有问题。
回到前端的交互页面,从侧边栏可以打开Leo AI。官方有提供大模型,不过咱们这边是要用本地的,所以选择刚才设置好的千问。直接对话交流完全没问题。要结合正在浏览的网页的话,有两个方式:
第一,可以在网页当中选中一部分文字,右键就能看到官方预设好的AI功能,比如总结之类的。
第二,把输入框上边这个按钮勾选上之后,就会自动把当前浏览的网页给到大模型作为回答参考。
不过我发现,这不是我们平时用RAG的那种处理方法。因为我试过,如果是一篇长文章的网页,它会提示只阅读了一部分,这说明它的方法很简单粗暴,就是把所有内容都作为上下文给过去。当超出上下文窗口的限制了,才会提示没有读完。
但话又说回来,如果真用RAG那套东西的话,还要搞Embedding什么的,就会变得特别重,不适合浏览网页这个场景。因为用户会不断打开新网页,并且来回切换的。
目前Brave浏览器的AI功能还属于测试阶段。就像前边说的,我觉得浏览器和AI打通特别有必要。Brave这个大方向是OK的。不过,大厂肯定会跟进,比如Chrome,绝对会通过Gemini实现同样的功能。对于Brave这种产品来说,活下来的一个方法是,给到用户更多自由。我特别希望它后续能加上更多自定义功能,至少把模型提示词先放出来,肯定能提升日常使用频率。
OK,以上就是本期内容。大家想找我的话,来newtype社群,我都在。那咱们下期见!
Key Takeaway
- 腾讯元宝是普通用户入门AI的最佳启蒙工具,因其全场景覆盖、双模型支持和腾讯加持版R1。
- 元宝提供网页版、桌面客户端、手机APP和微信小程序,并支持微信文件导入,实现多场景无缝切换。
- 元宝结合DeepSeek-R1(慢思考)和混元Turbo S(快思考)双模型,兼顾深度和效率。
- 腾讯对R1进行了增强,包括接入公众号文章搜索来源和图片识别能力,使其成为“满血版”R1。
- 文章强调腾讯在C端市场的强大产品能力和自研能力,以及AI普及对普通用户的意义。
Full Content
DeepSeek火爆,最开心的厂商肯定是腾讯。
因为,当每家公司都接入DeepSeek,模型都一样,模型能力都拉齐之后,拼的是什么?拼产品。那么,拼产品,腾讯有怕过谁?更何况,除了DeepSeek,腾讯手里还有自研的混元大模型。
你发现没有,过完年的这段时间,一直很佛系、很随缘的腾讯突然变得凶狠、坚决了许多?
在B端,腾讯云把DeepSeek融入核心产品线,而且还推出基于DeepSeek的云服务和解决方案。
在C端,元宝一口气冲到APP Store免费榜亚军的位置,力压Kimi、豆包,仅次于DeepSeek官方APP。
我认为,普通人用AI,从元宝开始肯定是最佳的AI启蒙工具。我之前发的视频,大部分都是面向有一定基础的用户。然后每隔一两天就会有人私信问,纯小白该怎么上手AI?
很简单:AI时代最高效的学习方式就是Learning by doing。上手用起来,并且平时高频率使用,比你看一百篇教程都重要。而元宝就是普通用户、非Early Adopter的第一入口。三个原因。
第一,全场景覆盖。
用AI跟拍照其实是一个道理。能带出去的相机就是好相机。同样地,能让你随时用上AI的产品就是好产品。
元宝有全平台的网页版,Mac和Windows双支持的电脑客户端、iOS和安卓双支持的手机APP,以及不需要安装的微信小程序。
四端实时同步的特性,完美适配多场景切换。比如在电脑端没有完成的对话,外出时可通过APP继续讨论。我一般会把那些需要反复讨论的聊天置顶,这样下次就不用去历史记录里找半天了。
在这些基础功能之上,腾讯还做了一件只有腾讯能做到的事:
从微信里导入文档。
我相信,90%以上的用户把微信的“文件传输助手”当做“文件存放助手”来用,啥都往里放。因为在手机上,微信是第一入口。在微信里找文档是顺理成章的事儿。
那么,很自然地,在手机上,如果要把文档给到AI去分析,从微信直接导入过去是最方便的。
所以,当你在元宝APP里点击右下角的加号按钮时,会看到“微信文件”这个选项。它会跳到微信,然后通过元宝小程序作为桥梁,实现微信文件传输这个功能。或者反过来,直接在微信里“用其他应用打开”、选择元宝也可以。
你看,这个就叫产品能力。看起来很小的一个功能点,但是很实用、很贴心。这个就是典型的腾讯风格。
我挺希望接下来能有更多微信和元宝之间的联动的。比如,一篇很长的公众号文章,点右上角的转发按钮,能有一个“在元宝中打开”的选项。然后也像现在的“深度阅读文档”那样,给出总结、精读和脑图三个选项。我相信这肯定会成为爆款功能的。
第二,双模型支持。
DeepSeek-R1很好,但是它并适合所有使用情况。
像R1这类推理模型,通过多阶段训练,尤其是强化学习,最终获得了逐步推理和思维链的构建能力。于是,它们在面对复杂问题的时候,会先分析问题、识别关键点,再逐步得出结论。
但是,我们日常使用的时候,所有问题都是复杂问题吗?所有问题都值得等个好几秒才能获得答案吗?
显然不是啊。所以,光有DeepSeek-R1还不够,还得有别的模型。这个时候,自研能力的重要性就体现出来了。
前两天,腾讯上线了混元Turbo S模型。如果把DeepSeek-R1、混元T1称为“慢思考模型”的话,那么混元Turbo S就是“快思考”模型。它首字时延更低、吐字速度更快。两个字总结:
秒回。
在元宝里,当你选择混元模型,把“深度思考”按钮关了之后,就是用混元Turbo S做快问快答了。
说真的,我之前用了一段时间R1,每次看到一个简单的问题,它在那边琢磨半天,我都特别无语。比如,我说个“哈喽”,它想了5秒才回答,内心戏太足,有一种赛博朋克的荒诞感。
所以,“慢思考”加“快思考”,双模型搭配,日常使用效率才高。
第三,腾讯加持版R1。
现代大模型已进化为"应用平台",
两年前的模型,基本就是单纯的文字对话。而今天的模型多了许多关键功能。比如你看Google的Gemini 2.0,强调“原生”的概念——原生的图像生成,原生的文字转语音,原生的工具使用。
这种大集成的目标,是为了打造一个universal AI assistant。这也成为现在旗舰模型的标配。
国内媒体为了流量,在吹捧DeepSeek-R1的时候,只聚焦在它的推理能力上,其它方面有意不提。所以,给R1加上更多工具、更多功能的任务,就落到应用厂商身上了。在这方面,元宝有两个点我特别喜欢。
一是搜索来源包括公众号文章。
中文互联网这几年泥沙俱下,能看的内容不多了。所以我在用Perplexity之类的工具时,都会在Prompt里特意强调:即使我用中文提问,你也给我去搜英文的网页。
如果要说还有哪里有不错的内容的话,那应该只剩公众号了。这个平台的内容属于腾讯的独家资源。这次元宝的搜索就用上了。
公众号的高质量内容,加上DeepSeek-R1的强推理能力,等于Quality in,quality out。
二是图片识别能力。
R1本身是不具备识图能力的。所以,包括DeepSeek官方在内的应用,都是添加一个OCR的功能,把图片上的文字提取出来,然后给到模型继续处理。
但是,如果图上没有文字,我就是想分析纯图片呢?
这个就是腾讯对R1的第二个加持。他们先对图片内容进行分析,把结果给到R1做回答参考。
Key Takeaway
- QAnything是一款适合普通用户的知识库产品,支持创建多个知识库,并能处理文档和网页内容。
- QAnything的机器人功能可将知识库以链接形式发布,用于团队协作或AI客服。
- QAnything在RAG技术上有所创新,采用了Rerank技术(二阶段检索)提升检索精确度。
- 文章强调了国内厂商在AI应用方面的优势,以及知识库作为用户数据资产的重要性。
- 知识库的未来发展方向包括根据语义进行文本切割,以及支持多模态内容。
Full Content
今天给大家介绍一款普通用户也能马上上手的知识库。
我有一个感觉:国内厂商要开始卷知识库类产品了。现在大体上有两个阵营在蠢蠢欲动。
一个是模型厂商阵营,像月之暗面、Minimax。在研发大模型的同时,他们一定会围绕知识库去打造面向C端的产品。我打个比方你就理解了:
如果AI是【水】的话,那么今天每家都有的Chatbot就是【瓶装水】。这些【瓶装水】已经满大街都在卖,价值肯定越来越低。即使是头部的ChatGPT也会面临用户流失的压力。
所以,围绕AI这个【水】去开发新品类,一定是各家模型厂商必须要做的事儿。而知识库已经是公认的刚需,C端有需求,B端也有市场,而且在Chatbot上做加法,逻辑上是通的,所以大家一定会往这个方向走。
另一个阵营是传统互联网厂商。原因也很简单。
知识库里装的是什么?用户数据资产。而且是用户最重视的数据资产。这些数据资产落在哪个平台,用户就会留存或者迁移去哪边。所以,谁能利用好大模型技术,先打造出性能最好、最容易上手的知识库产品,谁在这一轮AI竞赛中就能守住地盘,甚至去挖别家的墙角。
传统互联网厂商阵营中,我看到走得比较快的,是网易。这家公司一直都很有做产品的基因。本期要给大家推荐的产品叫【QAnything】,我前两天在知识星球里推荐过。
我之前介绍了很多知识库的项目,实话实说,都需要一定的动手能力才能跑起来,其实不太适合普通用户。
我觉得对大家来说,在这个AI时代,先上手,先用起来,比什么都重要。
QAnything就是特别适合普通用户的产品。产品很直观,而且比很多老外的产品都做得更好。
就拿知识库的创建和选择来说吧。
很多同类型产品,要么是只有一个大知识库,要么虽然可以创建多个知识库,但只能选定一个知识库,只能针对一个知识库内的文档进行对话。
QAnything支持创建多个知识库。所以,你可以像使用文件夹一样来管理资料。比如我就创建了三个知识库:
- 一个放大模型相关的论文,都是PDF文档;
- 一个放我newtype公众号的文章,其实也就是我视频的脚本;
- 一个放平时看到的、想保存的各种文章。
如果要选择不同的知识库,非常简单,就点几下就好了,看一眼就明白什么意思。
在做应用方面,你永远可以相信国内厂商。
我特别喜欢QAnything的Slogan:万物皆可问。这个就是技术趋势。
目前可以提问的对象是文档和网页。等之后大模型多模态速度提升、费用下降之后,视频肯定也会支持。
上传文档的功能我就不多说了。大家可以多试试【添加网址】功能。我把平时看到不错的公众号文章都传了一份进去。因为我发现,经常会想不起来在哪篇文章里看到的一个观点。那现在有了知识库,我直接问AI就好了,相当于模糊查询,还挺实用的。
在知识库的基础上,有道团队还加了机器人功能。你可以给机器人设定一些Prompt,然后关联上知识库,最后以链接的形式发布出去。
在我看来,机器人功能有两个作用。
第一,把链接分享给同事。比如,你可以安排一个实习生小朋友定期把团队文档上传到知识库里,然后以机器人的形态对内发布。这对团队来说肯定有帮助。
第二,把链接分享给客户。比如,可以把链接挂到公众号菜单栏里,当作AI客服来用。
之所以会有这个想法,是因为我看到,在知识库里,除了上传文档集,还可以上传问答集,也就是大家最熟悉的QA。比如公司介绍、产品介绍等等。这些信息,每个公司肯定有有现成的,传上去就能直接用起来了。一个简单的AI客服就搞定了。
我这几天使用下来发现,QAnything的精确度还不错。有道团队对RAG技术还是有关注的,他们使用了Rerank技术,也就是官方所说的【二阶段检索】。
Rerank并不是什么特别高深的技术。大概半年前,我看油管就有大佬在介绍,并且分享了代码。它的原理很简单:
根据用户的提问,我们从向量数据库里筛选出50个相关的文本块。但是,肯定不能把这50个全都输入给大模型,一方面是上下文长度有限制,另一方面是这50个文本块中肯定有些相关性还差一些。这时就进入Rerank阶段,对这50个文本块进行相关性排序,比如,我们设定了把相关性最高的3个或者5个给到大模型。
这么一套操作下来,由于添加了Rerank步骤,那检索的精确度肯定会提升。不过代价也是有的,那就是速度下降。
RAG技术里有很多门道。刚才说的是检索阶段的Rerank。在前边的文本切割阶段也有很大提升的空间。
传统的做法,不管你怎么设定文本块的大小,其实都不是最合适的。最理想的做法,是根据语义做切割,这样才不会把上下文意思给硬生生切断了。那谁来做这个判断呢?当然是大模型啦。
像这些新发现、新技术,国外一直在出。希望咱们国内厂商也能保持高度关注。我发现,国内对技术的了解落后非常多。这种信息差比技术差还大。
OK,以上就是本期内容。接下来,我会多介绍一些门槛不那么高的产品,让更多人都能快速用起来。大家如果有问题的话,可以来知识星球找我。咱们下期见!