RAG

AI学习法:Deep Research + Obsidian + Cursor

Key Takeaway

  • 作者介绍了一种结合Deep Research、Obsidian和Cursor的“AI学习法”,旨在实现深度研究、知识提取和知识图谱构建。
  • Deep Research提供高信息密度的输入,Obsidian通过反向链接功能将报告中的知识点系统性地关联起来。
  • Cursor的Composer功能能够直接对Obsidian笔记进行知识点提取、解释和内容生成,充当强大的AI辅助工具。
  • 这种学习法强调了AI工具组合使用的价值,以实现超越单一工具的效果。
  • 建议在与AI工具交互时,将复杂任务分解为清晰的步骤,以提高效率和准确性。
  • 长期来看,定期回顾和复习知识点对于巩固学习效果至关重要,可利用Obsidian的随机笔记插件辅助。

Full Content

介绍一个我最新研究出来的“AI学习法”,非常强大。它用到了Deep Research、Obsidian、Cursor,可以针对你的需求做深度研究、知识点提取和解释,并且形成知识图谱。

去年我出过一期社群专属视频,介绍了用Cursor搭配Obsidian使用。其实当时就有这个想法了。现在有Deep Research,这个AI学习法终于可以闭环了。

Deep Research是第一个环节。它可以提供信息密度非常大的输入。但是要完全消化的话,还需要对报告里的知识点做进一步处理。

于是,就需要Obsidian。它的反向链接功能特别好用。在一篇笔记内,如果提到了另一篇笔记,就可以链接过去,最终形成一个知识图谱。这是我把Deep Research的结果放进Obsidian的原因——让作为报告的笔记,和它相关的知识点笔记都关联在一起。这有助于我们系统性地去理解。

那么,问题又来了:知识点该如何提取和解释呢?于是,就需要Cursor。

Cursor的Composer功能可以直接对文档做修改,还可以创建新的文档。用它打开Obsidian存储在本地的笔记,通过对话就能完成一切。

最终,回到Obsidian里,我们不仅能看到一篇深度内容,而且每一个知识点都帮你捋得明明白白。剩下就靠你自己了。

AI都帮到这份上了,还有什么理由学不会?

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经快1000人付费加入啦!

回到今天的主题:AI学习法。

我在社群内分享过,想借助AI获得Unfair Advantage,其中一个关键,就是知道如何组合使用各种AI工具,获得框架之外的效果。我的AI学习法就是最好的例子。

我给大家做一个实操演示。议题是:DeepSeek-R1有哪些技术创新?

Deep Research我用OpenAI的。目前在这个应用上,他们是全球最贵、全球最强,没有之一。稍等几分钟,一个非常详细的技术解析报告就生成了。

就像前边说的,这个报告信息密度很高。你要是硬啃的话,估计有点难度。于是,我把它复制下来,放到Obsidian里边。为了方便演示,我创建一个新的文件夹,这样一会儿大家看得比较清楚。

另外,我这边只截取了报告的第一部分,并且把Markdown格式全都去干净了。因为我发现,如果文章中有太多Markdown语法的话,会对Cursor有很大影响。很有可能它就没法对文章做修改了。

OK,接下来在Cursor中打开文件。记得在右边栏选择Composer,而不是Chat。

关于Cursor的三种模式——Chat、Composer、Agent,我之前在社群内说过:如果你要自主掌控的话,用Chat模式,可以选择接受哪一部分代码;如果你要全自动化的话,选择Agent。而Composer居中,有一定的自动化能力,正好是我们现在需要的。

接下来,把第一步需求告诉Cursor:帮咱们提取知识点,用Obsidian的反向链接格式标注出来。其中,那些常规名词不需要标注,比如公司和产品的名称。

我演示的文章不长,所以Cursor没多久就搞定了。如果是很长的文章,它会分批操作,需要我们说“继续”了,它才会继续。

第一步完成之后,这篇文章里的知识点都被标注出来了,非常清晰。第二步就是对每一个知识点都创建一个空白的md文档。文件名就是知识点的名称。也就是说,每一个知识点都是一条笔记。这样一来,通过反向链接功能,也就是前边的标注,就能把这些单独的知识点和原文串联在一起。

创建这些空白文档对Composer来说非常容易,很快就搞定了。那么第三步就是填充内容。在刚才创建的每一个空白文档内,补上这个知识点的解释,并且要通俗易懂。

因为这些都是技术名词,不是什么时效性比较强的内容,所以模型用自己的知识储备就可以搞定。

这三步完成之后,咱们就可以从Cursor回到Obsidian了。可以看到,点击文章中的知识点,就会跳转到知识点的笔记,里边有专门的解释。而打开文章的链接图谱,可以看到这篇笔记都关联了哪些笔记。需要的话,你也可以从图谱里任意跳转。

我这边演示的都是基本操作。大家在实际使用过程中可以做细化和调整。比如有哪些知识点你觉得不需要的话,可以手动删除,或者让Cursor帮你搞定。另外,当你吩咐Cursor干活的时候,尽量把步骤拆开,比如我刚才就是分成三次让它操作,并且交代得明明白白。这样才能避免很多奇怪的问题发生。

最后,One more thing:长期来看,你还需要时不时去回顾、去review之前的知识点,才能有比较好的效果。不然那些笔记都堆在那里,你再也记不得。所以,针对这种情况,我推荐安装这个插件:Open random note。就像名字说的那样,你点击一下,它就会随机打开一篇笔记。所以,你闲着无聊的时候就点几下,看几条笔记呗。相信我,真的有效果。

OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!

AI知识库的终点

Key Takeaway

  • 传统RAG在处理复杂查询时存在局限性,无法有效捕捉实体关系和层次结构。
  • Second Me项目通过混合记忆架构(结合RAG、GraphRAG和本地模型微调)来解决传统知识库的局限,旨在打造一个能模仿用户风格、语气和关注议题的“第二个我”。
  • 混合记忆架构包含三个层级:L0(快速检索层,RAG)、L1(记忆深度处理与结构化层,GraphRAG)和L2(模型个性化微调层)。
  • Second Me的部署和训练过程包括自我介绍、上传资料、输入API Key和选择Base Model,核心在于五个步骤的训练。
  • 该项目能够实现个人知识库与大语言模型能力的结合,提供更先进的AI交互体验,并具有将个人分身发布到网络供他人调用的想象空间。

Full Content

每一个搭建AI知识库的人,都有一个终极梦想:

把自己手头的所有资料,甚至毕生所学,全都教给AI。这样一来,我们知道的,它都知道。而且,它还有我们不具备的超强计算能力。

简单来说就是:第二个我。

用RAG做不到这一点。过去一年,我出过好多期关于RAG的视频。但是,当我了解得越深、用得越多之后,我越来越明白RAG在技术上的局限性。

你想嘛,无论你用什么样的策略,最终召回的还是那些被切碎的、独立的文本块,这一点不会改变。

要实现刚才说的“第二个我”的终极目标,今天的RAG还太初级。但是我知道,肯定有人在研究、在开发。

Second Me就是截至目前最让我欣喜、最让我看到希望的项目。

它采用混合记忆架构,有点类似于咱们人类大脑的短期记忆和长期记忆。

为了实现这个架构,Second Me把RAG、GraphRAG都用上了,去深度处理用户提供的文档。最后,基于这些处理过的数据,它还在本地微调一个模型。

也就是说,这个项目其实已经脱离了知识库的范畴。因为最后我们进行交互的,是一个完全根据你的风格、语气、表达方式,以及最关心的议题所定制出来的模型,再搭配上结构化处理的知识库。

这样一套解决方案,比我们现在在用的AI知识库,显然先进得多。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有超过1000位小伙伴付费加入啦!

回到今天的主题:Second Me。

这个项目其实是社群里的小伙伴发现的。当时他在星球问我,怎么本地部署。我试了一下,完全没问题啊,一路上没遇到任何报错。

就像GitHub上说的那样,你先把Python和Xcode命令行工具安装好,这是必须的。

然后把整个仓库下载下来。我当时没用这行命令,而是直接下载压缩包。

再然后,用cd命令进入项目文件夹,运行make setup。它会自动安装需要的一切。你就啥也别管,等着好了。

等全部安装完成,用make start命令启动项目,然后打开一个本地链接,就可以开始训练了。这个环节也很简单,就做三件事:

第一,做个自我介绍。因为,你给的资料,最终一定要跟你的身份属性相结合,才能描绘出一个生动的你。不然就只是一堆“死”的数据。

第二,上传资料。你可以直接贴文字进去,也可以上传文档。我是直接把我视频脚本的文件夹拖进去了。

第三,输入OpenAI的API Key,以及根据你机子的性能,选择一个Base Model。

这边我需要说一下。我的机子是M4 Pro芯片,48G统一内存。平时跑7B的模型完全没压力,所以就选了7B。结果到最后的微调环节,内存压力还是有点大的。我不得不把处理项目以外的软件全都关了,才顺利完成。至于OpenAI的API,花不了多少钱。你看,我这边快100个文档,花了3美金。因为它用的是GPT-4o mini,白菜价。

当你把这三步都设置完毕,就可以正式开始训练了。Second Me的核心,就在这五个步骤的训练中。

第一步,它需要下载Base Model,用的是Qwen2.5。最后的微调就是基于这个模型进行的。

第二步,处理用户上传的资料。这边用到了RAG技术,也就是把所有文档切成更小的文本块,然后把文本块转换成向量表示,最终完成基础数据的准备、索引的创建。

第三步,提取更深层次的结构化信息。这应该就是GraphRAG技术。因为通过第二步的处理,我们得到了一大堆文本块,它们都是独立存在的,是散的。但是,如果你站在整篇文章的角度来看,文本块之间,或者说上下文之间,应该是有逻辑关系的。由于RAG技术的局限性,这种逻辑关系丢失了。

所以需要GraphRAG,把人名、地名、概念等等实体,以及实体之间的关系,全部识别、提取出来,形成一个关于你这个人、关于你的知识体系的图谱。

第四步,准备用于微调的数据集。光有用户上传的资料还不足以进行微调。因为这些资料当中,哪些数据需要增强,还得依靠前两步的处理才能知道。比如,跟用户身份特征有关的数据显然需要强化。

第五步,正式开始微调。这一步最吃性能,也最花时间。我从下午等到晚上才搞定。

这五个步骤,其实就是在实现所谓的“混合记忆”架构。这个架构包含L0、L1和L2三个层级。

第二步的RAG,对应的是L0,也就是“快速检索层”。它是一种简单、快速的记忆检索机制。你可以把它看成是人类大脑的短期记忆。

第三步的GraphRAG,对应的是L1,也就是“记忆深度处理与结构化层”。它的目标是深入理解记忆内容,提取结构化信息。你可以把它看成是人类大脑的长期记忆。

第一步、第四步和第五步,对应的是L2,也就是“模型个性化微调层”。它的产物,就是那个经过个性化训练、能够模仿用户,并且利用知识库的Second Me模型。

这一大套的东西,都是为了让三个层级共同协作,实现了一个把用户个人记忆,或者说个人知识库,与大语言模型能力相结合的“混合记忆”系统。

至于怎么使用,很简单:点击“Start Device”,这个项目会通过llama.cpp加载训练好的模型,然后咱们正常对话就好。

因为资料都是我自己写的视频脚本,所以我再清楚不过了。我用下来的感受是,它不像RAG那么机械,没有那种复读机的生硬感。它似乎跟我一样了解所有的内容。这个就是“混合记忆”带来的体验。

说实话,一年前,我跟VC的小伙伴喝茶的时候还讨论过,可以参考人类记忆的特性去打造个人AI分身。现在看到有人实现了,我是真的很高兴。

AI笔记法

Key Takeaway

  • AI正在改变学习和笔记方式,NotebookLM等工具改变了从文档获取知识的方式。
  • Basic Memory项目旨在解决AI长期记忆问题,通过Markdown格式本地保存笔记,并用MCP连接AI,实现自然语言交互。
  • 作者的AI笔记系统采用“漏斗结构”,由AI笔记库(Basic Memory创建和管理)和个人管理笔记库(Obsidian)组成。
  • AI笔记库由AI自动创建文件夹和标签,作者只负责下达指令和筛选有价值笔记。
  • 强调利用AI的智能和效率,将先进生产力引入个人体系,拉开人与人之间的差距。

Full Content

AI正在完全改变我们学习的方式。

比如,能联网搜索的Chatbot,以及更强大的Deep Research,改变了我们从互联网获取知识的方式。

一枝独秀的NotebookLM,改变了我们从文档里获取知识的方式。

现在,我们记录思考,或者说做笔记的方式也将发生改变。我给你们演示一下。

左边是Cursor,右边是Obsidian。我让它帮我记录这条笔记:

开源模型的价值体现在本地化的场景中。但是本地化场景里最重要的是数据和业务流改造,而不是模型。

接到请求后,Cursor调用了一个MCP,完成了笔记的创建。在右边可以看到,它根据笔记的意思,创建了一个文件夹,并且还给笔记打上对应的标签。

那既然它能记录笔记,当然也能完善笔记。比如当我有一些不太成熟的想法时,就可以这么做。

我跟Cursor说,帮我记录并完善这条笔记,关于如何提升AI产品性能。你看,它不仅把我想的东西补充完整了,还根据它自己的知识添加了两点。

我再演示一个很常见的场景。我们平时会遇到一些概念、观点之类的,觉得有价值,但是又不知道它们的确切意思。这个时候就可以让AI帮忙解释,然后记录下来。

比如,“数据中心是新的计算单元”,这个是老黄的观点。我让Cursor解释并且记录。

在这个时候,Cursor先调用了Sequential Thinking这个MCP,进行多步骤推理,确保解释的完整性。当它觉得逻辑完整了,就会开始记录。在右边的Obsidian里,咱们可以看到,它对这一句话做了很详细的拆解。

刚才这些只是非常简单的演示。在实际使用当中,我还加上了搜索的MCP,让AI的信息获取能力更强。而那个帮我记笔记的MCP,叫作Basic Memory,就是我今天要推荐给大家的项目。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有超过1000位小伙伴付费加入啦!

回到今天的主题:Basic Memory。

这个项目主要是想解决AI长期记忆的问题。我们平时跟AI对话,很多东西聊完就过去了、丢掉了,挺可惜的。于是,Basic Memory的想法就是,用笔记的方式存下来。

第一,所有笔记都以Markdown的格式保存。这种格式,人类看得懂,AI也看得懂,再合适不过了。

第二,所有笔记都保存在本地,不用担心隐私泄露。而且有需要的话,可以用其它工具处理,比如Obsidian、Cursor。

第三,笔记仓库和AI之间,用MCP连接。AI可以自动创建笔记、读取笔记。而且由于是MCP,所以完全支持自然语言交互,你直接发号施令就可以。

我其实没想这么多,完全不care什么长期记忆之类的。我的需求很简单:当我跟AI聊到什么有价值的东西,或者我脑子里冒出什么新想法的时候,我希望AI能充当记录员、小秘书的角色,帮我记录、帮我补充。

要安装Basic Memory很简单,一共就两步,有手就行。

第一步,在终端里运行uv tool install basic-memory这行命令。

我来解释一下。这个uv是一个快速、轻量级的Python包管理工具。大家经常安装开源项目的话,肯定有用过pip,比如pip install、pip list等等命令。uv的好处是,速度更快,功能更全。比如包管理、虚拟环境、工具管理,它全都有,不用再装一堆其它工具了。

类似的还有npm,只不过它针对的是JavaScript,这个我就不多说了。

当我们通过刚才那行uv命令安装完毕之后,就可以进入第二步,把这几行贴到配置文件里。

这个uvx是刚才介绍的uv的一部分,属于子命令。用它可以运行Python包里的命令。而且它有一个好处,是可以自动创建一个临时的虚拟环境,很方便。

我是在Cursor里使用的,所以就在Cursor的MCP配置文件里,把这几行贴进去,然后保存。在MCP服务器列表里就可以看到这个项目了。

Basic Memory用起来很简单,就像最开始演示的那样。我重点谈谈我对它的定位和思路。

现在我会有两个笔记库:一个是原来的Obsidian Vault,完全由我亲手创建、亲手管理。另一个是新增的,由Basic Memory创建和管理的AI笔记库。

对于这个AI笔记库,我是完全放手,绝不干预。比如,里边的文件夹设置,每条笔记的标签,都交给AI去搞。我只做两件事:

第一,下达指令。有什么需要记录的,随时跟AI说。

第二,筛选笔记。AI笔记库承接了日常我跟AI对话中有价值、值得记录的内容。我会定期从里边筛选笔记,或者让AI帮我挑,然后放到由我管理的笔记仓库里。

这其实就是一个漏斗结构。AI笔记库是最上边那一层。我要发挥AI的智能、AI的效率,帮我先过一道。

这些是我目前的思路,供大家参考。今天AI发展非常快,不管是模型还是各种工具,都在飞速迭代。所以咱们一定要多动脑子,想想怎么把这些先进生产力引入到自己的体系中来。

你相信我:人和人之间的差距,就是这么拉开的。

OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

Cursor就是最强知识库应用,没有之一

Key Takeaway

  • Cursor作为编程软件,天生具备RAG能力,能对本地文件进行索引和处理,使其成为强大的知识库应用。
  • Cursor与Obsidian的本地化存储特性完美结合,用户可以通过Cursor直接操作和利用Obsidian的笔记文件。
  • 通过创建cursorrules文档,用户可以自定义Cursor的工作方式,例如优先检索本地文档、进行联网搜索,并调用特定的MCPs(如Markitdown用于PDF转换,Sequential Thinking用于复杂问题拆解)。
  • Cursor的Composer功能和聊天功能可以对笔记进行总结、提炼和扩写,充当Obsidian的“超级AI插件”。
  • 这种组合工作流能够兼顾本地知识和网络信息,提供逻辑性强的答案,极大提升知识管理和创作效率。

Full Content

最好用的知识库应用,就是Cursor,没有之一!

你们经常看我发的视频就知道,过去一年多,我用了太多太多知识工具。越用越发现:大道至简,用Cursor就可以了。

你想嘛,RAG能力Cursor本来就有。它是个编程软件。既然要编程,肯定得了解所有代码的情况。所以,当Cursor打开文件夹之后,就会对文件夹内的所有文档进行索引和哈希处理。像Markdown之类的文件,它会进行切块、嵌入向量。

所以,知识库应用该有的RAG能力,Cursor天生就有。不管是代码还是纯文本,它都能一样处理。而且,因为它要写代码,所以肯定要有创建文档、修改文档的能力。这就意味着,它可以帮我们直接写笔记、写文章,对吧?

这还没完。Cursor本身具备搜索能力。你不用特意添加什么工具,它就可以联网搜索,甚至直接打开一个网页。

最后,只要出现了最先进的模型,Cursor一定会第一时间支持。所以这20美元的订阅,我个人认为是非常非常划算的。当然,如果你不想用Cursor的模型,也可以填自己的API Key进去。

那么,我们该怎么用Cursor配合自己的文档进行工作呢?

我的经验是,一定要创建一个cursorrules文档。这个文档放在根目录下,用来告诉Cursor必须遵守哪些项目规则。我给你们演示一下。

你看,我在文档里规定了:

第一,回答之前都必须首先检索文件夹内的所有文档,看看有没有相关的内容可以作为上下文。

第二,光查了本地文档还不够,还得联网搜索,这样信息才齐全。

除了这两个基本要求,我还给Cursor配了两个MCP:

如果遇上PDF文档,就用Markitdown这个MCP做转化。不然Cursor就得写个Python脚本进行处理,就非常麻烦了。

如果问题有点复杂,那就用Sequential Thinking进行拆解、组织内容,这样逻辑性才强。

这两个MCP的用途和触发条件,我都给Cursor写明白了。

最后,我还附上了一个示例,包含每一步怎么处理,清清楚楚。AI绝对可以理解。

有了这一大套底层规则,Cursor就知道怎么跟我配合了。

比如我问它:如何在本地部署知识库?

首先,它花了几秒钟思考这个问题。因为我把Thinking选项打开了。

接着,它把文件夹内的文档检索了一遍。

然后,联网搜索,进一步补充信息。

最后,用Sequential Thinking对所有内容进行梳理,把逻辑整理清楚。

你看,使用这种方法,这样的流程跑下来,知识库里的内容和网上的内容都兼顾了,获得的答案逻辑性也很强。这个就是我说Cursor 最强知识库应用的原因。

我刚才演示的规则是我的需求。大家可以根据自己的需求做修改。其实你让Cursor帮你写也是可以的。

OK,以上就是本期内容。想交流AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

GraphRAG:很好,但很贵!

Key Takeaway

  • GraphRAG是微软开源的结合知识图谱的检索增强生成技术,旨在提升AI知识库的精确度,解决传统RAG无法捕捉实体复杂关系和层次结构的局限。
  • GraphRAG通过提取实体及其关系,构建庞大的知识图谱,从而实现“全局性”优势。
  • 部署GraphRAG需要安装相关库、创建目录、存入文档、初始化项目、配置API Key和模型参数,并创建索引。
  • GraphRAG在处理复杂查询时表现出色,但目前使用GPT-4的成本较高,且本地大模型运行存在速度慢和报错问题。
  • 微软开源GraphRAG旨在借助社区力量优化其速度和成本,以实现更广泛的应用。

Full Content

微软最近开源了GraphRAG。这是一项结合了知识图谱的检索增强生成技术。简单来说就是,它可以显著提升AI知识库的性能,让AI能根据你提出的文档,更准确地回答你提出的复杂问题。

本期视频,咱们来聊一下,为什么需要GraphRAG,以及现阶段需要付出多少代价。真的,这成本高得吓人。

关于AI知识库,在我们社群里,经常有小伙伴抱怨:精确度不够,AI总答不到点上。这个问题的根源之一,是传统RAG的局限性。

当我们用这套技术搭建知识库的时候,整个索引、检索是基于文本块的。简单来说就是,我们把一个大文档切碎了,变成一个个比较小的文本块;当有请求过来的时候,就根据请求去寻找哪些文本块是最相关、最匹配的;最后,把找到的文本块作为参考资料,连同请求一起给到大模型。

这套技术有两个局限:

第一,它没法有效捕捉实体之间的复杂关系和层次结构。

第二,它通常只能检索固定数量的、最相关的文本块。

这两点一结合,也就导致了传统RAG在面对复杂查询的时候特别吃力。比如,你给它一本小说,问它“这本书的主旨是什么”,那十有八九是给不出靠谱答案的。

为了补上传统RAG的短板,微软推出并且开源了GraphRAG。

就像我前几天在newtype社群里说的,这个技术的核心就一个关键词:全局性。

GraphRAG在对数据集建立索引的时候,会做两件事:

第一,提取实体(Entity)。

第二,提取实体之间的关系(Relationship)。

从视觉上看,这些实体就是一个个点;而有关联的两个实体用线连起来。于是,一张庞大的知识图谱就形成了——这就是它名字里Graph的来源,也是这套技术的聪明之处。

因为,要表达复杂关系,一个非常有效的手段就是,用图谱的方式来处理。大家可以回想一下之前看到的侦探片、警匪片,是不是经常会看到一整面墙的线索板。这其实就是用最直观的图谱方式来表示复杂关系,跟咱们今天聊的主题是一个意思。

因为采用知识图谱,所以GraphRAG能够把握复杂的、细微的数据关系,所以它才能构建一种全局性的优势,从而提升RAG的精确度。

OK,Why讲完了,咱们来说说How,也就是如何使用。

我建议大家都按照官方给的新手教学跑一遍。其实就几行命令,我在Mac上很顺利,没遇到任何报错。

第一步,pip install graphrag,这是就不用说了,很常规。要下载的东西挺多的,大家耐心等等。

第二步,创建目录,名字叫ragtest,并且在这个目录下边创建文件夹,名字叫input。

第三步,在文件夹中存入文档。官方给的Sample文档是查尔斯·狄更斯的《圣诞颂歌》。下载好之后,放到刚才创建好的input文件夹里,并且命名为book.txt。

第四步,初始化整个项目。这时我们会看到多了几个文件。其中最重要的文件是这两个:

一个是.env文件,在里边填入OpenAI的API Key。

另一个是settings.yaml,用来设置encoding和embedding所需要的模型和各种参数。你如果要用本地大模型的话,就在这边设置,我待会儿会演示。

第五步,一切准备妥当之后,就可以创建索引了。这个过程会比较慢,我等了好几分钟。

第六步,可以正式进行问答了。就像前边说的,GraphRAG的强项在于“全局性”。所以作为测试,问题自然是“这个故事的主旨是什么”。

当请求提出之后,我们会看到,GraphRAG根据settings这个文件里的配置要求,比如使用什么模型、最大token多少,开始处理请求和输出。

最终结果挺不错的。要知道,这是一部将近200页的小说。如果不是通过构建全局知识图谱的方式,是搞不定这样的问题的。

但是,一切都是有成本的。就这么一本小说,使用GPT-4创建索引、进行一次问答,居然花了我11美元!

之所以会这么贵是因为,为了搞定这个文档,GraphRAG发起了449次API Request去调用GPT-4。相比之下,嵌入模型才19次。

这个价格真的高得离谱了。即便它降到1美元也还是贵——我传个稍微大一点的文档,一杯瑞幸就没了。

所以,大家关心的问题就来了:如果改用本地大模型会怎么样?

在设置方面完全没问题。比如,我在PC上用LM Studio同时运行Llama 3和nomic embed。在settings文件里,把API Key改成lm-studio——其实用不上,就是满足一下格式需要;把API Base改成localhost:1234/v1(如果是Ollama的话,就是11434);最后把模型名字填上就行。下面的嵌入模型也是这么填。

保存之后,按同样的流程走一遍。这时候,我遇到了两个问题:

第一,提取实体的过程非常漫长。我等了得有20分钟。而之前用OpenAI的模型,几分钟就完事儿了。这个时间上的差别应该是模型性能上的差别造成的。毕竟体量摆在那里,我在本地跑的Llama 3才8B,跟GPT-4差太多了。

第二,好不容易提取完毕,到了嵌入环节的时候,总是报错,根本推进不下去。我试过把嵌入模型换回OpenAI的,还是不行,最多嵌入到70%多又报错。我搞了一晚上,实在没功夫一直耗下去,只能放弃。

其实即使不报错,一个大文档要处理半个多小时,在实际使用过程中也是不能接受的。

我猜这就是微软开源GraphRAG的原因,想要依靠社群的力量去优化它。毕竟现在这个速度和成本,生成的答案效果再好也是亏本的。

OK,以上就是本期内容。大家想找我交流的话,就来newtype社群,我都在。那咱们下期见!

LLM = OS

Key Takeaway

  • 大模型被视为凌驾于所有操作系统之上的“操作系统”,具备内存管理(上下文长度)、文件系统(对话历史、知识库)、驱动程序(Function Call)和用户界面(自然语言交互)等组成部分。
  • OpenAI正按照操作系统的逻辑对GPT和ChatGPT进行更新和升级,如提升上下文长度、Function Call能力、记忆功能和自然语言交互速度。
  • 大模型的“操作系统”化将导致其“吃掉”大量应用赛道,对创业者而言,生存空间将受到挤压。
  • 文章通过phidata项目示例,展示了Agent、RAG和GPT-4o如何组装成简易操作系统。

Full Content

为什么所有互联网巨头都要搞大模型?

因为大模型是凌驾于所有操作系统之上的操作系统。

你以为你的产品体验足够好,但再好也得用户自己动手。大模型会让绝大多数用户第一次体验到使唤别人的快感。

你以为你的技术护城河够深了,但再深也只是二维的。在大模型这种更高维度的、飞在天上的技术面前,地上的护城河、边界这种东西是特别可笑的。

大模型就是指环王里的至尊魔戒:One ring rules all。

既然是操作系统,那就得有操作系统该有的组成部分。

第一,内存管理。对大模型来说,就是上下文长度。目前主流的内存容量已经从最早的KB到MB,再到以DDR为代表的GB时代。而大模型上下文长度也在飞速提升,现在动不动就200K。

第二,文件系统。对大模型来说,文件系统包含两部分:一个是对话历史记录。没有这个,大模型就记不得你,也不可能成为你的私人助手。另一个是知识库,这个大家都明白。

第三,驱动程序。对于计算机来说,驱动程序是用来控制硬件设备工作的。对大模型来说,驱动程序就是Function Call,函数调用,让大模型能跟现有的操作系统、各种软件和在线服务连接。

第四,用户界面。从最早的命令交互到后来的图形交互,它们都是基于键盘和鼠标做的交互设计。结果大模型一来就是掀桌子,通过自然语言交互就行,甚至还能察言观色。相比文字输入,通过语音和表情,大模型能获得的信息丰富得多了。

刚才说的那些都是我自己总结的理论,之前在知识星球newtype里分享过。而且我发现,OpenAI跟我想的一样——他们就是在按照操作系统的逻辑对GPT和ChatGPT进行更新和升级。

上下文长度不用说了,从GPT-3.5到GPT-4 Turbo,从4K、16K、32K、128K,现在日常使用基本不会再担心长度的问题。

Function Call也不用说了,GPT-4在这方面属于遥遥领先级别。

历史聊天记录方面,2月新出的记忆功能,可以让ChatGPT记住用户希望它记住的东西,比如个人偏好等等。

自然语言交互方面,最新的GPT-4o大家都看到了,反馈速度已经非常快了。据说可以在0.23秒内响应音频输入,接近人类的水平。

你看,OpenAI的野心就是操作系统级别的。而GPT-4o登陆iPhone绝对会是一个里程碑事件。

有同样想法的,不只是OpenAI,我相信这一定会成为行业共识和行动方向。一些开发者已经在这么做了,比如phidata。他们把Agent、RAG和GPT-4o组装在一起,变成一个简易的操作系统。

你可以把你想添加的内容喂给GPT,比如网页或者PDF文档。

你可以问GPT任何最新的事件,它可以联网帮你搜索。

你可以让GPT当你的投资顾问,让它帮你分析,英伟达的股票还值不值得买。

想体验这个项目,非常简单,有手就行。

第一步,把包含所有文件的压缩包下载下来,解压缩。

第二步,创建一个虚拟环境。比如可以用conda创建并激活,两行代码搞定。

第三步,安装需要的Library,记得一定按照这个txt安装,别自己瞎搞,到时版本有冲突就跑不起来了。

第四步,把OpenAI和EXA的API Key通过export这行命令提供给系统。

第五步,打开docker,安装PgVector。

第六步,通过Streamlit把这些代码变成APP跑起来,打开一个本地链接,就能看到刚才演示过的界面和功能了。

这些功能,在几个月前都是单独的一个个项目。比如,RAG是RAG,Agent是Agent。最近一个月,我发现大家突然开始做集成了。

这个背后,既是技术在进步,也是大家的认知在迭代。从我的知识星球里的内容就能看得出来:

最开始大家都是问我本地大模型、知识库的东西,现在问Agent也多起来了。整个水位、大家的水平在提升。

而且我有一个感觉,或者说粗略的判断:

既然大模型属于中心化极强的操作系统,那么它一定会吃掉很多很多应用赛道。对于创业者来说,也许只能等这头怪兽吃得差不多了,才能分到一杯羹。

所以,不着急出手。

OK,以上就是本期内容。咱们下期见!

NotebookLM:AI时代的笔记应用

Key Takeaway

  • NotebookLM是Google Labs发布的一款实验性AI笔记应用,结合了Chatbot和RAG,改变了传统笔记逻辑。
  • 其核心功能区包括来源区(添加文档)、对话区(AI引导提问和回答)和笔记区(手动/自动创建笔记)。
  • NotebookLM通过AI建议提问、引用来源和笔记生成等功能,显著提升了用户对文档的理解和知识沉淀效率。
  • 该产品旨在实现“Conversational Learning”(通过对话进行学习),让AI辅助用户消化资料并生成内容。
  • 尽管仍处于早期阶段,NotebookLM展现了AI在学习和知识管理领域的巨大潜力。

Full Content

这是我用过最好的AI学习产品。

它是Google Labs前段时间发布的一款实验性产品:NotebookLM。他们把由大模型驱动的Chatbot和RAG加进传统的笔记应用,整个产品逻辑都变了。

虽然NotebookLM还处在早期阶段,但是底子已经打好了。我用了一段时间发现,它对我的学习、知识的沉淀和整理,都非常有帮助。

我强烈建议大家看完这期视频后,都去试试。我已经在考虑怎么把它跟我平时在用的DEVONthink、Obsidian结合起来了。

我从零开始,演示给大家看。

目前这款产品还只限美国地区的用户使用。不过这些对咱们来说都不叫事儿。 登陆之后,就会看到这样一个有点简陋的页面:笔记本的创建和选择。

进入笔记本详情页,就三个核心功能区:

  • 来源区
  • 对话区
  • 笔记区

来源区用来添加文档。支持Google Drive导入、PDF上传,或者直接贴文字进来。

文档上传之后,你可以选定一个文档或者多个文档。AI会根据你的选择,自动进行分析,给出Summary和Key Topics。这时,在对话区,对话框上边出现了AI建议的提问。

这么设计有什么好处?

当我们上传一个没有读过的资料时,往往不知道怎么跟AI开始对话——对资料内容一无所知,肯定不知道该问啥。

这时,我们就可以点击Key Topics或者建议提问中的任意一个,AI自动给出回答。每个回答都会包含citations,引用来源。把鼠标悬停在上边就会出现原文。点击的话,就会自动来到文档中对应的位置,这样还能看到上下文,有一个更全的了解。

值得注意的是,当提完一个问题之后,AI建议的提问还会更新。所以,即使不输入任何问题,跟随AI的引导,点几下鼠标,也能完成对一个大文档的初步了解。

这就是把大模型能力融进笔记应用之后,带来的显著提升。

笔记区也是如此。

我们可以手动添加笔记,也可以通过点击任意一个对话框里的pin按钮,把它自动变成一条笔记。

当笔记做得差不多了,可以把它们全部选中,AI同样会给出操作建议。比如,总结、全部合并,或者创建一个Outline。直接通过对话下达指令也OK。

在笔记的基础上,加上Chatbot和RAG,整个笔记应用就全变了。Google管它叫:Conversational Learning,通过对话进行学习。

就像刚才演示的那样,从一个基础问题开始,AI引导着你把整个资料消化完毕。在这个过程中,还可以很容易就创建若干笔记。最后,通过这些笔记,你还可以让AI帮你生成内容。

有学习,有产出,这就是Conversational Learning。这也是这款产品吸引我的地方。

当然,就像开头说的,NotebookLM还很初级,有很多不足。比如,最基本的多层级文件夹功能缺失。没法创建子文件夹,对资料整理、选择文档来说实在太不方便了。另外,语言的支持也不够,只有英文。我用中文提问,AI还是回复英文。我传中文的文档进去,AI还是回复英文。

当然,这些都是次要问题。Google只要围绕现在这个主干去完善,很有机会打造出一款非常给力的生产力工具。

这应该是我最期待的Google产品了。

OK,以上就是本期内容。大家记得点赞点关注。我们下期见!

Perplexity使用指南

Key Takeaway

  • Perplexity是目前最好的问答引擎,其回答质量和使用体验优于ChatGPT等产品。
  • Perplexity作为知识的起点,强调建立信任(清晰来源标注)、帮助用户提问(扩展搜索关键词、引导提问)和提供一站式服务(Pages功能)。
  • Pages功能将搜索与内容构思相结合,能辅助用户生成文章大纲和支撑信息。
  • Perplexity通过微调GPT模型、使用其他大模型和自研开源模型,并结合强大的RAG技术,实现了其问答引擎的领先地位。
  • Perplexity还提供了Focus功能(特定搜索方向)和Space功能(知识库),进一步扩展了其应用场景。

Full Content

ChatGPT最近推出了搜索功能,不过我还是会继续使用Perplexity。因为作为问答引擎,或者说下一代的搜索引擎,Perplexity依旧拥有最好的回答质量和使用体验。要做好问答引擎,需要大量领域知识,还涉及到工程问题,不是说你有很强的模型就能搞得定的。

至于OpenAI,说实话,我不太看好他们。之前我在社群内还吐槽过,觉得现在的OpenAI就像黄磊一样,样样通、样样松。他们想做的东西太多了:

既想做基础模型研发,又想搞应用,还要做应用商城和生态。推出的一系列功能都是点到为止,没有扎实做透。真要用来严肃生产,还是有点距离的。

所以在过去一年,我一直坚定选择Perplexity和Claude的组合。它俩实实在在有帮到我,帮我赚到钱。本期视频算是Perplexity的教学。如果你还没用过,或者还没订阅的话,一定往下看。

哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注。只要有一个视频你看进去了,就赚大了。如果想链接我,就来newtype社群。已经有500多位小伙伴付费加入啦!

回到今天的主题:Perplexity。

今天AI应用有两个非常确定的赛道:一是搜索,二是知识库。

搜索就不用我多说了。大模型出现之后,通用搜索和领域搜索都出现了一堆新产品,肯定能跑出独角兽。知识库也非常火。RAG as Service,打造Knowledge Assistant,这个进程一直在加速。

你发现没有:不管是搜索还是知识库,都是关于知识,都是关于知识的发现和流动。所以之前Perplexity在界面上放上一行字:Where knowledge begins,知识的起点。可惜现在改成了“释放你的好奇心”,一下就弱爆了。

当你开始用Perplexity就会有这样的感觉:问答引擎并不等于大模型加搜索,真没那么简单。

第一,作为知识的起点,它需要建立信任,所以它的行为和结果一定是严谨的、是规矩的,就像写论文一样:

所有来源都有清晰标注,并且你可以很方便去追溯;所生成的结果也是逻辑清晰的、简洁的,很好理解。

第二,作为知识的起点,它需要帮助用户提出问题。Perplexity的创始人在采访里说过一个观点,我印象非常深:

他们最大的敌人并不是Google之类的巨头,而是用户不会提问这个无奈的事实。

大部分用户压根就没想明白;即使想明白了,要准确表达又是一个门槛。

所以Perplexity加强了产品上的引导。比如,当用户输入完问题之后,如果不是太具体,他们会给出几个选项,试探一下用户的真实意图。再比如,前段时间他们还加上了自动补齐的功能。

第三,作为知识的起点,它还需要照顾到后续的旅程——不能只是一个起点,还应该尽可能成为一站式的存在。

后续建议提问这个功能很简单,但是很实用。毕竟这么多个问题,总会有一个问到点上的。

前段时间推出的Page功能非常有想法。从一个问题出发,不断提问、不断扩展逻辑,最终形成一个类似文章大纲加上支撑信息的东西。

如果需求不复杂的话,比如你就是想要找个旅游攻略之类的,那么这个成品基本可以拿去直接用。如果是要写篇文章的话,那这个基本就完成了最开始的构思——文章的整体逻辑有了,下边的支撑也有了。

我认为,Page功能就是把我们习惯的边搜索、边构思的过程具像化了、产品化了。再打磨下去,也许有一天真的能实现直接成稿的效果。

所以,当你理解了Perplexity的这些功能之后,再去对比带搜索的大模型产品就会发现,这俩真不是一回事,有点两个物种的感觉。我强烈认为,在搜索的基础上加AI,和在AI的基础上加搜索,是两种产品形态。甚至有一段时间,我退订ChatGPT之后,就是用Perplexity来替代。因为它也有直接生成文字的功能。

很多人可能没怎么注意到Focus这个按钮。点开之后,你可以设置特定的搜索方向。比如,专门搜YouTube或者学术论文等等。其中有一个Writing选项,就是不搜索,基于模型现有的知识直接回答用户问题。要更改模型的话,就到设置里去选择。除了GPT系列,还可以选择Claude系列。最先进的模型这里都有。

通过互联网,我们能搜到的知识大多数公开的、通用的知识。还有很多知识属于领域知识,网上没有的。为了覆盖这种情况,前段时间Perplexity上线了Space功能,也就是知识库。用户可以上传文档,让模型根据文档做回答。

知识库对Perplexity来说是手到擒来的事儿。因为问答引擎本来就需要很强的RAG能力。顺着这个方向,我特别希望他们把文档管理体系给补上,包括分层级的文件夹、标签。让用户逐渐把私人文档存进去,完成数据资产的迁移,这个是入口级产品必须要做的事儿。

Perplexity还有一些不是那么核心的功能,比如发现页面。你可以理解为就是Google、百度都有的新闻推荐页面。这个目前看没啥意思,等看以后会不会有什么创新吧。

OK,以上就是本期内容。大家看完了记得去试试这款目前最好的问答引擎。那咱们下期见!

RAGFlow:知识库终极引擎

Key Takeaway

  • RAGFlow是一款开源的“重型知识库引擎”,提供比现有知识库产品更深度、细致的RAG设置,包括Rerank Model、RAPTOR和Self-RAG等高级功能。
  • RAGFlow通过Docker部署,支持所有主流大模型提供方(云端和本地),并提供丰富的知识库创建和Assistant定制选项。
  • RAPTOR技术通过多层总结形成树状结构,提升复杂问题的推理能力;Self-RAG则通过大模型自我反省,解决过度检索问题。
  • RAGFlow的专业度体现在其对文档切块方式的细致选择,以及对检索和生成环节的全面设置。
  • 文章强调RAGFlow作为引擎,支持通过API与其它Chatbot或Agent打通,是构建本地知识库的理想选择。

Full Content

给大家推荐一款重磅产品。

如果你对现在的知识库产品不满意,想要提升检索精确度,我推荐你试一试RAGFlow。它提供了更深度、更细致的选项,你可以根据自己文档的情况做针对性的调整。

如果你们团队或者公司想要搭建一套本地知识库,我也建议你们先研究一下RAGFlow。我之前就在社群里说过:大概率,你们自己捣鼓出来的东西不会比它更好——还不如在它的基础上做定制化。

RAGFlow是一套开源的RAG引擎。它重度集成了各种技术,而且更新很快。咱们可以来对比一下:

像AnythingLLM之类的知识库应用,在RAG设置方面,一般就允许你选择用什么嵌入引擎,以及Chunk Size多大,有多少Overlap。

再来看RAGFlow。除了Embedding Model,还可以选择Rerank Model。在知识库设置里,可以针对不同的文档类型,选择不同的切割方式,以及是否要开启RAPTOR。在Chatbot设置里,可以选择是否要开启Self-RAG。

RAPTOR这个技术简单来说就是,先把文档分成小块,然后对每一块做总结,然后再次总结、形成更高一层的概括。这么一层层地总结、叠加,最终形成一种树状的结构。对于需要多步骤推理的复杂问题,把RAPTOR开起来,效果更好。

至于Self-RAG,其实就像名字里说的那样,它会自我反省。因为,RAG虽然解决了外部知识补充的问题,但在实际使用中,有时会出现过度检索等问题。所以就需要用大模型来评判、来自我反省。

所以你看,这些更进阶的东西,我们目前常用的应用都没有,它们都还是一种轻量化的设计。RAGFlow的定位是引擎,所以它自身得足够强大,对技术得扎得足够深。既然是引擎,那就得支持向外输出马力。通过RESTful APIs,RAGFlow可以跟其它Chatbot或者Agent打通——这个以后我会在社群里详细介绍。

本期视频,我先带着大家过一遍部署和使用。

通过Docker,很容易就能完成部署。唯一需要注意的是,留出至少50G的硬盘空间,这个项目很大条的。

首先咱们创建一个RAGFlow文件夹。接着在VS Code里打开它,通过git clone命令把仓库克隆到本地。然后通过cd命令进入docker文件夹。最后运行docker compose up这行命令,就会开始下载镜像了。

因为包含了一些模型文件,所以体量挺大的。大家得耐心等等。我这边等了得有10分钟,终于全部搞定了。在Docker里把项目启动起来。打开一个浏览器页面,输入localhost就可以看到RAGFlow的页面了。

第一次进入需要注册,这个也是为了方便团队使用。我们首先点击右上角的头像,做一些设置。用户名、头像、密码什么的我就不说了,大家都懂。主要是模型设置这边。

RAGFlow支持所有主流模型提供方。国内的有月之暗面、智谱等等,国外的有OpenAI那些,基本是应有尽有了。

对于云端的平台,把API Key填进去,点击确认,它会验证是否可用。然后打开下拉列表就可以看到支持的模型了,包括Chat、Embedding、Image2Text、Speech2Text。

如果是要本地运行,比如Ollama,Base URL记得是填host.docker.internal:11434,不是localhost:11434。在模型名称这边别填错了。如果不确定的话,打开终端,输入Ollama list,就会列出你现有的所有模型。然后把名称复制、粘贴过去。

设置完成之后,就可以创建知识库了。这边主要有三点:

第一,使用什么嵌入模型。你可以用RAGFlow自带的,也可以用你自己的。

第二,切块的方式。不同的文档类型,RAGFlow有不同的切块方法。选中任意一个,在右边就会有具体的解释。从这点你就能看出它的专业度。如果你拿不准,也可以选择General。

第三,选定切块方式之后,有可能会让你设置切块的大小。默认是128,你可以根据文档的情况把它调大一点,比如256、512。

至于最下边的RAPTOR,大家可以把它打开,试一下效果。

这一切设置完成,就可以上传文档了。我这边准备了一篇关于英伟达的文章,从公众号里复制下来的,内容是关于英伟达的网络产品。

大家都知道,英伟达的GPU和CUDA是护城河。现在,趋势有变化——单卡的性能已经无法满足大模型训练和推理的需求了,集群是唯一出路。但是,要把几万块GPU组合成一个超大GPU有很高的难度。所以,英伟达正在构建自己的第三条护城河:Networking。

跑题了,咱们回到RAGFlow这边。文档传上去之后,别忘了要手动点击开始。有时会解析失败,不要紧,再来一次就好。如果还不行,就回去改一改设置,也许是切块的大小设得太高了等等。

完成之后,我们可以看到所有的文本块。

为了测试检索的效果,RAGFlow还提供了Retrieval Testing。咱们可以输入一个问题,看一下它都找到哪些相关的文本块。

对于一些场景,比如AI客服,我们会希望检索尽可能准确。于是就可以在这一步检测,不满意就回头修改。

最后是落地环节。这一步需要创建一个Assistant,也就是聊天机器人。同样地,RAGFlow也提供了丰富的定制化选项。

比如,AI用什么开场白跟用户打招呼;如果没有在知识库检索到相关的内容,AI该怎么回复;是否要开启Self-RAG;要关联哪些知识库,等等。

我敢肯定,这三页的设置就超过市面上绝大多数的Chatbot类产品。因为,RAG其实包含了两个环节:一个是Retrieval,检索;一个是Generation,生成。这一步的设置就是为了提升生成的质量,很容易被大家忽视——RAG不能只看检索。

OK,全都搞定之后,咱们来测试一个问题,看看回答效果:英伟达为什么要造交换机?

虽然回答的时间有点长,但效果还挺不错的。而且这还是在我没有做细致设定的情况下。我相信,如果花时间去调试的话,效果一定会很不错。

OK,RAGFlow的部署和基本应用就这些。从检索到生成,它所提供的设置选项应该能满足各种需求。这也是为什么我在社群里说它是Ultimate RAG Engine的原因。之后有更多进阶内容的话,我会发在社群里。在公域讲太深了挺浪费的。那咱们下期见!

套壳之王:Perplexity

Key Takeaway

  • Perplexity是一款现象级的AI原生问答引擎,有望替代传统搜索引擎,其核心价值在于直接提供组织好的答案而非网页链接。
  • Perplexity通过“Copilot”模式扩展搜索关键词,并提供“Focus”选项进行特定类型搜索,提升用户体验。
  • Perplexity强调答案的严谨性,提供清晰的来源标注,并支持多轮交互和“Collection”功能。
  • 尽管被质疑“套壳”,但Perplexity通过微调GPT模型、使用其他大模型以及自研开源模型,展现了其技术实力。
  • Perplexity在搜索基础上融入了强大的RAG技术,并具备知识库功能,未来有望推出更多产品。

Full Content

我最近看到一句非常霸气的话:

拥有十万用户的套壳产品,比拥有自有模型却没有用户更有意义。

如果你身边有投大模型或者做大模型的小伙伴,记得把这句话转给他。

这么拉仇恨的人是Perplexity的CEO。他们刚完成了B轮融资,估值5.2亿美元。跟投的公司包括英伟达,以及贝佐斯这样的大佬。

Perplexity的产品是一款现象级的AI原生应用,有可能替代传统搜索引擎的问答引擎。

什么是问答引擎?

截至目前的搜索引擎返回的都是网页。但是,网页是我们想要的结果吗?我们要的是网页里包含的内容。大模型的价值就体现在这里了:

它会帮我们把搜到的所有网页都过一遍,把相关的内容都抓出来,然后组织逻辑,最终把结果一步到位地呈现出来。

这是传统搜索引擎技术做不到的。这也是为什么,搜索是一个确定的赛道,必然会被大模型技术彻底改造。

过去一年,我体验了好多AI应用。但是,是能让我持续使用、不得不用的,就两个:

  1. GitHub Copilot
  2. Perplexity AI

我强烈建议大家试一试Perplexity。它是对每一个人都有帮助的AI应用。用过之后,你大概率就不再需要Google了,更别提什么百度。

我用网页版做个演示。这款产品还有手机和iPad版本,非常方便。

“Copilot”打开之后,它会提供更准确、更深入的答案,代价是稍微慢一点点。免费版好像是每四个小时有5个额度,订阅版每天有300额度,基本够用。

“Focus”选项很好理解,可以让大模型聚集搜某个类型,比如:学术论文,Reddit讨论,或者YouTube视频。如果选择Writing的话,那么就不会联网,相当于直接用大模型的效果。

Perplexity订阅价格是每个月20刀。从实用角度来看,我建议大家可以不订阅ChatGPT Plus,但是要订阅这个。毕竟搜索是高频需求。Perplexity的搜索比ChatGPT强。而且,如果你需要GPT-4直接生成的话,选Writing模式就行。

我们来个简单的。比如,搜“GitHub Copilot”。大模型会先理解问题或者关键词,然后基于理解对它们做扩展。

由于我们只输入了“GitHub Copilot”,比较泛,大模型判断,用户此时大概率是想做个初步了解,比如它是什么、有什么用途、有什么优缺点等等。于是,它帮我们做了一系列扩展,再拿去搜索,找到一堆来源,最后给出答案。

有了第一次交互之后,Perplexity会引导用户,要么查询相关问题,要么继续追问。

从一个问题或者关键词出发展开的多轮交互,就形成了一个合集,存档在Library里,相当于历史记录,以后可以再来查询或者继续提问。这也是我非常喜欢这个产品的一个点。

“Collection”是最新功能。你可以针对某一个主题,通过Prompt的形式做更细致的设定,并且可以共享给其他小伙伴。

至于Discover,就是官方推的热点,无聊的时候可以看看。

Perplexity是公认的用户体验最好、结果精确度最高的AI问答引擎。

先说用户体验。

“以用户为中心”对他们来说不是一句口号,人家是真的信这个。我举两个例子。

第一、Perplexity为什么要帮用户先去扩展搜索关键词?

因为,绝大多数用户不懂得提问。

就像前边演示的那样,我只给了一个关键词。如果是传统搜索引擎的话,由于用户输入太少或者太不准确,往往结果不会太好。

那么,是用户的错吗?

用户没有错。是你技术的问题,是你产品设计的问题。这个就是做应用要面对现实情况。

多说一句,我觉得这一轮大模型技术爆发,带来的不是人机之间的自然语言交互,而是意图交互。有很多项目都在朝着这个方向走了,就看谁先跑出来。回到正题。

第二、Perplexity已经提供最终答案了,为什么要把来源列出来?

因为,用户总是会担心。

既担心你的答案的权威性,也担心大模型的幻觉会不会发作。

尤其是答案里要是有些观点跟我的预判不一致的话,我肯定会把来源的网页或者视频看一遍。

Perplexity是做产品的,技术只是实现的手段。但并不代表他们没技术。

他们CEO之所以会说开头那句拉仇恨的话,就是因为在起步阶段,Perplexity像很多别的项目一样,使用OpenAI的大模型,然后就被冠上了“套壳”的帽子。

不过,接了GPT-3.5或者GPT-4就完事儿了吗?

首先,Perplexity用的GPT-3.5,是自己微调后的版本,性能得到显著提升,但是费用比GPT-4低,速度也比GPT-4快。

其次,除了GPT,别的大模型他们也用,比如Claude,因为它支持更长的上下文,特别适合用来满足用户上传文档这个需求。

最后,Perplexity知道不能一直依赖OpenAI。所以,他们使用开源大模型进行微调,打造了两款大模型:pplx-7b-online和pplx-70b-online。前者是基于mistral-7b,后者是基于llama2-70b。这两款大模型专门用来处理网上的实时数据。而且,微调的工作也会持续进行,不断提升性能。训练用的数据也是他们自己准备的,高质量、多样化。

估计等开源大模型的性能跟GPT-4全面持平的时候,Perplexity肯定会把开源大模型作为基础,彻底摆脱对OpenAI的依赖。

有了为搜索定制化的大模型还不够,要做好这摊事儿,还需要很强的RAG技术。

所以,Perplexity绝对不是一个套壳项目,他们的技术实力绝对不差。同时,Perplexity也不是那种纯技术的项目,他们知道怎么用技术满足需求。

而且,搜索肯定不会是他们的唯一产品。随着大模型技术的发展,这个团队之后绝对会再拿出更多的新产品。这也是我会持续关注他们的一个原因。