最适合普通人的知识库

Key Takeaway

  • QAnything是一款适合普通用户的知识库产品,支持创建多个知识库,并能处理文档和网页内容。
  • QAnything的机器人功能可将知识库以链接形式发布,用于团队协作或AI客服。
  • QAnything在RAG技术上有所创新,采用了Rerank技术(二阶段检索)提升检索精确度。
  • 文章强调了国内厂商在AI应用方面的优势,以及知识库作为用户数据资产的重要性。
  • 知识库的未来发展方向包括根据语义进行文本切割,以及支持多模态内容。

Full Content

今天给大家介绍一款普通用户也能马上上手的知识库。

我有一个感觉:国内厂商要开始卷知识库类产品了。现在大体上有两个阵营在蠢蠢欲动。

一个是模型厂商阵营,像月之暗面、Minimax。在研发大模型的同时,他们一定会围绕知识库去打造面向C端的产品。我打个比方你就理解了:

如果AI是【水】的话,那么今天每家都有的Chatbot就是【瓶装水】。这些【瓶装水】已经满大街都在卖,价值肯定越来越低。即使是头部的ChatGPT也会面临用户流失的压力。

所以,围绕AI这个【水】去开发新品类,一定是各家模型厂商必须要做的事儿。而知识库已经是公认的刚需,C端有需求,B端也有市场,而且在Chatbot上做加法,逻辑上是通的,所以大家一定会往这个方向走。

另一个阵营是传统互联网厂商。原因也很简单。

知识库里装的是什么?用户数据资产。而且是用户最重视的数据资产。这些数据资产落在哪个平台,用户就会留存或者迁移去哪边。所以,谁能利用好大模型技术,先打造出性能最好、最容易上手的知识库产品,谁在这一轮AI竞赛中就能守住地盘,甚至去挖别家的墙角。

传统互联网厂商阵营中,我看到走得比较快的,是网易。这家公司一直都很有做产品的基因。本期要给大家推荐的产品叫【QAnything】,我前两天在知识星球里推荐过。

我之前介绍了很多知识库的项目,实话实说,都需要一定的动手能力才能跑起来,其实不太适合普通用户。

我觉得对大家来说,在这个AI时代,先上手,先用起来,比什么都重要。

QAnything就是特别适合普通用户的产品。产品很直观,而且比很多老外的产品都做得更好。

就拿知识库的创建和选择来说吧。

很多同类型产品,要么是只有一个大知识库,要么虽然可以创建多个知识库,但只能选定一个知识库,只能针对一个知识库内的文档进行对话。

QAnything支持创建多个知识库。所以,你可以像使用文件夹一样来管理资料。比如我就创建了三个知识库:

  • 一个放大模型相关的论文,都是PDF文档;
  • 一个放我newtype公众号的文章,其实也就是我视频的脚本;
  • 一个放平时看到的、想保存的各种文章。

如果要选择不同的知识库,非常简单,就点几下就好了,看一眼就明白什么意思。

在做应用方面,你永远可以相信国内厂商。

我特别喜欢QAnything的Slogan:万物皆可问。这个就是技术趋势。

目前可以提问的对象是文档和网页。等之后大模型多模态速度提升、费用下降之后,视频肯定也会支持。

上传文档的功能我就不多说了。大家可以多试试【添加网址】功能。我把平时看到不错的公众号文章都传了一份进去。因为我发现,经常会想不起来在哪篇文章里看到的一个观点。那现在有了知识库,我直接问AI就好了,相当于模糊查询,还挺实用的。

在知识库的基础上,有道团队还加了机器人功能。你可以给机器人设定一些Prompt,然后关联上知识库,最后以链接的形式发布出去。

在我看来,机器人功能有两个作用。

第一,把链接分享给同事。比如,你可以安排一个实习生小朋友定期把团队文档上传到知识库里,然后以机器人的形态对内发布。这对团队来说肯定有帮助。

第二,把链接分享给客户。比如,可以把链接挂到公众号菜单栏里,当作AI客服来用。

之所以会有这个想法,是因为我看到,在知识库里,除了上传文档集,还可以上传问答集,也就是大家最熟悉的QA。比如公司介绍、产品介绍等等。这些信息,每个公司肯定有有现成的,传上去就能直接用起来了。一个简单的AI客服就搞定了。

我这几天使用下来发现,QAnything的精确度还不错。有道团队对RAG技术还是有关注的,他们使用了Rerank技术,也就是官方所说的【二阶段检索】。

Rerank并不是什么特别高深的技术。大概半年前,我看油管就有大佬在介绍,并且分享了代码。它的原理很简单:

根据用户的提问,我们从向量数据库里筛选出50个相关的文本块。但是,肯定不能把这50个全都输入给大模型,一方面是上下文长度有限制,另一方面是这50个文本块中肯定有些相关性还差一些。这时就进入Rerank阶段,对这50个文本块进行相关性排序,比如,我们设定了把相关性最高的3个或者5个给到大模型。

这么一套操作下来,由于添加了Rerank步骤,那检索的精确度肯定会提升。不过代价也是有的,那就是速度下降。

RAG技术里有很多门道。刚才说的是检索阶段的Rerank。在前边的文本切割阶段也有很大提升的空间。

传统的做法,不管你怎么设定文本块的大小,其实都不是最合适的。最理想的做法,是根据语义做切割,这样才不会把上下文意思给硬生生切断了。那谁来做这个判断呢?当然是大模型啦。

像这些新发现、新技术,国外一直在出。希望咱们国内厂商也能保持高度关注。我发现,国内对技术的了解落后非常多。这种信息差比技术差还大。

OK,以上就是本期内容。接下来,我会多介绍一些门槛不那么高的产品,让更多人都能快速用起来。大家如果有问题的话,可以来知识星球找我。咱们下期见!