Blog

2024必备赚钱技能:微调Flux LoRA

Key Takeaway

  • 微调Flux Lora是一项有价值的技能,能让AI生成指定长相的人物或产品,并可叠加使用多个Lora。
  • Flux模型生成图片的真实度高,ComfyUI解决了图像生成的可控性问题,Lora解决了模型经验问题。
  • 制作Lora需要准备素材图片(20张起步),并通过微调工具(如Replicate上的项目)进行训练。
  • 训练好的Lora可在云端或本地使用,并可叠加多个Lora以实现更复杂的效果。
  • 文章强调了AI图像生成在电商、IP运营等领域的商业应用潜力。

Full Content

想搞钱,这个技能你最好学一下:微调Flux Lora。

一旦掌握之后,你就能让AI生成你指定长相的人或者产品。甚至,你还可以把两个Lora叠加起来使用。比如,让你的虚拟模特拿着某个特定的产品。

如果你是做电商,或者是运营IP,一定深有体会:人物和产品的实拍有多麻烦。通过微调Flux Lora,你能省下一大笔钱、一堆时间。

哈喽各位好,欢迎来到我的频道。我是国内少有的、能把AI的Why和How讲明白的博主。记得点一波关注。如果想链接我,就来newtype社群。

在上一期视频,我介绍了Flux模型加上ComfyUI工作流是怎么玩的,也演示了网红Lora的效果。还没看的小伙伴,一定去我主页找来看看。看完你就有概念了。我这边可以简单粗暴地总结一下:

关于Flux模型,你就记住,它生成图片的真实程度,比DALLE、SD都高。只有解决了真实性的问题,才有可能商用。

关于ComfyUI,你就记住,它解决了控制的问题,让模型按照你设定的步骤、在你圈定的范围内去生成。只有解决了可控性的问题,才有可能大规模商用。

关于咱们今天要重点讨论的Lora,你就记住,它解决了模型经验的问题。

举个例子,模型知道美女长什么样,但它不知道网红美女长什么样。但是,我们又不能从头训练过模型——成本太高,不现实。所以我们给模型加个技能包,告诉它:网红美女就长这样。以后有人提需求,你就按照这个去生成。

这个技能包,就是Lora。要制作这个技能包很简单。跟微调大模型比起来,简直就是“有手就行”的简单。我快速演示一下。

大家现在看到的这位小姐姐,是我特别喜欢的一位老师,就以她为例。比如,我希望AI能够按照她的长相生成图片。该怎么做呢?

首先,当然是准备学习资料,也就是老师各个角度和表情的图片。这样AI才能照着生成,对吧?这些图片不用太多,20张起步。我这边准备了25张。

接着,我们需要一个微调工具。国内外有很多平台都提供现成的。我这边用的是Replicate上边的项目。

进入Replicate网站。搜索这一串关键词。然后找到这个项目。

这边有两步是一定要操作的:

第一,上传ZIP格式的压缩包。我试了一下,RAR格式好像不行。大家记得用ZIP格式压缩。

第二,新建一个模型。这样训练好之后,就会以模型的方式存在平台上。

其它的设置都是可调可不调。比如,如果你希望把训练的结果同步到Hugging Face上的话,就填上你的ID和Token。

当这些都配置要之后,就可以开始训练了。因为GPU用的是H100,所以非常快,大概20分钟就搞定了。

训练好的Lora,可以在Replicate上直接使用,也可以下载下来。

我们直接在Replicate上测试一下效果。记住,Prompt里一定要带上前边设定好的触发关键词。

这个结果我还是挺满意的。如果有更多照片,表情和角度更加丰富,训练出来的效果肯定会更好。

想在本地跑也可以。把下载下来的文件放到loras文件夹。然后进入ComfyUI,在Lora加载器里选中。默认的强度是0.8,不同的数值,结果会不太一样。我测试了几种情况,给大家看看。

前边提到,可以把多个Lora叠加起来使用。所以我又训练了一个产品的Lora,用的是雷朋眼镜的图片。我想测试一下,虚拟模特使用特定产品是否可行。因为植入或者带货都会用到。

要叠加多个Lora很简单:按住Alt键复制一个Lora加载器,然后把线连上、把文件选中。在Prompt里一定要把触发关键词都带上。

这边我就不调强度这个数值了,咱们直接生成。

这个叠加还是挺成功。咱们老师成功戴上了雷朋眼镜。所以,大家可以打开想象:虚拟模特加产品,或者虚拟模特A加虚拟模特B,应该都可以。如果你有做生意的感觉,就会明白,这里边的空间有多大。

OK以上就是本期内容。想进一步探讨的话,来newtype社群。咱们下期见!

7G显存,训练你自己的DeepSeek-R1

Key Takeaway

  • Unsloth框架显著降低了微调大模型的门槛,仅需7G显存即可微调1.5B模型,消费级PC也能实现。
  • DeepSeek的GRPO强化学习算法能提升模型推理能力和可解释性。
  • 微调技术可用于打造个人AI分身和私域模型,实现本地化、无需联网的AI交互。
  • 高质量数据集和超参数调整是微调成功的关键,但需要大量实践。
  • 文章强调了本地部署小尺寸模型在移动端的潜力和价值。

Full Content

用DeepSeek的方法做微调,可以显著提升传统模型的思考能力。

这是我训练好的模型文件,已经传到Hugging Face上了,大家自取。它是基于Qwen2.5 3B,通过微调加强了数学能力,最后生成了Q4、Q5和Q8三个版本。咱们来对比一下Q4精度的效果。我问一个经典问题:

9.9和9.11这两个数字,哪个更大?

先来看原版的回答。不仅答案错了,而且给的理由也是完全混乱的——什么叫“小数部分相同,唯一的区别在于十分位”,简直胡说八道嘛。

再来看微调版本。这就正常了。整数部分一样,那就比较小数部分。很自然就得出9.9比9.11更大。

这套东西不是我搞出来的,而是Unsloth的成果。他们前些天发了一篇博客,介绍了方法,还给出了代码。简单来说,Unsloth这套东西实现了两点:

第一,微调门槛下降。像1.5B之类的小尺寸模型,只需要7G显存就可以微调。而7B、14B这种,15G显存就OK。也就是说,用消费级的PC就能微调。如果是用云端的算力,像我用Google Colab的T4 GPU,花了一个小时就顺利完成。

第二,模型能力提升。GRPO是一种强化学习算法,是DeepSeek发明并开源出来的。用这套算法和数据集,能够训练出具备更强推理能力和更好可解释性的模型。现在Unsloth把它应用到微调里边,想象空间一下就出来了。举个例子:

私域模型。

一个商业博主,有自己的方法论,也有很多交付案例。他把过往积累下来的东西整理成数据集,包含问题、答案以及解题步骤。然后用Unsloth这套东西去微调,生成3B的模型。最后,把模型文件给到他的用户,不管是免费还是收费都可以。

用户拿到之后,用我上上期介绍的方法在手机上使用。这意味着,用户可以随时随地、不需要联网地跟这位博主的AI分身交流。

对自媒体来说,以前只有在你发视频、发文章的时候,或者你在群里说话的时候,你的粉丝、用户才能接收到你的信息。现在,有了这个方法,他们可以无限制地被你这个IP影响。

之前我分享手机上跑模型的方法,一堆人喷我说没意义、没价值。说句扎心的话:眼界太浅,活该挣不着钱。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!

回到今天的主题:用强化学习算法,微调模型。

在介绍Unsloth的工具之前,我还是得先把基本概念用一种通俗易懂的方式讲给你们听。可能不是很严谨,但是包懂。

以前搞强化学习,需要准备大量包含解题步骤的高质量数据,以及非常精确、绝对的奖励函数。然后大力出奇迹,硬生生把模型给培训出来。

后来DeepSeek发现,其实不需要那么高的成本,搞得那么费劲——可以把奖励函数弄得更灵活一些嘛。针对每一个问题,它让模型生成一组答案。然后看这一组答案里边,哪个答案相对好一些,从而给出奖励。

传统方法,比较像我们以前在学校里接受的填鸭式教学,靠着记忆力去刷题,想要蒙混过关。但是,这种搞法,知其然而不知其所以然,所以最后还是个渣渣。而DeepSeek的方法则是反复思考解题步骤,最后不仅知其然而且还知其所以然。于是,模型“顿悟”了,学霸诞生了。

如果还是不太明白,那我再打个比方。传统方法训狗,需要明确定义每个动作,并且给每个动作都设计奖励。只有当狗完全按照指令完成动作时,才能获得奖励。

而DeepSeek的方法是,一个动作让狗做三次。在三次当中,相对较好的那一次获得奖励。然后不断重复这个过程。

大家如果有养狗经历就知道,用DeepSeek的这种训练方法,主人轻松,狗子开心,效果也好。

DeepSeek很大方地分享出来之后,Unsloth就拿来用了。不过在使用之前,有一些限制需要跟大家说清楚:

你拿来微调的模型不能太小了,至少也得有1.5B,不然没法正确生成思考标记。这是我选择用3B尺寸的原因,既符合训练的要求,也能在手机上运行。另外,步数至少要300步,奖励才会真正增加。为了达到良好的效果,建议至少训练12个小时。

在官方给的示例当中,用的数据集是GSM8K。它包含了8500个高质量的小学数学文字题。每个问题需要2到8个步骤才能解决。而且,这个数据集里的解题方法是用自然语言编写,而非纯粹的数学表达式。所以,用它来训练,能够提升模型的多步骤数学推理。

类似GSM8K的数据集还有好几个,比如MATH Dataset、MathQA等等。我建议大家先别着急就导入自己的数据集,可以拿这些练练手。因为,换了数据集之后,由于格式不同、特点不同,奖励函数可能需要做相应的调整。

另外,超参数的调整也需要大量实践。比如:

学习率,用来控制模型学习的速度。设得太高,模型可能学得太快,错过最优解;设得太低,模型可能学得太慢,浪费时间。

Batch size,指的是每次喂给模型的数据量。设得太大,可能会导致内存不足;设得太小,可能导致模型学习不稳定。

微调和RAG一样,都是看起来简单,但真要获得好的效果,需要大量调试。而且这东西没法教,只能“干中学”。但是,有门槛是好事。只要跨过去了,就能甩开一大堆人。

所以,我在Google Colab上买了一些计算单元,这段时间会做各种测试。至于数据集,我突然想到,过去一年我在星球里回答了好多好多问题。这些问题都可以做转换,比如让模型帮我批量处理,然后放进数据集里。

通过微调打造AI分身、训练私域模型的想法,在我去年做Llamafile那期视频的时候就出现了。现在可能性越来越大了。等有进展了,我会在社群里说。

OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!

Agent经济,要来了

Key Takeaway

  • 红杉资本认为AI浪潮的量级远超云计算和移动互联网,将颠覆整个软件市场,并重构服务行业。
  • AI的机会主要在应用层,创业公司可从垂直领域和复杂人力介入问题切入,利用Agent替代外包业务。
  • “Agent经济”(Agent Economy)是AI时代新的商业模式,Agent将替代用户进行交互和交易,催生新的通信网络和基础设施需求。
  • 2025年AI的关键词是Agent,它将成为模型和应用集中的焦点。
  • MCP(模型控制协议)为大模型提供了外部信息和工具,是Agent进化的前提。
  • Agent的准确率提升和Token费用下降,预示着Agent将迎来爆发式发展。

Full Content

如果你想AI创业,红杉资本最新的Keynote一定要看。他们三个人花了半小时,把AI产业现状以及未来趋势都讲明白了。我帮你们画一下重点,以及谈谈我的感受。

第一,分析框架。

如果你要分析AI或者别的领域的趋势,可以使用红杉这套框架:

What,So What,Why Now,What Now。

整个分析从What、也就是发生了什么开始。比如,今年MCP特别火爆——这是What。那又怎么样呢?会有什么影响吗?这是So What。为什么是现在火爆?MCP是去年底推出的,当时怎么没火?这是Why Now。前因后果都知道了,我们现在该怎么做?这是What Now。

这类分析、思考框架拿起来就能用,很适合新手。类似的东西,还有“现状 - 障碍 - 目标”,这个我在社群里发过,是我过去十几年用得最多的框架。

目标是你要去的地方。现状是你当下所处的位置,是你的出发点。那么,要从这里到达哪里,中间有哪些障碍呢?只要找到障碍,并且找到克服障碍的方法,我们就能达成目标。

我们平时会看到很多机构和大佬做分享。除了他们说了什么之外,我的习惯是,会去分析、倒推他们为什么这么说、这么想,把他们的框架给研究清楚。长期来看,这比他们的观点更有价值。

这算是我的秘诀,免费分享给大家。不用谢。

第二,AI浪潮究竟有多大?

很多人认为,AI堪比过去的向云端转型的机会。但是红杉认为,AI的量级要大得多:

AI不只是服务,还会颠覆整个软件市场。

这一点,我在今年深有感受。Agent真的已经开始重构整个服务行业和软件行业。

而且,AI这个浪潮不仅超大,还非常凶猛。因为,它所需要的算力、网络、数据、分发渠道、人才培养,在过去几波浪潮中都已经铺垫好了。这么多层叠加到一起,把势能全部给到AI,所以AI才会达到今天这么恐怖的发展速度。

我知道,很多人在国内感受不深,还盯着什么电商、外卖、短视频。这让我想起了灾难片的场景。一群游客在沙滩上晒着太阳、喝着鸡尾酒。但是,如果你出海了,在海面上就会看到,一个百米高的超级巨浪已经形成了,并且朝着岸边狂奔而来。

所以,早点准备吧。

第三,AI的机会在哪里?

把AI跟过去的云计算和移动互联网放在一起看。从基础设施开始,列出达到10亿营收规模的企业。可以看到,AI这边还有很多空白。而且,最大的空白区域在应用层。

有一个概念,我提到过好多次:模型即应用。

这个是OpenAI这些公司正在做的事。他们凭借越来越强的模型能力,就像吃豆人一样,正在吃掉越来越多细分赛道,直到成为一个超大的、通用型的怪物。

但是另一边,创业公司也在反击。他们从客户需求出发,专注在特定的垂直领域,聚焦在特定的功能上,处理那些需要大量人力介入的复杂问题。

比如,那些外包业务就可以用Agent来替代。你想嘛,能外包,说明人力成本高,说明有预算,说明结果可衡量——这不就是最需要Agent发挥的地方吗?

所以,有技术是一方面。从技术到客户需求被满足,整条价值链当中,还有很多可以去挖战壕、广积粮的地方。一场全面的竞争已经展开了。

第四,终局长什么样?

大家记住这个新概念:Agent Economy,Agent经济。

过去我们经历过各种经济,比如粉丝经济、共享经济,等等。那么,AI时代将诞生的、新的经济形态、商业模式,就是Agent经济。

Agent会替代用户进行交互、交易。那么,围绕Agent自然要产生新的经济形态,对吧?

顺着这个逻辑往下想的话,今天的网络是以人为出发点的,是面向人的。那么,Agent兴起之后,是不是也得有一张以Agent为主角的通信网络?这个网络该采用什么样的协议?以及,当Agent数量翻个十倍、百倍,需要什么样的基础设施和配套服务?

这一张Agent网络,还有这整个Agent经济的背后,得有多少机会啊?能不兴奋吗?

顺着红杉的判断,我谈一下我的体感。

在今年年初,我发了一个视频,叫做《我对2025年AI的判断》。在开头我就很明确说了:

2025年,AI的关键词只有一个,就是Agent。不管是搞模型的还是搞应用的,都会把火力集中到Agent这个点上。

后来的发展,证明了我的判断。

MCP火爆的原因就在于,它给大模型提供了更多外部信息和工具——这个是进化成Agent的前提。

信息搜集的Deep Research,AI编程的Cursor,都是Agent最好的案例,也是目前AI的杀手级应用。

Agent趋势兴起,从我们社群也能感受到。去年大家在社群内的提问主要是关于RAG、知识库的。到了今年,Agent相关问题明显变多了。

这个趋势的背后,有两条曲线在发挥作用。一条是Token费用。你去对比GPT-3.5、GPT-4时期的费用,和今天的费用就会发现,Token费用已经下降非常非常多了。另一条是Agent的准确率。最多两年,Agent执行任务的准确率就能达到人类的92%。

能力越来越强,成本还越来越低,这个是什么结果不用我多说了吧?

所以我也调整了自己的日程安排。周一和周二我会把本周要更新的视频做完。然后本周剩下的时间,我都会用来开发应用。从简单但是刚需的工具开始,就像播种一样,为自己创造多条现金流来源。

我也建议大家,抓紧行动起来。这么大的机会,人这一辈子能遇到几次?而且还是在年轻或者中年的时候。

AI不会替代你,但是…

Key Takeaway

  • AI不会替代人,但会使用AI的人将替代不使用AI的人。
  • AI赋能个体并非平等过程,早期阶段AI的特点是“遇强则强,遇弱则弱”。
  • 少数派(约5%)能用好AI,他们具备“不吹不黑”的态度和“AI视角”。
  • 学习使用AI的两个关键方法是:DYOR(Do Your Own Research),即深入研究源头知识;学习Python编程,以便理解AI底层逻辑。
  • 文章强调了认知差比技术差更大,以及编程能力在AI时代的重要性。

Full Content

有一个好消息,一个坏消息。

好消息是:AI不会替代你。

坏消息是:用AI的人才会。

所有厂商都在喊:AI for ALL。AI确实能帮到每一个人。但是,AI赋能个体过程一定不是一个平等的过程。

尤其是在现在这个早期阶段,AI技术才刚刚开始产品化,还非常不完善,接触起来很有门槛。所以,AI在这个阶段的特征是八个字:

遇强则强,遇弱则弱。

AI遇到什么样的人会变强?遇到什么样的人会变弱?

以使用ChatGPT为例。我看到的人当中,至少95%是这样的:

没头没脑地贴了几篇文章过去,然后叫AI生成一篇新的文章。拿到结果一看,很不满意,于是下了结论:

AI真垃圾,都是资本吹起来的。

只有少于5%的人会这样做,他们会想明白两件事:

第一,自己到底要的是啥?比如,文章的核心内容是什么,结构是怎样的,风格是怎样的?

第二,AI是怎么执行的?比如,它会怎么思考我们的指令,它都需要什么东西才能把活儿做好,过程中需不需要我们给个反馈、指导一下?

这样的少数派具备两个非常宝贵且重要的品质。

一是态度,用一个流行词来形容就是:

不吹不黑。

他们既不会去神话AI,觉得AI无所不能,也不会完全否定,觉得AI做不到100分就是没价值。

因为现在的AI只能当Copilot,也就是副驾驶。握方向盘的人还是Pilot,也就是用户。所以对于没脑子的Pilot来说,Copilot再强都没用。

这些5%的少数派的态度就是,AI能做多少,就用多少。做得好的地方,该花钱就花钱,不犹豫。做不到的地方,也不焦虑,反正咱又不是模型厂商,AGI能不能实现咱不操心。

二是视角,AI的视角。

大模型是什么?是知识的容器。

训练大模型的过程,是对知识进行压缩的过程。使用大模型的过程,是对知识进行解压的过程。其它的一切,都是从大模型出发去做扩展。比如:

  • Fine-tune是什么?是给大模型开个补习班,再学点新知识。
  • RAG是什么?是给大模型一堆参考书,要用的时候翻一翻。
  • Agent是什么?给大模型一个工具箱、一本操作手册,让它正式上岗去帮我们干活。

如果你读过KK的《科技想要什么》这本书就会有感觉:这绝对是一个不同于我们常规定义的生命体、智能体。这也是我们第一次面对除了人类以外的复杂系统。

所以想要了解并利用好AI的话,一定要转换视角,站在AI的角度、站在系统的角度去窥探和理解。

如果你是那5%的少数派的话,或者你真心想学会怎么用AI的话,我这边有两个建议,都是我自己的经验总结。

我在刚创建知识星球newtype的时候分享过我的经历。其实我没有任何相关背景,最初也不懂编程啥的,完全是从零开始、自学半年。我所用的,就是以下这两个方法。

第一,DYOR,Do Your Own Research。

这句话在币圈很流行,意思是,做好你自己的研究,别都听别人的。对于学习使用AI也适用。

有一个很扎心的事实我不得不说说:关于中国和国外在AI方面的差距,比技术差更大的,是认知差。

从媒体到商业大佬,大家都还在学。尤其是那些大佬,等你真正做了研究就会发现,他们都是一知半解。但是,人家为什么敢出来说、敢出来教?两个原因:

一是为了影响力。在AI这种级别的技术革命面前,所有人都是从新开始,不管你之前有多牛、地位有多高。为了抢个先手,他们当然要主动抛头露面,趁着在上个时代的影响力还有点余温的时候。

二是为了学习。在精英眼中,输出也是一种学习的过程,而且特别有效。所以,看着是他们在教你,其实人家只是对着镜头在背作业。

最先进的、最及时的AI内容都在国外。你只能自己学,没人能手把手教你。

当你开始学之后,这边有一个点要注意:尽可能找到源头。

比如,你看到很多人都在讨论,大模型训练用的高质量数据快不够用了,将会限制模型性能的进一步提升。

如果你只停留在这一步,那只能得到一个其实没什么用的、所谓的观点。如果你肯多问几句,比如:为什么需要海量数据?大模型从这些数据中究竟学的是什么?数据不够的话,合成行不行?让现有的大模型生成数据,给下一代大模型训练,可不可以?

顺着逻辑一路追问下去,并且找到每一个答案,你就能在源头层面把这个问题吃透。

不用纠结要不要很系统地去学习,只需要把每一个点都弄扎实了,一段时间之后你就会发现,这些点都串联成了一张网。而且,它们背后是同一套根本的逻辑。

当你走到这一步,恭喜你,入门了。

第二,学Python。

很多大佬都在吹:不需要学编程了,人人都可以是程序员。

我可以很肯定地跟你说,也许几年之后是这样。但现在,编程还是一个不可替代的能力。

那么,学AI为什么要学Python编程?

AI剪藏公众号文章,全自动总结、提炼、存进Obsidian

Key Takeaway

  • Web Clipper插件的Interpreter功能能实现AI自动总结、提炼公众号文章,并保存到Obsidian,极大提升信息处理效率。
  • 该插件支持桌面端和移动端,可根据预设模板和触发条件自动化剪藏流程。
  • 用户可选择不同大模型(如GPT-4o mini、Claude、Gemini、Ollama)进行内容处理,并自定义笔记内容和存储位置。
  • Interpreter的配置包括设定大模型、模板(行为、存储位置、触发条件、笔记内容、处理上下文)等。
  • 文章强调了Web Clipper在信息搜集和预处理方面的重要性,以及其在减轻阅读压力方面的实用价值。

Full Content

如何用AI自动总结、提炼一篇公众号文章,并且把这些生成的内容和原文一起保存进Obsidian,成为一条笔记?

我强烈推荐大家试试Web Clipper这款插件。它有个功能叫Interpreter,就能实现刚才说的需求。我快速演示一下,非常简单:

在桌面端,如果要处理这篇公众号文章的话,点击浏览器右上角的插件按钮。这时,插件发现这是一篇公众号文章,自动选择了我事先设定好的模板,用我事先设置好的GPT-4o mini做两件事:

第一,总结整篇文章。这样我就知道它大体上是关于什么的。

第二,提炼文章要点。这样我就知道它里边的要点。

然后,我只需要点击保存,刚才这两个部分会放在开头,后边跟上整篇文章的内容,全部打包成为一条笔记,存进Obsidian里边。

这整个过程我只点了两下,其它都是自动完成的。在移动端也是基本类似的操作。

用Safari打开公众号文章之后,点击地址栏左边的按钮,然后在扩展列表里点击插件,这时会出现跟桌面端基本一样的界面。这时再点击右边的Interpret,模型就会自动按照设定好的要求去处理文章。几秒钟之后,再点击保存就搞定了。

因为需求很简单,就是总结和提炼,所以在模型的选择上,我用了速度快、价格便宜的GPT-4o mini。你也用别的,比如Claude或者Gemini。

如果你注册御三家的账号有困难,还可以选择OpenRouter这样的第三方平台,它集成了市面上所有的主流模型。

如果你就是一分钱也不想花也OK,这款插件还支持Ollama。你就在机子上跑个小一点的模型,也很舒服。像Qwen就提供了好多参数的版本,看着挑就好。

哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有600多位小伙伴付费加入啦!

回到今天的主题:Web Clipper的Interpreter功能。

这是我做的第三个关于这款插件的视频。大家如果需要基础操作的讲解的话,去翻我之前的。

我之所以这么看中它是因为,信息的搜集和预处理真的非常重要。我在半年多前还特意写过一个脚本,创建了一个Agent Workflow,专门实现刚才演示的那些功能。现在人家一个插件就搞定了,而且还支持移动端。

要配置Interpreter很简单,就两个步骤:

第一步,设定大模型。

点击Add Provider,在弹出界面里选择模型提供方。不同的提供方有不同的Base URL。大家如果之前写过脚本的话,对这个应该非常熟悉。

填完链接和API Key之后,还需要配置一下模型。因为一款模型可能有多个提供方,比如OpenAI和OpenRouter都有GPT系列,所以这边一定要选好。

至于Model ID,一定要按官方的格式填。不知道的话,就去后台看,每一款模型的ID肯定会有。

这两步搞定之后,Interpreter就算设置好了。接下来是模板的设置。我从上往下介绍。

Behavior指的是让插件怎么做,比如是创建一条新笔记,还是在现有的笔记后边做补充。

Note Location和Vault是告诉插件,把笔记存到哪个位置。

Template Triggers就是触发条件。当条件满足的时候,插件会自动选择这个模板,就省去你手动选择的麻烦。我这边设定的条件是公众号文章的网址。

Note Content就是创建的笔记需要包含什么内容。我设定了三个:1、Summary;2、Key Facts;3、全文。大家可以根据自己的需要做调整。

Interpreter Context就是你希望插件处理哪部分的内容。我在这边填Content,意思就是让它处理整篇文章。这个大家也可以根据自己的需求去修改,比如让插件只抓取网页某个部分的内容。

做完这两个部分的设置后,Web Clipper插件就会自动选择模板、自动做总结和提炼。这个对减轻我们平时的阅读压力真的很有帮助。大家看完了一定试试。

OK,以上就是本期内容。想聊AI,就来我们newtype社群。那咱们下期见!

AI学习法:Deep Research + Obsidian + Cursor

Key Takeaway

  • 作者介绍了一种结合Deep Research、Obsidian和Cursor的“AI学习法”,旨在实现深度研究、知识提取和知识图谱构建。
  • Deep Research提供高信息密度的输入,Obsidian通过反向链接功能将报告中的知识点系统性地关联起来。
  • Cursor的Composer功能能够直接对Obsidian笔记进行知识点提取、解释和内容生成,充当强大的AI辅助工具。
  • 这种学习法强调了AI工具组合使用的价值,以实现超越单一工具的效果。
  • 建议在与AI工具交互时,将复杂任务分解为清晰的步骤,以提高效率和准确性。
  • 长期来看,定期回顾和复习知识点对于巩固学习效果至关重要,可利用Obsidian的随机笔记插件辅助。

Full Content

介绍一个我最新研究出来的“AI学习法”,非常强大。它用到了Deep Research、Obsidian、Cursor,可以针对你的需求做深度研究、知识点提取和解释,并且形成知识图谱。

去年我出过一期社群专属视频,介绍了用Cursor搭配Obsidian使用。其实当时就有这个想法了。现在有Deep Research,这个AI学习法终于可以闭环了。

Deep Research是第一个环节。它可以提供信息密度非常大的输入。但是要完全消化的话,还需要对报告里的知识点做进一步处理。

于是,就需要Obsidian。它的反向链接功能特别好用。在一篇笔记内,如果提到了另一篇笔记,就可以链接过去,最终形成一个知识图谱。这是我把Deep Research的结果放进Obsidian的原因——让作为报告的笔记,和它相关的知识点笔记都关联在一起。这有助于我们系统性地去理解。

那么,问题又来了:知识点该如何提取和解释呢?于是,就需要Cursor。

Cursor的Composer功能可以直接对文档做修改,还可以创建新的文档。用它打开Obsidian存储在本地的笔记,通过对话就能完成一切。

最终,回到Obsidian里,我们不仅能看到一篇深度内容,而且每一个知识点都帮你捋得明明白白。剩下就靠你自己了。

AI都帮到这份上了,还有什么理由学不会?

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经快1000人付费加入啦!

回到今天的主题:AI学习法。

我在社群内分享过,想借助AI获得Unfair Advantage,其中一个关键,就是知道如何组合使用各种AI工具,获得框架之外的效果。我的AI学习法就是最好的例子。

我给大家做一个实操演示。议题是:DeepSeek-R1有哪些技术创新?

Deep Research我用OpenAI的。目前在这个应用上,他们是全球最贵、全球最强,没有之一。稍等几分钟,一个非常详细的技术解析报告就生成了。

就像前边说的,这个报告信息密度很高。你要是硬啃的话,估计有点难度。于是,我把它复制下来,放到Obsidian里边。为了方便演示,我创建一个新的文件夹,这样一会儿大家看得比较清楚。

另外,我这边只截取了报告的第一部分,并且把Markdown格式全都去干净了。因为我发现,如果文章中有太多Markdown语法的话,会对Cursor有很大影响。很有可能它就没法对文章做修改了。

OK,接下来在Cursor中打开文件。记得在右边栏选择Composer,而不是Chat。

关于Cursor的三种模式——Chat、Composer、Agent,我之前在社群内说过:如果你要自主掌控的话,用Chat模式,可以选择接受哪一部分代码;如果你要全自动化的话,选择Agent。而Composer居中,有一定的自动化能力,正好是我们现在需要的。

接下来,把第一步需求告诉Cursor:帮咱们提取知识点,用Obsidian的反向链接格式标注出来。其中,那些常规名词不需要标注,比如公司和产品的名称。

我演示的文章不长,所以Cursor没多久就搞定了。如果是很长的文章,它会分批操作,需要我们说“继续”了,它才会继续。

第一步完成之后,这篇文章里的知识点都被标注出来了,非常清晰。第二步就是对每一个知识点都创建一个空白的md文档。文件名就是知识点的名称。也就是说,每一个知识点都是一条笔记。这样一来,通过反向链接功能,也就是前边的标注,就能把这些单独的知识点和原文串联在一起。

创建这些空白文档对Composer来说非常容易,很快就搞定了。那么第三步就是填充内容。在刚才创建的每一个空白文档内,补上这个知识点的解释,并且要通俗易懂。

因为这些都是技术名词,不是什么时效性比较强的内容,所以模型用自己的知识储备就可以搞定。

这三步完成之后,咱们就可以从Cursor回到Obsidian了。可以看到,点击文章中的知识点,就会跳转到知识点的笔记,里边有专门的解释。而打开文章的链接图谱,可以看到这篇笔记都关联了哪些笔记。需要的话,你也可以从图谱里任意跳转。

我这边演示的都是基本操作。大家在实际使用过程中可以做细化和调整。比如有哪些知识点你觉得不需要的话,可以手动删除,或者让Cursor帮你搞定。另外,当你吩咐Cursor干活的时候,尽量把步骤拆开,比如我刚才就是分成三次让它操作,并且交代得明明白白。这样才能避免很多奇怪的问题发生。

最后,One more thing:长期来看,你还需要时不时去回顾、去review之前的知识点,才能有比较好的效果。不然那些笔记都堆在那里,你再也记不得。所以,针对这种情况,我推荐安装这个插件:Open random note。就像名字说的那样,你点击一下,它就会随机打开一篇笔记。所以,你闲着无聊的时候就点几下,看几条笔记呗。相信我,真的有效果。

OK,以上就是本期内容。想了解AI,来我们newtype社群。那咱们下期见!

AI时代,如何学习?

Key Takeaway

  • AI时代,大模型作为知识容器,人类在知识广度上无法胜出,唯一的解是“Go Fundamental”(深入基本原理)。
  • 基本原理相对稳定且具有普遍性,能应对技术快速更新,并应用于多个领域。
  • 人类在AI时代的独特优势在于抽象思考、跨领域联想和创造性思维。
  • 将人类独特优势与对基本原理的掌握相结合,能带来巨大的创新和成就。
  • 掌握基本原理能帮助个体在AI时代更具竞争力,将AI作为杠杆,撬动更大的价值。

Full Content

如果你知道在AI时代如何学习的话,那么大模型变得再牛逼,你也不会慌。

为什么大模型会让大家这么焦虑?

因为大模型的本质,是知识的容器。

大模型的训练过程,就是对知识的压缩过程。

大模型的使用过程,就是对知识的解压缩过程。

这个容器,容量大,使用难度低,而且谁都可以用。所以,在知识的广度上,咱们人类是不可能有胜算的。

我认为唯一的解是:Go Fundamental。

也就是说,在AI时代,如果你要学习,不管是哪个领域,一定一定要深入到基本原理层面。

为什么这么说?我总结了两个根本原因。

第一,技术的更新速度非常快,但基本原理相对稳定。而且,基本原理通常具有普遍性,可以应用到多个领域。

举个例子,计算机科学领域的算法复杂度分析,最早可以追溯到图灵那个年代。到了今天,这个这么老的理论依旧被用来评估模型的效率。

什么叫算法复杂度分析?

举个例子,一个客服中心,给50个客户打电话,需要3个人、一天的时间。当客户数量增加到5000的时候,又需要消耗多少人力资源和时间呢?

同样的道理,在大模型领域,当数据量增加的时候,训练时间会怎么变化?它所需要的计算资源会怎么变化?

所以,算法复杂度分析关注的就是,当任务规模增大的时候,完成任务所需时间或资源的增长速度。这个在今天的AI时代依然有效,而且特别重要。

我再举个例子:数学中的优化理论,是算法的核心。比如,训练神经网络本质上就是一个优化过程,目标是找到能最小化预测误差的网络参数。

那么你知道这个优化理论最早是从哪来的吗?

欧几里得在《几何原本》当中讨论了求两点间最短距离的问题,算是最早对优化问题的思考。不过那个时候只是开始思考,还没形成系统理论。

到了18世纪末到19世纪初,在物理问题驱动下,这个理论的基础开始形成。到了20世纪中后期,随着计算机科学的发展,优化理论成为一个独立且重要的数学分支。

这就是为什么说,基本原理基本不变,并且具有普遍性。

那些日新月异的变化,统统交给AI去学习。咱们就把握最基本的、最底层的理论,建立起最扎实的理解。

我相信大家应该都听过这样的话:当你在某个领域爬到山顶的时候就会发现,领域之间其实是相通的——你在这个山顶其实能看到那个山顶。这其实是一个意思,只不过,与其说是向上爬,不如说是向下深入,一直深入到基本原理层面,于是一通百通。

OK,这是第一个原因。第二个原因是,跟AI相比,人类的独特优势在于抽象思考、跨领域联想,以及创造性思维。当这种独特优势和对基本原理的掌握相结合,往往能带来意想不到的、极其巨大的结果。

我举几个牛逼的例子:

达芬奇结合艺术和解剖学知识,创作出精确而富有美感的人体绘画。

毕加索融合非洲艺术元素和欧洲绘画传统,开创了立体主义。

爱因斯坦将数学知识应用到物理学上,提出了相对论。

沃森和克里克结合生物学和化学知识,发现了DNA双螺旋结构。

在我看来,这些都属于把抽象思考、跨领域联想、创造性思维这些独特优势和基本原理结合的成功案例。

试想一下,如果真的能做到Go Fundamental,并且尝试将这些原理与其他领域的知识相结合,去碰撞、去延展、去发散,我相信,这样的个体在AI时代会非常有竞争力。他一定不会焦虑AI,反而能把AI当做杠杠——那么宽广的知识储备就是一根超级长的杠杠,而他自己就是那个支点。这样的超级个体和AI所组成的超级系统,肯定能撬动非常大的质量,取得很高的成就。

OK,以上就是本期内容。今天聊的有点虚,但是我觉得会比之前介绍某个具体的技术、工具都更有价值。大家想进一步交流的话,就来newtype找我,我都在。那咱们下期见!

AI杀手级应用:Deep Research

Key Takeaway

  • Deep Research是AI的杀手级应用,能显著提升职场效率,未来将快速普及。
  • Deep Research的核心是AI Search的尽头,即AI Research,通过掌握更多信息和控制更多工具实现。
  • OpenAI的Deep Research效果最佳,但成本高昂;Google Gemini的Deep Research性能不错且性价比高;Perplexity的Deep Search量大但效果一般。
  • Deep Research通过模型协作和多轮分析,能快速完成深度研究,生成思维导图和深度挖掘。
  • 文章强调Deep Research普及后,将对职场产生巨大影响,并建议用户尽早学习和使用。

Full Content

Deep Research绝对是AI的杀手级应用。用过都说好。可惜用过的人太少,因为成本真的很高,比如OpenAI要收200美金一个月才让你用。所以,这个东西暂时还没有火出圈。如果你是职场新人,或者很想往上爬,趁着这段时间,赶紧用、赶紧学,不开玩笑。

这么说吧,但凡脑子正常的老板用过Deep Research之后,绝对会想把公司里的初级牛马全部干掉。手段不那么狠一些的,也会强制要求全员使用。然后,用不明白的都给我滚蛋。

我演示一下你们就明白了。需求很简单:帮我分析英特尔与台积电合资的可能性,以及美股投资机会。这个是最近美股投资的热门议题,我已经买入了。

接到需求后,ChatGPT会主动做一轮沟通,把需求里的细节明确一下,然后再正式开工。整个过程一般在10分钟左右,它会去查找几十个网页,然后细细地拆解。这个时候大家可以切到别的网页或者刷刷手机。

我对o1 Pro这个生成结果挺满意的,几分钟时间就完成了初步研究。试想一下,一个月1500块招个实习生帮你搜集资料,能做到这个份上,你已经可以偷笑了!

接下来,可以让这个GPT实习生根据前边的内容生成一个思维导图,这样你会有一个全局性的认识。然后,针对其中某些具体的点,再让GPT去做深度挖掘。这我就不演示了。

所以,身为打工人的各位自己掂量一下:当Deep Research全面普及之后,你们在职场当中该如何自处?

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!

回到今天的主题:Deep Research。

目前市面上提供Deep Research产品的厂商主要有三家:OpenAI、Google,以及Perplexity。接下来一定会有更多厂商加入进来。为什么?记住我这句话:

AI Search的尽头,是AI Research。

那么,不管是Search还是Research,又都是为了什么?我前两天在社群里发了这么一段话,我认为:

AI会沿着两条线发展:掌握更多信息,控制更多工具。

其中,搜索、深度研究都是第一条线的关键节点。这是为什么各家都很重视的原因。

动作最快的OpenAI已经把这个产品开放给Pro用户好一段时间了。这一档的月费是200美金,每个月可以用100次的Deep Research。Plus和免费版的用户也别着急,Sam说了,将会向Plus版用户提供每个月10次的额度,免费版用户则是2次。

实话实说,OpenAI的Deep Research是目前效果最好的产品。它不是简单地搜一堆网页,把内容拿回来分析。而是用了大量的模型协作。所以,消耗的Token比别家多太多。它产出的报告,信息密度也是别家的好几倍。不信的话,你去部署那些开源的、所谓的替代品试试就知道了。

但是,很可惜,我不会继续订阅。不是产品的问题,而是降智的问题。

很多人都遇到了降智,特别恶心。这个问题并不是无解。比如,你可以再花一点点钱去搞个静态IP伪装一下。可以是可以,只是那种被歧视的感觉让我非常不爽。我给的美元就不是美元吗?

而且,抛开这些情绪,我判断,这类型产品在三个月内一定会快速普及,成为20美金的标配。

这么考虑下来,我还是会把Gemini当做主力。性能不错,稳定,不恶心人。

我每个月20美金订阅Gemini Advanced,这其中就包括Deep Research的使用权限。这个使用也是有限额的,不过Google没明说,估计是根据用户的使用量来动态调整,满了会提示。

我给大家看一下Gemini这边的效果。跟ChatGPT一样,接到需求后,不会马上开始,而是先做一轮分析,拟定一个方案,跟用户确认好了之后才开工。接着,在几分钟内,它会查找几十甚至上百个网页,直到掌握足够的信息。最后,按照报告的格式进行输出。

没记错的话,Gemini的Deep Research是在1.5的阶段推出的,所以现在是1.5 Pro这个模型,还没更新到2.0。所以,在结果上肯定不如OpenAI那边。但是我相信,等用上Gemini 2.0模型之后,两边的效果一定会齐平。而且,Gemini大概率会提供更多的额度。一是因为搜索上的积累,二是因为Google有TPU。对OpenAI来说,成本才是他们最大的障碍。

OK,ChatGPT和Gemini都聊完了,咱们最后来看看Perplexity。他们是最狠的,给Pro用户每天500次额度,免费用户每天5次。虽然便宜,但是效果也比较一般。

不客气地说:这不是Deep Research,而是Deep Search。

反正我日常都高频使用Perplexity。现在多了一个量大管饱的Deep Search,不用白不用。

AI知识库的终点

Key Takeaway

  • 传统RAG在处理复杂查询时存在局限性,无法有效捕捉实体关系和层次结构。
  • Second Me项目通过混合记忆架构(结合RAG、GraphRAG和本地模型微调)来解决传统知识库的局限,旨在打造一个能模仿用户风格、语气和关注议题的“第二个我”。
  • 混合记忆架构包含三个层级:L0(快速检索层,RAG)、L1(记忆深度处理与结构化层,GraphRAG)和L2(模型个性化微调层)。
  • Second Me的部署和训练过程包括自我介绍、上传资料、输入API Key和选择Base Model,核心在于五个步骤的训练。
  • 该项目能够实现个人知识库与大语言模型能力的结合,提供更先进的AI交互体验,并具有将个人分身发布到网络供他人调用的想象空间。

Full Content

每一个搭建AI知识库的人,都有一个终极梦想:

把自己手头的所有资料,甚至毕生所学,全都教给AI。这样一来,我们知道的,它都知道。而且,它还有我们不具备的超强计算能力。

简单来说就是:第二个我。

用RAG做不到这一点。过去一年,我出过好多期关于RAG的视频。但是,当我了解得越深、用得越多之后,我越来越明白RAG在技术上的局限性。

你想嘛,无论你用什么样的策略,最终召回的还是那些被切碎的、独立的文本块,这一点不会改变。

要实现刚才说的“第二个我”的终极目标,今天的RAG还太初级。但是我知道,肯定有人在研究、在开发。

Second Me就是截至目前最让我欣喜、最让我看到希望的项目。

它采用混合记忆架构,有点类似于咱们人类大脑的短期记忆和长期记忆。

为了实现这个架构,Second Me把RAG、GraphRAG都用上了,去深度处理用户提供的文档。最后,基于这些处理过的数据,它还在本地微调一个模型。

也就是说,这个项目其实已经脱离了知识库的范畴。因为最后我们进行交互的,是一个完全根据你的风格、语气、表达方式,以及最关心的议题所定制出来的模型,再搭配上结构化处理的知识库。

这样一套解决方案,比我们现在在用的AI知识库,显然先进得多。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有超过1000位小伙伴付费加入啦!

回到今天的主题:Second Me。

这个项目其实是社群里的小伙伴发现的。当时他在星球问我,怎么本地部署。我试了一下,完全没问题啊,一路上没遇到任何报错。

就像GitHub上说的那样,你先把Python和Xcode命令行工具安装好,这是必须的。

然后把整个仓库下载下来。我当时没用这行命令,而是直接下载压缩包。

再然后,用cd命令进入项目文件夹,运行make setup。它会自动安装需要的一切。你就啥也别管,等着好了。

等全部安装完成,用make start命令启动项目,然后打开一个本地链接,就可以开始训练了。这个环节也很简单,就做三件事:

第一,做个自我介绍。因为,你给的资料,最终一定要跟你的身份属性相结合,才能描绘出一个生动的你。不然就只是一堆“死”的数据。

第二,上传资料。你可以直接贴文字进去,也可以上传文档。我是直接把我视频脚本的文件夹拖进去了。

第三,输入OpenAI的API Key,以及根据你机子的性能,选择一个Base Model。

这边我需要说一下。我的机子是M4 Pro芯片,48G统一内存。平时跑7B的模型完全没压力,所以就选了7B。结果到最后的微调环节,内存压力还是有点大的。我不得不把处理项目以外的软件全都关了,才顺利完成。至于OpenAI的API,花不了多少钱。你看,我这边快100个文档,花了3美金。因为它用的是GPT-4o mini,白菜价。

当你把这三步都设置完毕,就可以正式开始训练了。Second Me的核心,就在这五个步骤的训练中。

第一步,它需要下载Base Model,用的是Qwen2.5。最后的微调就是基于这个模型进行的。

第二步,处理用户上传的资料。这边用到了RAG技术,也就是把所有文档切成更小的文本块,然后把文本块转换成向量表示,最终完成基础数据的准备、索引的创建。

第三步,提取更深层次的结构化信息。这应该就是GraphRAG技术。因为通过第二步的处理,我们得到了一大堆文本块,它们都是独立存在的,是散的。但是,如果你站在整篇文章的角度来看,文本块之间,或者说上下文之间,应该是有逻辑关系的。由于RAG技术的局限性,这种逻辑关系丢失了。

所以需要GraphRAG,把人名、地名、概念等等实体,以及实体之间的关系,全部识别、提取出来,形成一个关于你这个人、关于你的知识体系的图谱。

第四步,准备用于微调的数据集。光有用户上传的资料还不足以进行微调。因为这些资料当中,哪些数据需要增强,还得依靠前两步的处理才能知道。比如,跟用户身份特征有关的数据显然需要强化。

第五步,正式开始微调。这一步最吃性能,也最花时间。我从下午等到晚上才搞定。

这五个步骤,其实就是在实现所谓的“混合记忆”架构。这个架构包含L0、L1和L2三个层级。

第二步的RAG,对应的是L0,也就是“快速检索层”。它是一种简单、快速的记忆检索机制。你可以把它看成是人类大脑的短期记忆。

第三步的GraphRAG,对应的是L1,也就是“记忆深度处理与结构化层”。它的目标是深入理解记忆内容,提取结构化信息。你可以把它看成是人类大脑的长期记忆。

第一步、第四步和第五步,对应的是L2,也就是“模型个性化微调层”。它的产物,就是那个经过个性化训练、能够模仿用户,并且利用知识库的Second Me模型。

这一大套的东西,都是为了让三个层级共同协作,实现了一个把用户个人记忆,或者说个人知识库,与大语言模型能力相结合的“混合记忆”系统。

至于怎么使用,很简单:点击“Start Device”,这个项目会通过llama.cpp加载训练好的模型,然后咱们正常对话就好。

因为资料都是我自己写的视频脚本,所以我再清楚不过了。我用下来的感受是,它不像RAG那么机械,没有那种复读机的生硬感。它似乎跟我一样了解所有的内容。这个就是“混合记忆”带来的体验。

说实话,一年前,我跟VC的小伙伴喝茶的时候还讨论过,可以参考人类记忆的特性去打造个人AI分身。现在看到有人实现了,我是真的很高兴。

AI笔记法

Key Takeaway

  • AI正在改变学习和笔记方式,NotebookLM等工具改变了从文档获取知识的方式。
  • Basic Memory项目旨在解决AI长期记忆问题,通过Markdown格式本地保存笔记,并用MCP连接AI,实现自然语言交互。
  • 作者的AI笔记系统采用“漏斗结构”,由AI笔记库(Basic Memory创建和管理)和个人管理笔记库(Obsidian)组成。
  • AI笔记库由AI自动创建文件夹和标签,作者只负责下达指令和筛选有价值笔记。
  • 强调利用AI的智能和效率,将先进生产力引入个人体系,拉开人与人之间的差距。

Full Content

AI正在完全改变我们学习的方式。

比如,能联网搜索的Chatbot,以及更强大的Deep Research,改变了我们从互联网获取知识的方式。

一枝独秀的NotebookLM,改变了我们从文档里获取知识的方式。

现在,我们记录思考,或者说做笔记的方式也将发生改变。我给你们演示一下。

左边是Cursor,右边是Obsidian。我让它帮我记录这条笔记:

开源模型的价值体现在本地化的场景中。但是本地化场景里最重要的是数据和业务流改造,而不是模型。

接到请求后,Cursor调用了一个MCP,完成了笔记的创建。在右边可以看到,它根据笔记的意思,创建了一个文件夹,并且还给笔记打上对应的标签。

那既然它能记录笔记,当然也能完善笔记。比如当我有一些不太成熟的想法时,就可以这么做。

我跟Cursor说,帮我记录并完善这条笔记,关于如何提升AI产品性能。你看,它不仅把我想的东西补充完整了,还根据它自己的知识添加了两点。

我再演示一个很常见的场景。我们平时会遇到一些概念、观点之类的,觉得有价值,但是又不知道它们的确切意思。这个时候就可以让AI帮忙解释,然后记录下来。

比如,“数据中心是新的计算单元”,这个是老黄的观点。我让Cursor解释并且记录。

在这个时候,Cursor先调用了Sequential Thinking这个MCP,进行多步骤推理,确保解释的完整性。当它觉得逻辑完整了,就会开始记录。在右边的Obsidian里,咱们可以看到,它对这一句话做了很详细的拆解。

刚才这些只是非常简单的演示。在实际使用当中,我还加上了搜索的MCP,让AI的信息获取能力更强。而那个帮我记笔记的MCP,叫作Basic Memory,就是我今天要推荐给大家的项目。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有超过1000位小伙伴付费加入啦!

回到今天的主题:Basic Memory。

这个项目主要是想解决AI长期记忆的问题。我们平时跟AI对话,很多东西聊完就过去了、丢掉了,挺可惜的。于是,Basic Memory的想法就是,用笔记的方式存下来。

第一,所有笔记都以Markdown的格式保存。这种格式,人类看得懂,AI也看得懂,再合适不过了。

第二,所有笔记都保存在本地,不用担心隐私泄露。而且有需要的话,可以用其它工具处理,比如Obsidian、Cursor。

第三,笔记仓库和AI之间,用MCP连接。AI可以自动创建笔记、读取笔记。而且由于是MCP,所以完全支持自然语言交互,你直接发号施令就可以。

我其实没想这么多,完全不care什么长期记忆之类的。我的需求很简单:当我跟AI聊到什么有价值的东西,或者我脑子里冒出什么新想法的时候,我希望AI能充当记录员、小秘书的角色,帮我记录、帮我补充。

要安装Basic Memory很简单,一共就两步,有手就行。

第一步,在终端里运行uv tool install basic-memory这行命令。

我来解释一下。这个uv是一个快速、轻量级的Python包管理工具。大家经常安装开源项目的话,肯定有用过pip,比如pip install、pip list等等命令。uv的好处是,速度更快,功能更全。比如包管理、虚拟环境、工具管理,它全都有,不用再装一堆其它工具了。

类似的还有npm,只不过它针对的是JavaScript,这个我就不多说了。

当我们通过刚才那行uv命令安装完毕之后,就可以进入第二步,把这几行贴到配置文件里。

这个uvx是刚才介绍的uv的一部分,属于子命令。用它可以运行Python包里的命令。而且它有一个好处,是可以自动创建一个临时的虚拟环境,很方便。

我是在Cursor里使用的,所以就在Cursor的MCP配置文件里,把这几行贴进去,然后保存。在MCP服务器列表里就可以看到这个项目了。

Basic Memory用起来很简单,就像最开始演示的那样。我重点谈谈我对它的定位和思路。

现在我会有两个笔记库:一个是原来的Obsidian Vault,完全由我亲手创建、亲手管理。另一个是新增的,由Basic Memory创建和管理的AI笔记库。

对于这个AI笔记库,我是完全放手,绝不干预。比如,里边的文件夹设置,每条笔记的标签,都交给AI去搞。我只做两件事:

第一,下达指令。有什么需要记录的,随时跟AI说。

第二,筛选笔记。AI笔记库承接了日常我跟AI对话中有价值、值得记录的内容。我会定期从里边筛选笔记,或者让AI帮我挑,然后放到由我管理的笔记仓库里。

这其实就是一个漏斗结构。AI笔记库是最上边那一层。我要发挥AI的智能、AI的效率,帮我先过一道。

这些是我目前的思路,供大家参考。今天AI发展非常快,不管是模型还是各种工具,都在飞速迭代。所以咱们一定要多动脑子,想想怎么把这些先进生产力引入到自己的体系中来。

你相信我:人和人之间的差距,就是这么拉开的。

OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!