Ollama

M4 Mac mini作为轻量级AI服务器,太香了!

Key Takeaway

  • M4 Mac mini是轻量级AI服务器的理想选择,功耗低且性能出色,能满足本地运行大模型的需求。
  • Ollama是本地运行大模型的优秀工具,支持多种模型和精度,可通过设置实现模型常驻内存,达到“随叫随到”的效果。
  • 通过修改Ollama的监听地址,可实现局域网内其他设备(如手机)访问本地大模型。
  • Enchanted是iOS上连接Ollama的简洁、流畅的APP,适合移动端使用。
  • 文章强调了本地部署开源大模型在解决云端服务不稳定、费用高昂等问题上的优势。

Full Content

我宣布,M4 Mac mini就是我个人的年度最佳数码产品。真的,太香了!

我这台24G内存加512G SSD的机子是在闲鱼上下单的。店家跑澳门帮我代购,然后顺丰寄到北京。全部加起来,7千块。我对比了一下国行官网的价格,发现居然便宜了500块。

也就是说,如果买国行,花更多钱,还买的是“阉割版”。这是什么道理?我真的不明白。

拿到Mac mini之后,我安装的第一个软件是Ollama,然后下载Qwen 2.5。因为我一直想实现这样一个场景:

一台足够给力、又足够冷静的机子作为服务器跑本地大模型,然后供给给局域网内的所有设备使用,比如手机。

之前我一直用这台PC跑大模型。但是那个功耗和噪音,我真的不敢一直开着。虽然理性告诉我,消耗不了多少,但心里就是不踏实。于是,M4版Mac mini终于实现我的设想。

现在只要我在家里,通过手机就能用上本地大模型。不知道为什么,我发现这种Self-hosting的方式有一种莫名的快感。跟用别人的服务完全不一样的体验。

在外边其实也可以连接家里的Mac mini,用我之前介绍过的ngrok就行,做个内网穿透。不过这么搞的话,速度就慢下来了,还是算了。

哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有600多位小伙伴付费加入啦!

回到今天的主题:在M4 Mac mini上运行大模型。

我准备在春节之前做一次升级,目标是彻底解决日常使用AI的问题。现在不管是ChatGPT还是Claude,在国内用总是不让人放心。比如封号的问题就完全不可控。一旦用不了就傻眼了。用M4 Mac mini作为轻量级的服务器跑大模型,算是我第一个尝试。

我们先来做个简单的测试,看看这台24G统一内存的机子能跑什么尺寸的大模型。标准很简单,就是每秒能吐出多少个Token。

测试工具用的是Ollama。把Verbose打开,就能看到运行的速度。

模型方面,我下了7b、14b两个尺寸,包括Q4和Q8两种精度,一共4个模型。32b就不用想了,肯定跑不了,都不用测。

在Q4精度下,7b的生成速度大概在每秒20个Token的样子,特别流畅丝滑。而14b大概是11个Token的水平。

我自己的直观感受是,11的速度基本是能接受的底线,再低肯定不行。到20的话,就算流畅。

我们再来看Q8的速度。在这个精度下,7b速度降到了大概每秒13个Token的水平。而14b就更低了。

所以,综合来看,M4芯片加24G统一内存,我个人选择是跑Q4精度、14b的模型。它的速度我能接受,而且答案的完整程度明显比7b更好。我试过让它挂着跑半小时以上,基本就是温热的程度,比较让我放心。

OK,模型选定了,但是还没完——Ollama还需要做一些设置。

在初始状态下,如果闲置五分钟的话,Ollama就会自动把模型都释放了。这意味着,如果我们突然有了需求、需要对话的话,又得等Ollama加载模型——这个就很不爽了,对吧?

所以,我们要做的第一个设置是,把OLLAMA_KEEP_ALIVE设为-1。这样一来,它就不会自动释放内存,才能达到随时响应的目的。

第二个是关于网络的设置。这个是我问Cursor学来的。

在初始状态下,Ollama只监听Localhost。要让局域网内的其他设备,比如手机也能访问Ollama,需要修改它的监听地址。

在终端里输入这一行命令:OLLAMA_HOST=“0.0.0.0:11434” ollama serve

0.0.0.0指的是让Ollama监听所有网络接口。不管活儿从哪来,都接。11434是它默认的端口,没必要改动。这么改动之后,手机、Pad这些设备都可以通过局域网IP地址接入Ollama。

那么,最后一个问题来了:在移动端用什么APP去连接Ollama?

在桌面端有太多选择了,比如经典的Open WebUI,还有Obsidian的一堆AI插件都支持。在iPhone上,我个人的选择是Enchanted,三个原因:

第一,这款APP特别简洁,就是纯对话,文字或者语音都可以。没有那些杂七杂八的功能,所以特别符合我的需求。

第二,它就是iOS原生的那种丝滑。要长期使用的话,这种体验很重要。

第三,Enchanted支持Ollama。把地址和端口填进去就可以用了,非常方便。当然,也是因为它只支持Ollama,所以我没选LM Studio。

今天的开源大模型已经足够强。量化版本就能满足平时对话的需求。搭配M4 Mac mini真的很舒服。强烈建议大家搞一套试一试。

OK,以上就是本期内容。想聊AI,就来我们newtype社群。那咱们下期见!

Ollama + Hugging Face:给Ollama添加任何大模型

Key Takeaway

  • Ollama是本地运行开源大模型的最佳工具,但官方模型对中文支持有限。
  • 用户可以通过Hugging Face下载GGUF格式的开源大模型文件,并利用Modelfile和ollama create命令将其添加到Ollama中。
  • GGUF格式是一种压缩格式,能让大模型在消费级终端上运行,但会牺牲精确度。
  • 文章详细介绍了将GGUF模型添加到Ollama的步骤,包括创建Modelfile和使用ollama create命令。
  • 强调了Ollama的开放性,使其能够运行任何开源大模型,为用户提供了更多选择。

Full Content

在本地跑开源大模型,目前最好的软件肯定是Ollama。

但是,对于咱们国内的用户来说,Ollama有一个问题:

官方提供的模型,对中文的支持太少了。

目前就一个中文模型,是基于Llama2微调的。如果你在官网搜“Chinese”这个关键词的话,能找到一个它(Llama2-Chinese)。

如果我们想多一些选择,使用那些国产的开源大模型,该怎么搞呢?本期我就介绍一下方法。还是那句话:

超级简单,有手就行。

理论上,除了官方模型列表里的模型,Ollama可以运行任何开源大模型,只要你有模型的GGUF文件。

那么,第一个问题来了:去哪里下载模型文件?

世界上开源大模型最多的地方,肯定是Hugging Face了。我们可以到这个平台直接搜国产大模型,比如:baichuan gguf,或者qwen gguf。通过下拉列表,就可以找到用户上传到GGUF格式文件。

这个GGUF格式,为了方便理解,你可以先简单把它看作是一种压缩格式——虽然这么解释并不严谨,不过无所谓啦。就像JPG压缩的是图片,那GGUF压缩的是大模型。这样一来,才好在咱们这些消费级的终端上跑。

当然,压缩是有代价的,那就是精确度下降。所以列表里才会有一系列不同体积的文件。大家根据自己机器的配置,选一个合适的下载就好。

下载好之后,创建一个txt文档,名字叫Modelfile,里边只需要写上这么一行:

FROM D:\ollama

这个文档的作用就是告诉Ollama该去哪儿找模型文件。比如,在我这边就是,去D盘、ollama文件夹,找到叫这个文件名的模型文件。

最后一步,打开终端,输入这一行命令:

ollama create

我来解释一下这行命令的意思。其实大家不用紧张,觉得这是命令什么的,肯定看不懂——你就把它当成是英语的阅读理解嘛:

ollama create,很好理解,就是让ollama去创建新的模型文件。

那么,创建好的模型该叫什么名字呢?就是后边跟着的名字,随你设定。

Ollama肯定不能凭空创建出一个模型文件,这就需要使用我们之前下载好的GGUF文件。这时候,我们告诉它,去读取刚才创建的txt文档,里边有GGUF文件的地址。

这样一来,Ollama就知道该从哪里找到大模型,然后创建一个叫什么名字的模型文件了。

这行命令运行之后,稍等个两三分钟就搞定了。

我们在终端里输入:ollama list。这个命令会列出目前你已经拥有的模型。这时我们看到,刚才导入的模型已经存在了。

打开Open WebUI,在模型选择的下拉列表里,同样也能看到最新的模型。

OK,以上就是让Ollama添加任意开源大模型的方法。我刚才下载的那个模型版本,中文的效果不一定好,只是为了演示这个方法。大家可以去Hugging Face或者国内的模型社区下载各种GGUF格式的中文大模型,然后找到最适合自己的版本。

本期内容就这些。大家如果有疑问,或者想进一步交流的话,到知识星球来找我。咱们下期见!

当浏览器与大模型打通:Brave浏览器 + Ollama

Key Takeaway

  • Brave浏览器通过与本地大模型(如Ollama)打通,实现了浏览器内置AI功能,提升了用户上网冲浪时的效率和便捷性。
  • Brave的AI功能支持直接对话、选中文字总结以及将当前网页内容作为大模型参考。
  • 文章强调了浏览器与AI打通的必要性,并认为Brave在大方向上是正确的,但未来大厂(如Chrome与Gemini)的跟进将带来竞争。
  • 尽管Brave的AI功能仍处于测试阶段,但其本地化部署和与开源大模型的结合,为用户提供了更多选择和自由度。

Full Content

所有软件都应该跟AI打通。比如我们最常用的浏览器。

当你上网冲浪,突然想问些什么或者想生成点什么,这时还要特意打开个网页(比如ChatGPT),或者切换到别的APP(比如Obsidian),这就特别麻烦、有点不爽。

于是,Brave浏览器就来了。这款产品存在应该有好几年了。免广告之类的常规功能就不说了,它最吸引我的点在于,可以跟本地大模型打通,比如在自己的电脑上运行千问之类的,然后去实现我刚才说的那些场景功能。

大家想尝试的话,记得下载Nightly版本。这是测试版本,每晚更新。下载好了一路安装。搞定之后,来到设置页面,点击这个Leo——这是他们给自己的AI Assistant起的名字。然后在添加模型的设置里,跟Ollama关联上。

Ollama是目前特别主流的在本地跑开源大模型的工具。你可以去他们官网下载软件,然后在终端里通过一行命令就可以下载你想要的大模型,比如我用得最多的qwen2。

当软件和模型都准备完成后,打开Ollama,你会看到,它会驻留在状态栏里。每当要调用大模型的时候,它才会启动。好处是可以一直挂着,坏处是第一次启动的时候可能得稍等个差不多10秒,需要把大模型加载一下。一旦启动起来就特别快了,真的比云端的爽多了。

要把Brave跟Ollama关联上很简单。如果你像我一样没有对Ollama做一些设置调整的话,那就按照提示,把地址填进去,把要跑的模型名称填进去。只要名称对得上,那基本不会有问题。

回到前端的交互页面,从侧边栏可以打开Leo AI。官方有提供大模型,不过咱们这边是要用本地的,所以选择刚才设置好的千问。直接对话交流完全没问题。要结合正在浏览的网页的话,有两个方式:

第一,可以在网页当中选中一部分文字,右键就能看到官方预设好的AI功能,比如总结之类的。

第二,把输入框上边这个按钮勾选上之后,就会自动把当前浏览的网页给到大模型作为回答参考。

不过我发现,这不是我们平时用RAG的那种处理方法。因为我试过,如果是一篇长文章的网页,它会提示只阅读了一部分,这说明它的方法很简单粗暴,就是把所有内容都作为上下文给过去。当超出上下文窗口的限制了,才会提示没有读完。

但话又说回来,如果真用RAG那套东西的话,还要搞Embedding什么的,就会变得特别重,不适合浏览网页这个场景。因为用户会不断打开新网页,并且来回切换的。

目前Brave浏览器的AI功能还属于测试阶段。就像前边说的,我觉得浏览器和AI打通特别有必要。Brave这个大方向是OK的。不过,大厂肯定会跟进,比如Chrome,绝对会通过Gemini实现同样的功能。对于Brave这种产品来说,活下来的一个方法是,给到用户更多自由。我特别希望它后续能加上更多自定义功能,至少把模型提示词先放出来,肯定能提升日常使用频率。

OK,以上就是本期内容。大家想找我的话,来newtype社群,我都在。那咱们下期见!

手机也能本地部署DeepSeek R1

Key Takeaway

  • DeepSeek R1模型可以在手机等本地设备上部署运行,PocketPal AI等免费APP支持。
  • 本地部署AI模型具有运行稳定、速度快、免费、模型选择丰富、使用自由和数据隐私安全等优势,是AI普及的趋势。
  • DeepSeek R1的发布对AI行业是重大利好,推动了AI普及,促进了模型厂商的竞争,并引发了对算力使用和开源模型价值的反思。
  • 在桌面端,Ollama是本地部署大模型的最佳工具,支持多种开源模型,并可与Open WebUI等前端工具结合。
  • 移动端本地部署主要选择1.5B等小尺寸模型,未来随着技术发展,移动端AI能力将更强。

Full Content

使用DeepSeek R1,不一定非要通过官方的APP。在本地运行也可以。甚至,在手机上。

我手里这台是iPhone 12 mini,已经老得不能再老了,我一直没舍得换。结果它居然也能跑R1,这让我非常惊讶。

我用的是PocketPal AI这款免费APP,之前在社群里推荐过。下载的是1.5B、Q4精度的模型文件,生成挺流畅的。你看,跟官方APP里的表现一样,也是先给出思考过程,然后再给出结果。在Benchmark页面进行测试,可以看到详细的数值:每秒有大概20个Token;峰值内存占用大概是33%。

如果是新一点的iPhone,那么可以下载更高的精度,获得更好的效果。比如我用我老婆这台iPhone 14做了测试。它最高可以跑Q8精度,每秒输出16个Token。再高就没反应了,比如FP16。

说实话,比起DeepSeek R1 1.5B,我个人更喜欢Qwen2.5 1.5B。R1的思考过程太啰嗦,而且最终的结果不见得有质的提升。Anyway,大家根据自己的情况和偏好选择就好。今天还不存在某一个模型会显著超过其它模型。而且我觉得好的模型,对你不一定适用。

另外,我知道这个视频发出去之后,肯定又会有人质疑本地部署的必要性。每次我发这类视频都会被喷。所以在这边我统一回复一下。

老网友应该有印象,在很多年前,谷歌推出Chromebook,一个上网本。它的办公软件都是网页版的应用,谷歌全家桶。按照那些人的逻辑,这就够了啊?为什么还要本地版的Office全家桶呢?结果市场给出了选择。

AI在端侧的落地也一样。如果都依赖云端算力,AI绝对不可能普及。比如,需要网络接入;用的人多了可能要排队;还有莫名其妙的降智和懒惰情况。这些都会限制我们使用AI。此外还有隐私和数据安全的问题。

所以,依靠端侧算力,在移动端运行1.5B或者3B的模型,在桌面端运行7B或者14B的模型,一定是未来一两年的发展趋势。

对超级个人来说,拥有更多算力,就能跑更强大的模型。知道每种设备使用AI的方法,就能更自由地接入AI。这些组合在一起,就能让你在那些普通人面前获得Unfair Advantage。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!

回到今天的主题:在端侧部署DeepSeek R1。

过年这段时间特别热闹。年前先是川普发币。看起来很不合理,但仔细想想也没啥毛病。人家要干碎一切,发个币算什么?

这一波过去没多久,DeepSeek来了,闹了一整个假期。我的观点很简单:这对所有人来说,都是重大利好。

第一,一款免费且开源、支持深度思考和联网搜索、具备最强中文能力的模型,能让更多的普通用户用上AI。

我在朋友圈里看到,好多之前基本不用AI的小伙伴,这次都用DeepSeek了。前几天跟亲戚聚餐,一位阿姨居然也主动聊起DeepSeek,还向我安利他们的APP,非要我下载体验一下。

能普及AI,就是功德无量的事儿。

第二,R1推出之后,业内都在各种反思。比如,之前对算力的使用是不是过于粗放了,等等。同时也给那些闭源厂商更多紧迫感,比如OpenAI,抓紧推出新的模型和产品。你看,O3 mini不就来了?

我相信经过这一波,各家模型厂商都能有所得。这就是开源、开放权重的意义。之前某些人说“开源就是智商税”、“开源模型只会越来越落后”,现在看是不是特别可笑?

第三,对于投资者来说,这一波既是卖出英伟达的机会,也是买入英伟达的机会。在大跌的那一天,我就开始买入了。逻辑很简单,我在社群里也发了:

DeepSeek的方法如果是可Scalable的,那么买卡还得继续。

他们并不是从零到一发现了一条新的、不同于Scaling Law的道路。其实还是原先的大方向。而且也不存在什么不需要CUDA、不需要高算力、不需要GPU改用ASIC的情况。这全都是外行不懂装懂、为了流量哄你们玩呢。各家公司还是会想方设法买卡,比如从新加坡。

所以,这一波下跌只是一时的恐慌,以及之前涨了那么多,市场普遍预期要回调,等待新的故事。所以大家都不约而同演了这么一出:

普罗大众开心了,扬眉吐气了。资本落袋为安了,开始观望了。美国政府也有理由要求严加管控了。每个人都各取所需。我们都有美好的未来。

我还是坚定认为,在AI这件事儿上,不存在弯道超车。

中国人特别擅长做从1到100的事儿。这一点在互联网和移动互联网时代特别明显。因为,从零到一的基础研发,人家都完成了,也分享出来了。然后我们跟上去做应用落地。你再看中国的VC,有哪家敢真的去投从零到一的项目?他们拿出来吹的投资成绩单,全都是对现成红利的收割。

但是AI这一波不一样——基础研发和落地应用齐头并进。所以不去开拓、只等着摘果子是行不通的。人家也不想当冤大头啊。

DeepSeek和国内的AI公司有很大不同,不管是钱还是人都不太一样。这也许就是他们能成的原因。

好了,这个话题不能再多说了。回头我在社群里发个视频细说。咱们还是回来聊端侧部署DeepSeek R1吧。

大家日常使用的话,如果是在桌面端,最简单的方法肯定是通过我们的老朋友——Ollama。

来到Ollama官网的DeepSeek R1页面,就会看到原始模型,以及蒸馏出来的六个小尺寸模型,从1.5B、7B到70B都有。我拿3060显卡的PC和M4的Mac mini都测了一下。

3060跑7B,每秒Token有46,非常丝滑顺畅。跑8B,每秒Token有44,差不多。跑14B,速度降到26,也完全能接受。

注意:这是在我开着OBS录屏情况下的数据。没开的话,每秒Token数量会多四五个。

再来看M4 Mac mini的情况。24G统一内存,跑7B,每秒Token有19。跑8B,每秒Token有17。跑14B,每秒Token只剩10。

本地知识库,外网也可以访问

Key Takeaway

  • 本地大模型和知识库可以通过ngrok实现外网访问,兼顾数据隐私安全和使用便捷。
  • ngrok是一种内网穿透工具,能建立安全的内部和外部通道,实现外网访问内网。
  • 部署ngrok需要安装ngrok、添加认证token,并通过命令将本地端口映射到外网。
  • 通过外网访问本地知识库,用户可以随时随地与私人知识库交互,获取信息或生成内容。
  • 文章强调了本地部署AI的趋势和ngrok在实现这一趋势中的价值。

Full Content

本地大模型和本地知识库,通过外部网络也可以访问。

简单来说就是,你用家里的电脑跑着大模型,然后到了外边,用手机也能访问。我先快速演示一下,然后再告诉你:1、这么做有什么价值;2、具体怎么操作。

我先把本地大模型跑起来。运行Ollama,让它在后端呆着。然后运行Docker,把Open WebUI这个镜像启动起来。

这时通过本地链接,我们就可以在这个ChatGPT风格的网页上使用本地大模型了。而且,不仅仅只是跟大模型聊天,你还可以把文档导进去,构建自己的本地知识库。

如果想知道具体怎么安装和使用,看我上一个视频。如果有什么疑问,或者想进一步交流,可以到知识星球来找我。我每天都会在星球里分享内容,以及回答问题。

截至目前,我们都是在本地运行。在这个基础上,要想实现外部访问,只需要在终端里多运行这一条命令。然后把这条链接发到手机上。

我把手机的Wi-Fi关了,在5G状态下打开链接。可以看到,同样的界面,同样的大模型列表,同样的文档,说明我们连接成功了。

所以,折腾这么一出,到底为了啥?

对我来说,最有价值的地方在于,我可以随时随地接入我私人的本地知识库。

其实这个思路就跟NAS一样。

你在家里的电脑上存了很多私人的文档。你不可能把这些文档在每个电脑上都备份一遍,更不可能传到云端。那到了外边,比如在公司的时候,或者出差的时候,想要使用,就可以通过外网访问家里的NAS。

那么,通过外网访问本地知识库也是一个道理。唯一不同的是,我们不是直接访问这些文档,而是与本地大模型交互,让大模型告诉我们文档里的内容,或者让大模型基于文档去生成新的内容。

所以,我这么多年积累的资料,我整个知识体系,都可以喂给大模型。它们都留在我家里的电脑上,很安全。然后,我走到哪儿都可以访问。这是最最吸引我的地方。

要实现这个,只需要安装一个东西:ngrok。

如果你是开发者的话,对ngrok应该很熟悉。它既是一种内网穿透工具,一种反向代理服务。简单来说就是,ngrok在内部和外部建立了一条安全的通道,让你通过外网也能访问内网。

安装和配置ngrok,只需要在终端里运行三条命令。我这边以Windows为例。如果你是MacOS的话,只有第一步的安装命令不一样。

第一条:choco install ngrok。

这个choco install是专门用来在Windows系统上安装、更新软件包的命令,有点类似pip install。只不过pip install是专门针对Python环境。

我估计大家在这一步都会报错,因为系统里没有安装Chocolatey。一般遇到报错,我都会让GitHub Copilot帮我分析。你用ChatGPT也可以,把一大堆看不懂的报错信息全部复制粘贴过去。然后根据提示操作就搞定了。

你看,GitHub Copilot就教我,先用系统管理员身份打开PowerShell,然后那一行命令,就会自动下载安装Chocolatey,最后重启PowerShell就行。

所以,完全没难度。大家看到报错千万别怕,直接问大模型就好了。

第二条:ngrok config add-authtoken

在ngrok官网注册之后,就会给你一个专门的身份验证令牌。那这条命令就是把你的令牌添加进配置里。

第三条:ngrok http http://localhost:3000

这个localhost:3000就是Ollama在本地使用的端口。你可以简单理解为,这条命令就是告诉ngrok,帮我把3000这个端口跟外部打通。

当你把第三条命令也成功执行,在终端里就会看到,ngrok给了你一个链接——这个就是咱们能在外部使用的链接。就像刚才我演示的那样,把它发给自己,在外边也可以使用了。

如果你觉得每次都要把链接发给自己太麻烦,还可以在后台创建一条固定的链接,然后通过一行命令配置起来。这样每一次启动,ngrok都会使用相同的链接。然后你可以把那个网页发送到手机桌面,每次一点开就行。

OK,以上就是ngrok的基本用法。这期视频我就是想给大家打开一个思路。就像我在知识星球里分享的:

从今年开始,AI会加速普及。两条路线:1、上终端;2、应用爆发。

那么,在端侧跑大模型、建立知识库之后,如果还能通过外网访问,那么就能同时兼顾数据隐私安全和使用便捷。这是ngrok的价值。

大家如果有什么建议或者疑问,可以到星球里交流。咱们下期见。

部署本地大模型和知识库,最简单的方法

Key Takeaway

  • Ollama是本地运行开源大模型的最佳工具,支持多平台,且易于安装和使用。
  • Open WebUI提供ChatGPT风格的Web界面,支持本地大模型交互和RAG能力,可处理网页和文档。
  • Anything LLM是更高级的本地知识库管理工具,支持多种大模型、嵌入模型和向量数据库,并提供Workspace概念和对话/查询模式。
  • 本地部署大模型和知识库能实现数据安全、隐私保护和更灵活的定制化。
  • 文章强调了Ollama的服务器模式,使其能开放端口供其他软件调用大模型能力。

Full Content

在本地跑开源大模型,目前最好的软件肯定是Ollama。

不管你用的是PC、Mac,甚至是树莓派,都能通过Ollama运行大大小小的模型。而且扩展性极强。

我准备分几期详细介绍Ollama的用法。今天这期,先介绍三点:

  1. 怎么用Ollama在本地运行大模型。
  2. 在跑本地大模型的同时,使用像ChatGPT那样的Web UI。
  3. 打造完全本地化的知识库。

大家如果有更好的建议,或者在安装和使用过程中有什么问题,可以到newtype知识星球来找我。

Ollama

安装Ollama超级简单。到官网ollama.com或者.ai下载对应版本就行。

安装完成之后,在终端里输入ollama run,后边接想要运行的大模型名称就行。比如:ollama run llama2。这时系统会自动下载对应的大模型文件。

如果你不确定大模型的名称,到官网的model子页面就能找到目前所有支持的大模型。每一款大模型都有不同的版本,根据你的需求、机器的内存大小,选择对应版本,然后复制命令就行。

一般来说,7b的模型至少需要8G内存,13b需要16G,70b需要64G。大家量力而为,不然跑起来真的非常卡顿。

在默认情况下,你需要在终端里与大模型做交互。不过这种搞法真的太古老了。我们肯定是希望在一个现代的、图形化的界面里操作。这时候就要用到Open WebUI了。

Open WebUI

要安装Open WebUI,需要先安装Docker。

你可以把Docker简单理解为就是一个虚拟的容器。所有应用和依赖都打包成一个容器,然后再在系统上运行。

Docker搞定之后,复制GitHub里的这行命令到终端里执行。一切顺利的话,打开一个本地链接,就能看到非常眼熟的界面了。

这个WebUI,除了具备基本的聊天功能之外,还包含了RAG能力。不管是网页还是文档,都可以作为参考资料给到大模型。

你如果想让大模型读取网页内容的话,在链接前面加个#就行。

你如果想让大模型读取文档的话,可以在对话框的位置导入,也可以在专门的Documents页面导入。

在对话框里输入#,会出现已经导入的所有文档。你可以选中一个,或者干脆让大模型把所有文档都作为参考资料。

如果你的要求不是太高,那么做到这一步就OK了。如果你想对知识库有更多的掌控,就下载这个软件:Anything LLM。

Anything LLM

Ollama其实有两种模式:

  1. 聊天模式
  2. 服务器模式

所谓服务器模式,你可以简单理解为,Ollama在后端运行大模型,然后开放一个端口给到别的软件,让那些软件可以调用大模型的能力。

要开启服务器模式非常简单。在终端里输入两个单词:ollama serve。

启动之后,把这个默认链接填到Anything LLM里。这时,软件会通过链接读取可以加载的模型。这些模型是用来生成内容的模型。

除此之外,搭建一个知识库,会涉及到另外两个关键:

  1. Embedding Model,嵌入模型。它负责把高维度的数据转化为低维度的嵌入空间。这个数据处理过程在RAG中非常重要。
  2. Vector Store,向量数据库,专门用来高效处理大规模向量数据。

这两个我们都用默认的。这样一来,整套系统都跑在你的电脑上。当然,你也可以选择全部跑在云端,比如,大模型和嵌入模型都用OpenAI的,向量数据库用Pinecone,都可以。

完成最基础的三个设置之后,就可以进入主界面了。这款软件的逻辑我挺喜欢的,它有一个Workspace的概念。在每一个Workspace内部,可以创建各种聊天窗口,可以导入各种文档。

所以,你可以根据项目来创建Workspace,一个项目建一个。然后,把关于这个项目的所有文档、所有网页都导入Workspace。最后,聊天模式还有两种可以设置:

  1. 对话模式:大模型会根据你给的文档,以及它本来就有的知识储备,综合起来回答。
  2. 查询模式:大模型只是简单地针对文档进行回答。

这个就是我前边说的,Anything LLM比Open WebUI更进阶的地方,完全可以满足个人对知识库的需求。我已经把它作为我在桌面端Workflow的核心。等这两期视频做完,我专门出一期,讲讲我目前在用的AI工具和工作流吧。

问答引擎,本地部署

Key Takeaway

  • 问答引擎是搜索引擎的下一个形态,能直接提供组织好的内容而非网页链接。
  • LLocalSearch是一个开源项目,允许用户在本地部署问答引擎,并可联网搜索。
  • LLocalSearch的基本逻辑是:本地大模型理解问题 -> 转换为搜索关键词 -> 搜索相关资料并存入本地向量数据库 -> 结合问题和资料推理并输出答案。
  • 部署LLocalSearch需要Ollama和Docker,并下载Function Calling模型和嵌入模型。
  • LLocalSearch目前仍处于早期阶段,但提供了本地化问答引擎的潜力。

Full Content

搜索引擎的下一个形态,肯定是问答引擎。

因为我们要的不是网页,而是网页里的内容。

要把网页这个壳剥开,把里边的一部分内容提取出来,反馈给用户,只有AI能办到。

我在年初就订阅了Perplexity,它是目前最好的问答引擎。年度订阅是200美金,有点肉痛,但是真的能完全替代Google。不过最近我还是把它给退订了。因为这家公司宣布,要在搜索结果中植入广告。

我对他们真挺失望的:以为能走出一条不一样的路,结果还是回去卖广告。而且这次有AI的帮助,鬼知道会搞出什么套路来。

不过,幸运的是,咱们很快就会有替代品了。

LLocalSearch是一个开源项目。目前可以用,但还不完善。如果你想尝鲜的话,可以来试试。

就像名字里说的那样,LLocalSearch能让你把一整套问答引擎都部署在自己的电脑上。

这边有一个概念我得先澄清一下:在本地运行,不代表不能联网。

这个开源项目,它完全是用我PC的算力,用我在PC上安装的大模型。但同时它具备联网的能力,这样才能帮咱们查资料,对吧?所以这是不矛盾的。

我先给你看一下效果,再说怎么安装。

左边是产品的样子,右边是资源的使用情况。

因为我开着OBS在录制,所以GPU的使用会比较高。如果没OBS影响的话,主要消耗的是内存。

LLocalSearch的基本逻辑是:

当你提出一个问题,本地大模型会先理解你的意思,然后把问题转换成适合拿去搜索的一组关键词。

接着,它会帮你去网上搜索所有相关资料,把找到的资料都放到本地向量数据库里,这边用的是Chroma DB。

最后,再把问题和资料结合起来做推理,输出最终答案。

在前一个问题的基础上,你可以继续追问。

如果你对整个处理过程不放心,可以点击右上角的按钮,把每个步骤都展开。

如果你也想安装,去GitHub上搜这个名字就能找到:LLocalSearch。我在知识星球里也发过链接,已经加入的小伙伴可以自取。

在安装项目之前,确保你已经安装好Ollama和Docker这两款软件——跑大模型需要Ollama,运行这个项目需要Docker。

安装好之后,通过Ollama去下载这两个模型:

一个是knoopx / hermes-2-pro-mistral,它会负责Function Calling。你可以简单理解为就是调用各种工具、帮你干活的。

一个是nomic-embed-text,嵌入模型,拥有比较大的上下文窗口。

当软件和模型都下载、安装好了,就可以去把项目克隆到本地。然后通过cd命令进入项目的文件夹,运行docker-compose up这行命令,就会自动安装了。

最后,如果一切顺利的话,打开localhost:3000这个本地链接,就可以正常使用了。

目前LLocalSearch还比较糙,不过大体的框架是有了。我看作者就一个人,是个德国小哥。你如果想支持这个项目的话,可以到GitHub上Sponsor他。一个月5美金、15美金都行。如果你是大佬、愿意赞助800美金的话,德国小哥就能买一块新显卡了——这不比你给那些女主播刷火箭有功德多了。

最后,如果你还没用过问答引擎,也不想搞这么麻烦去本地部署一个的话,可以试试国产的,比如360AI搜索和秘塔AI搜索。还是那句话:

先用起来,比什么都重要。

OK,以上就是本期内容。有什么问题想问我的话,来知识星球找我。那咱们下期见!

Mac必装AI软件

Key Takeaway

  • 作者分享了MacBook Pro的配置选择,并解释了为何选择14寸M4 Pro而非16寸M4 Max,以及未来将重负载任务交给Mac Studio的规划。
  • 推荐Mac用户安装AI相关软件,如ChatWise,它支持主流闭源模型和开源模型(如Ollama),并提供搜索和Artifacts等工具。
  • 强调了OpenRouter作为统一API管理平台的重要性,避免了多平台注册和绑定信用卡的麻烦。
  • Cursor被认为是强大的AI编程工具,结合Claude 3.7更强大,并可用于知识库管理和AI辅助创作。
  • Obsidian及其AI插件Copilot被推荐用于个人知识库,实现笔记的AI对话和实时信息查询,并强调了数据处理的重要性。
  • 建议个人AI工具选择简单轻量化,企业级才考虑重型引擎。
  • 此外,还推荐了Input Source Pro(输入法提示)、Rectangle(窗口管理)、Raycast(快速搜索)和Manico(应用快捷键)等效率工具,以提升Mac使用体验。

Full Content

我把新款MacBook Pro买回来了。借着新机入手,我给大家分享一下,Mac都有哪些必装软件,尤其是AI方面。这些工具绝对能提高你的日常效率和幸福感。

我订的这台是M4 Pro芯片,统一内存加到48G,1T硬盘。为了方便对着屏幕拍摄,我还加钱上了纳米屏。那么,为什么不上128G的M4 Max?两个原因:

第一,16寸实在太大了。我去店里看过。带着跑来跑去,真不太方便。14寸对我来说刚刚好。

第二,下半年我准备买Mac Studio。根据业内大佬推测,苹果应该会在年中或者下半年推出Mac Studio,芯片是M4 Ultra,比现在的M4 Max还强大。而且按照M2 Ultra的样子,统一内存能加到192G,比MacBook顶配的128G大多了。这样的机子拿来跑大模型不香吗?

所以,我想来想去,还是决定把重负载任务都交给Mac Studio。MacBook Pro就专心负责移动场景,就不为难它了。而且,M4 Pro加上48G统一内存已经足够给力了。

我平时拍的这些视频都是4K 10bit 422的素材,用达芬奇剪辑。这台机子剪起来完全没压力。跑大模型的话,我也测了两个黄金尺寸的效果:14B能达到每秒21个Token;32B能达到11。这样的表现,我非常满意了。

哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经快1000人付费加入啦!

回到今天的主题:Mac必装软件。咱们先从AI相关的说起。

当你用了一段时间模型厂商出的应用——比如ChatGPT、Claude之后,大概率会希望通过API调用模型,以及试一试在本地运行开源大模型。两个原因:

一是更自由地体验更多的模型,并且用多少Token就付多少钱。二是更自由地去选择和组合一套工具,完全适配自己的习惯和需求,作为日常主力。

这个时候,你就需要一款像ChatWise一样的应用。

在闭源模型方面,主流的模型厂商和主流的算力平台它都支持,肯定有你想用的。

我知道大家最近为了DeepSeek注册了好几个算力平台。但是,要稳定使用的话,我建议用OpenRouter就好了,不用看别的。它不会像国内那些平台那样,总出幺蛾子——你想薅它羊毛,它想割你韭菜。在OpenRouter里,把API Key填进去,市面上所有的模型都可以选择。这就免去了你每家都得注册账号、绑定信用卡的麻烦。

在开源模型方面,大家常用的Ollama和LM Studio都有。像Ollama,你都不用做啥设置,保持软件运行就可以。ChatWise自动把所有模型都列出来了。我平时用最多的就是DeepSeek-R1 14B和Qwen2.5 14B。

光有模型不够,还得给模型配上工具。你看ChatGPT不就是在GPT模型的基础上,加了各种工具,比如搜索和画布。那到了ChatWise这边,同样也有这两个工具。

Artifacts就我之前夸过好多次,就不多说了。搜索方面,你可以用Google的免费API,也可以调用Tavily的。他们是一个专门为大模型优化过的搜索引擎。我之前自己写脚本的时候用过,挺不错的。

或者,还有一个更简单的方法,不用这些搜索引擎,直接用Perplexity的API。他们微调后的模型,有搜索、有推理,效果非常好。

ChatWise这些进阶功能需要付费才能解锁。如果你就是想要免费的,那可以用Cherry Studio。但我还是付费了。并不是冲着功能去的,只是因为它好看,用着舒服。我认为,在功能大差不差的情况下,外观和流畅度就成为选择的关键。

所以,除了Gemini 2.0和Grok 3我是在官方的网站上用,其它的模型,我全通过ChatWise加OpenRouter和Ollama来搞定。

OK,日常AI主力工具说完了,那还有两个补充。

一个是Cursor。市面上的AI编程软件很多,在细分领域各有所长。但综合来看,Cursor就是最强的,没有之一。再加上前几天Claude 3.7发布,Cursor当天就支持了。有了比3.5还强20%的3.7加持,Cursor现在更猛了。

除了编程,Cursor其实还有一些框架之外的奇怪用法。我在上一期“AI学习法”的视频里有介绍过。大家可以找来看看,肯定会有启发的。

另一个是Obsidian。更准确地说,是它的AI插件Copilot。对我来说,它的作用有两个:

第一,当我在写笔记的时候,可以直接在软件内跟AI对话,不需要切换到别的软件去。说真的,切来切去特别打断思路。而且,Copilot也可以连OpenRouter,用Perplexity的模型完成搜索,不用担心查不到实时信息。