Ollama

M4 Mac mini作为轻量级AI服务器，太香了！ 2024-08-31

Key Takeaway

M4 Mac mini是轻量级AI服务器的理想选择，功耗低且性能出色，能满足本地运行大模型的需求。
Ollama是本地运行大模型的优秀工具，支持多种模型和精度，可通过设置实现模型常驻内存，达到“随叫随到”的效果。
通过修改Ollama的监听地址，可实现局域网内其他设备（如手机）访问本地大模型。
Enchanted是iOS上连接Ollama的简洁、流畅的APP，适合移动端使用。
文章强调了本地部署开源大模型在解决云端服务不稳定、费用高昂等问题上的优势。

Full Content

我宣布，M4 Mac mini就是我个人的年度最佳数码产品。真的，太香了！

我这台24G内存加512G SSD的机子是在闲鱼上下单的。店家跑澳门帮我代购，然后顺丰寄到北京。全部加起来，7千块。我对比了一下国行官网的价格，发现居然便宜了500块。

也就是说，如果买国行，花更多钱，还买的是“阉割版”。这是什么道理？我真的不明白。

拿到Mac mini之后，我安装的第一个软件是Ollama，然后下载Qwen 2.5。因为我一直想实现这样一个场景：

一台足够给力、又足够冷静的机子作为服务器跑本地大模型，然后供给给局域网内的所有设备使用，比如手机。

之前我一直用这台PC跑大模型。但是那个功耗和噪音，我真的不敢一直开着。虽然理性告诉我，消耗不了多少，但心里就是不踏实。于是，M4版Mac mini终于实现我的设想。

现在只要我在家里，通过手机就能用上本地大模型。不知道为什么，我发现这种Self-hosting的方式有一种莫名的快感。跟用别人的服务完全不一样的体验。

在外边其实也可以连接家里的Mac mini，用我之前介绍过的ngrok就行，做个内网穿透。不过这么搞的话，速度就慢下来了，还是算了。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有600多位小伙伴付费加入啦！

回到今天的主题：在M4 Mac mini上运行大模型。

我准备在春节之前做一次升级，目标是彻底解决日常使用AI的问题。现在不管是ChatGPT还是Claude，在国内用总是不让人放心。比如封号的问题就完全不可控。一旦用不了就傻眼了。用M4 Mac mini作为轻量级的服务器跑大模型，算是我第一个尝试。

我们先来做个简单的测试，看看这台24G统一内存的机子能跑什么尺寸的大模型。标准很简单，就是每秒能吐出多少个Token。

测试工具用的是Ollama。把Verbose打开，就能看到运行的速度。

模型方面，我下了7b、14b两个尺寸，包括Q4和Q8两种精度，一共4个模型。32b就不用想了，肯定跑不了，都不用测。

在Q4精度下，7b的生成速度大概在每秒20个Token的样子，特别流畅丝滑。而14b大概是11个Token的水平。

我自己的直观感受是，11的速度基本是能接受的底线，再低肯定不行。到20的话，就算流畅。

我们再来看Q8的速度。在这个精度下，7b速度降到了大概每秒13个Token的水平。而14b就更低了。

所以，综合来看，M4芯片加24G统一内存，我个人选择是跑Q4精度、14b的模型。它的速度我能接受，而且答案的完整程度明显比7b更好。我试过让它挂着跑半小时以上，基本就是温热的程度，比较让我放心。

OK，模型选定了，但是还没完——Ollama还需要做一些设置。

在初始状态下，如果闲置五分钟的话，Ollama就会自动把模型都释放了。这意味着，如果我们突然有了需求、需要对话的话，又得等Ollama加载模型——这个就很不爽了，对吧？

所以，我们要做的第一个设置是，把OLLAMA_KEEP_ALIVE设为-1。这样一来，它就不会自动释放内存，才能达到随时响应的目的。

第二个是关于网络的设置。这个是我问Cursor学来的。

在初始状态下，Ollama只监听Localhost。要让局域网内的其他设备，比如手机也能访问Ollama，需要修改它的监听地址。

在终端里输入这一行命令：OLLAMA_HOST=“0.0.0.0:11434” ollama serve

0.0.0.0指的是让Ollama监听所有网络接口。不管活儿从哪来，都接。11434是它默认的端口，没必要改动。这么改动之后，手机、Pad这些设备都可以通过局域网IP地址接入Ollama。

那么，最后一个问题来了：在移动端用什么APP去连接Ollama？

在桌面端有太多选择了，比如经典的Open WebUI，还有Obsidian的一堆AI插件都支持。在iPhone上，我个人的选择是Enchanted，三个原因：

第一，这款APP特别简洁，就是纯对话，文字或者语音都可以。没有那些杂七杂八的功能，所以特别符合我的需求。

第二，它就是iOS原生的那种丝滑。要长期使用的话，这种体验很重要。

第三，Enchanted支持Ollama。把地址和端口填进去就可以用了，非常方便。当然，也是因为它只支持Ollama，所以我没选LM Studio。

今天的开源大模型已经足够强。量化版本就能满足平时对话的需求。搭配M4 Mac mini真的很舒服。强烈建议大家搞一套试一试。

OK，以上就是本期内容。想聊AI，就来我们newtype社群。那咱们下期见！

Ollama + Hugging Face：给Ollama添加任何大模型 2024-08-31

Key Takeaway

Ollama是本地运行开源大模型的最佳工具，但官方模型对中文支持有限。
用户可以通过Hugging Face下载GGUF格式的开源大模型文件，并利用Modelfile和ollama create命令将其添加到Ollama中。
GGUF格式是一种压缩格式，能让大模型在消费级终端上运行，但会牺牲精确度。
文章详细介绍了将GGUF模型添加到Ollama的步骤，包括创建Modelfile和使用ollama create命令。
强调了Ollama的开放性，使其能够运行任何开源大模型，为用户提供了更多选择。

Full Content

在本地跑开源大模型，目前最好的软件肯定是Ollama。

但是，对于咱们国内的用户来说，Ollama有一个问题：

官方提供的模型，对中文的支持太少了。

目前就一个中文模型，是基于Llama2微调的。如果你在官网搜“Chinese”这个关键词的话，能找到一个它（Llama2-Chinese）。

如果我们想多一些选择，使用那些国产的开源大模型，该怎么搞呢？本期我就介绍一下方法。还是那句话：

超级简单，有手就行。

理论上，除了官方模型列表里的模型，Ollama可以运行任何开源大模型，只要你有模型的GGUF文件。

那么，第一个问题来了：去哪里下载模型文件？

世界上开源大模型最多的地方，肯定是Hugging Face了。我们可以到这个平台直接搜国产大模型，比如：baichuan gguf，或者qwen gguf。通过下拉列表，就可以找到用户上传到GGUF格式文件。

这个GGUF格式，为了方便理解，你可以先简单把它看作是一种压缩格式——虽然这么解释并不严谨，不过无所谓啦。就像JPG压缩的是图片，那GGUF压缩的是大模型。这样一来，才好在咱们这些消费级的终端上跑。

当然，压缩是有代价的，那就是精确度下降。所以列表里才会有一系列不同体积的文件。大家根据自己机器的配置，选一个合适的下载就好。

下载好之后，创建一个txt文档，名字叫Modelfile，里边只需要写上这么一行：

FROM D:\ollama

这个文档的作用就是告诉Ollama该去哪儿找模型文件。比如，在我这边就是，去D盘、ollama文件夹，找到叫这个文件名的模型文件。

最后一步，打开终端，输入这一行命令：

ollama create

我来解释一下这行命令的意思。其实大家不用紧张，觉得这是命令什么的，肯定看不懂——你就把它当成是英语的阅读理解嘛：

ollama create，很好理解，就是让ollama去创建新的模型文件。

那么，创建好的模型该叫什么名字呢？就是后边跟着的名字，随你设定。

Ollama肯定不能凭空创建出一个模型文件，这就需要使用我们之前下载好的GGUF文件。这时候，我们告诉它，去读取刚才创建的txt文档，里边有GGUF文件的地址。

这样一来，Ollama就知道该从哪里找到大模型，然后创建一个叫什么名字的模型文件了。

这行命令运行之后，稍等个两三分钟就搞定了。

我们在终端里输入：ollama list。这个命令会列出目前你已经拥有的模型。这时我们看到，刚才导入的模型已经存在了。

打开Open WebUI，在模型选择的下拉列表里，同样也能看到最新的模型。

OK，以上就是让Ollama添加任意开源大模型的方法。我刚才下载的那个模型版本，中文的效果不一定好，只是为了演示这个方法。大家可以去Hugging Face或者国内的模型社区下载各种GGUF格式的中文大模型，然后找到最适合自己的版本。

本期内容就这些。大家如果有疑问，或者想进一步交流的话，到知识星球来找我。咱们下期见！

当浏览器与大模型打通：Brave浏览器 + Ollama 2024-08-31

Key Takeaway

Brave浏览器通过与本地大模型（如Ollama）打通，实现了浏览器内置AI功能，提升了用户上网冲浪时的效率和便捷性。
Brave的AI功能支持直接对话、选中文字总结以及将当前网页内容作为大模型参考。
文章强调了浏览器与AI打通的必要性，并认为Brave在大方向上是正确的，但未来大厂（如Chrome与Gemini）的跟进将带来竞争。
尽管Brave的AI功能仍处于测试阶段，但其本地化部署和与开源大模型的结合，为用户提供了更多选择和自由度。

Full Content

所有软件都应该跟AI打通。比如我们最常用的浏览器。

当你上网冲浪，突然想问些什么或者想生成点什么，这时还要特意打开个网页（比如ChatGPT），或者切换到别的APP（比如Obsidian），这就特别麻烦、有点不爽。

于是，Brave浏览器就来了。这款产品存在应该有好几年了。免广告之类的常规功能就不说了，它最吸引我的点在于，可以跟本地大模型打通，比如在自己的电脑上运行千问之类的，然后去实现我刚才说的那些场景功能。

大家想尝试的话，记得下载Nightly版本。这是测试版本，每晚更新。下载好了一路安装。搞定之后，来到设置页面，点击这个Leo——这是他们给自己的AI Assistant起的名字。然后在添加模型的设置里，跟Ollama关联上。

Ollama是目前特别主流的在本地跑开源大模型的工具。你可以去他们官网下载软件，然后在终端里通过一行命令就可以下载你想要的大模型，比如我用得最多的qwen2。

当软件和模型都准备完成后，打开Ollama，你会看到，它会驻留在状态栏里。每当要调用大模型的时候，它才会启动。好处是可以一直挂着，坏处是第一次启动的时候可能得稍等个差不多10秒，需要把大模型加载一下。一旦启动起来就特别快了，真的比云端的爽多了。

要把Brave跟Ollama关联上很简单。如果你像我一样没有对Ollama做一些设置调整的话，那就按照提示，把地址填进去，把要跑的模型名称填进去。只要名称对得上，那基本不会有问题。

回到前端的交互页面，从侧边栏可以打开Leo AI。官方有提供大模型，不过咱们这边是要用本地的，所以选择刚才设置好的千问。直接对话交流完全没问题。要结合正在浏览的网页的话，有两个方式：

第一，可以在网页当中选中一部分文字，右键就能看到官方预设好的AI功能，比如总结之类的。

第二，把输入框上边这个按钮勾选上之后，就会自动把当前浏览的网页给到大模型作为回答参考。

不过我发现，这不是我们平时用RAG的那种处理方法。因为我试过，如果是一篇长文章的网页，它会提示只阅读了一部分，这说明它的方法很简单粗暴，就是把所有内容都作为上下文给过去。当超出上下文窗口的限制了，才会提示没有读完。

但话又说回来，如果真用RAG那套东西的话，还要搞Embedding什么的，就会变得特别重，不适合浏览网页这个场景。因为用户会不断打开新网页，并且来回切换的。

目前Brave浏览器的AI功能还属于测试阶段。就像前边说的，我觉得浏览器和AI打通特别有必要。Brave这个大方向是OK的。不过，大厂肯定会跟进，比如Chrome，绝对会通过Gemini实现同样的功能。对于Brave这种产品来说，活下来的一个方法是，给到用户更多自由。我特别希望它后续能加上更多自定义功能，至少把模型提示词先放出来，肯定能提升日常使用频率。

OK，以上就是本期内容。大家想找我的话，来newtype社群，我都在。那咱们下期见！

手机也能本地部署DeepSeek R1 2024-08-31

Key Takeaway

DeepSeek R1模型可以在手机等本地设备上部署运行，PocketPal AI等免费APP支持。
本地部署AI模型具有运行稳定、速度快、免费、模型选择丰富、使用自由和数据隐私安全等优势，是AI普及的趋势。
DeepSeek R1的发布对AI行业是重大利好，推动了AI普及，促进了模型厂商的竞争，并引发了对算力使用和开源模型价值的反思。
在桌面端，Ollama是本地部署大模型的最佳工具，支持多种开源模型，并可与Open WebUI等前端工具结合。
移动端本地部署主要选择1.5B等小尺寸模型，未来随着技术发展，移动端AI能力将更强。

Full Content

使用DeepSeek R1，不一定非要通过官方的APP。在本地运行也可以。甚至，在手机上。

我手里这台是iPhone 12 mini，已经老得不能再老了，我一直没舍得换。结果它居然也能跑R1，这让我非常惊讶。

我用的是PocketPal AI这款免费APP，之前在社群里推荐过。下载的是1.5B、Q4精度的模型文件，生成挺流畅的。你看，跟官方APP里的表现一样，也是先给出思考过程，然后再给出结果。在Benchmark页面进行测试，可以看到详细的数值：每秒有大概20个Token；峰值内存占用大概是33%。

如果是新一点的iPhone，那么可以下载更高的精度，获得更好的效果。比如我用我老婆这台iPhone 14做了测试。它最高可以跑Q8精度，每秒输出16个Token。再高就没反应了，比如FP16。

说实话，比起DeepSeek R1 1.5B，我个人更喜欢Qwen2.5 1.5B。R1的思考过程太啰嗦，而且最终的结果不见得有质的提升。Anyway，大家根据自己的情况和偏好选择就好。今天还不存在某一个模型会显著超过其它模型。而且我觉得好的模型，对你不一定适用。

另外，我知道这个视频发出去之后，肯定又会有人质疑本地部署的必要性。每次我发这类视频都会被喷。所以在这边我统一回复一下。

老网友应该有印象，在很多年前，谷歌推出Chromebook，一个上网本。它的办公软件都是网页版的应用，谷歌全家桶。按照那些人的逻辑，这就够了啊？为什么还要本地版的Office全家桶呢？结果市场给出了选择。

AI在端侧的落地也一样。如果都依赖云端算力，AI绝对不可能普及。比如，需要网络接入；用的人多了可能要排队；还有莫名其妙的降智和懒惰情况。这些都会限制我们使用AI。此外还有隐私和数据安全的问题。

所以，依靠端侧算力，在移动端运行1.5B或者3B的模型，在桌面端运行7B或者14B的模型，一定是未来一两年的发展趋势。

对超级个人来说，拥有更多算力，就能跑更强大的模型。知道每种设备使用AI的方法，就能更自由地接入AI。这些组合在一起，就能让你在那些普通人面前获得Unfair Advantage。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有800多位小伙伴付费加入啦！

回到今天的主题：在端侧部署DeepSeek R1。

过年这段时间特别热闹。年前先是川普发币。看起来很不合理，但仔细想想也没啥毛病。人家要干碎一切，发个币算什么？

这一波过去没多久，DeepSeek来了，闹了一整个假期。我的观点很简单：这对所有人来说，都是重大利好。

第一，一款免费且开源、支持深度思考和联网搜索、具备最强中文能力的模型，能让更多的普通用户用上AI。

我在朋友圈里看到，好多之前基本不用AI的小伙伴，这次都用DeepSeek了。前几天跟亲戚聚餐，一位阿姨居然也主动聊起DeepSeek，还向我安利他们的APP，非要我下载体验一下。

能普及AI，就是功德无量的事儿。

第二，R1推出之后，业内都在各种反思。比如，之前对算力的使用是不是过于粗放了，等等。同时也给那些闭源厂商更多紧迫感，比如OpenAI，抓紧推出新的模型和产品。你看，O3 mini不就来了？

我相信经过这一波，各家模型厂商都能有所得。这就是开源、开放权重的意义。之前某些人说“开源就是智商税”、“开源模型只会越来越落后”，现在看是不是特别可笑？

第三，对于投资者来说，这一波既是卖出英伟达的机会，也是买入英伟达的机会。在大跌的那一天，我就开始买入了。逻辑很简单，我在社群里也发了：

DeepSeek的方法如果是可Scalable的，那么买卡还得继续。

他们并不是从零到一发现了一条新的、不同于Scaling Law的道路。其实还是原先的大方向。而且也不存在什么不需要CUDA、不需要高算力、不需要GPU改用ASIC的情况。这全都是外行不懂装懂、为了流量哄你们玩呢。各家公司还是会想方设法买卡，比如从新加坡。

所以，这一波下跌只是一时的恐慌，以及之前涨了那么多，市场普遍预期要回调，等待新的故事。所以大家都不约而同演了这么一出：

普罗大众开心了，扬眉吐气了。资本落袋为安了，开始观望了。美国政府也有理由要求严加管控了。每个人都各取所需。我们都有美好的未来。

我还是坚定认为，在AI这件事儿上，不存在弯道超车。

中国人特别擅长做从1到100的事儿。这一点在互联网和移动互联网时代特别明显。因为，从零到一的基础研发，人家都完成了，也分享出来了。然后我们跟上去做应用落地。你再看中国的VC，有哪家敢真的去投从零到一的项目？他们拿出来吹的投资成绩单，全都是对现成红利的收割。

但是AI这一波不一样——基础研发和落地应用齐头并进。所以不去开拓、只等着摘果子是行不通的。人家也不想当冤大头啊。

DeepSeek和国内的AI公司有很大不同，不管是钱还是人都不太一样。这也许就是他们能成的原因。

好了，这个话题不能再多说了。回头我在社群里发个视频细说。咱们还是回来聊端侧部署DeepSeek R1吧。

大家日常使用的话，如果是在桌面端，最简单的方法肯定是通过我们的老朋友——Ollama。

来到Ollama官网的DeepSeek R1页面，就会看到原始模型，以及蒸馏出来的六个小尺寸模型，从1.5B、7B到70B都有。我拿3060显卡的PC和M4的Mac mini都测了一下。

3060跑7B，每秒Token有46，非常丝滑顺畅。跑8B，每秒Token有44，差不多。跑14B，速度降到26，也完全能接受。

注意：这是在我开着OBS录屏情况下的数据。没开的话，每秒Token数量会多四五个。

再来看M4 Mac mini的情况。24G统一内存，跑7B，每秒Token有19。跑8B，每秒Token有17。跑14B，每秒Token只剩10。

本地知识库，外网也可以访问 2024-08-31

Key Takeaway

本地大模型和知识库可以通过ngrok实现外网访问，兼顾数据隐私安全和使用便捷。
ngrok是一种内网穿透工具，能建立安全的内部和外部通道，实现外网访问内网。
部署ngrok需要安装ngrok、添加认证token，并通过命令将本地端口映射到外网。
通过外网访问本地知识库，用户可以随时随地与私人知识库交互，获取信息或生成内容。
文章强调了本地部署AI的趋势和ngrok在实现这一趋势中的价值。

Full Content

本地大模型和本地知识库，通过外部网络也可以访问。

简单来说就是，你用家里的电脑跑着大模型，然后到了外边，用手机也能访问。我先快速演示一下，然后再告诉你：1、这么做有什么价值；2、具体怎么操作。

我先把本地大模型跑起来。运行Ollama，让它在后端呆着。然后运行Docker，把Open WebUI这个镜像启动起来。

这时通过本地链接，我们就可以在这个ChatGPT风格的网页上使用本地大模型了。而且，不仅仅只是跟大模型聊天，你还可以把文档导进去，构建自己的本地知识库。

如果想知道具体怎么安装和使用，看我上一个视频。如果有什么疑问，或者想进一步交流，可以到知识星球来找我。我每天都会在星球里分享内容，以及回答问题。

截至目前，我们都是在本地运行。在这个基础上，要想实现外部访问，只需要在终端里多运行这一条命令。然后把这条链接发到手机上。

我把手机的Wi-Fi关了，在5G状态下打开链接。可以看到，同样的界面，同样的大模型列表，同样的文档，说明我们连接成功了。

所以，折腾这么一出，到底为了啥？

对我来说，最有价值的地方在于，我可以随时随地接入我私人的本地知识库。

其实这个思路就跟NAS一样。

你在家里的电脑上存了很多私人的文档。你不可能把这些文档在每个电脑上都备份一遍，更不可能传到云端。那到了外边，比如在公司的时候，或者出差的时候，想要使用，就可以通过外网访问家里的NAS。

那么，通过外网访问本地知识库也是一个道理。唯一不同的是，我们不是直接访问这些文档，而是与本地大模型交互，让大模型告诉我们文档里的内容，或者让大模型基于文档去生成新的内容。

所以，我这么多年积累的资料，我整个知识体系，都可以喂给大模型。它们都留在我家里的电脑上，很安全。然后，我走到哪儿都可以访问。这是最最吸引我的地方。

要实现这个，只需要安装一个东西：ngrok。

如果你是开发者的话，对ngrok应该很熟悉。它既是一种内网穿透工具，一种反向代理服务。简单来说就是，ngrok在内部和外部建立了一条安全的通道，让你通过外网也能访问内网。

安装和配置ngrok，只需要在终端里运行三条命令。我这边以Windows为例。如果你是MacOS的话，只有第一步的安装命令不一样。

第一条：choco install ngrok。

这个choco install是专门用来在Windows系统上安装、更新软件包的命令，有点类似pip install。只不过pip install是专门针对Python环境。

我估计大家在这一步都会报错，因为系统里没有安装Chocolatey。一般遇到报错，我都会让GitHub Copilot帮我分析。你用ChatGPT也可以，把一大堆看不懂的报错信息全部复制粘贴过去。然后根据提示操作就搞定了。

你看，GitHub Copilot就教我，先用系统管理员身份打开PowerShell，然后那一行命令，就会自动下载安装Chocolatey，最后重启PowerShell就行。

所以，完全没难度。大家看到报错千万别怕，直接问大模型就好了。

第二条：ngrok config add-authtoken

在ngrok官网注册之后，就会给你一个专门的身份验证令牌。那这条命令就是把你的令牌添加进配置里。

第三条：ngrok http http://localhost:3000

这个localhost:3000就是Ollama在本地使用的端口。你可以简单理解为，这条命令就是告诉ngrok，帮我把3000这个端口跟外部打通。

当你把第三条命令也成功执行，在终端里就会看到，ngrok给了你一个链接——这个就是咱们能在外部使用的链接。就像刚才我演示的那样，把它发给自己，在外边也可以使用了。

如果你觉得每次都要把链接发给自己太麻烦，还可以在后台创建一条固定的链接，然后通过一行命令配置起来。这样每一次启动，ngrok都会使用相同的链接。然后你可以把那个网页发送到手机桌面，每次一点开就行。

OK，以上就是ngrok的基本用法。这期视频我就是想给大家打开一个思路。就像我在知识星球里分享的：

从今年开始，AI会加速普及。两条路线：1、上终端；2、应用爆发。

那么，在端侧跑大模型、建立知识库之后，如果还能通过外网访问，那么就能同时兼顾数据隐私安全和使用便捷。这是ngrok的价值。

大家如果有什么建议或者疑问，可以到星球里交流。咱们下期见。

部署本地大模型和知识库，最简单的方法 2024-08-31

Key Takeaway

Ollama是本地运行开源大模型的最佳工具，支持多平台，且易于安装和使用。
Open WebUI提供ChatGPT风格的Web界面，支持本地大模型交互和RAG能力，可处理网页和文档。
Anything LLM是更高级的本地知识库管理工具，支持多种大模型、嵌入模型和向量数据库，并提供Workspace概念和对话/查询模式。
本地部署大模型和知识库能实现数据安全、隐私保护和更灵活的定制化。
文章强调了Ollama的服务器模式，使其能开放端口供其他软件调用大模型能力。

Full Content

在本地跑开源大模型，目前最好的软件肯定是Ollama。

不管你用的是PC、Mac，甚至是树莓派，都能通过Ollama运行大大小小的模型。而且扩展性极强。

我准备分几期详细介绍Ollama的用法。今天这期，先介绍三点：

怎么用Ollama在本地运行大模型。
在跑本地大模型的同时，使用像ChatGPT那样的Web UI。
打造完全本地化的知识库。

大家如果有更好的建议，或者在安装和使用过程中有什么问题，可以到newtype知识星球来找我。

Ollama

安装Ollama超级简单。到官网ollama.com或者.ai下载对应版本就行。

安装完成之后，在终端里输入ollama run，后边接想要运行的大模型名称就行。比如：ollama run llama2。这时系统会自动下载对应的大模型文件。

如果你不确定大模型的名称，到官网的model子页面就能找到目前所有支持的大模型。每一款大模型都有不同的版本，根据你的需求、机器的内存大小，选择对应版本，然后复制命令就行。

一般来说，7b的模型至少需要8G内存，13b需要16G，70b需要64G。大家量力而为，不然跑起来真的非常卡顿。

在默认情况下，你需要在终端里与大模型做交互。不过这种搞法真的太古老了。我们肯定是希望在一个现代的、图形化的界面里操作。这时候就要用到Open WebUI了。

Open WebUI

要安装Open WebUI，需要先安装Docker。

你可以把Docker简单理解为就是一个虚拟的容器。所有应用和依赖都打包成一个容器，然后再在系统上运行。

Docker搞定之后，复制GitHub里的这行命令到终端里执行。一切顺利的话，打开一个本地链接，就能看到非常眼熟的界面了。

这个WebUI，除了具备基本的聊天功能之外，还包含了RAG能力。不管是网页还是文档，都可以作为参考资料给到大模型。

你如果想让大模型读取网页内容的话，在链接前面加个#就行。

你如果想让大模型读取文档的话，可以在对话框的位置导入，也可以在专门的Documents页面导入。

在对话框里输入#，会出现已经导入的所有文档。你可以选中一个，或者干脆让大模型把所有文档都作为参考资料。

如果你的要求不是太高，那么做到这一步就OK了。如果你想对知识库有更多的掌控，就下载这个软件：Anything LLM。

Anything LLM

Ollama其实有两种模式：

聊天模式
服务器模式

所谓服务器模式，你可以简单理解为，Ollama在后端运行大模型，然后开放一个端口给到别的软件，让那些软件可以调用大模型的能力。

要开启服务器模式非常简单。在终端里输入两个单词：ollama serve。

启动之后，把这个默认链接填到Anything LLM里。这时，软件会通过链接读取可以加载的模型。这些模型是用来生成内容的模型。

除此之外，搭建一个知识库，会涉及到另外两个关键：

Embedding Model，嵌入模型。它负责把高维度的数据转化为低维度的嵌入空间。这个数据处理过程在RAG中非常重要。
Vector Store，向量数据库，专门用来高效处理大规模向量数据。

这两个我们都用默认的。这样一来，整套系统都跑在你的电脑上。当然，你也可以选择全部跑在云端，比如，大模型和嵌入模型都用OpenAI的，向量数据库用Pinecone，都可以。

完成最基础的三个设置之后，就可以进入主界面了。这款软件的逻辑我挺喜欢的，它有一个Workspace的概念。在每一个Workspace内部，可以创建各种聊天窗口，可以导入各种文档。

所以，你可以根据项目来创建Workspace，一个项目建一个。然后，把关于这个项目的所有文档、所有网页都导入Workspace。最后，聊天模式还有两种可以设置：

对话模式：大模型会根据你给的文档，以及它本来就有的知识储备，综合起来回答。
查询模式：大模型只是简单地针对文档进行回答。

这个就是我前边说的，Anything LLM比Open WebUI更进阶的地方，完全可以满足个人对知识库的需求。我已经把它作为我在桌面端Workflow的核心。等这两期视频做完，我专门出一期，讲讲我目前在用的AI工具和工作流吧。

问答引擎，本地部署 2024-08-31

Key Takeaway

问答引擎是搜索引擎的下一个形态，能直接提供组织好的内容而非网页链接。
LLocalSearch是一个开源项目，允许用户在本地部署问答引擎，并可联网搜索。
LLocalSearch的基本逻辑是：本地大模型理解问题 -> 转换为搜索关键词 -> 搜索相关资料并存入本地向量数据库 -> 结合问题和资料推理并输出答案。
部署LLocalSearch需要Ollama和Docker，并下载Function Calling模型和嵌入模型。
LLocalSearch目前仍处于早期阶段，但提供了本地化问答引擎的潜力。

Full Content

搜索引擎的下一个形态，肯定是问答引擎。

因为我们要的不是网页，而是网页里的内容。

要把网页这个壳剥开，把里边的一部分内容提取出来，反馈给用户，只有AI能办到。

我在年初就订阅了Perplexity，它是目前最好的问答引擎。年度订阅是200美金，有点肉痛，但是真的能完全替代Google。不过最近我还是把它给退订了。因为这家公司宣布，要在搜索结果中植入广告。

我对他们真挺失望的：以为能走出一条不一样的路，结果还是回去卖广告。而且这次有AI的帮助，鬼知道会搞出什么套路来。

不过，幸运的是，咱们很快就会有替代品了。

LLocalSearch是一个开源项目。目前可以用，但还不完善。如果你想尝鲜的话，可以来试试。

就像名字里说的那样，LLocalSearch能让你把一整套问答引擎都部署在自己的电脑上。

这边有一个概念我得先澄清一下：在本地运行，不代表不能联网。

这个开源项目，它完全是用我PC的算力，用我在PC上安装的大模型。但同时它具备联网的能力，这样才能帮咱们查资料，对吧？所以这是不矛盾的。

我先给你看一下效果，再说怎么安装。

左边是产品的样子，右边是资源的使用情况。

因为我开着OBS在录制，所以GPU的使用会比较高。如果没OBS影响的话，主要消耗的是内存。

LLocalSearch的基本逻辑是：

当你提出一个问题，本地大模型会先理解你的意思，然后把问题转换成适合拿去搜索的一组关键词。

接着，它会帮你去网上搜索所有相关资料，把找到的资料都放到本地向量数据库里，这边用的是Chroma DB。

最后，再把问题和资料结合起来做推理，输出最终答案。

在前一个问题的基础上，你可以继续追问。

如果你对整个处理过程不放心，可以点击右上角的按钮，把每个步骤都展开。

如果你也想安装，去GitHub上搜这个名字就能找到：LLocalSearch。我在知识星球里也发过链接，已经加入的小伙伴可以自取。

在安装项目之前，确保你已经安装好Ollama和Docker这两款软件——跑大模型需要Ollama，运行这个项目需要Docker。

安装好之后，通过Ollama去下载这两个模型：

一个是knoopx / hermes-2-pro-mistral，它会负责Function Calling。你可以简单理解为就是调用各种工具、帮你干活的。

一个是nomic-embed-text，嵌入模型，拥有比较大的上下文窗口。

当软件和模型都下载、安装好了，就可以去把项目克隆到本地。然后通过cd命令进入项目的文件夹，运行docker-compose up这行命令，就会自动安装了。

最后，如果一切顺利的话，打开localhost:3000这个本地链接，就可以正常使用了。

目前LLocalSearch还比较糙，不过大体的框架是有了。我看作者就一个人，是个德国小哥。你如果想支持这个项目的话，可以到GitHub上Sponsor他。一个月5美金、15美金都行。如果你是大佬、愿意赞助800美金的话，德国小哥就能买一块新显卡了——这不比你给那些女主播刷火箭有功德多了。

最后，如果你还没用过问答引擎，也不想搞这么麻烦去本地部署一个的话，可以试试国产的，比如360AI搜索和秘塔AI搜索。还是那句话：

先用起来，比什么都重要。

OK，以上就是本期内容。有什么问题想问我的话，来知识星球找我。那咱们下期见！

Mac必装AI软件 0001-01-01

Key Takeaway

作者分享了MacBook Pro的配置选择，并解释了为何选择14寸M4 Pro而非16寸M4 Max，以及未来将重负载任务交给Mac Studio的规划。
推荐Mac用户安装AI相关软件，如ChatWise，它支持主流闭源模型和开源模型（如Ollama），并提供搜索和Artifacts等工具。
强调了OpenRouter作为统一API管理平台的重要性，避免了多平台注册和绑定信用卡的麻烦。
Cursor被认为是强大的AI编程工具，结合Claude 3.7更强大，并可用于知识库管理和AI辅助创作。
Obsidian及其AI插件Copilot被推荐用于个人知识库，实现笔记的AI对话和实时信息查询，并强调了数据处理的重要性。
建议个人AI工具选择简单轻量化，企业级才考虑重型引擎。
此外，还推荐了Input Source Pro（输入法提示）、Rectangle（窗口管理）、Raycast（快速搜索）和Manico（应用快捷键）等效率工具，以提升Mac使用体验。

Full Content

我把新款MacBook Pro买回来了。借着新机入手，我给大家分享一下，Mac都有哪些必装软件，尤其是AI方面。这些工具绝对能提高你的日常效率和幸福感。

我订的这台是M4 Pro芯片，统一内存加到48G，1T硬盘。为了方便对着屏幕拍摄，我还加钱上了纳米屏。那么，为什么不上128G的M4 Max？两个原因：

第一，16寸实在太大了。我去店里看过。带着跑来跑去，真不太方便。14寸对我来说刚刚好。

第二，下半年我准备买Mac Studio。根据业内大佬推测，苹果应该会在年中或者下半年推出Mac Studio，芯片是M4 Ultra，比现在的M4 Max还强大。而且按照M2 Ultra的样子，统一内存能加到192G，比MacBook顶配的128G大多了。这样的机子拿来跑大模型不香吗？

所以，我想来想去，还是决定把重负载任务都交给Mac Studio。MacBook Pro就专心负责移动场景，就不为难它了。而且，M4 Pro加上48G统一内存已经足够给力了。

我平时拍的这些视频都是4K 10bit 422的素材，用达芬奇剪辑。这台机子剪起来完全没压力。跑大模型的话，我也测了两个黄金尺寸的效果：14B能达到每秒21个Token；32B能达到11。这样的表现，我非常满意了。

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经快1000人付费加入啦！

回到今天的主题：Mac必装软件。咱们先从AI相关的说起。

当你用了一段时间模型厂商出的应用——比如ChatGPT、Claude之后，大概率会希望通过API调用模型，以及试一试在本地运行开源大模型。两个原因：

一是更自由地体验更多的模型，并且用多少Token就付多少钱。二是更自由地去选择和组合一套工具，完全适配自己的习惯和需求，作为日常主力。

这个时候，你就需要一款像ChatWise一样的应用。

在闭源模型方面，主流的模型厂商和主流的算力平台它都支持，肯定有你想用的。

我知道大家最近为了DeepSeek注册了好几个算力平台。但是，要稳定使用的话，我建议用OpenRouter就好了，不用看别的。它不会像国内那些平台那样，总出幺蛾子——你想薅它羊毛，它想割你韭菜。在OpenRouter里，把API Key填进去，市面上所有的模型都可以选择。这就免去了你每家都得注册账号、绑定信用卡的麻烦。

在开源模型方面，大家常用的Ollama和LM Studio都有。像Ollama，你都不用做啥设置，保持软件运行就可以。ChatWise自动把所有模型都列出来了。我平时用最多的就是DeepSeek-R1 14B和Qwen2.5 14B。

光有模型不够，还得给模型配上工具。你看ChatGPT不就是在GPT模型的基础上，加了各种工具，比如搜索和画布。那到了ChatWise这边，同样也有这两个工具。

Artifacts就我之前夸过好多次，就不多说了。搜索方面，你可以用Google的免费API，也可以调用Tavily的。他们是一个专门为大模型优化过的搜索引擎。我之前自己写脚本的时候用过，挺不错的。

或者，还有一个更简单的方法，不用这些搜索引擎，直接用Perplexity的API。他们微调后的模型，有搜索、有推理，效果非常好。

ChatWise这些进阶功能需要付费才能解锁。如果你就是想要免费的，那可以用Cherry Studio。但我还是付费了。并不是冲着功能去的，只是因为它好看，用着舒服。我认为，在功能大差不差的情况下，外观和流畅度就成为选择的关键。

所以，除了Gemini 2.0和Grok 3我是在官方的网站上用，其它的模型，我全通过ChatWise加OpenRouter和Ollama来搞定。

OK，日常AI主力工具说完了，那还有两个补充。

一个是Cursor。市面上的AI编程软件很多，在细分领域各有所长。但综合来看，Cursor就是最强的，没有之一。再加上前几天Claude 3.7发布，Cursor当天就支持了。有了比3.5还强20%的3.7加持，Cursor现在更猛了。

除了编程，Cursor其实还有一些框架之外的奇怪用法。我在上一期“AI学习法”的视频里有介绍过。大家可以找来看看，肯定会有启发的。

另一个是Obsidian。更准确地说，是它的AI插件Copilot。对我来说，它的作用有两个：

第一，当我在写笔记的时候，可以直接在软件内跟AI对话，不需要切换到别的软件去。说真的，切来切去特别打断思路。而且，Copilot也可以连OpenRouter，用Perplexity的模型完成搜索，不用担心查不到实时信息。