AI应用

AI杀手级应用：Deep Research 2024-08-31

Key Takeaway

Deep Research是AI的杀手级应用，能显著提升职场效率，未来将快速普及。
Deep Research的核心是AI Search的尽头，即AI Research，通过掌握更多信息和控制更多工具实现。
OpenAI的Deep Research效果最佳，但成本高昂；Google Gemini的Deep Research性能不错且性价比高；Perplexity的Deep Search量大但效果一般。
Deep Research通过模型协作和多轮分析，能快速完成深度研究，生成思维导图和深度挖掘。
文章强调Deep Research普及后，将对职场产生巨大影响，并建议用户尽早学习和使用。

Full Content

Deep Research绝对是AI的杀手级应用。用过都说好。可惜用过的人太少，因为成本真的很高，比如OpenAI要收200美金一个月才让你用。所以，这个东西暂时还没有火出圈。如果你是职场新人，或者很想往上爬，趁着这段时间，赶紧用、赶紧学，不开玩笑。

这么说吧，但凡脑子正常的老板用过Deep Research之后，绝对会想把公司里的初级牛马全部干掉。手段不那么狠一些的，也会强制要求全员使用。然后，用不明白的都给我滚蛋。

我演示一下你们就明白了。需求很简单：帮我分析英特尔与台积电合资的可能性，以及美股投资机会。这个是最近美股投资的热门议题，我已经买入了。

接到需求后，ChatGPT会主动做一轮沟通，把需求里的细节明确一下，然后再正式开工。整个过程一般在10分钟左右，它会去查找几十个网页，然后细细地拆解。这个时候大家可以切到别的网页或者刷刷手机。

我对o1 Pro这个生成结果挺满意的，几分钟时间就完成了初步研究。试想一下，一个月1500块招个实习生帮你搜集资料，能做到这个份上，你已经可以偷笑了！

接下来，可以让这个GPT实习生根据前边的内容生成一个思维导图，这样你会有一个全局性的认识。然后，针对其中某些具体的点，再让GPT去做深度挖掘。这我就不演示了。

所以，身为打工人的各位自己掂量一下：当Deep Research全面普及之后，你们在职场当中该如何自处？

哈喽大家好，欢迎来到我的频道。谦虚地说啊，我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我，就来newtype社群。已经有800多位小伙伴付费加入啦！

回到今天的主题：Deep Research。

目前市面上提供Deep Research产品的厂商主要有三家：OpenAI、Google，以及Perplexity。接下来一定会有更多厂商加入进来。为什么？记住我这句话：

AI Search的尽头，是AI Research。

那么，不管是Search还是Research，又都是为了什么？我前两天在社群里发了这么一段话，我认为：

AI会沿着两条线发展：掌握更多信息，控制更多工具。

其中，搜索、深度研究都是第一条线的关键节点。这是为什么各家都很重视的原因。

动作最快的OpenAI已经把这个产品开放给Pro用户好一段时间了。这一档的月费是200美金，每个月可以用100次的Deep Research。Plus和免费版的用户也别着急，Sam说了，将会向Plus版用户提供每个月10次的额度，免费版用户则是2次。

实话实说，OpenAI的Deep Research是目前效果最好的产品。它不是简单地搜一堆网页，把内容拿回来分析。而是用了大量的模型协作。所以，消耗的Token比别家多太多。它产出的报告，信息密度也是别家的好几倍。不信的话，你去部署那些开源的、所谓的替代品试试就知道了。

但是，很可惜，我不会继续订阅。不是产品的问题，而是降智的问题。

很多人都遇到了降智，特别恶心。这个问题并不是无解。比如，你可以再花一点点钱去搞个静态IP伪装一下。可以是可以，只是那种被歧视的感觉让我非常不爽。我给的美元就不是美元吗？

而且，抛开这些情绪，我判断，这类型产品在三个月内一定会快速普及，成为20美金的标配。

这么考虑下来，我还是会把Gemini当做主力。性能不错，稳定，不恶心人。

我每个月20美金订阅Gemini Advanced，这其中就包括Deep Research的使用权限。这个使用也是有限额的，不过Google没明说，估计是根据用户的使用量来动态调整，满了会提示。

我给大家看一下Gemini这边的效果。跟ChatGPT一样，接到需求后，不会马上开始，而是先做一轮分析，拟定一个方案，跟用户确认好了之后才开工。接着，在几分钟内，它会查找几十甚至上百个网页，直到掌握足够的信息。最后，按照报告的格式进行输出。

没记错的话，Gemini的Deep Research是在1.5的阶段推出的，所以现在是1.5 Pro这个模型，还没更新到2.0。所以，在结果上肯定不如OpenAI那边。但是我相信，等用上Gemini 2.0模型之后，两边的效果一定会齐平。而且，Gemini大概率会提供更多的额度。一是因为搜索上的积累，二是因为Google有TPU。对OpenAI来说，成本才是他们最大的障碍。

OK，ChatGPT和Gemini都聊完了，咱们最后来看看Perplexity。他们是最狠的，给Pro用户每天500次额度，免费用户每天5次。虽然便宜，但是效果也比较一般。

不客气地说：这不是Deep Research，而是Deep Search。

反正我日常都高频使用Perplexity。现在多了一个量大管饱的Deep Search，不用白不用。

ChatGPT最重要的更新：Canvas 2024-08-31

Key Takeaway

OpenAI最新发布的Canvas是ChatGPT的重要更新，提供文本撰写和代码生成功能。
Canvas借鉴了Claude的Artifacts功能，并具有Grammaly的文本撰写风格。
AI产业已进入商业落地阶段，白领和程序员是AI替代的重点目标。
Canvas的文本撰写功能包括总结、扩写、调整风格、检查文本和添加表情符号。
Canvas的代码生成功能支持编写代码、更改编程语言和修复Bug。
文章认为Canvas的推出对创业公司构成威胁，但其功能对已使用Artifacts和Cursor的用户而言并非颠覆性。

Full Content

留给打工人的时间真的不多了。

OpenAI最新发布的Canvas，是ChatGPT最重要的一次更新。它带来两个实打实的功能：文本撰写，和代码生成。

我第一眼看到Canvas就想到了两个产品：

一是Claude。Canvas算是借鉴了它的Artifacts功能。

我之前还在newtype社群里提到过，Artifacts特别像大学老师的黑板。你去请教老师的时候，他从身后拉了一块干净的黑板过来，在上边给你详细讲解和演示。

Artifacts推出之后，获得了所有人一致好评。现在OpenAI也跟进，看来这个功能会成为Chatbot类产品的标配。没准国内大模型厂商已经在开发了。

二是Grammaly。这是一款AI写作辅助工具，日活有3000万。

Canvas的文本撰写很有Grammaly的感觉。后续要更新的话，照着Grammaly抄就好——人家在这方面已经研究得很透彻了。这条赛道这么窄，玩不出什么新东西来。

我之所以说留给打工人的时间不多了，是因为：

整个AI产业已经进入到拼商业落地的阶段。大多数模型厂商都要去卷应用。只有少数能像Deepseek那样一心一意只做模型研发。

那么，往哪个方向去卷，能够向资本证明你的阶段性商业价值呢？

柿子捡软的捏。白领是最容易替代也是最好欺负的一个群体。现在底层的模型能力足够，只需要在产品层多下点功夫，把初级白领淘汰掉是没问题的。

程序员是另一个目标。像代码这种东西，标准化表达，数据量又大，AI学起来没问题。之前我介绍过Cursor和Replit Agent，就是在往这个方向走。

所以，打不过就加入。只有那些从现在开始就全力拥抱AI，并且不断琢磨怎么利用AI的打工人才能活下来。你不需要打赢AI，只需要打赢你的同事。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把AI的Why和How讲明白的博主。记得点一波关注，绝对不亏。如果想要链接我，就来newtype社群。已经500多位小伙伴付费加入啦。

回到今天的主题：ChatGPT Canvas。

目前这个功能还是Beta版，不太成熟。比如，它还不是通用功能，需要专门切到带有这个功能的模型版本。以及，我还遇到了聊着聊着GPT突然改用英文的情况。不过瑕不掩瑜，还是值得上手试一试的。

我先测试了它的文本撰写能力。把上期视频的脚本传上去，要求它根据这个内容写一篇博客文章。

这时，类似Artifacts的界面出现了。GPT-4o很快完成了初稿。注意看，OpenAI在右下角放上了几个定制化的功能，包括调整长度等等。

当我们把长度拉满，GPT会在原来基础上做扩写，最多能增加75%的文字量。

第二个功能，看字面的话，你会认为是按照不同学历水平去撰写他们能看得懂的文章。但其实它就是调整文字风格啦。

比如调到幼儿园级别，那么文章会特别通俗易懂。如果调到最高的博士生级别，那基本就是文绉绉甚至有点不说人话的感觉。

说实话，OpenAI这么设计有点冒犯的意思了。这跟学历完全没关系。这又是何必呢？

后边的两个功能很直接。一个是帮你检查文本，看看哪里有错别字，哪里需要加个小标题，等等。

另一个是在文章里加上emoji表情。Twitter上很多人在夸这个功能。我是无感。我绝对不可能在我写的任何文章里加上emoji。

当然，不用右下角这些设定好的功能也OK。咱们可以选中任何一段内容，直接对GPT下需求。比如，把开头改得更吸引人一些。或者，把结尾再升华一下。

以上就是Canvas的文本撰写能力，很简单，很基础。通过提示词和Agent Workflow就可以实现这样的能力。OpenAI把它们都打包进产品里，而且还搞了添加emoji这样的小噱头来取悦用户。你看，他们还是很鸡贼的。

至于代码生成也是差不多的逻辑。

作为测试，我让GPT帮我写个贪吃蛇的小游戏。同样在右下角的位置出现了可以展开的按钮。其中更改编程语言这个有点意思。比如，我们可以让GPT把它已经生成的代码改成JavaScript、TypeScript等等几个主流的语言。

剩下几个功能很简单，比如修复Bug之类的。我就不详细介绍了，看一眼就懂。

目前Canvas的东西就这些。我猜，一些创业公司肯定要睡不着了。OpenAI这是在拿他们的命给自己换时间。作为用户，我感觉还好。可能是因为之前一直在用Artifacts和Cursor，所以看到这个也没那么兴奋。为了体验Canvas，我开了一个月的会员，不打算续费。之后还是继续用Claude。

OK，以上就是本期视频。想交流AI就来newtype社群。那咱们下期见！

ChatGPT的正确打开方式 2024-08-31

Key Takeaway

ChatGPT在iPhone上效率不高，因为它没有与系统和其它APP打通，无法自动化运行。
利用iPhone的快捷指令功能，可以实现ChatGPT的自动化操作，如自动总结公众号文章、语音问答和内容创作。
快捷指令的核心逻辑是：输入（网页文字、语音转文本）-> 处理（ChatGPT总结、回答）-> 输出（Markdown格式笔记到备忘录）。
这种自动化工作流能显著提升ChatGPT的使用效率和便捷性，弥补其作为聊天机器人的局限。
文章通过“总结GPT”、“问答GPT”和“灵感GPT”三个快捷指令示例，展示了ChatGPT在个人生产力中的应用。

Full Content

ChatGPT在iPhone上还不够好用。主要原因是，它没有跟系统和其它APP打通，没法自动化运行，效率不高。所以，它还只是一个聊天机器人——每次都得打开APP才能用，然后还得输入一堆东西——难怪用户使用频率不高，这也太麻烦了。

在现阶段，要让iPhone上的ChatGPT有用起来，你肯定要用到快捷指令这个功能。我先演示一下我是怎么用的，再详细介绍怎么设置。

我相信大家都很头大这样的事儿：每天要看的公众号文章根本看不过来。怎么搞？

首先，用Google Chrome打开这篇文章。

然后，点击地址栏右边的分享按钮，选择最顶端的快捷指令（我设置的名称叫“总结GPT”）。

最后，稍等一会儿，ChatGPT就会按照我事先设置好的要求，用GPT-4o这个最新的模型，总结文章的核心内容，提炼文章的Key Points，并且在备忘录的指定文件夹里创建一条新笔记，把这些内容都用Markdown格式存进去。

这么做的好处是：

第一，我就不用在APP之间手动切换、各种输入——现在用快捷指令自动化完成，这显然方便多了。

第二，虽然ChatGPT里会有聊天记录，但我还是让它存到备忘录里了。因为备忘录是系统自带的，在iOS和macOS之间同步非常快。这样一来，我回到Mac上就可以直接编辑了。而且它是Markdown格式，我还可以把它贴到写作软件或者笔记软件里进一步处理。

刚才这个是“总结GPT”。按照同样的思路，我还设置了一个“问答GPT”，也是用语音输入。

比如我问：机械键盘的主流轴都有哪些区别？比如红轴、青轴等等。

接到一段语音输入后，这个快捷指令会先把语音转化成文字、给到ChatGPT。

然后，根据我事先的设置，ChatGPT回答完问题之后，同样会用Markdown格式，把内容存到备忘录里，方便我之后查找和编辑。

这两个快捷指令是我平时用得最频繁的。除此之外，还有“灵感GPT”：

当我有任何内容方面的想法时，就像刚才“问答GPT”那样，用语音的方式全部给到GPT。它会把我的那些零散的表述有逻辑地整理一遍，变成一个内容框架，然后往里边做补充和扩展。

你如果看过我上一期视频就会发现，这其实是在用快捷指令去搭建一套简易的Agent Workflow。在新版iOS、新版Siri出来之前，咱们先用这种方式实现AI自动化。

接下来，我拿刚才那个“灵感GPT”给大家详细讲解一下。这三个快捷指令，我已经把iCloud链接分享到知识星球和Patreon里了，newtype社群的小伙伴可以直接拿去用。包括这期视频，我也会在社群内首发，算是给大家的“超前点映”。

就像上期视频里说的那样，一般来说，一套Agent Workflow的起点是用户输入。在“灵感GPT”里，咱们是用语音转成文字，所以要用到“听写文本”这个功能。在“听写文本”的设置中，大家记得点开下拉列表，选择语言，否则会报错。

有了初始输入之后，第二步，咱们要添加一个“文本”，在里边写一段Prompt，把对AI的要求交代清楚，并且把第一步的内容贴在后边，就像我这样。这一整个文本，就是接下来要给到AI去处理的信息。

第三步，添加“询问ChatGPT”，把“文本”加进去。在下拉列表中，把“开始新聊天”勾选上，然后就可以选择要用哪个模型了。

第四步，再添加一个“文本”，把GPT的回答都放进去。你可以在文本的开头添加一些描述，比如我写的是“From GPT”，这样我就知道，这条笔记是AI生成的。

第五步，添加“备忘录”，选择事先创建好的文件夹，让GPT在里边新建一条备忘录，把上一步的文本都存进去，这样就大功告成了。

另外两个快捷指令也是同样的思路。其实这整套Workflow的核心就三个步骤，很好理解：

第一，初始信息从哪来（输入）？是网页里的文字，是语音转文本，还是一张照片？这个需要设置清楚。

第二，你要GPT帮你干啥（处理）？我一般会添加一个“文本”，把固定的指令和每次的需求都放进去。然后把整个文本给到GPT。

第三，你要什么样的结果（输出）？就像我刚才演示的，以备忘录加Markdown做输出。

输入、处理、输出，把这套逻辑想清楚了，你就知道怎么用快捷指令和ChatGPT去搭建一套简易的工作流了。

OK，以上就是本期内容。大家有什么想聊的，可以来newtype找我。那咱们下期见！

Flux + ComfyUI = 量产网红美女 2024-08-31

Key Takeaway

Flux模型结合ComfyUI工作流和网红Lora，能生成高度逼真的AI图片，甚至可以以假乱真。
Flux模型由Stable Diffusion核心团队开发，生成图片真实度高，且能实现精准控制。
ComfyUI通过节点式工作流，解决了传统AI图像生成难以精准控制的问题，实现了精细化产出。
Lora作为“技能包”，能让模型按照特定风格生成图片，并可叠加使用。
AI图像生成已进入落地期，在电商等领域具有商业应用潜力，且ComfyUI工作流可分享。

Full Content

喜欢在小红书上看美女的小伙伴们请注意：

你们现在看到的，很有可能都是AI生成的。

别说什么平台会识别，你们是不知道，最新技术做出来的图片有多逼真。

比如这张图，你觉得是真的还是假的？

其实啊，这张图是我用AI生成的。准确来说，用的是Flux模型，加上一个简单的ComfyUI工作流。这里边有两个关键点：

第一，Prompt部分，也就是图片的文字描述，我是让Claude生成的。我给了它一张现成的图片，让它用英文详细描述，然后拿过来用。

第二，之所以图片上的小姐姐大家看着这么习惯，那是因为我加上了网红Lora。你可以简单理解为就是一个小插件，让模型按照特定风格去生成。

用这样一个简单的方法就能以假乱真。其实如果你更狠一点，完全可以直接图生图。比如，去小红书找一张符合大家口味的图片，然后让AI照着这个生成。很容易就可以做到姿势、身材、背景都基本一样，但是脸不一样。

以前的模型在局部做得不好，比如手指经常会多了一根。但是今天的模型已经进步非常多了。国内这些平台没法识别。所以有人做号、卖号，靠的就是我刚才演示里用的Flux模型，加上ComfyUI。

先来说说Flux模型。

最近一个多月，这款模型在圈内特别火。很多公司和团队已经实打实用上了，比如在电商领域。

那么，这么牛逼的模型是从哪冒出来的？

大家肯定听说过Stable Diffusion。Flux就是SD的核心团队出来做的。他们成立了一家新公司，叫黑森林实验室。

8月1日，黑森林实验室正式发布Flux模型，包含三个版本：schnell，就是快速版本，配置要求低一些；dev版，质量更高，但配置要求也更高，最好是4090显卡；Pro版，闭源版本，只能通过API调用。

官方版本出来之后，整个社区也是大力支持。比如推出了GGUF版，方便那些显存不够的用户使用Flux。

有了模型之后，下一个问题就是怎么运行。目前最好的方法，就是通过ComfyUI。

传统的AI图像生成，都是通过输入一大串的Prompt，俗称“咒语”。这会带来一个很头大的问题：

没法精准控制AI的生成。

一串文字给过去之后，后边的流程你完全不知道AI是怎么处理的。而且，如果对结果不满意的话，也只能在文字层面修修改改。很多时候，这种做法精确度不够，效率也很低。

于是，ComfyUI来了。它通过一个个节点组成一套工作流。这种节点式界面让用户很清楚了解AI究竟是怎么生成图像的，以及如果有问题的话，又是卡在了哪里。用户可以很精细地控制产出。

举个简单例子。你是做电商的，没钱雇那么多模特帮你拍照，那就换脸呗。你或者你手下的小姑娘先穿样衣拍好照片，然后放到ComfyUI工作流里边，专门针对脸的位置做一个遮罩。这样一来，AI就只针对脸部做生成。它会按照这个轮廓生成一张新的脸，然后再放回原来的位置。

通过这种方法，你就有了一个虚拟模特。是不是有一种画皮的感觉。这么想想还挺吓人的。

如果你觉得生成的图片AI感太强了，看起来太油、太完美了，可以加个Lora。比如，有大佬做了模拟业余摄影的，让图片看着像个外行拍的，这样就真实多了。我刚才演示里用的网红风格的Lora，也是别的大佬做的。我下载下来之后，放到特定的文件夹里，就可以在工作流里选择了。

所以你看，有了ComfyUI，原本一大坨的工作被拆解成了一个个步骤和节点，简单许多，清晰许多，可控性也高了许多。

更爽的是，这些工作流还可以分享。拿到工作流这个JSON文件后，拖到画布里就自动加载了。于是，不管是国内还是国外，有很多人在制作特别专业的工作流。这已经是现成的生意了。

大家在短视频平台上肯定有看到过这样的内容：先给你炫一下生成的图片有多牛，然后展示他搭建的极其复杂的工作流，最后跟你说，想要的话就来加微信。

如果你的机子跑不动也没关系。几乎所有的算力租赁平台都跟创作者有合作，为用户提供现成的镜像，可以直接用。

我就买了别人做的整合包，一共花了一千五。人家全都打包好了，一百多G下载下来，都不需要安装，省了我非常多的时间。

花钱买成品的好处是，很多基础的东西不需要再折腾一遍，理解一下就好了。比如，除了模型之外，Clip是干嘛的，VAE又是干嘛的；几个关键的文件夹都是放什么文件的。

实践和拆解才是重点。把别人的东西吃透了，最后造出自己的东西来。这就是我的天赋，我很清楚。所以这钱该花钱就花，而且绝对能翻倍赚回来。

Flux这一波预示着AI图像生成已经进入落地期了。动作快的人已经开始摘果子了。这也是为什么我等了一年多，到现在才开始研究。我建议大家不管想不想拿这个技术做点生意，最好都了解一下。你想想，当眼见不一定为实的时候，我们的生活会有多大变化。

OK，以上就是本期内容。想找我就来newtype社群。那咱们下期见！

Gemini + Grok：最被忽视的AI生产力工具 2024-08-31

Key Takeaway

Gemini和Grok是两个被低估的顶级AI应用，它们在不同方面展现出强大的生产力。
Gemini提供多功能体验，包括快速回答（Flash）、文章创作（Canvas）和深度报告（Deep Research），并能与Google文档和NotebookLM无缝集成，支持深度学习。
Grok在模型回答上更具“人味”，产品设计简洁，并拥有独特的Twitter数据源，使其在获取用户真实反馈方面具有优势。
结合使用Gemini（获取主流媒体信息）和Grok（获取社交媒体信息）可以获得更全面和真实的洞察。

Full Content

有两个顶级AI应用还在被国人忽视。一个是Gemini，一个是Grok。

Gemini我已经推荐得足够多了。你看，过去半年，我在社群内真的是苦口婆心、反复强调。我从1.5的模型开始，用到了2.0、2.5，真的是越用越喜欢。不说那些复杂的，就说日常使用，就像我这个帖子说的：

如果你只想要个快速回答，那直接问Gemini 2.0 Flash。它速度快，推理强，运行还稳定。

如果你想要稍微深入一点，那就把Canvas打开。Gemini 2.0 Flash会按照写文章的标准来回答你。

如果你想要详尽的报告，那把Deep Research打开。Gemini 2.0 Flash会按照报告的标准来输出。

我直接给你们来个演示吧。

比如，我问Gemini：什么是Reasoning model？它很快给出一个简要的回答。

我把Canvas也就是画布打开。再问它同样的问题。这个时候，回答速度稍微慢一些，但是详细程度会高得多。在Canvas里边，你可以对文本进行排版、编辑，也可以选中一段进行提问。也就是说，用这个功能，你可以跟Gemini配合起来完成一篇文章的创作。

如果我把Deep Research打开呢？还是同样的问题——什么是Reasoning model。Gemini会帮我拆解议题，然后查找上百个网页，最终完成深度报告的输出。

你看，就这么简单的三个功能——直接对话、Canvas和Deep Research，覆盖了我们日常使用AI的主要场景。

更进一步，如果你觉得这些回答有价值，还可以把它们保存到Google文档里。

刚才介绍的三个功能，后两个都可以导出到Google文档。然后，就像我前一个视频里介绍的，打开NotebookLM，把Google文档里的相关内容全部导入，然后就可以进行深度学习了。

Gemini还有别的功能，比如画图什么的，我就不多说了。光是刚才我介绍的那些，就足以值回票价。

而且，Google还在不断更新。就在昨天，他们推出了首个混合推理模型——Gemini 2.5 Flash。你可以自主选择要不要打开思考模式，甚至还可以设定要投入多少资源进行思考。这个模型的出现，更加强化我要继续拥抱Gemini的信心。

那么，既然Gemini这么牛逼，还要Grok干嘛呢？三个原因：

第一，从模型回答的感觉上看，Grok 3要比Gemini 2.0好得多。

Gemini 2.0还是有一种生硬感、机械感，这可能就是Google独有的味道吧。而Grok 3的回答就比较有“人味”，所以我会逐渐倾向于多跟它交流。

第二，从产品角度来看，Grok最完整。

就像之前我在社群里说的，Grok没搞那么长的模型列表让用户选择，就两个按钮：深度思考，和深度搜索。没有模型之分，只有模式之分，甚至再到后边连模式都不需要选择了，AI会自主判断。这个才是正道。像OpenAI那种，有点丧心病狂了。

另外，前两天的更新，给Grok补上了Canvas和Workspace功能。Canvas和别家差不多，就是标准的画布。而Workspace，就类似知识库的功能，特别好用。

现在，Grok已经集齐目前的主流功能。产品层面已经相当成熟了。

第三，从数据源角度来看，Grok拥有别家都没有的Twitter数据。

Twitter现在是最有影响力的社交媒体，它的数据对于AI来说很重要。如果能把Twitter所代表的社交媒体数据，和Google那边掌握的主流媒体数据合并起来，那对提升AI的回答质量肯定有帮助。具体怎么做呢？我再演示一下。

其实这个方法我在社群内也分享过。很简单，Grok的Workspace功能除了支持本地文档上传之外，还支持从Google Drive里导入——这个就是关键功能。

我会先用Gemini做一轮Deep Research，把报告导入Google文档。然后，到Grok里添加这些Google文档，并且在Prompt里强调：附件信息只是参考，你要有自己的搜索和判断。另外，Twitter上用户都有哪些反馈？重点看看。

注意看Grok的分析过程。从主流媒体的信息搜集来看，它确实不如Gemini能搜到那么多。其实不只是它，OpenAI的搜索范围也有限。但是，Grok能搜集Twitter上的数据，包括帖子和评论，这个就是它的独有价值。

我之前在公关营销行业干了十几年，非常清楚只有你预算够，绝大部分主流媒体的内容都可以买，或者都可以影响。相比之下，用户的实际使用反馈就相对真实得多。所以，当我想了解的议题涉及到用户口碑的话，我肯定会通过Grok去搜集，并且跟Gemini那边的主流媒体信息进行合并。

刚才介绍的这两款AI工具的使用经验，看起来确实平平无奇，不像很多AI自媒体介绍的那些玩法那么酷炫，但这些都是能帮到你的真东西。如果你觉得有价值，还想了解更多的话，记得加入我们社群。

OK，以上就是本期内容。那咱们下期见！

Gemini 2.0：性价比之王 2024-08-31

Key Takeaway

Gemini 2.0是目前性价比最高的大模型，其Flash-Lite版本价格极低，Flash版本兼顾性能、价格和速度。
Gemini 2.0 Pro版本上下文窗口提升至200万，适合复杂推理和代码生成。
Flash Thinking版本具备链式推理能力，适合逻辑推理和多跳问答。
Gemini 2.0在性能、稳定、速度和价格方面达到平衡，成为作者的主力AI应用。
文章强调AI不会替代人，但使用AI的人会替代不使用AI的人。

Full Content

Gemini 2.0是世界上性价比最高的大模型，没有之一。我知道你们在想什么——它比DeepSeek还强。咱们直接来看价格，海外博主已经做好表格了。

Gemini 2.0 Flash-Lite是真的是白菜价：输入只要0.075美金，输出0.3美金。

比它功能多一点的Flash，价格贵一点点：输入0.1美金，输出0.4美金。

再来看DeepSeek：V3输入0.27，输出1.1；R1输入0.55，输出2.19。

谷歌这真的太卷了。要知道，Flash可是支持多模态、支持原生工具使用、有一百万的上下文窗口的最先进的模型。结果它不仅比DeepSeek便宜，而且还压过了GPT-4o mini。看来今年AI竞赛要上强度了。

回到今天的主题：性价比之王——Gemini 2.0。

Gemini 2.0是谷歌前几天更新的模型系列，包含Pro和Flash两条线。

Pro很好理解，就是谷歌目前的顶级模型。该有的功能它都有，而且把上下文窗口从一百万提升到了两百万。所以，Pro版本非常适合用来复杂推理、生成代码等等。

而Flash则兼顾了性能、价格和速度，是日常使用的主力模型。其中，Flash还有两个变体：

Flash-Lite砍掉了一点点功能，比如不支持图片和音频的输出，不支持联网搜索，不能执行代码，然后把价格压到最低。所以，如果你需要大规模生成文本的话，那用Lite版最合适。

Flash Thinking顾名思义，就是带上链式推理能力的版本。跟大家很熟悉DeepSeek-R1一样，它在回答之前会先进行多步骤推理。所以对于一些复杂任务，比如需要更强的逻辑推理，或者多跳问答，用Flash Thinking最合适。

前边说Gemini 2.0是性价比之王，我感觉不太准确。因为“性价比”这三个字好像显得它性能不太行的样子。更贴切的称呼应该是“卷王”。我给你们演示一下效果。

先来看看Pro的能力。我给的问题是：

英伟达的CUDA为什么能成功？护城河究竟有多深？AI时代，英伟达的竞争对手有可能赶超或者颠覆吗？

可以看到，Pro虽然比Flash慢，但其实观感上还是很快的。而且它给出的答案，逻辑很清晰，也没什么过多的废话，这一点我真的很喜欢。

再来看Flash Thinking。我来问一个最近讨论特别多的问题：

DeepSeek-R1的成功是否说明，可以不需要英伟达的高算力GPU和CUDA了？

Flash Thinking的思考过程是英文的。它先是拆解了我的问题，得出需要去搜索、调研的关键词，然后再去做相应的搜索。跟Pro一样，它的答案挺干净清爽的。

作为对比，同样的问题我拿去问了DeepSeek-R1。虽然结论差不多，都是具有不可替代性，只是依赖可能会减少，但是思考的过程有挺大差别：

Flash Thinking是先拆解，再搜索。R1直接搜索，再看搜到的网页都讲了什么。从方法的角度来看，我个人是更倾向于先做拆解的。你们觉得呢？

Gemini是我的主力AI应用。最初我是用ChatGPT的。结果在使用过程中遇到各种限制，特别烦。正好Claude 3.5出了，于是就转到Claude那边去。再后来，Claude大面积封号，我三个号都被挂了，于是“逃难”到Gemini，也充了值。

这次2.0的更新，我这几天用下来非常非常满意。不管是哪个版本，都做到了性能、稳定、速度以及价格的平衡。在桌面端用网页版，Pro、Flash和Flash Thinking都有。在手机上就用官方的APP，可以选Pro或者Flash。

只要谷歌那边别出什么幺蛾子，在下一次模型大更新之前，Gemini都会继续是我的日常主力。

我知道，用国外这些产品得跨过好几道门槛。但是，这些门槛其实也帮你筛掉了很多很多人。只要你花点时间、花点钱跨过去了，你就取得巨大领先了。还是那句话：

AI不会替代你，用AI的人，尤其是用先进AI的人才会。

OK，以上就是本期内容。想进一步了解AI，就来我们newtype社群。那咱们下期见！

HuggingChat：用最先进的开源模型，挑战ChatGPT 2024-08-31

Key Takeaway

HuggingChat是一款免费体验最先进开源大模型的应用，提供网页版、iOS版和macOS版，设计简洁。
HuggingChat的核心主张是让所有人都能用上Hugging Face社区最好的模型，并会不定期更新模型列表。
作者日常高频使用问答引擎Perplexity和Chatbot Claude，但HuggingChat因其轻量化和便捷性成为日常碎片化需求的承接工具。
HuggingChat通过快捷键呼出对话框，并优先提升回复速度，Web Search功能需手动开启。
HuggingChat还提供Tools功能，其中Flux图像生成工具能满足轻量级图像生成需求。
文章认为开源模型的性能已追平闭源，开源社区在开发应用方面更具优势。

Full Content

想要免费体验最先进的开源大模型，我推荐大家试试HuggingChat。

这款应用之前有网页版和iOS版。前些天，macOS版推出，在产品设计上还挺有心思的。我特别认同他们这种简洁的设计思路。

macOS版的HuggingChat不像别的APP那样，有一个很重的前端。当按下Command、Shift和回车三个默认的快捷键之后，才会出现一个极简的对话窗口，很像macOS的聚集搜索框。这时我们可以跟跑在云端的大模型对话。

如果要更换模型，点左边的加号进入设置，把模型从初始的Llama 3.1 70B改成国产的Qwen 2.5 72B。这些模型不是固定的，会不定期更新。因为HuggingChat的主张是：

让所有人都能用上来自Hugging Face社区的最好的模型。

这也说明了，Qwen 2.5和Llama 3.1、Command R+等模型一样，成为公认的、当下最好的开源大模型。Qwen确实是国产之光！

哈喽各位好，欢迎来到我的频道。我是国内少有的、能把AI的Why和How讲明白的博主。记得点一波关注，绝对不亏。如果想链接我，就来newtype社群，已经有500多位小伙伴付费加入啦。

回到今天的主题：HuggingChat。我每天都会高频使用的AI工具有两类：

一是问答引擎。目前世界上最好的问答引擎是Perplexity，这个没有之一，没得挑。但是光有它还不够，因为有很多东西是搜不到的。而且我也经常需要AI提供更多的角度，或者完善我的思路。

于是就有了第二类工具——Chatbot。目前我最满意的是Claude。它不只是模型能力比GPT-4更强，在功能体验上也比ChatGPT要好得多。Artifacts真的非常棒，绝对值回票价。我推荐给好多人了，用过都说好。

不过，对于咱们这些国内用户来说，Perplexity和Claude麻烦的地方就在于，隔段时间就要刷新页面、点一下验证。你别小看就这么一点点的麻烦——当你想用却被打断的时候，会很影响体验。

所以，当这种不方便久了之后，我都是有稍微严肃一点的任务的时候才去用它俩。日常大量的、碎片化的需求，需要有一个轻量化的、拿起来就能用的AI工具来承接——这就是我看上macOS版HuggingChat的原因。

平时隐藏在后边，要用的时候通过快捷键呼出对话框，这种看似不争的做法，其实是想抢AI终端的第一入口。为了实现这个野心，HuggingChat做了大量减法，甚至连上网搜索功能都要手动开启。

在设置里边有个Web Search，把它勾选上之后，模型就会上网搜索了。不过代价就是，回复的速度要慢一些，因为多了搜索和RAG的过程。我猜，这就是上网搜索功能没有默认开启的原因。

尽一切可能把回复速度提上来，这个优先级绝对高于任何其它功能。

如果用户有更重的需求，没问题，在桌面端用网页版，在移动端用iOS版。打开之后你就会发现，ChatGPT里的GPTs它也有，叫Assitants。不过大部分都没啥用啦，跟GPTs一样。

真正有生产力的，是Tools，工具。我用得最多的，是Flux图像生成。

我在前两期视频里介绍过Flux模型。它是SD团队出来做的，是目前世界上最先进的图像生成模型。第一，Flux生成的图像，无论是真实程度还是审美水平都超过别的模型。第二，Flux还能实现精准控制，比如它能在图像上准确生成文字。

Flux有三个版本，其中两个开源。这个工具所用的Flux dev，就是开源版本中性能最强的那一个。当我有一些轻量级的图像生成需求的时候就会用到它。比如生成一个文章配图。由于Flux本身能力强，这种任务对它来说很简单。实在不行就抽几次卡，也能搞定。

有了macOS版之后，加上之前已经在用的iOS版和网页版，我突然发现，HuggingChat已经悄悄成为我使用最频繁的AI工具了。开源模型的性能已经追平闭源。至于开发应用，大家水平都一样。甚至我会觉得开源社区更有优势，因为他们不用考虑什么生态啊、护城河之类的，没那么多包袱，可以放开手脚干。

OK，以上就是本期内容。想交流和学习AI，来newtype社群。那咱们下期见！

Perplexica：部署完全属于你的问答引擎 2024-08-31

Key Takeaway

Perplexica是一款开源的问答引擎，旨在提供Perplexity的本地部署替代方案，具有高度自由度。
Perplexica支持云端和本地模型，可通过OpenAI、Anthropic、Grok的API调用，或通过Ollama调用开源大模型。
部署Perplexica需要Docker，并可通过docker compose up命令进行安装。
Perplexica的UI与Perplexity相似，支持Copilot功能，能根据提问生成多个搜索关键词以提升效果。
Perplexica还支持云端部署，用户可在RepoCloud等平台一键部署，实现个人专属的问答引擎。

Full Content

我一直想在本地部署一套问答引擎。

在我构想的AI工作系统当中，问答引擎是基础。但是，现在做得最好的Perplexity，它对网络环境挺挑的。想用的时候突然用不了，就很烦。

所以很多时候不是我不想为SaaS付费，而是这客观条件逼得我只能走本地部署这条路。

好在这类型的项目挺多的。我之前就介绍过一款，叫LLocalSearch。折腾了一圈之后，我目前最满意的是Perplexica。

从名字就能看出来，这款产品就是照着Perplexity抄的。放在一起对比，UI几乎一模一样。

我之所以对它满意，主要原因是，它的自由度很高。

在模型方面，你可以走云端，通过OpenAI、Anthropic或者Grok的API去调用相应的模型。你也可以走本地，通过Ollama去调用开源大模型。

我把之前安装的都删了，重新走一遍，大家就明白了。

先把Docker打开，咱们一会儿需要使用。接着老规矩，通过git clone把项目下载下来。然后把config这个文件前边的sample去掉。

对大模型的配置，可以在config里进行。比如填上OpenAI的API Key，或者Ollama的地址。如果你没有改端口的话，那就是默认的11434。要注意：不是填localhost:11434，而是host.docker.internal:11434，因为咱们是在docker里运行。

这边没填也没关系，等全部安装完成之后，可以在应用里边的设置页面进行配置。

最后，使用docker compose up这行命令，就会自动下载、安装需要的所有东西。等个几分钟，就可以通过localhost:3000这个本地页面使用了。

咱们来测试一下效果。先试试GPT-4o。可以看到，大概四到五秒钟能给出结果，还是很不错的。回答的来源，还有追问，都跟Perplexity一样。

如果打开Copilot选项，那么AI会根据你的提问去多生成几个，一起拿去搜，这样能提升整体效果。

接着试试开源模型的效果。语言模型用qwen2，嵌入模型用nomic。第一次启动有点慢，需要加载一下。后边明显快多了。

前边说了，我喜欢Perplexica的主要原因是它的自由度。这个自由度不仅限于模型。

在部署方面，除了本地部署，它还支持云端部署。在官方GitHub页面下方，就有一键部署的按钮。

它应该是跟RepoCloud有合作。你在上边注册之后，会给3美金的免费额度。这时只需要搜索项目名称，找到Perplexica；然后填写OpenAI API Key，以及用户名和密码；最后等上大概5分钟，项目就在云端部署好了。

可以看到，RepoCloud给了一个链接，我们可以在桌面端、移动端随意使用。比如我在iPad上打开，用刚才设置的用户名和密码登陆，就会看到同样的界面。运行起来，速度还OK。RepoCloud会根据你的使用量auto-scaling。

我发现，这种个人专属的感觉特别棒。强烈建议大家试试。不管你是自己使用还是团队共用，都可以。

OK，以上就是本期内容。接下来我准备详细研究一下Perplexica和它所使用的搜索引擎SearXNG。有新发现的话，我会分享到newtype社群。还没加入的小伙伴抓紧加入吧。那咱们下期见！

Perplexity使用指南 2024-08-31

Key Takeaway

Perplexity是目前最好的问答引擎，其回答质量和使用体验优于ChatGPT等产品。
Perplexity作为知识的起点，强调建立信任（清晰来源标注）、帮助用户提问（扩展搜索关键词、引导提问）和提供一站式服务（Pages功能）。
Pages功能将搜索与内容构思相结合，能辅助用户生成文章大纲和支撑信息。
Perplexity通过微调GPT模型、使用其他大模型和自研开源模型，并结合强大的RAG技术，实现了其问答引擎的领先地位。
Perplexity还提供了Focus功能（特定搜索方向）和Space功能（知识库），进一步扩展了其应用场景。

Full Content

ChatGPT最近推出了搜索功能，不过我还是会继续使用Perplexity。因为作为问答引擎，或者说下一代的搜索引擎，Perplexity依旧拥有最好的回答质量和使用体验。要做好问答引擎，需要大量领域知识，还涉及到工程问题，不是说你有很强的模型就能搞得定的。

至于OpenAI，说实话，我不太看好他们。之前我在社群内还吐槽过，觉得现在的OpenAI就像黄磊一样，样样通、样样松。他们想做的东西太多了：

既想做基础模型研发，又想搞应用，还要做应用商城和生态。推出的一系列功能都是点到为止，没有扎实做透。真要用来严肃生产，还是有点距离的。

所以在过去一年，我一直坚定选择Perplexity和Claude的组合。它俩实实在在有帮到我，帮我赚到钱。本期视频算是Perplexity的教学。如果你还没用过，或者还没订阅的话，一定往下看。

哈喽大家好，欢迎来到我的频道。谦虚地说，我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注。只要有一个视频你看进去了，就赚大了。如果想链接我，就来newtype社群。已经有500多位小伙伴付费加入啦！

回到今天的主题：Perplexity。

今天AI应用有两个非常确定的赛道：一是搜索，二是知识库。

搜索就不用我多说了。大模型出现之后，通用搜索和领域搜索都出现了一堆新产品，肯定能跑出独角兽。知识库也非常火。RAG as Service，打造Knowledge Assistant，这个进程一直在加速。

你发现没有：不管是搜索还是知识库，都是关于知识，都是关于知识的发现和流动。所以之前Perplexity在界面上放上一行字：Where knowledge begins，知识的起点。可惜现在改成了“释放你的好奇心”，一下就弱爆了。

当你开始用Perplexity就会有这样的感觉：问答引擎并不等于大模型加搜索，真没那么简单。

第一，作为知识的起点，它需要建立信任，所以它的行为和结果一定是严谨的、是规矩的，就像写论文一样：

所有来源都有清晰标注，并且你可以很方便去追溯；所生成的结果也是逻辑清晰的、简洁的，很好理解。

第二，作为知识的起点，它需要帮助用户提出问题。Perplexity的创始人在采访里说过一个观点，我印象非常深：

他们最大的敌人并不是Google之类的巨头，而是用户不会提问这个无奈的事实。

大部分用户压根就没想明白；即使想明白了，要准确表达又是一个门槛。

所以Perplexity加强了产品上的引导。比如，当用户输入完问题之后，如果不是太具体，他们会给出几个选项，试探一下用户的真实意图。再比如，前段时间他们还加上了自动补齐的功能。

第三，作为知识的起点，它还需要照顾到后续的旅程——不能只是一个起点，还应该尽可能成为一站式的存在。

后续建议提问这个功能很简单，但是很实用。毕竟这么多个问题，总会有一个问到点上的。

前段时间推出的Page功能非常有想法。从一个问题出发，不断提问、不断扩展逻辑，最终形成一个类似文章大纲加上支撑信息的东西。

如果需求不复杂的话，比如你就是想要找个旅游攻略之类的，那么这个成品基本可以拿去直接用。如果是要写篇文章的话，那这个基本就完成了最开始的构思——文章的整体逻辑有了，下边的支撑也有了。

我认为，Page功能就是把我们习惯的边搜索、边构思的过程具像化了、产品化了。再打磨下去，也许有一天真的能实现直接成稿的效果。

所以，当你理解了Perplexity的这些功能之后，再去对比带搜索的大模型产品就会发现，这俩真不是一回事，有点两个物种的感觉。我强烈认为，在搜索的基础上加AI，和在AI的基础上加搜索，是两种产品形态。甚至有一段时间，我退订ChatGPT之后，就是用Perplexity来替代。因为它也有直接生成文字的功能。

很多人可能没怎么注意到Focus这个按钮。点开之后，你可以设置特定的搜索方向。比如，专门搜YouTube或者学术论文等等。其中有一个Writing选项，就是不搜索，基于模型现有的知识直接回答用户问题。要更改模型的话，就到设置里去选择。除了GPT系列，还可以选择Claude系列。最先进的模型这里都有。

通过互联网，我们能搜到的知识大多数公开的、通用的知识。还有很多知识属于领域知识，网上没有的。为了覆盖这种情况，前段时间Perplexity上线了Space功能，也就是知识库。用户可以上传文档，让模型根据文档做回答。

知识库对Perplexity来说是手到擒来的事儿。因为问答引擎本来就需要很强的RAG能力。顺着这个方向，我特别希望他们把文档管理体系给补上，包括分层级的文件夹、标签。让用户逐渐把私人文档存进去，完成数据资产的迁移，这个是入口级产品必须要做的事儿。

Perplexity还有一些不是那么核心的功能，比如发现页面。你可以理解为就是Google、百度都有的新闻推荐页面。这个目前看没啥意思，等看以后会不会有什么创新吧。

OK，以上就是本期内容。大家看完了记得去试试这款目前最好的问答引擎。那咱们下期见！

Replit Agent：AI编程的野心 2024-08-31

Key Takeaway

Replit Agent是一款激进的AI编程工具，能通过Agent完成环境设置、代码撰写和项目部署，实现云端开发。
Replit Agent的模式类似于“厨师服务团队”，用户只需提供需求，Agent负责具体执行，适合快速原型开发。
Replit Agent与Cursor等工具相比，更侧重于自动化，减少人工参与。
Replit Agent支持H5页面等简单项目开发，但对于复杂项目仍有局限性。
文章强调AI编程工具能极大提升效率，但仍需用户具备开发思维，AI目前处于“遇强则强，遇弱则弱”的阶段。

Full Content

大模型火了快两年，没想到，第一个爆发的赛道是AI编程。

最近新出的Replit Agent特别激进。从环境设置、代码撰写到项目部署，它用Agent全部搞定。过程中，有时会询问你的意见，比如这个UI和你预期的样子是不是一样。其它时间Replit Agent都是在埋头干活。

整个开发是在云端完成的，用它的环境，这一点挺省心的。更重要的是，这意味着你随便用什么设备都可以，手机也OK。一旦有想法了，可以快速完成原型开发。然后把整个项目的压缩包下载下来，在本地做进一步处理。

Replit Agent的这种模式让我想起了农村的厨师服务团队，专门搞红白喜事的那种。厨师、厨具、餐具、桌椅，甚至食材和调料，他们全都提供。你就负责吃席就好。

相比之下，Cursor是一种人机Co-work的模式，还是需要人的大量参与。而再早之前的GitHub Copilot就更落后了，我觉得它只能算是一种智能代码补全。

为了测试，我拿Replit做了一个简单的H5页面。用户输入API Key之后，可以选择OpenAI的模型，然后对话。

需求给过去之后，Replit会先做分析，并且还会根据它的理解，给你一些选项，看你要不要也一并完善了。这一步其实是在做需求确认。大家如果服务过甲方就知道，如果需求对不清楚，那这项目大概率会很痛苦。

开工之后，Replit自动做环境的部署，把需要的包都下载、安装，然后编写代码、配置数据库等等。

因为项目比较简单，所以测试过程很顺利。调用OpenAI模型对话一次就成功了。剩下的都是小修小补，比如UI上删除一些不需要的元素，简单说一句就搞定。

Replit虽然不能说中文，但是你用中文它也能懂。不过我还是建议用英文，避免中文翻译成英文有歧义。四级水平的英文就足够和AI交流了，它都懂的。

到了部署环节，其实也没什么好调整的，Replit都帮你设置好了，直接点开始就OK。等进度条走到头，Replit会提供一个链接，那就是咱们的H5页面了。桌面端试了一下，完全正常。在手机上打开，也可以使用。

Replit支持Auto-scale，也就是说，如果访问量大的话，它会自动升级配置，保证项目的运行。在后台可以看到数据分析。如果你自己有域名的话，也可以在后台绑定域名。

看到这里你应该就明白，为什么我说Replit像农村的厨师服务团队了。不过，现在这个团队能力还不太行，搞些小活儿没问题，比如H5这种，碰上复杂点的项目就整不动了。

我在前一天让Replit做一个微信小程序，也是接OpenAI API的聊天机器人。整个过程就挺闹心的。Replit总让我帮它检查这、检查那的，甚至让我帮它看看Python文档有没问题——这谁给谁干活啊。到了部署环节，最后一步死活进行不下去，也找不出原因，然后就卡在这里了。

所以我估计，Replit至少还得花个半年时间去迭代吧。现阶段我就不订阅了，还是继续用Cursor比较靠谱。

给大家看看，我用Cursor把个人博客做出来了。我这些视频的文字稿，还有我日常的阅读清单，都会在博客上发布。后续我准备用Cursor做一个聊天机器人，用上RAG，把我的个人知识库接进去，开放给大家使用。

对于现在这些AI编程工具，我发现有两派观点：一派觉得这些工具都是垃圾，一派觉得这些工具可以替代程序员。这两派我都不赞成。我觉得现在的AI处于中间地带，没法替代，但是可以极大提升效率。如果你是纯小白，那真的很难，至少得具备开发思维。

就像我在上半年的一期视频里说的，AI在这个阶段的特征是八个字：

遇强则强，遇弱则弱。

AI没那么万能，现在只是Copilot，需要Pilot很强才能用起来。你要是没那么强，那就等着，等到普及的那一天，等到离AGI很近的那一天，跟着受益，也可以。

OK，以上就是本期内容。想找我就来newtype社群。那咱们下期见！