AI应用
Key Takeaway
- Deep Research是AI的杀手级应用,能显著提升职场效率,未来将快速普及。
- Deep Research的核心是AI Search的尽头,即AI Research,通过掌握更多信息和控制更多工具实现。
- OpenAI的Deep Research效果最佳,但成本高昂;Google Gemini的Deep Research性能不错且性价比高;Perplexity的Deep Search量大但效果一般。
- Deep Research通过模型协作和多轮分析,能快速完成深度研究,生成思维导图和深度挖掘。
- 文章强调Deep Research普及后,将对职场产生巨大影响,并建议用户尽早学习和使用。
Full Content
Deep Research绝对是AI的杀手级应用。用过都说好。可惜用过的人太少,因为成本真的很高,比如OpenAI要收200美金一个月才让你用。所以,这个东西暂时还没有火出圈。如果你是职场新人,或者很想往上爬,趁着这段时间,赶紧用、赶紧学,不开玩笑。
这么说吧,但凡脑子正常的老板用过Deep Research之后,绝对会想把公司里的初级牛马全部干掉。手段不那么狠一些的,也会强制要求全员使用。然后,用不明白的都给我滚蛋。
我演示一下你们就明白了。需求很简单:帮我分析英特尔与台积电合资的可能性,以及美股投资机会。这个是最近美股投资的热门议题,我已经买入了。
接到需求后,ChatGPT会主动做一轮沟通,把需求里的细节明确一下,然后再正式开工。整个过程一般在10分钟左右,它会去查找几十个网页,然后细细地拆解。这个时候大家可以切到别的网页或者刷刷手机。
我对o1 Pro这个生成结果挺满意的,几分钟时间就完成了初步研究。试想一下,一个月1500块招个实习生帮你搜集资料,能做到这个份上,你已经可以偷笑了!
接下来,可以让这个GPT实习生根据前边的内容生成一个思维导图,这样你会有一个全局性的认识。然后,针对其中某些具体的点,再让GPT去做深度挖掘。这我就不演示了。
所以,身为打工人的各位自己掂量一下:当Deep Research全面普及之后,你们在职场当中该如何自处?
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:Deep Research。
目前市面上提供Deep Research产品的厂商主要有三家:OpenAI、Google,以及Perplexity。接下来一定会有更多厂商加入进来。为什么?记住我这句话:
AI Search的尽头,是AI Research。
那么,不管是Search还是Research,又都是为了什么?我前两天在社群里发了这么一段话,我认为:
AI会沿着两条线发展:掌握更多信息,控制更多工具。
其中,搜索、深度研究都是第一条线的关键节点。这是为什么各家都很重视的原因。
动作最快的OpenAI已经把这个产品开放给Pro用户好一段时间了。这一档的月费是200美金,每个月可以用100次的Deep Research。Plus和免费版的用户也别着急,Sam说了,将会向Plus版用户提供每个月10次的额度,免费版用户则是2次。
实话实说,OpenAI的Deep Research是目前效果最好的产品。它不是简单地搜一堆网页,把内容拿回来分析。而是用了大量的模型协作。所以,消耗的Token比别家多太多。它产出的报告,信息密度也是别家的好几倍。不信的话,你去部署那些开源的、所谓的替代品试试就知道了。
但是,很可惜,我不会继续订阅。不是产品的问题,而是降智的问题。
很多人都遇到了降智,特别恶心。这个问题并不是无解。比如,你可以再花一点点钱去搞个静态IP伪装一下。可以是可以,只是那种被歧视的感觉让我非常不爽。我给的美元就不是美元吗?
而且,抛开这些情绪,我判断,这类型产品在三个月内一定会快速普及,成为20美金的标配。
这么考虑下来,我还是会把Gemini当做主力。性能不错,稳定,不恶心人。
我每个月20美金订阅Gemini Advanced,这其中就包括Deep Research的使用权限。这个使用也是有限额的,不过Google没明说,估计是根据用户的使用量来动态调整,满了会提示。
我给大家看一下Gemini这边的效果。跟ChatGPT一样,接到需求后,不会马上开始,而是先做一轮分析,拟定一个方案,跟用户确认好了之后才开工。接着,在几分钟内,它会查找几十甚至上百个网页,直到掌握足够的信息。最后,按照报告的格式进行输出。
没记错的话,Gemini的Deep Research是在1.5的阶段推出的,所以现在是1.5 Pro这个模型,还没更新到2.0。所以,在结果上肯定不如OpenAI那边。但是我相信,等用上Gemini 2.0模型之后,两边的效果一定会齐平。而且,Gemini大概率会提供更多的额度。一是因为搜索上的积累,二是因为Google有TPU。对OpenAI来说,成本才是他们最大的障碍。
OK,ChatGPT和Gemini都聊完了,咱们最后来看看Perplexity。他们是最狠的,给Pro用户每天500次额度,免费用户每天5次。虽然便宜,但是效果也比较一般。
不客气地说:这不是Deep Research,而是Deep Search。
反正我日常都高频使用Perplexity。现在多了一个量大管饱的Deep Search,不用白不用。
Key Takeaway
- OpenAI最新发布的Canvas是ChatGPT的重要更新,提供文本撰写和代码生成功能。
- Canvas借鉴了Claude的Artifacts功能,并具有Grammaly的文本撰写风格。
- AI产业已进入商业落地阶段,白领和程序员是AI替代的重点目标。
- Canvas的文本撰写功能包括总结、扩写、调整风格、检查文本和添加表情符号。
- Canvas的代码生成功能支持编写代码、更改编程语言和修复Bug。
- 文章认为Canvas的推出对创业公司构成威胁,但其功能对已使用Artifacts和Cursor的用户而言并非颠覆性。
Full Content
留给打工人的时间真的不多了。
OpenAI最新发布的Canvas,是ChatGPT最重要的一次更新。它带来两个实打实的功能:文本撰写,和代码生成。
我第一眼看到Canvas就想到了两个产品:
一是Claude。Canvas算是借鉴了它的Artifacts功能。
我之前还在newtype社群里提到过,Artifacts特别像大学老师的黑板。你去请教老师的时候,他从身后拉了一块干净的黑板过来,在上边给你详细讲解和演示。
Artifacts推出之后,获得了所有人一致好评。现在OpenAI也跟进,看来这个功能会成为Chatbot类产品的标配。没准国内大模型厂商已经在开发了。
二是Grammaly。这是一款AI写作辅助工具,日活有3000万。
Canvas的文本撰写很有Grammaly的感觉。后续要更新的话,照着Grammaly抄就好——人家在这方面已经研究得很透彻了。这条赛道这么窄,玩不出什么新东西来。
我之所以说留给打工人的时间不多了,是因为:
整个AI产业已经进入到拼商业落地的阶段。大多数模型厂商都要去卷应用。只有少数能像Deepseek那样一心一意只做模型研发。
那么,往哪个方向去卷,能够向资本证明你的阶段性商业价值呢?
柿子捡软的捏。白领是最容易替代也是最好欺负的一个群体。现在底层的模型能力足够,只需要在产品层多下点功夫,把初级白领淘汰掉是没问题的。
程序员是另一个目标。像代码这种东西,标准化表达,数据量又大,AI学起来没问题。之前我介绍过Cursor和Replit Agent,就是在往这个方向走。
所以,打不过就加入。只有那些从现在开始就全力拥抱AI,并且不断琢磨怎么利用AI的打工人才能活下来。你不需要打赢AI,只需要打赢你的同事。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想要链接我,就来newtype社群。已经500多位小伙伴付费加入啦。
回到今天的主题:ChatGPT Canvas。
目前这个功能还是Beta版,不太成熟。比如,它还不是通用功能,需要专门切到带有这个功能的模型版本。以及,我还遇到了聊着聊着GPT突然改用英文的情况。不过瑕不掩瑜,还是值得上手试一试的。
我先测试了它的文本撰写能力。把上期视频的脚本传上去,要求它根据这个内容写一篇博客文章。
这时,类似Artifacts的界面出现了。GPT-4o很快完成了初稿。注意看,OpenAI在右下角放上了几个定制化的功能,包括调整长度等等。
当我们把长度拉满,GPT会在原来基础上做扩写,最多能增加75%的文字量。
第二个功能,看字面的话,你会认为是按照不同学历水平去撰写他们能看得懂的文章。但其实它就是调整文字风格啦。
比如调到幼儿园级别,那么文章会特别通俗易懂。如果调到最高的博士生级别,那基本就是文绉绉甚至有点不说人话的感觉。
说实话,OpenAI这么设计有点冒犯的意思了。这跟学历完全没关系。这又是何必呢?
后边的两个功能很直接。一个是帮你检查文本,看看哪里有错别字,哪里需要加个小标题,等等。
另一个是在文章里加上emoji表情。Twitter上很多人在夸这个功能。我是无感。我绝对不可能在我写的任何文章里加上emoji。
当然,不用右下角这些设定好的功能也OK。咱们可以选中任何一段内容,直接对GPT下需求。比如,把开头改得更吸引人一些。或者,把结尾再升华一下。
以上就是Canvas的文本撰写能力,很简单,很基础。通过提示词和Agent Workflow就可以实现这样的能力。OpenAI把它们都打包进产品里,而且还搞了添加emoji这样的小噱头来取悦用户。你看,他们还是很鸡贼的。
至于代码生成也是差不多的逻辑。
作为测试,我让GPT帮我写个贪吃蛇的小游戏。同样在右下角的位置出现了可以展开的按钮。其中更改编程语言这个有点意思。比如,我们可以让GPT把它已经生成的代码改成JavaScript、TypeScript等等几个主流的语言。
剩下几个功能很简单,比如修复Bug之类的。我就不详细介绍了,看一眼就懂。
目前Canvas的东西就这些。我猜,一些创业公司肯定要睡不着了。OpenAI这是在拿他们的命给自己换时间。作为用户,我感觉还好。可能是因为之前一直在用Artifacts和Cursor,所以看到这个也没那么兴奋。为了体验Canvas,我开了一个月的会员,不打算续费。之后还是继续用Claude。
OK,以上就是本期视频。想交流AI就来newtype社群。那咱们下期见!
Key Takeaway
- ChatGPT在iPhone上效率不高,因为它没有与系统和其它APP打通,无法自动化运行。
- 利用iPhone的快捷指令功能,可以实现ChatGPT的自动化操作,如自动总结公众号文章、语音问答和内容创作。
- 快捷指令的核心逻辑是:输入(网页文字、语音转文本)-> 处理(ChatGPT总结、回答)-> 输出(Markdown格式笔记到备忘录)。
- 这种自动化工作流能显著提升ChatGPT的使用效率和便捷性,弥补其作为聊天机器人的局限。
- 文章通过“总结GPT”、“问答GPT”和“灵感GPT”三个快捷指令示例,展示了ChatGPT在个人生产力中的应用。
Full Content
ChatGPT在iPhone上还不够好用。主要原因是,它没有跟系统和其它APP打通,没法自动化运行,效率不高。所以,它还只是一个聊天机器人——每次都得打开APP才能用,然后还得输入一堆东西——难怪用户使用频率不高,这也太麻烦了。
在现阶段,要让iPhone上的ChatGPT有用起来,你肯定要用到快捷指令这个功能。我先演示一下我是怎么用的,再详细介绍怎么设置。
我相信大家都很头大这样的事儿:每天要看的公众号文章根本看不过来。怎么搞?
首先,用Google Chrome打开这篇文章。
然后,点击地址栏右边的分享按钮,选择最顶端的快捷指令(我设置的名称叫“总结GPT”)。
最后,稍等一会儿,ChatGPT就会按照我事先设置好的要求,用GPT-4o这个最新的模型,总结文章的核心内容,提炼文章的Key Points,并且在备忘录的指定文件夹里创建一条新笔记,把这些内容都用Markdown格式存进去。
这么做的好处是:
第一,我就不用在APP之间手动切换、各种输入——现在用快捷指令自动化完成,这显然方便多了。
第二,虽然ChatGPT里会有聊天记录,但我还是让它存到备忘录里了。因为备忘录是系统自带的,在iOS和macOS之间同步非常快。这样一来,我回到Mac上就可以直接编辑了。而且它是Markdown格式,我还可以把它贴到写作软件或者笔记软件里进一步处理。
刚才这个是“总结GPT”。按照同样的思路,我还设置了一个“问答GPT”,也是用语音输入。
比如我问:机械键盘的主流轴都有哪些区别?比如红轴、青轴等等。
接到一段语音输入后,这个快捷指令会先把语音转化成文字、给到ChatGPT。
然后,根据我事先的设置,ChatGPT回答完问题之后,同样会用Markdown格式,把内容存到备忘录里,方便我之后查找和编辑。
这两个快捷指令是我平时用得最频繁的。除此之外,还有“灵感GPT”:
当我有任何内容方面的想法时,就像刚才“问答GPT”那样,用语音的方式全部给到GPT。它会把我的那些零散的表述有逻辑地整理一遍,变成一个内容框架,然后往里边做补充和扩展。
你如果看过我上一期视频就会发现,这其实是在用快捷指令去搭建一套简易的Agent Workflow。在新版iOS、新版Siri出来之前,咱们先用这种方式实现AI自动化。
接下来,我拿刚才那个“灵感GPT”给大家详细讲解一下。这三个快捷指令,我已经把iCloud链接分享到知识星球和Patreon里了,newtype社群的小伙伴可以直接拿去用。包括这期视频,我也会在社群内首发,算是给大家的“超前点映”。
就像上期视频里说的那样,一般来说,一套Agent Workflow的起点是用户输入。在“灵感GPT”里,咱们是用语音转成文字,所以要用到“听写文本”这个功能。在“听写文本”的设置中,大家记得点开下拉列表,选择语言,否则会报错。
有了初始输入之后,第二步,咱们要添加一个“文本”,在里边写一段Prompt,把对AI的要求交代清楚,并且把第一步的内容贴在后边,就像我这样。这一整个文本,就是接下来要给到AI去处理的信息。
第三步,添加“询问ChatGPT”,把“文本”加进去。在下拉列表中,把“开始新聊天”勾选上,然后就可以选择要用哪个模型了。
第四步,再添加一个“文本”,把GPT的回答都放进去。你可以在文本的开头添加一些描述,比如我写的是“From GPT”,这样我就知道,这条笔记是AI生成的。
第五步,添加“备忘录”,选择事先创建好的文件夹,让GPT在里边新建一条备忘录,把上一步的文本都存进去,这样就大功告成了。
另外两个快捷指令也是同样的思路。其实这整套Workflow的核心就三个步骤,很好理解:
第一,初始信息从哪来(输入)?是网页里的文字,是语音转文本,还是一张照片?这个需要设置清楚。
第二,你要GPT帮你干啥(处理)?我一般会添加一个“文本”,把固定的指令和每次的需求都放进去。然后把整个文本给到GPT。
第三,你要什么样的结果(输出)?就像我刚才演示的,以备忘录加Markdown做输出。
输入、处理、输出,把这套逻辑想清楚了,你就知道怎么用快捷指令和ChatGPT去搭建一套简易的工作流了。
OK,以上就是本期内容。大家有什么想聊的,可以来newtype找我。那咱们下期见!
Key Takeaway
- Flux模型结合ComfyUI工作流和网红Lora,能生成高度逼真的AI图片,甚至可以以假乱真。
- Flux模型由Stable Diffusion核心团队开发,生成图片真实度高,且能实现精准控制。
- ComfyUI通过节点式工作流,解决了传统AI图像生成难以精准控制的问题,实现了精细化产出。
- Lora作为“技能包”,能让模型按照特定风格生成图片,并可叠加使用。
- AI图像生成已进入落地期,在电商等领域具有商业应用潜力,且ComfyUI工作流可分享。
Full Content
喜欢在小红书上看美女的小伙伴们请注意:
你们现在看到的,很有可能都是AI生成的。
别说什么平台会识别,你们是不知道,最新技术做出来的图片有多逼真。
比如这张图,你觉得是真的还是假的?
其实啊,这张图是我用AI生成的。准确来说,用的是Flux模型,加上一个简单的ComfyUI工作流。这里边有两个关键点:
第一,Prompt部分,也就是图片的文字描述,我是让Claude生成的。我给了它一张现成的图片,让它用英文详细描述,然后拿过来用。
第二,之所以图片上的小姐姐大家看着这么习惯,那是因为我加上了网红Lora。你可以简单理解为就是一个小插件,让模型按照特定风格去生成。
用这样一个简单的方法就能以假乱真。其实如果你更狠一点,完全可以直接图生图。比如,去小红书找一张符合大家口味的图片,然后让AI照着这个生成。很容易就可以做到姿势、身材、背景都基本一样,但是脸不一样。
以前的模型在局部做得不好,比如手指经常会多了一根。但是今天的模型已经进步非常多了。国内这些平台没法识别。所以有人做号、卖号,靠的就是我刚才演示里用的Flux模型,加上ComfyUI。
先来说说Flux模型。
最近一个多月,这款模型在圈内特别火。很多公司和团队已经实打实用上了,比如在电商领域。
那么,这么牛逼的模型是从哪冒出来的?
大家肯定听说过Stable Diffusion。Flux就是SD的核心团队出来做的。他们成立了一家新公司,叫黑森林实验室。
8月1日,黑森林实验室正式发布Flux模型,包含三个版本:schnell,就是快速版本,配置要求低一些;dev版,质量更高,但配置要求也更高,最好是4090显卡;Pro版,闭源版本,只能通过API调用。
官方版本出来之后,整个社区也是大力支持。比如推出了GGUF版,方便那些显存不够的用户使用Flux。
有了模型之后,下一个问题就是怎么运行。目前最好的方法,就是通过ComfyUI。
传统的AI图像生成,都是通过输入一大串的Prompt,俗称“咒语”。这会带来一个很头大的问题:
没法精准控制AI的生成。
一串文字给过去之后,后边的流程你完全不知道AI是怎么处理的。而且,如果对结果不满意的话,也只能在文字层面修修改改。很多时候,这种做法精确度不够,效率也很低。
于是,ComfyUI来了。它通过一个个节点组成一套工作流。这种节点式界面让用户很清楚了解AI究竟是怎么生成图像的,以及如果有问题的话,又是卡在了哪里。用户可以很精细地控制产出。
举个简单例子。你是做电商的,没钱雇那么多模特帮你拍照,那就换脸呗。你或者你手下的小姑娘先穿样衣拍好照片,然后放到ComfyUI工作流里边,专门针对脸的位置做一个遮罩。这样一来,AI就只针对脸部做生成。它会按照这个轮廓生成一张新的脸,然后再放回原来的位置。
通过这种方法,你就有了一个虚拟模特。是不是有一种画皮的感觉。这么想想还挺吓人的。
如果你觉得生成的图片AI感太强了,看起来太油、太完美了,可以加个Lora。比如,有大佬做了模拟业余摄影的,让图片看着像个外行拍的,这样就真实多了。我刚才演示里用的网红风格的Lora,也是别的大佬做的。我下载下来之后,放到特定的文件夹里,就可以在工作流里选择了。
所以你看,有了ComfyUI,原本一大坨的工作被拆解成了一个个步骤和节点,简单许多,清晰许多,可控性也高了许多。
更爽的是,这些工作流还可以分享。拿到工作流这个JSON文件后,拖到画布里就自动加载了。于是,不管是国内还是国外,有很多人在制作特别专业的工作流。这已经是现成的生意了。
大家在短视频平台上肯定有看到过这样的内容:先给你炫一下生成的图片有多牛,然后展示他搭建的极其复杂的工作流,最后跟你说,想要的话就来加微信。
如果你的机子跑不动也没关系。几乎所有的算力租赁平台都跟创作者有合作,为用户提供现成的镜像,可以直接用。
我就买了别人做的整合包,一共花了一千五。人家全都打包好了,一百多G下载下来,都不需要安装,省了我非常多的时间。
花钱买成品的好处是,很多基础的东西不需要再折腾一遍,理解一下就好了。比如,除了模型之外,Clip是干嘛的,VAE又是干嘛的;几个关键的文件夹都是放什么文件的。
实践和拆解才是重点。把别人的东西吃透了,最后造出自己的东西来。这就是我的天赋,我很清楚。所以这钱该花钱就花,而且绝对能翻倍赚回来。
Flux这一波预示着AI图像生成已经进入落地期了。动作快的人已经开始摘果子了。这也是为什么我等了一年多,到现在才开始研究。我建议大家不管想不想拿这个技术做点生意,最好都了解一下。你想想,当眼见不一定为实的时候,我们的生活会有多大变化。
OK,以上就是本期内容。想找我就来newtype社群。那咱们下期见!
Key Takeaway
- Gemini和Grok是两个被低估的顶级AI应用,它们在不同方面展现出强大的生产力。
- Gemini提供多功能体验,包括快速回答(Flash)、文章创作(Canvas)和深度报告(Deep Research),并能与Google文档和NotebookLM无缝集成,支持深度学习。
- Grok在模型回答上更具“人味”,产品设计简洁,并拥有独特的Twitter数据源,使其在获取用户真实反馈方面具有优势。
- 结合使用Gemini(获取主流媒体信息)和Grok(获取社交媒体信息)可以获得更全面和真实的洞察。
Full Content
有两个顶级AI应用还在被国人忽视。一个是Gemini,一个是Grok。
Gemini我已经推荐得足够多了。你看,过去半年,我在社群内真的是苦口婆心、反复强调。我从1.5的模型开始,用到了2.0、2.5,真的是越用越喜欢。不说那些复杂的,就说日常使用,就像我这个帖子说的:
如果你只想要个快速回答,那直接问Gemini 2.0 Flash。它速度快,推理强,运行还稳定。
如果你想要稍微深入一点,那就把Canvas打开。Gemini 2.0 Flash会按照写文章的标准来回答你。
如果你想要详尽的报告,那把Deep Research打开。Gemini 2.0 Flash会按照报告的标准来输出。
我直接给你们来个演示吧。
比如,我问Gemini:什么是Reasoning model?它很快给出一个简要的回答。
我把Canvas也就是画布打开。再问它同样的问题。这个时候,回答速度稍微慢一些,但是详细程度会高得多。在Canvas里边,你可以对文本进行排版、编辑,也可以选中一段进行提问。也就是说,用这个功能,你可以跟Gemini配合起来完成一篇文章的创作。
如果我把Deep Research打开呢?还是同样的问题——什么是Reasoning model。Gemini会帮我拆解议题,然后查找上百个网页,最终完成深度报告的输出。
你看,就这么简单的三个功能——直接对话、Canvas和Deep Research,覆盖了我们日常使用AI的主要场景。
更进一步,如果你觉得这些回答有价值,还可以把它们保存到Google文档里。
刚才介绍的三个功能,后两个都可以导出到Google文档。然后,就像我前一个视频里介绍的,打开NotebookLM,把Google文档里的相关内容全部导入,然后就可以进行深度学习了。
Gemini还有别的功能,比如画图什么的,我就不多说了。光是刚才我介绍的那些,就足以值回票价。
而且,Google还在不断更新。就在昨天,他们推出了首个混合推理模型——Gemini 2.5 Flash。你可以自主选择要不要打开思考模式,甚至还可以设定要投入多少资源进行思考。这个模型的出现,更加强化我要继续拥抱Gemini的信心。
那么,既然Gemini这么牛逼,还要Grok干嘛呢?三个原因:
第一,从模型回答的感觉上看,Grok 3要比Gemini 2.0好得多。
Gemini 2.0还是有一种生硬感、机械感,这可能就是Google独有的味道吧。而Grok 3的回答就比较有“人味”,所以我会逐渐倾向于多跟它交流。
第二,从产品角度来看,Grok最完整。
就像之前我在社群里说的,Grok没搞那么长的模型列表让用户选择,就两个按钮:深度思考,和深度搜索。没有模型之分,只有模式之分,甚至再到后边连模式都不需要选择了,AI会自主判断。这个才是正道。像OpenAI那种,有点丧心病狂了。
另外,前两天的更新,给Grok补上了Canvas和Workspace功能。Canvas和别家差不多,就是标准的画布。而Workspace,就类似知识库的功能,特别好用。
现在,Grok已经集齐目前的主流功能。产品层面已经相当成熟了。
第三,从数据源角度来看,Grok拥有别家都没有的Twitter数据。
Twitter现在是最有影响力的社交媒体,它的数据对于AI来说很重要。如果能把Twitter所代表的社交媒体数据,和Google那边掌握的主流媒体数据合并起来,那对提升AI的回答质量肯定有帮助。具体怎么做呢?我再演示一下。
其实这个方法我在社群内也分享过。很简单,Grok的Workspace功能除了支持本地文档上传之外,还支持从Google Drive里导入——这个就是关键功能。
我会先用Gemini做一轮Deep Research,把报告导入Google文档。然后,到Grok里添加这些Google文档,并且在Prompt里强调:附件信息只是参考,你要有自己的搜索和判断。另外,Twitter上用户都有哪些反馈?重点看看。
注意看Grok的分析过程。从主流媒体的信息搜集来看,它确实不如Gemini能搜到那么多。其实不只是它,OpenAI的搜索范围也有限。但是,Grok能搜集Twitter上的数据,包括帖子和评论,这个就是它的独有价值。
我之前在公关营销行业干了十几年,非常清楚只有你预算够,绝大部分主流媒体的内容都可以买,或者都可以影响。相比之下,用户的实际使用反馈就相对真实得多。所以,当我想了解的议题涉及到用户口碑的话,我肯定会通过Grok去搜集,并且跟Gemini那边的主流媒体信息进行合并。
刚才介绍的这两款AI工具的使用经验,看起来确实平平无奇,不像很多AI自媒体介绍的那些玩法那么酷炫,但这些都是能帮到你的真东西。如果你觉得有价值,还想了解更多的话,记得加入我们社群。
OK,以上就是本期内容。那咱们下期见!
Key Takeaway
- Gemini 2.0是目前性价比最高的大模型,其Flash-Lite版本价格极低,Flash版本兼顾性能、价格和速度。
- Gemini 2.0 Pro版本上下文窗口提升至200万,适合复杂推理和代码生成。
- Flash Thinking版本具备链式推理能力,适合逻辑推理和多跳问答。
- Gemini 2.0在性能、稳定、速度和价格方面达到平衡,成为作者的主力AI应用。
- 文章强调AI不会替代人,但使用AI的人会替代不使用AI的人。
Full Content
Gemini 2.0是世界上性价比最高的大模型,没有之一。我知道你们在想什么——它比DeepSeek还强。咱们直接来看价格,海外博主已经做好表格了。
Gemini 2.0 Flash-Lite是真的是白菜价:输入只要0.075美金,输出0.3美金。
比它功能多一点的Flash,价格贵一点点:输入0.1美金,输出0.4美金。
再来看DeepSeek:V3输入0.27,输出1.1;R1输入0.55,输出2.19。
谷歌这真的太卷了。要知道,Flash可是支持多模态、支持原生工具使用、有一百万的上下文窗口的最先进的模型。结果它不仅比DeepSeek便宜,而且还压过了GPT-4o mini。看来今年AI竞赛要上强度了。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:性价比之王——Gemini 2.0。
Gemini 2.0是谷歌前几天更新的模型系列,包含Pro和Flash两条线。
Pro很好理解,就是谷歌目前的顶级模型。该有的功能它都有,而且把上下文窗口从一百万提升到了两百万。所以,Pro版本非常适合用来复杂推理、生成代码等等。
而Flash则兼顾了性能、价格和速度,是日常使用的主力模型。其中,Flash还有两个变体:
Flash-Lite砍掉了一点点功能,比如不支持图片和音频的输出,不支持联网搜索,不能执行代码,然后把价格压到最低。所以,如果你需要大规模生成文本的话,那用Lite版最合适。
Flash Thinking顾名思义,就是带上链式推理能力的版本。跟大家很熟悉DeepSeek-R1一样,它在回答之前会先进行多步骤推理。所以对于一些复杂任务,比如需要更强的逻辑推理,或者多跳问答,用Flash Thinking最合适。
前边说Gemini 2.0是性价比之王,我感觉不太准确。因为“性价比”这三个字好像显得它性能不太行的样子。更贴切的称呼应该是“卷王”。我给你们演示一下效果。
先来看看Pro的能力。我给的问题是:
英伟达的CUDA为什么能成功?护城河究竟有多深?AI时代,英伟达的竞争对手有可能赶超或者颠覆吗?
可以看到,Pro虽然比Flash慢,但其实观感上还是很快的。而且它给出的答案,逻辑很清晰,也没什么过多的废话,这一点我真的很喜欢。
再来看Flash Thinking。我来问一个最近讨论特别多的问题:
DeepSeek-R1的成功是否说明,可以不需要英伟达的高算力GPU和CUDA了?
Flash Thinking的思考过程是英文的。它先是拆解了我的问题,得出需要去搜索、调研的关键词,然后再去做相应的搜索。跟Pro一样,它的答案挺干净清爽的。
作为对比,同样的问题我拿去问了DeepSeek-R1。虽然结论差不多,都是具有不可替代性,只是依赖可能会减少,但是思考的过程有挺大差别:
Flash Thinking是先拆解,再搜索。R1直接搜索,再看搜到的网页都讲了什么。从方法的角度来看,我个人是更倾向于先做拆解的。你们觉得呢?
Gemini是我的主力AI应用。最初我是用ChatGPT的。结果在使用过程中遇到各种限制,特别烦。正好Claude 3.5出了,于是就转到Claude那边去。再后来,Claude大面积封号,我三个号都被挂了,于是“逃难”到Gemini,也充了值。
这次2.0的更新,我这几天用下来非常非常满意。不管是哪个版本,都做到了性能、稳定、速度以及价格的平衡。在桌面端用网页版,Pro、Flash和Flash Thinking都有。在手机上就用官方的APP,可以选Pro或者Flash。
只要谷歌那边别出什么幺蛾子,在下一次模型大更新之前,Gemini都会继续是我的日常主力。
我知道,用国外这些产品得跨过好几道门槛。但是,这些门槛其实也帮你筛掉了很多很多人。只要你花点时间、花点钱跨过去了,你就取得巨大领先了。还是那句话:
AI不会替代你,用AI的人,尤其是用先进AI的人才会。
OK,以上就是本期内容。想进一步了解AI,就来我们newtype社群。那咱们下期见!
Key Takeaway
- HuggingChat是一款免费体验最先进开源大模型的应用,提供网页版、iOS版和macOS版,设计简洁。
- HuggingChat的核心主张是让所有人都能用上Hugging Face社区最好的模型,并会不定期更新模型列表。
- 作者日常高频使用问答引擎Perplexity和Chatbot Claude,但HuggingChat因其轻量化和便捷性成为日常碎片化需求的承接工具。
- HuggingChat通过快捷键呼出对话框,并优先提升回复速度,Web Search功能需手动开启。
- HuggingChat还提供Tools功能,其中Flux图像生成工具能满足轻量级图像生成需求。
- 文章认为开源模型的性能已追平闭源,开源社区在开发应用方面更具优势。
Full Content
想要免费体验最先进的开源大模型,我推荐大家试试HuggingChat。
这款应用之前有网页版和iOS版。前些天,macOS版推出,在产品设计上还挺有心思的。我特别认同他们这种简洁的设计思路。
macOS版的HuggingChat不像别的APP那样,有一个很重的前端。当按下Command、Shift和回车三个默认的快捷键之后,才会出现一个极简的对话窗口,很像macOS的聚集搜索框。这时我们可以跟跑在云端的大模型对话。
如果要更换模型,点左边的加号进入设置,把模型从初始的Llama 3.1 70B改成国产的Qwen 2.5 72B。这些模型不是固定的,会不定期更新。因为HuggingChat的主张是:
让所有人都能用上来自Hugging Face社区的最好的模型。
这也说明了,Qwen 2.5和Llama 3.1、Command R+等模型一样,成为公认的、当下最好的开源大模型。Qwen确实是国产之光!
哈喽各位好,欢迎来到我的频道。我是国内少有的、能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想链接我,就来newtype社群,已经有500多位小伙伴付费加入啦。
回到今天的主题:HuggingChat。我每天都会高频使用的AI工具有两类:
一是问答引擎。目前世界上最好的问答引擎是Perplexity,这个没有之一,没得挑。但是光有它还不够,因为有很多东西是搜不到的。而且我也经常需要AI提供更多的角度,或者完善我的思路。
于是就有了第二类工具——Chatbot。目前我最满意的是Claude。它不只是模型能力比GPT-4更强,在功能体验上也比ChatGPT要好得多。Artifacts真的非常棒,绝对值回票价。我推荐给好多人了,用过都说好。
不过,对于咱们这些国内用户来说,Perplexity和Claude麻烦的地方就在于,隔段时间就要刷新页面、点一下验证。你别小看就这么一点点的麻烦——当你想用却被打断的时候,会很影响体验。
所以,当这种不方便久了之后,我都是有稍微严肃一点的任务的时候才去用它俩。日常大量的、碎片化的需求,需要有一个轻量化的、拿起来就能用的AI工具来承接——这就是我看上macOS版HuggingChat的原因。
平时隐藏在后边,要用的时候通过快捷键呼出对话框,这种看似不争的做法,其实是想抢AI终端的第一入口。为了实现这个野心,HuggingChat做了大量减法,甚至连上网搜索功能都要手动开启。
在设置里边有个Web Search,把它勾选上之后,模型就会上网搜索了。不过代价就是,回复的速度要慢一些,因为多了搜索和RAG的过程。我猜,这就是上网搜索功能没有默认开启的原因。
尽一切可能把回复速度提上来,这个优先级绝对高于任何其它功能。
如果用户有更重的需求,没问题,在桌面端用网页版,在移动端用iOS版。打开之后你就会发现,ChatGPT里的GPTs它也有,叫Assitants。不过大部分都没啥用啦,跟GPTs一样。
真正有生产力的,是Tools,工具。我用得最多的,是Flux图像生成。
我在前两期视频里介绍过Flux模型。它是SD团队出来做的,是目前世界上最先进的图像生成模型。第一,Flux生成的图像,无论是真实程度还是审美水平都超过别的模型。第二,Flux还能实现精准控制,比如它能在图像上准确生成文字。
Flux有三个版本,其中两个开源。这个工具所用的Flux dev,就是开源版本中性能最强的那一个。当我有一些轻量级的图像生成需求的时候就会用到它。比如生成一个文章配图。由于Flux本身能力强,这种任务对它来说很简单。实在不行就抽几次卡,也能搞定。
有了macOS版之后,加上之前已经在用的iOS版和网页版,我突然发现,HuggingChat已经悄悄成为我使用最频繁的AI工具了。开源模型的性能已经追平闭源。至于开发应用,大家水平都一样。甚至我会觉得开源社区更有优势,因为他们不用考虑什么生态啊、护城河之类的,没那么多包袱,可以放开手脚干。
OK,以上就是本期内容。想交流和学习AI,来newtype社群。那咱们下期见!
Key Takeaway
- Perplexica是一款开源的问答引擎,旨在提供Perplexity的本地部署替代方案,具有高度自由度。
- Perplexica支持云端和本地模型,可通过OpenAI、Anthropic、Grok的API调用,或通过Ollama调用开源大模型。
- 部署Perplexica需要Docker,并可通过
docker compose up
命令进行安装。 - Perplexica的UI与Perplexity相似,支持Copilot功能,能根据提问生成多个搜索关键词以提升效果。
- Perplexica还支持云端部署,用户可在RepoCloud等平台一键部署,实现个人专属的问答引擎。
Full Content
我一直想在本地部署一套问答引擎。
在我构想的AI工作系统当中,问答引擎是基础。但是,现在做得最好的Perplexity,它对网络环境挺挑的。想用的时候突然用不了,就很烦。
所以很多时候不是我不想为SaaS付费,而是这客观条件逼得我只能走本地部署这条路。
好在这类型的项目挺多的。我之前就介绍过一款,叫LLocalSearch。折腾了一圈之后,我目前最满意的是Perplexica。
从名字就能看出来,这款产品就是照着Perplexity抄的。放在一起对比,UI几乎一模一样。
我之所以对它满意,主要原因是,它的自由度很高。
在模型方面,你可以走云端,通过OpenAI、Anthropic或者Grok的API去调用相应的模型。你也可以走本地,通过Ollama去调用开源大模型。
我把之前安装的都删了,重新走一遍,大家就明白了。
先把Docker打开,咱们一会儿需要使用。接着老规矩,通过git clone把项目下载下来。然后把config这个文件前边的sample去掉。
对大模型的配置,可以在config里进行。比如填上OpenAI的API Key,或者Ollama的地址。如果你没有改端口的话,那就是默认的11434。要注意:不是填localhost:11434,而是host.docker.internal:11434,因为咱们是在docker里运行。
这边没填也没关系,等全部安装完成之后,可以在应用里边的设置页面进行配置。
最后,使用docker compose up这行命令,就会自动下载、安装需要的所有东西。等个几分钟,就可以通过localhost:3000这个本地页面使用了。
咱们来测试一下效果。先试试GPT-4o。可以看到,大概四到五秒钟能给出结果,还是很不错的。回答的来源,还有追问,都跟Perplexity一样。
如果打开Copilot选项,那么AI会根据你的提问去多生成几个,一起拿去搜,这样能提升整体效果。
接着试试开源模型的效果。语言模型用qwen2,嵌入模型用nomic。第一次启动有点慢,需要加载一下。后边明显快多了。
前边说了,我喜欢Perplexica的主要原因是它的自由度。这个自由度不仅限于模型。
在部署方面,除了本地部署,它还支持云端部署。在官方GitHub页面下方,就有一键部署的按钮。
它应该是跟RepoCloud有合作。你在上边注册之后,会给3美金的免费额度。这时只需要搜索项目名称,找到Perplexica;然后填写OpenAI API Key,以及用户名和密码;最后等上大概5分钟,项目就在云端部署好了。
可以看到,RepoCloud给了一个链接,我们可以在桌面端、移动端随意使用。比如我在iPad上打开,用刚才设置的用户名和密码登陆,就会看到同样的界面。运行起来,速度还OK。RepoCloud会根据你的使用量auto-scaling。
我发现,这种个人专属的感觉特别棒。强烈建议大家试试。不管你是自己使用还是团队共用,都可以。
OK,以上就是本期内容。接下来我准备详细研究一下Perplexica和它所使用的搜索引擎SearXNG。有新发现的话,我会分享到newtype社群。还没加入的小伙伴抓紧加入吧。那咱们下期见!
Key Takeaway
- Perplexity是目前最好的问答引擎,其回答质量和使用体验优于ChatGPT等产品。
- Perplexity作为知识的起点,强调建立信任(清晰来源标注)、帮助用户提问(扩展搜索关键词、引导提问)和提供一站式服务(Pages功能)。
- Pages功能将搜索与内容构思相结合,能辅助用户生成文章大纲和支撑信息。
- Perplexity通过微调GPT模型、使用其他大模型和自研开源模型,并结合强大的RAG技术,实现了其问答引擎的领先地位。
- Perplexity还提供了Focus功能(特定搜索方向)和Space功能(知识库),进一步扩展了其应用场景。
Full Content
ChatGPT最近推出了搜索功能,不过我还是会继续使用Perplexity。因为作为问答引擎,或者说下一代的搜索引擎,Perplexity依旧拥有最好的回答质量和使用体验。要做好问答引擎,需要大量领域知识,还涉及到工程问题,不是说你有很强的模型就能搞得定的。
至于OpenAI,说实话,我不太看好他们。之前我在社群内还吐槽过,觉得现在的OpenAI就像黄磊一样,样样通、样样松。他们想做的东西太多了:
既想做基础模型研发,又想搞应用,还要做应用商城和生态。推出的一系列功能都是点到为止,没有扎实做透。真要用来严肃生产,还是有点距离的。
所以在过去一年,我一直坚定选择Perplexity和Claude的组合。它俩实实在在有帮到我,帮我赚到钱。本期视频算是Perplexity的教学。如果你还没用过,或者还没订阅的话,一定往下看。
哈喽大家好,欢迎来到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。记得点一波关注。只要有一个视频你看进去了,就赚大了。如果想链接我,就来newtype社群。已经有500多位小伙伴付费加入啦!
回到今天的主题:Perplexity。
今天AI应用有两个非常确定的赛道:一是搜索,二是知识库。
搜索就不用我多说了。大模型出现之后,通用搜索和领域搜索都出现了一堆新产品,肯定能跑出独角兽。知识库也非常火。RAG as Service,打造Knowledge Assistant,这个进程一直在加速。
你发现没有:不管是搜索还是知识库,都是关于知识,都是关于知识的发现和流动。所以之前Perplexity在界面上放上一行字:Where knowledge begins,知识的起点。可惜现在改成了“释放你的好奇心”,一下就弱爆了。
当你开始用Perplexity就会有这样的感觉:问答引擎并不等于大模型加搜索,真没那么简单。
第一,作为知识的起点,它需要建立信任,所以它的行为和结果一定是严谨的、是规矩的,就像写论文一样:
所有来源都有清晰标注,并且你可以很方便去追溯;所生成的结果也是逻辑清晰的、简洁的,很好理解。
第二,作为知识的起点,它需要帮助用户提出问题。Perplexity的创始人在采访里说过一个观点,我印象非常深:
他们最大的敌人并不是Google之类的巨头,而是用户不会提问这个无奈的事实。
大部分用户压根就没想明白;即使想明白了,要准确表达又是一个门槛。
所以Perplexity加强了产品上的引导。比如,当用户输入完问题之后,如果不是太具体,他们会给出几个选项,试探一下用户的真实意图。再比如,前段时间他们还加上了自动补齐的功能。
第三,作为知识的起点,它还需要照顾到后续的旅程——不能只是一个起点,还应该尽可能成为一站式的存在。
后续建议提问这个功能很简单,但是很实用。毕竟这么多个问题,总会有一个问到点上的。
前段时间推出的Page功能非常有想法。从一个问题出发,不断提问、不断扩展逻辑,最终形成一个类似文章大纲加上支撑信息的东西。
如果需求不复杂的话,比如你就是想要找个旅游攻略之类的,那么这个成品基本可以拿去直接用。如果是要写篇文章的话,那这个基本就完成了最开始的构思——文章的整体逻辑有了,下边的支撑也有了。
我认为,Page功能就是把我们习惯的边搜索、边构思的过程具像化了、产品化了。再打磨下去,也许有一天真的能实现直接成稿的效果。
所以,当你理解了Perplexity的这些功能之后,再去对比带搜索的大模型产品就会发现,这俩真不是一回事,有点两个物种的感觉。我强烈认为,在搜索的基础上加AI,和在AI的基础上加搜索,是两种产品形态。甚至有一段时间,我退订ChatGPT之后,就是用Perplexity来替代。因为它也有直接生成文字的功能。
很多人可能没怎么注意到Focus这个按钮。点开之后,你可以设置特定的搜索方向。比如,专门搜YouTube或者学术论文等等。其中有一个Writing选项,就是不搜索,基于模型现有的知识直接回答用户问题。要更改模型的话,就到设置里去选择。除了GPT系列,还可以选择Claude系列。最先进的模型这里都有。
通过互联网,我们能搜到的知识大多数公开的、通用的知识。还有很多知识属于领域知识,网上没有的。为了覆盖这种情况,前段时间Perplexity上线了Space功能,也就是知识库。用户可以上传文档,让模型根据文档做回答。
知识库对Perplexity来说是手到擒来的事儿。因为问答引擎本来就需要很强的RAG能力。顺着这个方向,我特别希望他们把文档管理体系给补上,包括分层级的文件夹、标签。让用户逐渐把私人文档存进去,完成数据资产的迁移,这个是入口级产品必须要做的事儿。
Perplexity还有一些不是那么核心的功能,比如发现页面。你可以理解为就是Google、百度都有的新闻推荐页面。这个目前看没啥意思,等看以后会不会有什么创新吧。
OK,以上就是本期内容。大家看完了记得去试试这款目前最好的问答引擎。那咱们下期见!
Key Takeaway
- Replit Agent是一款激进的AI编程工具,能通过Agent完成环境设置、代码撰写和项目部署,实现云端开发。
- Replit Agent的模式类似于“厨师服务团队”,用户只需提供需求,Agent负责具体执行,适合快速原型开发。
- Replit Agent与Cursor等工具相比,更侧重于自动化,减少人工参与。
- Replit Agent支持H5页面等简单项目开发,但对于复杂项目仍有局限性。
- 文章强调AI编程工具能极大提升效率,但仍需用户具备开发思维,AI目前处于“遇强则强,遇弱则弱”的阶段。
Full Content
大模型火了快两年,没想到,第一个爆发的赛道是AI编程。
最近新出的Replit Agent特别激进。从环境设置、代码撰写到项目部署,它用Agent全部搞定。过程中,有时会询问你的意见,比如这个UI和你预期的样子是不是一样。其它时间Replit Agent都是在埋头干活。
整个开发是在云端完成的,用它的环境,这一点挺省心的。更重要的是,这意味着你随便用什么设备都可以,手机也OK。一旦有想法了,可以快速完成原型开发。然后把整个项目的压缩包下载下来,在本地做进一步处理。
Replit Agent的这种模式让我想起了农村的厨师服务团队,专门搞红白喜事的那种。厨师、厨具、餐具、桌椅,甚至食材和调料,他们全都提供。你就负责吃席就好。
相比之下,Cursor是一种人机Co-work的模式,还是需要人的大量参与。而再早之前的GitHub Copilot就更落后了,我觉得它只能算是一种智能代码补全。
为了测试,我拿Replit做了一个简单的H5页面。用户输入API Key之后,可以选择OpenAI的模型,然后对话。
需求给过去之后,Replit会先做分析,并且还会根据它的理解,给你一些选项,看你要不要也一并完善了。这一步其实是在做需求确认。大家如果服务过甲方就知道,如果需求对不清楚,那这项目大概率会很痛苦。
开工之后,Replit自动做环境的部署,把需要的包都下载、安装,然后编写代码、配置数据库等等。
因为项目比较简单,所以测试过程很顺利。调用OpenAI模型对话一次就成功了。剩下的都是小修小补,比如UI上删除一些不需要的元素,简单说一句就搞定。
Replit虽然不能说中文,但是你用中文它也能懂。不过我还是建议用英文,避免中文翻译成英文有歧义。四级水平的英文就足够和AI交流了,它都懂的。
到了部署环节,其实也没什么好调整的,Replit都帮你设置好了,直接点开始就OK。等进度条走到头,Replit会提供一个链接,那就是咱们的H5页面了。桌面端试了一下,完全正常。在手机上打开,也可以使用。
Replit支持Auto-scale,也就是说,如果访问量大的话,它会自动升级配置,保证项目的运行。在后台可以看到数据分析。如果你自己有域名的话,也可以在后台绑定域名。
看到这里你应该就明白,为什么我说Replit像农村的厨师服务团队了。不过,现在这个团队能力还不太行,搞些小活儿没问题,比如H5这种,碰上复杂点的项目就整不动了。
我在前一天让Replit做一个微信小程序,也是接OpenAI API的聊天机器人。整个过程就挺闹心的。Replit总让我帮它检查这、检查那的,甚至让我帮它看看Python文档有没问题——这谁给谁干活啊。到了部署环节,最后一步死活进行不下去,也找不出原因,然后就卡在这里了。
所以我估计,Replit至少还得花个半年时间去迭代吧。现阶段我就不订阅了,还是继续用Cursor比较靠谱。
给大家看看,我用Cursor把个人博客做出来了。我这些视频的文字稿,还有我日常的阅读清单,都会在博客上发布。后续我准备用Cursor做一个聊天机器人,用上RAG,把我的个人知识库接进去,开放给大家使用。
对于现在这些AI编程工具,我发现有两派观点:一派觉得这些工具都是垃圾,一派觉得这些工具可以替代程序员。这两派我都不赞成。我觉得现在的AI处于中间地带,没法替代,但是可以极大提升效率。如果你是纯小白,那真的很难,至少得具备开发思维。
就像我在上半年的一期视频里说的,AI在这个阶段的特征是八个字:
遇强则强,遇弱则弱。
AI没那么万能,现在只是Copilot,需要Pilot很强才能用起来。你要是没那么强,那就等着,等到普及的那一天,等到离AGI很近的那一天,跟着受益,也可以。
OK,以上就是本期内容。想找我就来newtype社群。那咱们下期见!