Chatbot
Key Takeaway
- Gemini 2.0是目前性价比最高的大模型,其Flash-Lite版本价格极低,Flash版本兼顾性能、价格和速度。
- Gemini 2.0 Pro版本上下文窗口提升至200万,适合复杂推理和代码生成。
- Flash Thinking版本具备链式推理能力,适合逻辑推理和多跳问答。
- Gemini 2.0在性能、稳定、速度和价格方面达到平衡,成为作者的主力AI应用。
- 文章强调AI不会替代人,但使用AI的人会替代不使用AI的人。
Full Content
Gemini 2.0是世界上性价比最高的大模型,没有之一。我知道你们在想什么——它比DeepSeek还强。咱们直接来看价格,海外博主已经做好表格了。
Gemini 2.0 Flash-Lite是真的是白菜价:输入只要0.075美金,输出0.3美金。
比它功能多一点的Flash,价格贵一点点:输入0.1美金,输出0.4美金。
再来看DeepSeek:V3输入0.27,输出1.1;R1输入0.55,输出2.19。
谷歌这真的太卷了。要知道,Flash可是支持多模态、支持原生工具使用、有一百万的上下文窗口的最先进的模型。结果它不仅比DeepSeek便宜,而且还压过了GPT-4o mini。看来今年AI竞赛要上强度了。
哈喽大家好,欢迎来到我的频道。谦虚地说啊,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西比教程更值钱。记得点一波关注。如果想链接我,就来newtype社群。已经有800多位小伙伴付费加入啦!
回到今天的主题:性价比之王——Gemini 2.0。
Gemini 2.0是谷歌前几天更新的模型系列,包含Pro和Flash两条线。
Pro很好理解,就是谷歌目前的顶级模型。该有的功能它都有,而且把上下文窗口从一百万提升到了两百万。所以,Pro版本非常适合用来复杂推理、生成代码等等。
而Flash则兼顾了性能、价格和速度,是日常使用的主力模型。其中,Flash还有两个变体:
Flash-Lite砍掉了一点点功能,比如不支持图片和音频的输出,不支持联网搜索,不能执行代码,然后把价格压到最低。所以,如果你需要大规模生成文本的话,那用Lite版最合适。
Flash Thinking顾名思义,就是带上链式推理能力的版本。跟大家很熟悉DeepSeek-R1一样,它在回答之前会先进行多步骤推理。所以对于一些复杂任务,比如需要更强的逻辑推理,或者多跳问答,用Flash Thinking最合适。
前边说Gemini 2.0是性价比之王,我感觉不太准确。因为“性价比”这三个字好像显得它性能不太行的样子。更贴切的称呼应该是“卷王”。我给你们演示一下效果。
先来看看Pro的能力。我给的问题是:
英伟达的CUDA为什么能成功?护城河究竟有多深?AI时代,英伟达的竞争对手有可能赶超或者颠覆吗?
可以看到,Pro虽然比Flash慢,但其实观感上还是很快的。而且它给出的答案,逻辑很清晰,也没什么过多的废话,这一点我真的很喜欢。
再来看Flash Thinking。我来问一个最近讨论特别多的问题:
DeepSeek-R1的成功是否说明,可以不需要英伟达的高算力GPU和CUDA了?
Flash Thinking的思考过程是英文的。它先是拆解了我的问题,得出需要去搜索、调研的关键词,然后再去做相应的搜索。跟Pro一样,它的答案挺干净清爽的。
作为对比,同样的问题我拿去问了DeepSeek-R1。虽然结论差不多,都是具有不可替代性,只是依赖可能会减少,但是思考的过程有挺大差别:
Flash Thinking是先拆解,再搜索。R1直接搜索,再看搜到的网页都讲了什么。从方法的角度来看,我个人是更倾向于先做拆解的。你们觉得呢?
Gemini是我的主力AI应用。最初我是用ChatGPT的。结果在使用过程中遇到各种限制,特别烦。正好Claude 3.5出了,于是就转到Claude那边去。再后来,Claude大面积封号,我三个号都被挂了,于是“逃难”到Gemini,也充了值。
这次2.0的更新,我这几天用下来非常非常满意。不管是哪个版本,都做到了性能、稳定、速度以及价格的平衡。在桌面端用网页版,Pro、Flash和Flash Thinking都有。在手机上就用官方的APP,可以选Pro或者Flash。
只要谷歌那边别出什么幺蛾子,在下一次模型大更新之前,Gemini都会继续是我的日常主力。
我知道,用国外这些产品得跨过好几道门槛。但是,这些门槛其实也帮你筛掉了很多很多人。只要你花点时间、花点钱跨过去了,你就取得巨大领先了。还是那句话:
AI不会替代你,用AI的人,尤其是用先进AI的人才会。
OK,以上就是本期内容。想进一步了解AI,就来我们newtype社群。那咱们下期见!
Key Takeaway
- HuggingChat是一款免费体验最先进开源大模型的应用,提供网页版、iOS版和macOS版,设计简洁。
- HuggingChat的核心主张是让所有人都能用上Hugging Face社区最好的模型,并会不定期更新模型列表。
- 作者日常高频使用问答引擎Perplexity和Chatbot Claude,但HuggingChat因其轻量化和便捷性成为日常碎片化需求的承接工具。
- HuggingChat通过快捷键呼出对话框,并优先提升回复速度,Web Search功能需手动开启。
- HuggingChat还提供Tools功能,其中Flux图像生成工具能满足轻量级图像生成需求。
- 文章认为开源模型的性能已追平闭源,开源社区在开发应用方面更具优势。
Full Content
想要免费体验最先进的开源大模型,我推荐大家试试HuggingChat。
这款应用之前有网页版和iOS版。前些天,macOS版推出,在产品设计上还挺有心思的。我特别认同他们这种简洁的设计思路。
macOS版的HuggingChat不像别的APP那样,有一个很重的前端。当按下Command、Shift和回车三个默认的快捷键之后,才会出现一个极简的对话窗口,很像macOS的聚集搜索框。这时我们可以跟跑在云端的大模型对话。
如果要更换模型,点左边的加号进入设置,把模型从初始的Llama 3.1 70B改成国产的Qwen 2.5 72B。这些模型不是固定的,会不定期更新。因为HuggingChat的主张是:
让所有人都能用上来自Hugging Face社区的最好的模型。
这也说明了,Qwen 2.5和Llama 3.1、Command R+等模型一样,成为公认的、当下最好的开源大模型。Qwen确实是国产之光!
哈喽各位好,欢迎来到我的频道。我是国内少有的、能把AI的Why和How讲明白的博主。记得点一波关注,绝对不亏。如果想链接我,就来newtype社群,已经有500多位小伙伴付费加入啦。
回到今天的主题:HuggingChat。我每天都会高频使用的AI工具有两类:
一是问答引擎。目前世界上最好的问答引擎是Perplexity,这个没有之一,没得挑。但是光有它还不够,因为有很多东西是搜不到的。而且我也经常需要AI提供更多的角度,或者完善我的思路。
于是就有了第二类工具——Chatbot。目前我最满意的是Claude。它不只是模型能力比GPT-4更强,在功能体验上也比ChatGPT要好得多。Artifacts真的非常棒,绝对值回票价。我推荐给好多人了,用过都说好。
不过,对于咱们这些国内用户来说,Perplexity和Claude麻烦的地方就在于,隔段时间就要刷新页面、点一下验证。你别小看就这么一点点的麻烦——当你想用却被打断的时候,会很影响体验。
所以,当这种不方便久了之后,我都是有稍微严肃一点的任务的时候才去用它俩。日常大量的、碎片化的需求,需要有一个轻量化的、拿起来就能用的AI工具来承接——这就是我看上macOS版HuggingChat的原因。
平时隐藏在后边,要用的时候通过快捷键呼出对话框,这种看似不争的做法,其实是想抢AI终端的第一入口。为了实现这个野心,HuggingChat做了大量减法,甚至连上网搜索功能都要手动开启。
在设置里边有个Web Search,把它勾选上之后,模型就会上网搜索了。不过代价就是,回复的速度要慢一些,因为多了搜索和RAG的过程。我猜,这就是上网搜索功能没有默认开启的原因。
尽一切可能把回复速度提上来,这个优先级绝对高于任何其它功能。
如果用户有更重的需求,没问题,在桌面端用网页版,在移动端用iOS版。打开之后你就会发现,ChatGPT里的GPTs它也有,叫Assitants。不过大部分都没啥用啦,跟GPTs一样。
真正有生产力的,是Tools,工具。我用得最多的,是Flux图像生成。
我在前两期视频里介绍过Flux模型。它是SD团队出来做的,是目前世界上最先进的图像生成模型。第一,Flux生成的图像,无论是真实程度还是审美水平都超过别的模型。第二,Flux还能实现精准控制,比如它能在图像上准确生成文字。
Flux有三个版本,其中两个开源。这个工具所用的Flux dev,就是开源版本中性能最强的那一个。当我有一些轻量级的图像生成需求的时候就会用到它。比如生成一个文章配图。由于Flux本身能力强,这种任务对它来说很简单。实在不行就抽几次卡,也能搞定。
有了macOS版之后,加上之前已经在用的iOS版和网页版,我突然发现,HuggingChat已经悄悄成为我使用最频繁的AI工具了。开源模型的性能已经追平闭源。至于开发应用,大家水平都一样。甚至我会觉得开源社区更有优势,因为他们不用考虑什么生态啊、护城河之类的,没那么多包袱,可以放开手脚干。
OK,以上就是本期内容。想交流和学习AI,来newtype社群。那咱们下期见!
Key Takeaway
- NotebookLM是Google Labs发布的一款实验性AI笔记应用,结合了Chatbot和RAG,改变了传统笔记逻辑。
- 其核心功能区包括来源区(添加文档)、对话区(AI引导提问和回答)和笔记区(手动/自动创建笔记)。
- NotebookLM通过AI建议提问、引用来源和笔记生成等功能,显著提升了用户对文档的理解和知识沉淀效率。
- 该产品旨在实现“Conversational Learning”(通过对话进行学习),让AI辅助用户消化资料并生成内容。
- 尽管仍处于早期阶段,NotebookLM展现了AI在学习和知识管理领域的巨大潜力。
Full Content
这是我用过最好的AI学习产品。
它是Google Labs前段时间发布的一款实验性产品:NotebookLM。他们把由大模型驱动的Chatbot和RAG加进传统的笔记应用,整个产品逻辑都变了。
虽然NotebookLM还处在早期阶段,但是底子已经打好了。我用了一段时间发现,它对我的学习、知识的沉淀和整理,都非常有帮助。
我强烈建议大家看完这期视频后,都去试试。我已经在考虑怎么把它跟我平时在用的DEVONthink、Obsidian结合起来了。
我从零开始,演示给大家看。
目前这款产品还只限美国地区的用户使用。不过这些对咱们来说都不叫事儿。 登陆之后,就会看到这样一个有点简陋的页面:笔记本的创建和选择。
进入笔记本详情页,就三个核心功能区:
- 来源区
- 对话区
- 笔记区
来源区用来添加文档。支持Google Drive导入、PDF上传,或者直接贴文字进来。
文档上传之后,你可以选定一个文档或者多个文档。AI会根据你的选择,自动进行分析,给出Summary和Key Topics。这时,在对话区,对话框上边出现了AI建议的提问。
这么设计有什么好处?
当我们上传一个没有读过的资料时,往往不知道怎么跟AI开始对话——对资料内容一无所知,肯定不知道该问啥。
这时,我们就可以点击Key Topics或者建议提问中的任意一个,AI自动给出回答。每个回答都会包含citations,引用来源。把鼠标悬停在上边就会出现原文。点击的话,就会自动来到文档中对应的位置,这样还能看到上下文,有一个更全的了解。
值得注意的是,当提完一个问题之后,AI建议的提问还会更新。所以,即使不输入任何问题,跟随AI的引导,点几下鼠标,也能完成对一个大文档的初步了解。
这就是把大模型能力融进笔记应用之后,带来的显著提升。
笔记区也是如此。
我们可以手动添加笔记,也可以通过点击任意一个对话框里的pin按钮,把它自动变成一条笔记。
当笔记做得差不多了,可以把它们全部选中,AI同样会给出操作建议。比如,总结、全部合并,或者创建一个Outline。直接通过对话下达指令也OK。
在笔记的基础上,加上Chatbot和RAG,整个笔记应用就全变了。Google管它叫:Conversational Learning,通过对话进行学习。
就像刚才演示的那样,从一个基础问题开始,AI引导着你把整个资料消化完毕。在这个过程中,还可以很容易就创建若干笔记。最后,通过这些笔记,你还可以让AI帮你生成内容。
有学习,有产出,这就是Conversational Learning。这也是这款产品吸引我的地方。
当然,就像开头说的,NotebookLM还很初级,有很多不足。比如,最基本的多层级文件夹功能缺失。没法创建子文件夹,对资料整理、选择文档来说实在太不方便了。另外,语言的支持也不够,只有英文。我用中文提问,AI还是回复英文。我传中文的文档进去,AI还是回复英文。
当然,这些都是次要问题。Google只要围绕现在这个主干去完善,很有机会打造出一款非常给力的生产力工具。
这应该是我最期待的Google产品了。
OK,以上就是本期内容。大家记得点赞点关注。我们下期见!
Key Takeaway
- 腾讯元宝是普通用户入门AI的最佳启蒙工具,因其全场景覆盖、双模型支持和腾讯加持版R1。
- 元宝提供网页版、桌面客户端、手机APP和微信小程序,并支持微信文件导入,实现多场景无缝切换。
- 元宝结合DeepSeek-R1(慢思考)和混元Turbo S(快思考)双模型,兼顾深度和效率。
- 腾讯对R1进行了增强,包括接入公众号文章搜索来源和图片识别能力,使其成为“满血版”R1。
- 文章强调腾讯在C端市场的强大产品能力和自研能力,以及AI普及对普通用户的意义。
Full Content
DeepSeek火爆,最开心的厂商肯定是腾讯。
因为,当每家公司都接入DeepSeek,模型都一样,模型能力都拉齐之后,拼的是什么?拼产品。那么,拼产品,腾讯有怕过谁?更何况,除了DeepSeek,腾讯手里还有自研的混元大模型。
你发现没有,过完年的这段时间,一直很佛系、很随缘的腾讯突然变得凶狠、坚决了许多?
在B端,腾讯云把DeepSeek融入核心产品线,而且还推出基于DeepSeek的云服务和解决方案。
在C端,元宝一口气冲到APP Store免费榜亚军的位置,力压Kimi、豆包,仅次于DeepSeek官方APP。
我认为,普通人用AI,从元宝开始肯定是最佳的AI启蒙工具。我之前发的视频,大部分都是面向有一定基础的用户。然后每隔一两天就会有人私信问,纯小白该怎么上手AI?
很简单:AI时代最高效的学习方式就是Learning by doing。上手用起来,并且平时高频率使用,比你看一百篇教程都重要。而元宝就是普通用户、非Early Adopter的第一入口。三个原因。
第一,全场景覆盖。
用AI跟拍照其实是一个道理。能带出去的相机就是好相机。同样地,能让你随时用上AI的产品就是好产品。
元宝有全平台的网页版,Mac和Windows双支持的电脑客户端、iOS和安卓双支持的手机APP,以及不需要安装的微信小程序。
四端实时同步的特性,完美适配多场景切换。比如在电脑端没有完成的对话,外出时可通过APP继续讨论。我一般会把那些需要反复讨论的聊天置顶,这样下次就不用去历史记录里找半天了。
在这些基础功能之上,腾讯还做了一件只有腾讯能做到的事:
从微信里导入文档。
我相信,90%以上的用户把微信的“文件传输助手”当做“文件存放助手”来用,啥都往里放。因为在手机上,微信是第一入口。在微信里找文档是顺理成章的事儿。
那么,很自然地,在手机上,如果要把文档给到AI去分析,从微信直接导入过去是最方便的。
所以,当你在元宝APP里点击右下角的加号按钮时,会看到“微信文件”这个选项。它会跳到微信,然后通过元宝小程序作为桥梁,实现微信文件传输这个功能。或者反过来,直接在微信里“用其他应用打开”、选择元宝也可以。
你看,这个就叫产品能力。看起来很小的一个功能点,但是很实用、很贴心。这个就是典型的腾讯风格。
我挺希望接下来能有更多微信和元宝之间的联动的。比如,一篇很长的公众号文章,点右上角的转发按钮,能有一个“在元宝中打开”的选项。然后也像现在的“深度阅读文档”那样,给出总结、精读和脑图三个选项。我相信这肯定会成为爆款功能的。
第二,双模型支持。
DeepSeek-R1很好,但是它并适合所有使用情况。
像R1这类推理模型,通过多阶段训练,尤其是强化学习,最终获得了逐步推理和思维链的构建能力。于是,它们在面对复杂问题的时候,会先分析问题、识别关键点,再逐步得出结论。
但是,我们日常使用的时候,所有问题都是复杂问题吗?所有问题都值得等个好几秒才能获得答案吗?
显然不是啊。所以,光有DeepSeek-R1还不够,还得有别的模型。这个时候,自研能力的重要性就体现出来了。
前两天,腾讯上线了混元Turbo S模型。如果把DeepSeek-R1、混元T1称为“慢思考模型”的话,那么混元Turbo S就是“快思考”模型。它首字时延更低、吐字速度更快。两个字总结:
秒回。
在元宝里,当你选择混元模型,把“深度思考”按钮关了之后,就是用混元Turbo S做快问快答了。
说真的,我之前用了一段时间R1,每次看到一个简单的问题,它在那边琢磨半天,我都特别无语。比如,我说个“哈喽”,它想了5秒才回答,内心戏太足,有一种赛博朋克的荒诞感。
所以,“慢思考”加“快思考”,双模型搭配,日常使用效率才高。
第三,腾讯加持版R1。
现代大模型已进化为"应用平台",
两年前的模型,基本就是单纯的文字对话。而今天的模型多了许多关键功能。比如你看Google的Gemini 2.0,强调“原生”的概念——原生的图像生成,原生的文字转语音,原生的工具使用。
这种大集成的目标,是为了打造一个universal AI assistant。这也成为现在旗舰模型的标配。
国内媒体为了流量,在吹捧DeepSeek-R1的时候,只聚焦在它的推理能力上,其它方面有意不提。所以,给R1加上更多工具、更多功能的任务,就落到应用厂商身上了。在这方面,元宝有两个点我特别喜欢。
一是搜索来源包括公众号文章。
中文互联网这几年泥沙俱下,能看的内容不多了。所以我在用Perplexity之类的工具时,都会在Prompt里特意强调:即使我用中文提问,你也给我去搜英文的网页。
如果要说还有哪里有不错的内容的话,那应该只剩公众号了。这个平台的内容属于腾讯的独家资源。这次元宝的搜索就用上了。
公众号的高质量内容,加上DeepSeek-R1的强推理能力,等于Quality in,quality out。
二是图片识别能力。
R1本身是不具备识图能力的。所以,包括DeepSeek官方在内的应用,都是添加一个OCR的功能,把图片上的文字提取出来,然后给到模型继续处理。
但是,如果图上没有文字,我就是想分析纯图片呢?
这个就是腾讯对R1的第二个加持。他们先对图片内容进行分析,把结果给到R1做回答参考。