Python

AI不会替代你，但是… 2024-08-31

Key Takeaway

AI不会替代人，但会使用AI的人将替代不使用AI的人。
AI赋能个体并非平等过程，早期阶段AI的特点是“遇强则强，遇弱则弱”。
少数派（约5%）能用好AI，他们具备“不吹不黑”的态度和“AI视角”。
学习使用AI的两个关键方法是：DYOR（Do Your Own Research），即深入研究源头知识；学习Python编程，以便理解AI底层逻辑。
文章强调了认知差比技术差更大，以及编程能力在AI时代的重要性。

Full Content

有一个好消息，一个坏消息。

好消息是：AI不会替代你。

坏消息是：用AI的人才会。

所有厂商都在喊：AI for ALL。AI确实能帮到每一个人。但是，AI赋能个体过程一定不是一个平等的过程。

尤其是在现在这个早期阶段，AI技术才刚刚开始产品化，还非常不完善，接触起来很有门槛。所以，AI在这个阶段的特征是八个字：

遇强则强，遇弱则弱。

AI遇到什么样的人会变强？遇到什么样的人会变弱？

以使用ChatGPT为例。我看到的人当中，至少95%是这样的：

没头没脑地贴了几篇文章过去，然后叫AI生成一篇新的文章。拿到结果一看，很不满意，于是下了结论：

AI真垃圾，都是资本吹起来的。

只有少于5%的人会这样做，他们会想明白两件事：

第一，自己到底要的是啥？比如，文章的核心内容是什么，结构是怎样的，风格是怎样的？

第二，AI是怎么执行的？比如，它会怎么思考我们的指令，它都需要什么东西才能把活儿做好，过程中需不需要我们给个反馈、指导一下？

这样的少数派具备两个非常宝贵且重要的品质。

一是态度，用一个流行词来形容就是：

不吹不黑。

他们既不会去神话AI，觉得AI无所不能，也不会完全否定，觉得AI做不到100分就是没价值。

因为现在的AI只能当Copilot，也就是副驾驶。握方向盘的人还是Pilot，也就是用户。所以对于没脑子的Pilot来说，Copilot再强都没用。

这些5%的少数派的态度就是，AI能做多少，就用多少。做得好的地方，该花钱就花钱，不犹豫。做不到的地方，也不焦虑，反正咱又不是模型厂商，AGI能不能实现咱不操心。

二是视角，AI的视角。

大模型是什么？是知识的容器。

训练大模型的过程，是对知识进行压缩的过程。使用大模型的过程，是对知识进行解压的过程。其它的一切，都是从大模型出发去做扩展。比如：

Fine-tune是什么？是给大模型开个补习班，再学点新知识。
RAG是什么？是给大模型一堆参考书，要用的时候翻一翻。
Agent是什么？给大模型一个工具箱、一本操作手册，让它正式上岗去帮我们干活。

如果你读过KK的《科技想要什么》这本书就会有感觉：这绝对是一个不同于我们常规定义的生命体、智能体。这也是我们第一次面对除了人类以外的复杂系统。

所以想要了解并利用好AI的话，一定要转换视角，站在AI的角度、站在系统的角度去窥探和理解。

如果你是那5%的少数派的话，或者你真心想学会怎么用AI的话，我这边有两个建议，都是我自己的经验总结。

我在刚创建知识星球newtype的时候分享过我的经历。其实我没有任何相关背景，最初也不懂编程啥的，完全是从零开始、自学半年。我所用的，就是以下这两个方法。

第一，DYOR，Do Your Own Research。

这句话在币圈很流行，意思是，做好你自己的研究，别都听别人的。对于学习使用AI也适用。

有一个很扎心的事实我不得不说说：关于中国和国外在AI方面的差距，比技术差更大的，是认知差。

从媒体到商业大佬，大家都还在学。尤其是那些大佬，等你真正做了研究就会发现，他们都是一知半解。但是，人家为什么敢出来说、敢出来教？两个原因：

一是为了影响力。在AI这种级别的技术革命面前，所有人都是从新开始，不管你之前有多牛、地位有多高。为了抢个先手，他们当然要主动抛头露面，趁着在上个时代的影响力还有点余温的时候。

二是为了学习。在精英眼中，输出也是一种学习的过程，而且特别有效。所以，看着是他们在教你，其实人家只是对着镜头在背作业。

最先进的、最及时的AI内容都在国外。你只能自己学，没人能手把手教你。

当你开始学之后，这边有一个点要注意：尽可能找到源头。

比如，你看到很多人都在讨论，大模型训练用的高质量数据快不够用了，将会限制模型性能的进一步提升。

如果你只停留在这一步，那只能得到一个其实没什么用的、所谓的观点。如果你肯多问几句，比如：为什么需要海量数据？大模型从这些数据中究竟学的是什么？数据不够的话，合成行不行？让现有的大模型生成数据，给下一代大模型训练，可不可以？

顺着逻辑一路追问下去，并且找到每一个答案，你就能在源头层面把这个问题吃透。

不用纠结要不要很系统地去学习，只需要把每一个点都弄扎实了，一段时间之后你就会发现，这些点都串联成了一张网。而且，它们背后是同一套根本的逻辑。

当你走到这一步，恭喜你，入门了。

第二，学Python。

很多大佬都在吹：不需要学编程了，人人都可以是程序员。

我可以很肯定地跟你说，也许几年之后是这样。但现在，编程还是一个不可替代的能力。

那么，学AI为什么要学Python编程？

让Agent自动搜集每日资讯 2024-08-31

Key Takeaway

作者通过运行Python脚本，利用Agent自动搜集Reddit和全球媒体的AI相关资讯，生成每日简报“AI内参”。
有价值的AI内容主要在国外，掌握英文和直接学习源头信息至关重要。
Reddit的LocalLlaMa频道、Medium和YouTube是获取AI资讯和学习RAG、LangChain等技术的重要来源。
CrewAI和GPT Researcher是搭建Agent系统的实用工具，CrewAI适合自由搭建多Agent流程，GPT Researcher擅长资料搜集和报告生成。
Agent技术能帮助用户高效处理信息，提升信息获取和整理的效率。

Full Content

我每天起床的第一件事，是运行两个Python脚本。

由GPT-4驱动的Agent会帮我把AI相关的资讯和讨论全都搜集好。

信息来源有两个地方：

Reddit上的LocalLlaMa频道的讨论。
全球各大媒体报道的热门新闻。

这么做，最大的好处是，让我可以在一个集中的、完整的时间段内，把需要了解的信息都处理完毕。

当这件事儿了了之后，除非今天发生特别重大的事件，比如Sora或者GPT-5发布这种级别，否则我是不会再分心去看那些杂七杂八的文章。

这份由AI生成的关于AI的每日简报，我叫AI内参。

哈喽各位好，欢迎回到我的频道。我分享关于AI的Why和How。如果你想真正参与进来，把握住AI这个一生一遇的大机会的话，一定点个关注。我们一起探讨。

回到今天的主题：AI、大模型相关的信息来源和获取。

我知道大家对AI相关的资讯和知识非常饥渴。不过有一个很残酷的事实是：

有价值的内容，都在国外。

如果你不懂英文，只能看国内的二手消息，那真的很难不被割。

我分享一下我日常必看的几个来源。

Reddit/LocalLlaMa

如果你是从业者，或者对大模型技术已经有不错的了解的话，LocalLlaMa频道一定要看，讨论质量挺高的。

我随便打开两个帖子：

要学技术的话，这边有教程：这哥们用Mistral-7B进行微调，用它来做Agent的效果比Gemini Pro还好。他给出了具体方法。

要看新闻观点的话，这边也有懂哥：谷歌用Reddit数据去训练AI，这条新闻你怎么看？跟知乎一样，最高赞的是抖机灵：Garbage in, garbage out。不过还是有正经回答的：之所以用Reddit数据集，不是让AI学事实，而是让AI学怎么对话——这一下就make sense了。

LocalLlaMa频道的内容，我每天都会看。当然，是先用开头说的Python脚本帮我先筛选、汇总一遍，这个后边再介绍。

Medium

如果你想了解哪个技术，可以直接到Medium上搜，基本上都有文章详细讲解。而且这个平台的作者都非常有耐心，写得很详细。

比如这篇文章：Build a Personal AI Tech News Agent。作者从原理到AWS设置，等等，都手把手地教，算得上是保姆级教程了。

另外值得一提的是，Medium的推荐机制挺厉害的。推的都是我想看的内容。所以这个平台，除了我想搜什么的时候，我大概三天会主动上去看一圈，遇到好的文章会加个书签保存起来。

YouTube

我最早学RAG、LangChain等等用法，就是从油管的这两位老哥开始的。

第一位是Sam。他的Advanced RAG系列和LangChain系列都特别好，对我非常非常有帮助。另外，每当有新的热门大模型出现了，他都会出教学。

第二位是James。他同样也出了RAG和LangChain系列教学，并且着重介绍了怎么接入Pinecone之类的向量数据库。

入门的话，把他俩的视频看完，肯定就会了。而且视频里的代码，他们都用Google Colab的方式分享出来了，你可以直接在云端跑一遍、感受一下。

AI内参

我在开头说的两个Python脚本，都不是我写的，都来自于GitHub。

第一个脚本来自这位小姐姐。我是顺着她的油管频道找来的。

在脚本里，她用了CrewAI搭建一套包含三个Agent的流程。CrewAI是一个Agent框架，特别简单、直观，强烈推荐大家上手试试。

这个脚本的关键，其实是给Agent配上读取Reddit数据的工具。作者用了PRAW，也就是Python Reddit API Wrapper。它是一个Python包，允许你以编程方式访问和操作Reddit的数据。

前边介绍的Medium，其实我也尝试过用Agent去抓取数据，不过效果不好。有没有开放数据接口，差别还是很大的。

第二个脚本也是现成的，叫GPT Researcher。把GitHub仓库克隆下来，运行之后，会提供一个本地链接，打开就是这样一个可视化的界面。然后输入你想让它帮你搜集的信息就好。等差不多10秒钟，一份有模有样的简报就生成了。