让Agent自动搜集每日资讯
Key Takeaway
- 作者通过运行Python脚本,利用Agent自动搜集Reddit和全球媒体的AI相关资讯,生成每日简报“AI内参”。
- 有价值的AI内容主要在国外,掌握英文和直接学习源头信息至关重要。
- Reddit的LocalLlaMa频道、Medium和YouTube是获取AI资讯和学习RAG、LangChain等技术的重要来源。
- CrewAI和GPT Researcher是搭建Agent系统的实用工具,CrewAI适合自由搭建多Agent流程,GPT Researcher擅长资料搜集和报告生成。
- Agent技术能帮助用户高效处理信息,提升信息获取和整理的效率。
Full Content
我每天起床的第一件事,是运行两个Python脚本。
由GPT-4驱动的Agent会帮我把AI相关的资讯和讨论全都搜集好。
信息来源有两个地方:
- Reddit上的LocalLlaMa频道的讨论。
- 全球各大媒体报道的热门新闻。
这么做,最大的好处是,让我可以在一个集中的、完整的时间段内,把需要了解的信息都处理完毕。
当这件事儿了了之后,除非今天发生特别重大的事件,比如Sora或者GPT-5发布这种级别,否则我是不会再分心去看那些杂七杂八的文章。
这份由AI生成的关于AI的每日简报,我叫AI内参。
哈喽各位好,欢迎回到我的频道。我分享关于AI的Why和How。如果你想真正参与进来,把握住AI这个一生一遇的大机会的话,一定点个关注。我们一起探讨。
回到今天的主题:AI、大模型相关的信息来源和获取。
我知道大家对AI相关的资讯和知识非常饥渴。不过有一个很残酷的事实是:
有价值的内容,都在国外。
如果你不懂英文,只能看国内的二手消息,那真的很难不被割。
我分享一下我日常必看的几个来源。
Reddit/LocalLlaMa
如果你是从业者,或者对大模型技术已经有不错的了解的话,LocalLlaMa频道一定要看,讨论质量挺高的。
我随便打开两个帖子:
要学技术的话,这边有教程:这哥们用Mistral-7B进行微调,用它来做Agent的效果比Gemini Pro还好。他给出了具体方法。
要看新闻观点的话,这边也有懂哥:谷歌用Reddit数据去训练AI,这条新闻你怎么看?跟知乎一样,最高赞的是抖机灵:Garbage in, garbage out。不过还是有正经回答的:之所以用Reddit数据集,不是让AI学事实,而是让AI学怎么对话——这一下就make sense了。
LocalLlaMa频道的内容,我每天都会看。当然,是先用开头说的Python脚本帮我先筛选、汇总一遍,这个后边再介绍。
Medium
如果你想了解哪个技术,可以直接到Medium上搜,基本上都有文章详细讲解。而且这个平台的作者都非常有耐心,写得很详细。
比如这篇文章:Build a Personal AI Tech News Agent。作者从原理到AWS设置,等等,都手把手地教,算得上是保姆级教程了。
另外值得一提的是,Medium的推荐机制挺厉害的。推的都是我想看的内容。所以这个平台,除了我想搜什么的时候,我大概三天会主动上去看一圈,遇到好的文章会加个书签保存起来。
YouTube
我最早学RAG、LangChain等等用法,就是从油管的这两位老哥开始的。
第一位是Sam。他的Advanced RAG系列和LangChain系列都特别好,对我非常非常有帮助。另外,每当有新的热门大模型出现了,他都会出教学。
第二位是James。他同样也出了RAG和LangChain系列教学,并且着重介绍了怎么接入Pinecone之类的向量数据库。
入门的话,把他俩的视频看完,肯定就会了。而且视频里的代码,他们都用Google Colab的方式分享出来了,你可以直接在云端跑一遍、感受一下。
AI内参
我在开头说的两个Python脚本,都不是我写的,都来自于GitHub。
第一个脚本来自这位小姐姐。我是顺着她的油管频道找来的。
在脚本里,她用了CrewAI搭建一套包含三个Agent的流程。CrewAI是一个Agent框架,特别简单、直观,强烈推荐大家上手试试。
这个脚本的关键,其实是给Agent配上读取Reddit数据的工具。作者用了PRAW,也就是Python Reddit API Wrapper。它是一个Python包,允许你以编程方式访问和操作Reddit的数据。
前边介绍的Medium,其实我也尝试过用Agent去抓取数据,不过效果不好。有没有开放数据接口,差别还是很大的。
第二个脚本也是现成的,叫GPT Researcher。把GitHub仓库克隆下来,运行之后,会提供一个本地链接,打开就是这样一个可视化的界面。然后输入你想让它帮你搜集的信息就好。等差不多10秒钟,一份有模有样的简报就生成了。
最后,我把这两个脚本生成的结果都贴进一个Word文档里,稍微改改格式,就OK了。其实也可以让Agent以指定的格式生成文档,不过我懒得再多花时间了。反正是自己看,不讲究那么多。
我刚才提到的CrewAI和GPT Researcher,在我之前的视频里都有介绍,大家可以到我主页里找来看。Agent技术非常重要,建议大家一定详细了解一下。
OK,以上就是今天的内容。这个AI内参我之后还会陆续迭代,到时再跟大家分享。我们下期见!