Token是这个时代最伟大的发明
历史上第一次,信息被高度抽象,形态实现大统一;信息可以被人类自由召唤,并且根据人类的意图定制化地显现出来。
Key Takeaway
科技本质:AI革命源于信息形态(统一为Token序列,如文本/视觉/音频标准化)和交互方式(从搜索到语义召唤/生成)的根本变革,非单纯内容生成。
Token统一:Token如物理“米”单位,实现历史上首次信息大统一,消除形态壁垒;向量空间存储所有知识,查询如钓鱼/魔法咒语召唤定制内容。
发展潜力:Token高度抽象驱动浪潮,未来或量子/自适应Token处理现实不确定性,推动更复杂知识交互。
你有没有想过:
为什么AI是生产力?为什么AI是科技浪潮,是第四次工业革命?
是因为AI会自动生成内容?AI会自动完成任务?
这些都是结果,不是原因。
要找到答案,我们先得知道:科技发展的本质是什么?
信息的发展,和能源的发展。
印刷术、互联网属于信息发展的维度。蒸汽机、核能属于能源的维度。而AI显然属于前者。
那么,信息发展的本质是什么?
信息形态的发展,和交互方式的发展。
信息从口口相传,到变成纸质书籍,再到完全电子化,是形态的变化。光是这种形态上的变化,就给人类社会带来极大的发展。
信息交互方式也是如此。比如移动互联网就是信息交互方式的变革,带来了多少年的发展红利。很多公司非常看好的VR和AR,同样是这个逻辑。
再来看AI。我认为,AI之所以称得上是科技革命、科技浪潮,就是因为它同时带来了信息形态和信息交互方式的根本性变革。注意,是“根本性”。
而能做到这一点,都归功于一个很小很小的东西。它叫“Token”。
哈喽各位好,欢迎回到我的频道。谦虚地说,我是国内少数几个能把关于AI的Why和How讲明白的博主。我提供的东西远比教程更值钱。记得点一波关注。如果想链接我,就来我们newtype社群。这个社群已经运营600天,有超过1700位小伙伴付费加入啦。
如果你是国内用户,可以从知识星球加入。如果你是海外用户,可以从Substack加入。我的第一套课程、日常的Newsletter以及专属视频,在社群内都可以看到。
回到今天的主题:这个时代最伟大的发明——Token。
让我们先从信息形态说起。
历史上,信息形态总是分散的:
书籍是线性文本,绘画是视觉符号,音乐是时序波形。
这些形态间的壁垒会带来非常大的成本。比如,你想从视频中提取知识,需要人工转录;想搞跨学科整合,得手动桥接。
过去并不是没有信息形态统一的尝试。比如,XML试图统一不同系统间的数据交换;Schema试图统一数据存储和查询,让不同应用能共享同一个数据库。但是,这些尝试都局限于特定的领域。
直到Token的出现。不管是书籍、博客还是视频,都可以被转化成Token序列。这特别像物理学中的标准化单位——比如把长度统一为“米”。
我相信,几乎所有的人类知识都会被转化成Token。这是历史上从来没有过的一次信息形态的大统一。
那么,信息形态统一之后,有什么好处呢?
用大白话来说就是,所有的知识、所有的信息都变成了Token。这些Token都被放进一个叫做向量空间的海洋。
而你的查询就是一个“钩子”。模型会用你给的钩子去这个向量空间的海洋里“钓出”相关的片段。
这个就是我在社群里说了好多次的:AI时代,答案都在那里,只要你问对问题。
你想嘛,几乎所有人类知识都在向量空间里。显然,你要的答案肯定也在那里。而要把特定的答案像钓鱼一样钓出来,你得有特定的鱼钩,也就是你得问对问题。
注意:这个过程不是搜索,而是召唤。
召唤比搜索高级多了。搜索是关键词的匹配。而召唤,是语义理解加生成。
这就是信息交互方式的根本性变革:
历史上第一次,信息可以被人类自由召唤,并且根据人类的意图定制化地显现出来。
信息不再是已经预设好的成品,而是动态重构的全新内容。
刚才用钓鱼来打比方不太准确。这其实有点像魔法:
你的意图是咒语。Token是媒介。向量空间是法阵。
顺着这个逻辑,你再看今天的各种变化:
更长的上下文窗口意味着能召唤出更复杂的知识。更好的记忆机制能让召唤持久化,不再是单次对话。
这一切都源于Token。而Token的本质,是对各种各样信息的高度抽象。只有高度抽象,才能实现统一。
按照这个逻辑再往下发展,应该是对Token的再进一步抽象,比如量子Token或自适应Token。这样才能处理不确定性更强的现实世界。
OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!

