中年人的认知坍塌
任何人,只要自己关上了从高熵源采样的阀门,停止从真实、混乱的外部世界学习,转而开始依赖自己内部已经固化的、可预测的合成数据(即固有思维和偏见)来进行训练,那么他的认知一定会坍塌,人一定会变油腻。
模型和人很像,比如都会出现“认知坍塌”。
Andrej Karpathy在播客就提到了这个观点。他说,当一个模型持续在合成数据上进行训练时,其输出的多样性和熵会急剧下降,最终导致其能力退化。
怎么理解?
那些合成数据都是模型自己生成的,是模型对它所见过的原始数据的总结和提炼。在此过程中,原始数据中那些罕见的、古怪的、出乎意料的“异常值”(Outliers)被模型逐渐平滑掉、抹去了。
而训练算法的目标是最小化误差(Minimize Error)。所以,当模型面对这些高度一致、低多样性的合成数据时,最“经济”、最简单的“获胜”策略就是收敛到那个单一的、重复的平均模式上。
模型没有动力也没有数据去探索新的、边缘的可能性。它变得偏执、单一。它可能会非常擅长生成那种标准的、平均的答案,但却失去了创造力,失去了对细微差别的理解,也失去了处理它在训练中没见过的(但真实世界中存在的)新情况的能力。
这像极了今天的中年人。
Andrej认为,人类随着年龄增长和经验固化,就会从孩童时期的无限可能性收敛到成年后固定的思维模式。
为什么会这样?为什么面对同样、甚至越来越丰富多彩的外部世界,成长到中年后,人的认知就坍塌了?
如果把外部世界比作训练资料、把人比作模型的话,孩童时期和中年时期的最大区别在于:

