RL 猜想
- 漫无目的的思考相当于预训练模型推理
如果把人类暂时比作一个 LLM,那么成长过程中的语言输入、视觉经验、社会互动和现实反馈,就类似于模型的预训练数据。人在成长中不断听到、看到、经历各种事件,类似 LLM 预训练。这一过程可以近似理解为一种广义的 distribution matching:人脑通过经验建立对世界的预测模型。
在这个类比中,LLM 的上下文长度可以对应为人类在时间中的连续意识流。模型在上下文窗口中不断预测下一个 token,而人在现实时间中不断生成念头、判断、语言和行动。当一个人没有明确目的时,脑中浮现的内容就像是在当前状态下进行采样,就好比预训练 LLM 直接用于推理。