标签: Scaling laws

对熵，编码长度，MDL，压缩，柯氏压缩器的回忆梳理。

一、熵与编码长度

本节观点

熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。

如果模型的平均编码长度越短，那么他和数据的真实分布（真实熵）就越接近。因为根据 cross-entropy（交叉熵） ，它和真实熵关系是：

H(p,q) = H(p) + KL(p\|q)

Kevin 吴嘉文大约 11 分钟

回忆 Scaling laws（2020-24）

Scaling Laws for Neural Language Models

2020 年 openai 发布了文章 Scaling Laws for Neural Language Models ，其中提到了 scaling laws。一开始的 scaling laws 针对的是 Transformer models，但后续一些讨论更倾向于自回归类型（做 NTP）的模型，文中 summary 提到了最初 scaling laws 的几个点：

Kevin 吴嘉文大约 8 分钟