对熵,编码长度,MDL,压缩,柯氏压缩器的回忆梳理。
一、熵与编码长度
本节观点
熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。
如果模型的平均编码长度越短,那么他和数据的真实分布(真实熵)就越接近。因为根据 cross-entropy(交叉熵) ,它和真实熵关系是:
大约 11 分钟
对熵,编码长度,MDL,压缩,柯氏压缩器的回忆梳理。
本节观点
熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。
如果模型的平均编码长度越短,那么他和数据的真实分布(真实熵)就越接近。因为根据 cross-entropy(交叉熵) ,它和真实熵关系是:
H(p,q)=H(p)+KL(p∥q)
相关信息
部分 scaling laws 回忆
2020 年 openai 发布了文章 Scaling Laws for Neural Language Models ,其中提到了 scaling laws。一开始的 scaling laws 针对的是 Transformer models,但后续一些讨论更倾向于自回归类型(做 NTP)的模型,文中 summary 提到了最初 scaling laws 的几个点: