跳至主要內容
熵、MDL 和压缩

对熵,编码长度,MDL,压缩,柯氏压缩器的回忆梳理。

一、熵与编码长度

本节观点

熵就是一个随机变量能够被压缩到的“平均最短编码长度”的理论极限。

如果模型的平均编码长度越短,那么他和数据的真实分布(真实熵)就越接近。因为根据 cross-entropy(交叉熵) ,它和真实熵关系是:

H(p,q)=H(p)+KL(pq) H(p,q) = H(p) + KL(p\|q)


Kevin 吴嘉文大约 11 分钟知识笔记LLMAgentScaling laws
回忆 Scaling laws(2020-24)

相关信息

部分 scaling laws 回忆


Scaling Laws for Neural Language Models

2020 年 openai 发布了文章 Scaling Laws for Neural Language Models ,其中提到了 scaling laws。一开始的 scaling laws 针对的是 Transformer models,但后续一些讨论更倾向于自回归类型(做 NTP)的模型,文中 summary 提到了最初 scaling laws 的几个点:


Kevin 吴嘉文大约 8 分钟知识笔记LLMAgentScaling laws