大语言模的扩展法则

本文介绍KM扩展法则和 Chinchilla扩展法则

先用简单的比喻给介绍一下：

你可以想象在做饭：

KM扩展法则就像是说：“想做出更好吃的饭，先要买一个更大的锅！”——他们认为模型越大（参数越多），效果越好，先把模型做大再说。
Chinchilla扩展法则是说：“锅大了，材料也要多，不然做出来的饭还是不好吃！”——模型大了，训练的数据也得跟着多，不然大锅里就只有一点点菜，浪费了。

所以，KM法则是“优先把锅做大”，Chinchilla法则是“锅和材料要一起增加”。

专业的科普解释：

KM扩展法则（Kaplan & McCandlish Scaling Laws，2020）：
- 提出模型性能（如困惑度）与模型参数数（N）、训练数据量（D）和计算量（C）之间的幂律关系。
- 在计算预算一定的情况下，建议优先增加模型参数数量以提升性能。
- 基于OpenAI的大量实验数据得出。
Chinchilla扩展法则（DeepMind，2022）：
- 指出现有大模型往往训练数据不足，未充分发挥潜力。
- 他们认为，在固定计算资源下，参数规模和训练数据量应按同一比例增长，以达到最佳性能。
- 训练了Chinchilla模型（70亿参数，用了4倍Gopher的数据），结果优于更大模型如Gopher和GPT-3。

本文链接：https://www.19150.com/ai/21680.html