大语言模的扩展法则
本文介绍KM扩展法则 和 Chinchilla扩展法则
先用简单的比喻给介绍一下:
你可以想象在做饭:
KM扩展法则就像是说:“想做出更好吃的饭,先要买一个更大的锅!”——他们认为模型越大(参数越多),效果越好,先把模型做大再说。
Chinchilla扩展法则是说:“锅大了,材料也要多,不然做出来的饭还是不好吃!”——模型大了,训练的数据也得跟着多,不然大锅里就只有一点点菜,浪费了。
所以,KM法则是“优先把锅做大”,Chinchilla法则是“锅和材料要一起增加”。
专业的科普解释:
KM扩展法则(Kaplan & McCandlish Scaling Laws,2020):
提出模型性能(如困惑度)与模型参数数(N)、训练数据量(D)和计算量(C)之间的幂律关系。
在计算预算一定的情况下,建议优先增加模型参数数量以提升性能。
基于OpenAI的大量实验数据得出。
Chinchilla扩展法则(DeepMind,2022):
指出现有大模型往往训练数据不足,未充分发挥潜力。
他们认为,在固定计算资源下,参数规模和训练数据量应按同一比例增长,以达到最佳性能。
训练了Chinchilla模型(70亿参数,用了4倍Gopher的数据),结果优于更大模型如Gopher和GPT-3。
本文链接:https://www.19150.com/ai/21680.html