1. 首页 > 人工智能

大语言模的扩展法则

本文介绍KM扩展法则 和 Chinchilla扩展法则


先用简单的比喻给介绍一下:

你可以想象在做饭:

  • KM扩展法则就像是说:“想做出更好吃的饭,先要买一个更大的锅!”——他们认为模型越大(参数越多),效果越好,先把模型做大再说。

  • Chinchilla扩展法则是说:“锅大了,材料也要多,不然做出来的饭还是不好吃!”——模型大了,训练的数据也得跟着多,不然大锅里就只有一点点菜,浪费了。

所以,KM法则是“优先把锅做大”,Chinchilla法则是“锅和材料要一起增加”。


专业的科普解释:

  • KM扩展法则(Kaplan & McCandlish Scaling Laws,2020):

    • 提出模型性能(如困惑度)与模型参数数(N)、训练数据量(D)和计算量(C)之间的幂律关系。

    • 在计算预算一定的情况下,建议优先增加模型参数数量以提升性能。

    • 基于OpenAI的大量实验数据得出。

  • Chinchilla扩展法则(DeepMind,2022):

    • 指出现有大模型往往训练数据不足,未充分发挥潜力。

    • 他们认为,在固定计算资源下,参数规模和训练数据量应按同一比例增长,以达到最佳性能。

    • 训练了Chinchilla模型(70亿参数,用了4倍Gopher的数据),结果优于更大模型如Gopher和GPT-3。

本文链接:https://www.19150.com/ai/21680.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息