Dream 7B(扩散推理模型),迄今为止最强大的开源扩散大语言模型
团队:
叶家成*、谢志辉*、郑霖*、高佳辉*、吴子睿、姜鑫、李政国、孔令鹏
机构:
香港大学、华为诺亚方舟实验室
介绍 Dream 7B
在与华为诺亚方舟实验室联合奋勉下,咱们发布 Dream 7B〔扩散推理模型〕,这是迄今为止最超强开源扩散大语言模型。
简而言之,Dream 7B:
在各项指标上远超现有扩散语言模型;
在通用本事、数学本事、编程本事上与同规模顶级自回归〔AR〕语言模型相媲美甚至超越;
展露出较强规划本事、推理灵活性,这得益于扩散模型特性。
图示: 对比语言模型在通用、数学、编程、规划任务上表现。
图示: 对比语言模型在准则评测基准上表现。
注:Dream 7B、LLaDA 8B、Qwen2.5 7B 、 LLaMA3 8B 均在相同协议下评估,最佳结果为粗体,第二佳为下划线。
咱们在以下地址发布基石模型、指令模型权重:
基石模型:Dream-org/Dream-v0-Base-7B
SFT 模型:Dream-org/Dream-v0-Instruct-7B
代码库:GitHub
为什么选择扩散实行文本生成?
大语言模型〔LLMs〕火速发展已经彻底改变人工智能,推动各行各业众多应用,目前,自回归〔AR〕模型在文本生成领域占据主导地位,接近所有领先 LLMs〔比方说 GPT-4、DeepSeek、Claude〕都依赖于这种从左到右序列生成架构。虽说这些模型表现出惊人本事,但也出现一个根本性难题:下一个世代 LLMs 会采用怎样架构范式?
伴随 AR 模型在扩展时面对复杂推理、长期规划以及在长上下文中维系连贯性等挑战,这个难题变得非常重点〔1, 2, 3, 4〕,这些局限性在诸如具身人工智能、自治代理以及长时程决策系统等新兴应用中尤其根本,因这些应用要求持续推理、上下文理解。
离散扩散模型〔DMs〕自引入文本领域以来,便因其生成序列方法备受关注〔5, 6, 7〕,与顺序生成单个令牌 AR 模型不同,离散 DM 从完全噪声状态开始,采用并行方法动态地对整个序列实行逐步精炼。这种根本性架构差异解锁几个显著优点:
双向上下文建模: 能够更丰富地整合来自双向信息,大大提升生成文本整体连贯性。
灵活可控生成: 通过迭代精炼过程,自可是然地获得生成控制本事。
采样加速潜力: 通过新颖架构、训练意向,有望实行从噪声到数据高效直接映射〔8〕。
近期一系列重点进展表明,扩散模型在语言任务上具有越来越大潜力,DiffuLLaMA〔9〕 、 LLaDA〔10〕 将扩散语言模型扩展到 7B 参数级别,而商业实行 Mercury Coder 则在代码生成上展示显著推理效能,这一火速进步,加上扩散语言模型固有架构优点,使得这些模型变成克服自回归方法根本局限性有希望方向。
训练 Dream 7B
Dream 7B 训练根据咱们团队之前在扩散语言模型领域工作,借鉴 RDM〔11〕 理论基石以及 DiffuLLaMA〔9〕 适配策略,咱们采用一种掩码扩散范式,其模型架构如下图所示。
咱们训练数据涵盖从文本到数学、代码多种类型,首要来源于 Dolma v1.7、OpenCoder 、 DCLM-Baseline,并经过多重预处理、筛选流程,通过精心设计训练过程,咱们运用上述语料混合体预训练 Dream 7B,总计 5800 亿个令牌,预训练在 96 张 NVIDIA H800 GPU 上实行 256 小时,整个预训练过程总体顺利,虽说偶有节点异常,但没有出现任何不可恢复损失激增。
图示: 对比自回归建模与 Dream 中扩散建模方法。
Dream 模型以移位方法预测所有被掩码令牌,从而实行与 AR 模型在架构上最大层次对齐以及权重初始化。
咱们在 1B 规模模型上广泛研究设计选择,并确定不少有价值组件,比方说:
AR 模型权重初始化: 利用现有 AR 模型〔比方说 Qwen2.5〔12〕 、 LLaMA3〔13〕〕权重实行初始化,使得扩散语言模型在早期训练阶段更为有效。
根据上下文自适应令牌级噪声重调度: 这一机制能够有效地训练 Dream 7B。
AR 初始化
借鉴咱们之前工作 DiffuLLaMA〔9〕,咱们发现运用现有自回归〔AR〕模型权重作为扩散语言模型初始化是一种非平凡方案,咱们发现这种设计比从零开始训练扩散语言模型更加高效,特别是在训练初期,如下图所示。
图示: 在 Dream 1B 模型上,采用从零开始训练与 AR 初始化 LLaMA3.2 1B 模型在 200B 令牌训练过程中损失对比。
虽说 AR 初始化在起初由于从因果注意力到全注意力转换会出现较高损失,但与从零开始训练相比,其整个训练过程中损失都较低,到底,Dream 7B 采用来自 Qwen2.5 7B 权重初始化,在训练过程中,咱们发现学习率非常根本,倘若设置过高,会火速抹去初始权重中从左到右知识,降低扩散训练效果;而倘若设置过低,则大概会阻碍扩散训练,咱们在精心选择这一参数同时,也确定其他训练参数。
由于 AR 模型中已经存在从左到右知识,扩散模型任意顺序学习得以加速,从而显著减少预训练所需令牌数、计算量。
根据上下文自适应令牌级噪声重调度
每个序列中各令牌选择都依赖于其上下文,但咱们观察到之前扩散训练方法未能充分探究这一点,具体来说,在传统离散扩散训练中,先采样一个时间步 t 来确定句子级噪声水平,随后模型实行去噪处理,可是,由于到底学习是针对令牌级别,因离散噪声应用,每个令牌实际噪声水平与 t 并不完全对应,这导致对具有不同上下文信息令牌学习效果不佳。
图示: 展示根据上下文自适应令牌级噪声重调度机制示意图。
Dream 会根据噪声注入后损坏上下文信息,为每个掩码令牌重新确定时间步 t,此机制为各个令牌学习过程供应更精细、准确指导。
规划本事
在之前工作〔4, 14〕中,咱们展示文本扩散在小规模、任务特定场景下具有出色规划本事,可是,一个难题仍未明确:在更通用、更大规模扩散模型中是不是也具备类似本事?现在,借助 Dream 7B,咱们可以更好地回答这一难题。
咱们在 Countdown 、 Sudoku 两个任务上评估 Dream,其中可以灵活控制规划难度,对比实验中,除 Dream 7B,还涵盖 LLaDA 8B、Qwen2.5 7B、LLaMA3 8B,并以最新 Deepseek V3 671B 〔0324〕 作为参考,所有模型均在少量示例下实行评估,且未经过这些任务特意训练。
图示: 当规划难度更迭时 Countdown 、 Sudoku 任务结果对比。
显而易见,Dream 表现优于其他同规模基线模型,值得注意是,两种扩散模型均大幅超越两种 AR 模型,时而甚至超越参数规模高出数十倍最新 DeepSeek V3,这背后直觉是,扩散语言模型在搞定具有多重约束或特定意向难题时更为高效。
下面给出三个规划任务中 Qwen 2.5 7B 、 Dream 7B 示例:
图示: 展示 Qwen 2.5 7B 、 Dream 7B 在三个规划任务下生成示例。
推理灵活性
与 AR 模型相比,扩散模型在推理时供应更大灵活性,首要体现在以下两个方面:
任意顺序生成:
扩散模型不受顺序〔如从左到右〕生成限制,可以以任意顺序合成输出,这使得能够应对更多样化使用者查询。
补全与填充:
补全:
图示: Dream-7B-instruct 补全示例。
填充:
扩散模型还可以通过调整解码超参数来控制生成顺序,针对不同查询,使用者可以偏好不同生成顺序,比如更接近从左到右生成方法,或是更随机生成方法。
质量与速度权衡
上面例子中展示每一步生成一个令牌情况,可是,通过调整扩散步骤,可以动态地控制每一步生成令牌数量,从而在速度、质量之间实行可调节权衡:步数越少,生成速度越快但效果较粗糙;步数越多,输出质量更高但计算本钱增加,这为推理时计算与质量调整引入一个额外维度〔15, 16, 17〕,这种方法是对传统 AR 框架下链式琢磨技术〔如 o1 、 r1 大语言模型〕有益补充。
通过调整扩散时间步,Dream 性能可以灵活地在速度、质量之间实行调节。
监督式微调
在扩散语言模型后训练过程中,作为初步步骤,咱们采用监督式微调,使 Dream 能够更好地符合使用者指令,具体来说,咱们从 Tulu 3〔18〕 、 SmolLM2〔19〕 中筛选出 180 万对数据,并对 Dream 实行三轮训练,结果表明,Dream 在性能上有望与自回归模型相匹配。
结论
咱们介绍 Dream,这是一系列高效、可扩展且灵活扩散语言模型,并采用精心设计训练方案,其在通用、数学、编程任务上表现可与同规模顶级自回归模型媲美,同时在规划本事、推理灵活性上非常突出。
本文链接:https://www.19150.com/ai/21669.html