Dream 7B（扩散推理模型），迄今为止最强大的开源扩散大语言模型

团队：

叶家成*、谢志辉*、郑霖*、高佳辉*、吴子睿、姜鑫、李政国、孔令鹏

机构：

香港大学、华为诺亚方舟实验室

介绍 Dream 7B

在与华为诺亚方舟实验室联合奋勉下，咱们发布 Dream 7B〔扩散推理模型〕，这是迄今为止最超强开源扩散大语言模型。

简而言之，Dream 7B：

在各项指标上远超现有扩散语言模型；

在通用本事、数学本事、编程本事上与同规模顶级自回归〔AR〕语言模型相媲美甚至超越；

展露出较强规划本事、推理灵活性，这得益于扩散模型特性。

图示：对比语言模型在通用、数学、编程、规划任务上表现。

图示：对比语言模型在准则评测基准上表现。

注：Dream 7B、LLaDA 8B、Qwen2.5 7B 、 LLaMA3 8B 均在相同协议下评估，最佳结果为粗体，第二佳为下划线。

咱们在以下地址发布基石模型、指令模型权重：

基石模型：Dream-org/Dream-v0-Base-7B

SFT 模型：Dream-org/Dream-v0-Instruct-7B

代码库：GitHub

为什么选择扩散实行文本生成？

大语言模型〔LLMs〕火速发展已经彻底改变人工智能，推动各行各业众多应用，目前，自回归〔AR〕模型在文本生成领域占据主导地位，接近所有领先 LLMs〔比方说 GPT-4、DeepSeek、Claude〕都依赖于这种从左到右序列生成架构。虽说这些模型表现出惊人本事，但也出现一个根本性难题：下一个世代 LLMs 会采用怎样架构范式？

伴随 AR 模型在扩展时面对复杂推理、长期规划以及在长上下文中维系连贯性等挑战，这个难题变得非常重点〔1, 2, 3, 4〕，这些局限性在诸如具身人工智能、自治代理以及长时程决策系统等新兴应用中尤其根本，因这些应用要求持续推理、上下文理解。

离散扩散模型〔DMs〕自引入文本领域以来，便因其生成序列方法备受关注〔5, 6, 7〕，与顺序生成单个令牌 AR 模型不同，离散 DM 从完全噪声状态开始，采用并行方法动态地对整个序列实行逐步精炼。这种根本性架构差异解锁几个显著优点：

双向上下文建模：能够更丰富地整合来自双向信息，大大提升生成文本整体连贯性。

灵活可控生成：通过迭代精炼过程，自可是然地获得生成控制本事。

采样加速潜力：通过新颖架构、训练意向，有望实行从噪声到数据高效直接映射〔8〕。

近期一系列重点进展表明，扩散模型在语言任务上具有越来越大潜力，DiffuLLaMA〔9〕、 LLaDA〔10〕将扩散语言模型扩展到 7B 参数级别，而商业实行 Mercury Coder 则在代码生成上展示显著推理效能，这一火速进步，加上扩散语言模型固有架构优点，使得这些模型变成克服自回归方法根本局限性有希望方向。

训练 Dream 7B

Dream 7B 训练根据咱们团队之前在扩散语言模型领域工作，借鉴 RDM〔11〕理论基石以及 DiffuLLaMA〔9〕适配策略，咱们采用一种掩码扩散范式，其模型架构如下图所示。

咱们训练数据涵盖从文本到数学、代码多种类型，首要来源于 Dolma v1.7、OpenCoder 、 DCLM-Baseline，并经过多重预处理、筛选流程，通过精心设计训练过程，咱们运用上述语料混合体预训练 Dream 7B，总计 5800 亿个令牌，预训练在 96 张 NVIDIA H800 GPU 上实行 256 小时，整个预训练过程总体顺利，虽说偶有节点异常，但没有出现任何不可恢复损失激增。

图示：对比自回归建模与 Dream 中扩散建模方法。

Dream 模型以移位方法预测所有被掩码令牌，从而实行与 AR 模型在架构上最大层次对齐以及权重初始化。

咱们在 1B 规模模型上广泛研究设计选择，并确定不少有价值组件，比方说：

AR 模型权重初始化：利用现有 AR 模型〔比方说 Qwen2.5〔12〕、 LLaMA3〔13〕〕权重实行初始化，使得扩散语言模型在早期训练阶段更为有效。

根据上下文自适应令牌级噪声重调度：这一机制能够有效地训练 Dream 7B。

AR 初始化

借鉴咱们之前工作 DiffuLLaMA〔9〕，咱们发现运用现有自回归〔AR〕模型权重作为扩散语言模型初始化是一种非平凡方案，咱们发现这种设计比从零开始训练扩散语言模型更加高效，特别是在训练初期，如下图所示。

图示：在 Dream 1B 模型上，采用从零开始训练与 AR 初始化 LLaMA3.2 1B 模型在 200B 令牌训练过程中损失对比。

虽说 AR 初始化在起初由于从因果注意力到全注意力转换会出现较高损失，但与从零开始训练相比，其整个训练过程中损失都较低，到底，Dream 7B 采用来自 Qwen2.5 7B 权重初始化，在训练过程中，咱们发现学习率非常根本，倘若设置过高，会火速抹去初始权重中从左到右知识，降低扩散训练效果；而倘若设置过低，则大概会阻碍扩散训练，咱们在精心选择这一参数同时，也确定其他训练参数。

由于 AR 模型中已经存在从左到右知识，扩散模型任意顺序学习得以加速，从而显著减少预训练所需令牌数、计算量。

根据上下文自适应令牌级噪声重调度

每个序列中各令牌选择都依赖于其上下文，但咱们观察到之前扩散训练方法未能充分探究这一点，具体来说，在传统离散扩散训练中，先采样一个时间步 t 来确定句子级噪声水平，随后模型实行去噪处理，可是，由于到底学习是针对令牌级别，因离散噪声应用，每个令牌实际噪声水平与 t 并不完全对应，这导致对具有不同上下文信息令牌学习效果不佳。

图示：展示根据上下文自适应令牌级噪声重调度机制示意图。

Dream 会根据噪声注入后损坏上下文信息，为每个掩码令牌重新确定时间步 t，此机制为各个令牌学习过程供应更精细、准确指导。

规划本事

在之前工作〔4, 14〕中，咱们展示文本扩散在小规模、任务特定场景下具有出色规划本事，可是，一个难题仍未明确：在更通用、更大规模扩散模型中是不是也具备类似本事？现在，借助 Dream 7B，咱们可以更好地回答这一难题。

咱们在 Countdown 、 Sudoku 两个任务上评估 Dream，其中可以灵活控制规划难度，对比实验中，除 Dream 7B，还涵盖 LLaDA 8B、Qwen2.5 7B、LLaMA3 8B，并以最新 Deepseek V3 671B 〔0324〕作为参考，所有模型均在少量示例下实行评估，且未经过这些任务特意训练。

图示：当规划难度更迭时 Countdown 、 Sudoku 任务结果对比。

显而易见，Dream 表现优于其他同规模基线模型，值得注意是，两种扩散模型均大幅超越两种 AR 模型，时而甚至超越参数规模高出数十倍最新 DeepSeek V3，这背后直觉是，扩散语言模型在搞定具有多重约束或特定意向难题时更为高效。

下面给出三个规划任务中 Qwen 2.5 7B 、 Dream 7B 示例：

图示：展示 Qwen 2.5 7B 、 Dream 7B 在三个规划任务下生成示例。

推理灵活性

与 AR 模型相比，扩散模型在推理时供应更大灵活性，首要体现在以下两个方面：

任意顺序生成：

扩散模型不受顺序〔如从左到右〕生成限制，可以以任意顺序合成输出，这使得能够应对更多样化使用者查询。

补全与填充：

补全：

图示： Dream-7B-instruct 补全示例。

填充：

扩散模型还可以通过调整解码超参数来控制生成顺序，针对不同查询，使用者可以偏好不同生成顺序，比如更接近从左到右生成方法，或是更随机生成方法。

质量与速度权衡

上面例子中展示每一步生成一个令牌情况，可是，通过调整扩散步骤，可以动态地控制每一步生成令牌数量，从而在速度、质量之间实行可调节权衡：步数越少，生成速度越快但效果较粗糙；步数越多，输出质量更高但计算本钱增加，这为推理时计算与质量调整引入一个额外维度〔15, 16, 17〕，这种方法是对传统 AR 框架下链式琢磨技术〔如 o1 、 r1 大语言模型〕有益补充。

通过调整扩散时间步，Dream 性能可以灵活地在速度、质量之间实行调节。

监督式微调

在扩散语言模型后训练过程中，作为初步步骤，咱们采用监督式微调，使 Dream 能够更好地符合使用者指令，具体来说，咱们从 Tulu 3〔18〕、 SmolLM2〔19〕中筛选出 180 万对数据，并对 Dream 实行三轮训练，结果表明，Dream 在性能上有望与自回归模型相匹配。

结论

咱们介绍 Dream，这是一系列高效、可扩展且灵活扩散语言模型，并采用精心设计训练方案，其在通用、数学、编程任务上表现可与同规模顶级自回归模型媲美，同时在规划本事、推理灵活性上非常突出。

本文链接：https://www.19150.com/ai/21669.html