1. 首页 > 人工智能

视觉生成范式易主?新架构 BAR 以“比特”破局,离散模型首胜扩散模型

长期以来,视觉生成领域一直被扩散模型(Diffusion Models)所统治,而传统的离散自回归模型(AR)虽然在文本理解上大放异彩,但在图像生成质量上却总显得低人一等。近日,一项名为 BAR(Masked Bit AutoRegressive modeling) 的研究打破了这一僵局。

研究团队指出,离散模型之前的劣势并非因为“离散化”本身,而是受限于**“比特预算”。通过引入全新的掩码位建模(Masked Bit Modeling)**技术,BAR 不仅在生成质量上刷新了世界纪录,更在速度上对传统模型实现了倍杀。

核心突破:让离散模型拥有“无限”胃口

在传统的离散模型(如 VQGAN)中,增加图像细节意味着必须扩大“码本(Codebook)”——这就像是要让模型背诵一个包含数百万单词的字典,会导致内存崩溃和训练困难。

BAR 的天才之处在于其“解耦”策略:

  1. 全局建模:使用一个高效的 Transformer 像写文章一样预测下一个 Token。

  2. 掩码位预测头 (MBM Head):不再直接从巨大的字典里做选择题,而是将 Token 拆解为最基础的二进制位(Bits)。通过类似于“猜数字”的掩码机制,模型分步生成比特位,从而支持理论上无限大的码本规模,且内存消耗呈对数级下降。

战绩斐然:0.99 gFID 刷新纪录

在图像生成界的“奥林匹克”——ImageNet-256 基准测试中,BAR 交出了一份令人惊叹的答卷:

  • 质量登顶:BAR 取得了 0.99 的 gFID 分数,这是目前已知离散和连续生成模型中的最佳成绩,生成的图像精细度已真假难辨。

  • 降维打击:仅拥有 4.15 亿参数的 BAR-B 模型,其表现便超越了参数量大三倍的 xAR 模型,同时也击败了包括 DiT、DDT 在内的顶级扩散模型。

  • 效率狂魔:在采样速度上,BAR 比目前领先的连续模型快了 3.68 倍,且训练收敛速度更快,极大地降低了算力门槛。

行业影响:多模态大模型的“统一语言”

这项研究的意义不仅在于生成几张高清图。由于 BAR 坚持使用离散 Token 路线,它与目前主流的大语言模型(LLM)架构天然兼容。这意味着,未来的多模态大模型(如 GPT-4o 或 Claude 3.5 类模型)可以更自然地统一图像生成与文本理解,而无需在连续与离散两种不同的数学表达间痛苦切换。

“我们证明了离散模型完全有能力在纯视觉表现上超越扩散模型,” 团队在论文中表示,“通往通用多模态智能的路径正变得更加清晰。”


本文链接:https://19150.com/ai/27088.html