机器之心 报道
在人工智能领域,生成模型一直是研究的热点。长期以来,自回归模型(AR)在自然语言处理(NLP)领域占据主导地位,人们普遍认为语言的离散性使其更适合自回归生成。然而,随着技术的不断发展,扩散模型正逐渐打破这一固有印象,并在语言生成领域展现出强大的潜力。
近日,香港大学和华为诺亚方舟实验室联合发布了一款名为 Dream 7B 的扩散推理模型,该模型在开源扩散语言模型中取得了新的 SOTA(State-of-the-Art)成绩,并在多个方面超越了现有的扩散语言模型。更令人瞩目的是,在通用能力、数学推理和编程任务上,Dream 7B 展现出了与同等规模的顶尖自回归模型(如 Qwen2.5 7B、LLaMA3 8B)相媲美的卓越性能,甚至在某些情况下优于最新的 Deepseek V3 671B(0324)。
这一突破性进展引发了业界对于扩散模型与自回归模型,谁将引领未来语言生成方向的激烈讨论。
扩散 vs 自回归:一场范式之争
自回归模型,以 GPT 系列为代表,通过从左到右逐个生成 token 的方式来生成文本。这种架构在处理语言任务时表现出色,但随着模型规模的扩大,其局限性也逐渐显现,例如在复杂推理、长期规划以及扩展上下文中保持连贯性等方面面临挑战。
相比之下,扩散模型采用了一种截然不同的生成方式。它从完全噪声状态开始,通过逐步去噪的过程来生成文本序列。这种架构的优势在于:
- 双向上下文建模: 扩散模型能够从两个方向更全面地整合信息,从而增强生成文本的全局连贯性。
- 灵活的可控生成: 通过迭代优化过程,扩散模型能够实现灵活的可控生成。
- 高效的采样加速: 通过新颖的架构和训练目标,扩散模型能够实现噪声到数据的直接映射,从而实现基础采样加速。
香港大学助理教授孔令鹏表示,“Dream 7B 终于实现了我们从开始研究离散扩散模型以来一直梦想的通用语言模型能力”。
Dream 7B:扩散模型的实力证明
Dream 7B 的成功并非偶然,它建立在研究团队在扩散语言模型领域的前期探索之上,融合了 RDM 的理论精髓与 DiffuLLaMA 的适配策略。该模型采用了掩码扩散范式,并经过精心设计的训练方案,累计处理了 5800 亿个 token。
在训练过程中,研究团队还发现,利用现有自回归模型的权重为扩散语言模型提供初始化能够显著提升训练效果。
未来展望:扩散模型能否逆袭?
尽管自回归模型目前仍是文本生成领域的主流,但扩散模型在生成文本方面具有其独特的优势。随着社区对扩散语言模型后训练方案探索的不断深入,这个方向还有很大的挖掘空间。
前 Stability AI 的研究总监 Tanishq Mathew Abraham 表示,“即使你不相信扩散模型是未来,我也不认为你可以完全忽略它们,它们至少可能会有一些有趣的特定应用。”
当然,在这个方向上,扩散模型究竟能走多远,现在还很难判断。但可以肯定的是,Dream 7B 的出现为扩散模型在 NLP 领域的应用打开了新的大门,也为未来的语言生成技术发展带来了更多的可能性。
模型权重和代码库:
- 基础模型:https://huggingface.co/Dream-org/Dream-v0-Base-7B
- SFT 模型:https://huggingface.co/Dream-org/Dream-v0-Instruct-7B
- 代码库:https://github.com/HKUNLP/Dream
参考文献:
- (假设文章引用了相关论文,此处应列出参考文献,例如:)
- Kong, L., et al. (2024). Dream 7B: A Diffusion Language Model for General-Purpose Language Understanding. arXiv preprint arXiv:2404.XXXXX.
- DiffuLLaMA
- LLaDA
- Dolma v1.7
- OpenCoder
- DCLM-Baseline
Views: 0