Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京 – 人工智能领域再添新星。近日,中国人民大学高瓴AI学院李崇轩、文继荣教授团队联合蚂蚁集团,共同推出了新型大型语言模型LLaDA (Large Language Diffusion with mAsking)。与目前主流的自回归模型(ARM)不同,LLaDA基于扩散模型框架,为大语言模型的发展提供了新的思路。

LLaDA:扩散模型的新尝试

LLaDA的核心在于其独特的扩散模型框架。该框架通过正向掩蔽过程和反向恢复过程建模文本分布,用Transformer作为掩蔽预测器,并通过优化似然下界来实现生成任务。简单来说,正向掩蔽过程逐渐将文本中的标记“遮盖”,而反向恢复过程则逐步还原这些被遮盖的标记。这种非自回归的文本生成方式,突破了传统自回归模型顺序生成的限制,为模型捕捉双向依赖关系提供了可能。

据了解,LLaDA在预训练阶段使用了高达2.3万亿标记的数据,并通过监督微调(SFT)来提升指令遵循能力。项目团队表示,LLaDA在可扩展性、上下文学习和指令遵循等方面表现出色,尤其是在反转推理任务中,有望解决传统ARM的“反转诅咒”问题。

技术亮点与功能

LLaDA的技术原理主要体现在以下几个方面:

  • 扩散模型框架: 采用正向掩蔽和反向恢复过程,支持非自回归文本生成。
  • 掩蔽预测器: 使用Transformer架构,捕捉双向依赖关系。
  • 优化似然下界: 确保模型在大规模数据和模型参数下的可扩展性和生成能力。
  • 预训练与监督微调: 结合无监督学习和有监督学习,提升模型性能。
  • 灵活的采样策略: 支持多种采样策略,平衡生成质量和效率。

基于以上技术,LLaDA展现出以下主要功能:

  • 高效生成文本: 生成高质量、连贯的文本内容。
  • 强大的上下文学习能力: 根据上下文快速适应新任务。
  • 指令遵循能力: 更好地理解和执行人类指令。
  • 双向推理能力: 在正向和反向推理任务中均表现出色。
  • 多领域适应性: 在语言理解、数学、编程、中文理解等多个领域表现出色。

应用前景广阔

LLaDA的潜在应用场景十分广泛,包括:

  • 多轮对话: 智能客服、聊天机器人等。
  • 文本生成: 写作辅助、创意文案等。
  • 代码生成: 帮助开发者生成代码片段或修复错误。
  • 数学推理: 解决数学问题,提供解题步骤。
  • 语言翻译: 实现多语言翻译。

挑战与展望

尽管LLaDA展现出巨大的潜力,但作为一种新型的大语言模型,它仍然面临着一些挑战。例如,扩散模型在计算效率方面可能不如自回归模型,如何在保证生成质量的同时提高效率,是未来需要重点关注的问题。

然而,LLaDA的出现无疑为大语言模型的发展开辟了一条新的道路。其8B参数版本在多项基准测试中与LLaMA3等强模型相当,也证明了扩散模型作为自回归模型替代方案的巨大潜力。随着研究的深入和技术的不断完善,LLaDA有望在未来的人工智能领域发挥更加重要的作用。

项目信息

参考文献

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注