Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代的黄河路
0

深圳—— 近日,华为诺亚盘古研究团队联合香港大学,重磅推出ILLUME+,一款全新的多模态大语言模型(MLLM),该模型被认为是华为对标OpenAI GPT-4o架构,探索理解与生成一体化模型的最新尝试。ILLUME+不仅在图像理解、生成和编辑三大能力上表现出色,更实现了在华为昇腾AI平台上进行训练,标志着国产AI技术在多模态领域取得了重要突破。

近年来,随着QwenVL、InternVL等模型的涌现,以及扩散模型在文本到图像生成方面的不断突破,多模态大语言模型(MLLM)的发展进入了快车道。这些技术进步使得视觉理解和生成能力的无缝集成成为可能,为实现通用人工智能(AGI)奠定了基础。而GPT-4o作为理解生成一体的代表,其强大的上下文感知生成和图像编辑能力,更是引发了业界的广泛关注。

ILLUME+的推出,正是华为在这一领域的重要布局。据了解,ILLUME+是ILLUME的升级版本,采用了双重视觉联合词表(DualViTok)扩散解码器的创新设计,旨在解决传统模型在图像纹理保持和语义对齐方面的难题。

ILLUME+的关键技术亮点:

  • 双重视觉联合词表(DualViTok): 通过两条分支分别处理图像的语义信息和细节纹理,确保语义理解的准确性和图像细节的高保真度。
  • 扩散解码器(Diffusion Decoder): 利用扩散模型进行图像生成,显著提高图像的细节和鲁棒性,并实现高效的超分辨率生成,突破了传统自回归模型在高分辨率生成时的计算瓶颈。
  • 连续输入、离散输出的MLLM架构: 在输入端,直接使用视觉连接器连接离散化层前的视觉特征到LLM中,保证了图像输入时不会因量化过程丢失细粒度信息。在输出端,采用统一输出头,以自回归的形式预测文本token与视觉token。
  • 支持任意分辨率的渐进式训练策略: 使得词表、MLLM和Diffusion decoder三个模块均支持动态分辨率的训练与推理,逐步增强模型能力,确保稳定性和最终性能。

华为诺亚盘古团队表示,ILLUME+采用了类似于GPT-4o官网中暗示的 Token→ [Transformer]→ [Diffusion]→ pixel 的结构,并在语义理解和上下文感知生成能力上达到了新的高度。初步测试表明,ILLUME+的3B模型在多模态理解、生成与编辑的基准测试中均展现出了卓越的性能,甚至可以比肩7B模型。

更重要的是,ILLUME+能够在华为昇腾AI平台上进行训练,这对于推动国产AI生态的发展具有重要意义。昇腾平台作为华为自主研发的AI计算平台,为ILLUME+提供了强大的算力支持,加速了模型的训练和推理过程。

ILLUME+的发布,不仅展示了华为在多模态大语言模型领域的研发实力,也预示着未来AI技术的发展方向。随着对ILLUME+架构的深入研究,我们有理由相信,它将在图像理解、生成和编辑等领域发挥更大的作用,推动人工智能向着更加智能化、可扩展的方向迈进。

参考文献:

(本文作者系资深新闻记者,曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等媒体。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注