深圳—— 近日,华为诺亚盘古研究团队联合香港大学,重磅推出ILLUME+,一款全新的多模态大语言模型(MLLM),该模型被认为是华为对标OpenAI GPT-4o架构,探索理解与生成一体化模型的最新尝试。ILLUME+不仅在图像理解、生成和编辑三大能力上表现出色,更实现了在华为昇腾AI平台上进行训练,标志着国产AI技术在多模态领域取得了重要突破。
近年来,随着QwenVL、InternVL等模型的涌现,以及扩散模型在文本到图像生成方面的不断突破,多模态大语言模型(MLLM)的发展进入了快车道。这些技术进步使得视觉理解和生成能力的无缝集成成为可能,为实现通用人工智能(AGI)奠定了基础。而GPT-4o作为理解生成一体的代表,其强大的上下文感知生成和图像编辑能力,更是引发了业界的广泛关注。
ILLUME+的推出,正是华为在这一领域的重要布局。据了解,ILLUME+是ILLUME的升级版本,采用了双重视觉联合词表(DualViTok)和扩散解码器的创新设计,旨在解决传统模型在图像纹理保持和语义对齐方面的难题。
ILLUME+的关键技术亮点:
- 双重视觉联合词表(DualViTok): 通过两条分支分别处理图像的语义信息和细节纹理,确保语义理解的准确性和图像细节的高保真度。
- 扩散解码器(Diffusion Decoder): 利用扩散模型进行图像生成,显著提高图像的细节和鲁棒性,并实现高效的超分辨率生成,突破了传统自回归模型在高分辨率生成时的计算瓶颈。
- 连续输入、离散输出的MLLM架构: 在输入端,直接使用视觉连接器连接离散化层前的视觉特征到LLM中,保证了图像输入时不会因量化过程丢失细粒度信息。在输出端,采用统一输出头,以自回归的形式预测文本token与视觉token。
- 支持任意分辨率的渐进式训练策略: 使得词表、MLLM和Diffusion decoder三个模块均支持动态分辨率的训练与推理,逐步增强模型能力,确保稳定性和最终性能。
华为诺亚盘古团队表示,ILLUME+采用了类似于GPT-4o官网中暗示的 Token→ [Transformer]→ [Diffusion]→ pixel 的结构,并在语义理解和上下文感知生成能力上达到了新的高度。初步测试表明,ILLUME+的3B模型在多模态理解、生成与编辑的基准测试中均展现出了卓越的性能,甚至可以比肩7B模型。
更重要的是,ILLUME+能够在华为昇腾AI平台上进行训练,这对于推动国产AI生态的发展具有重要意义。昇腾平台作为华为自主研发的AI计算平台,为ILLUME+提供了强大的算力支持,加速了模型的训练和推理过程。
ILLUME+的发布,不仅展示了华为在多模态大语言模型领域的研发实力,也预示着未来AI技术的发展方向。随着对ILLUME+架构的深入研究,我们有理由相信,它将在图像理解、生成和编辑等领域发挥更大的作用,推动人工智能向着更加智能化、可扩展的方向迈进。
参考文献:
- ILLUME+论文:https://arxiv.org/abs/2504.01934
- ILLUME+项目地址:https://illume-unified-mllm.github.io/
(本文作者系资深新闻记者,曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等媒体。)
Views: 0