华为ILLUME+：类GPT-4o架构曝光，昇腾加持！

深圳—— 近日，华为诺亚盘古研究团队联合香港大学，重磅推出ILLUME+，一款全新的多模态大语言模型（MLLM），该模型被认为是华为对标OpenAI GPT-4o架构，探索理解与生成一体化模型的最新尝试。ILLUME+不仅在图像理解、生成和编辑三大能力上表现出色，更实现了在华为昇腾AI平台上进行训练，标志着国产AI技术在多模态领域取得了重要突破。

近年来，随着QwenVL、InternVL等模型的涌现，以及扩散模型在文本到图像生成方面的不断突破，多模态大语言模型（MLLM）的发展进入了快车道。这些技术进步使得视觉理解和生成能力的无缝集成成为可能，为实现通用人工智能（AGI）奠定了基础。而GPT-4o作为理解生成一体的代表，其强大的上下文感知生成和图像编辑能力，更是引发了业界的广泛关注。

ILLUME+的推出，正是华为在这一领域的重要布局。据了解，ILLUME+是ILLUME的升级版本，采用了双重视觉联合词表（DualViTok）和扩散解码器的创新设计，旨在解决传统模型在图像纹理保持和语义对齐方面的难题。

ILLUME+的关键技术亮点：

双重视觉联合词表（DualViTok）： 通过两条分支分别处理图像的语义信息和细节纹理，确保语义理解的准确性和图像细节的高保真度。
扩散解码器（Diffusion Decoder）： 利用扩散模型进行图像生成，显著提高图像的细节和鲁棒性，并实现高效的超分辨率生成，突破了传统自回归模型在高分辨率生成时的计算瓶颈。
连续输入、离散输出的MLLM架构： 在输入端，直接使用视觉连接器连接离散化层前的视觉特征到LLM中，保证了图像输入时不会因量化过程丢失细粒度信息。在输出端，采用统一输出头，以自回归的形式预测文本token与视觉token。
支持任意分辨率的渐进式训练策略： 使得词表、MLLM和Diffusion decoder三个模块均支持动态分辨率的训练与推理，逐步增强模型能力，确保稳定性和最终性能。

华为诺亚盘古团队表示，ILLUME+采用了类似于GPT-4o官网中暗示的 Token→ [Transformer]→ [Diffusion]→ pixel 的结构，并在语义理解和上下文感知生成能力上达到了新的高度。初步测试表明，ILLUME+的3B模型在多模态理解、生成与编辑的基准测试中均展现出了卓越的性能，甚至可以比肩7B模型。

更重要的是，ILLUME+能够在华为昇腾AI平台上进行训练，这对于推动国产AI生态的发展具有重要意义。昇腾平台作为华为自主研发的AI计算平台，为ILLUME+提供了强大的算力支持，加速了模型的训练和推理过程。

ILLUME+的发布，不仅展示了华为在多模态大语言模型领域的研发实力，也预示着未来AI技术的发展方向。随着对ILLUME+架构的深入研究，我们有理由相信，它将在图像理解、生成和编辑等领域发挥更大的作用，推动人工智能向着更加智能化、可扩展的方向迈进。

参考文献：

ILLUME+论文：https://arxiv.org/abs/2504.01934
ILLUME+项目地址：https://illume-unified-mllm.github.io/

（本文作者系资深新闻记者，曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等媒体。）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

华为ILLUME+：类GPT-4o架构曝光，昇腾加持！

作者智能小编

相关文章

Jetour Launches Extended Traveler & Shanhai T2 SUVs Starting at ¥179900

蔚小理告别依赖？英伟达或失中国市场

捷途旅行者&山海T2加长版上市：17.99万元起

发表回复取消回复

为您推荐