OmniGen横空出世：图像生成新纪元

作者智能小编

10 月 31, 2024 #机器之心, #模型简化, #生成

大型语言模型（LLM）的出现彻底改变了人机交互，将各种语言生成任务统一在一个框架内。然而，在图像生成领域，能够在单一框架内处理各种任务的统一模型仍然处于探索阶段。近日，智源研究院推出了新的扩散模型架构 OmniGen，一种用于统一图像生成的多模态模型，它在简化工作流程的同时，为图像生成带来了革命性的变化。

OmniGen 的核心优势在于其统一性和简单性。

统一性： OmniGen 天然地支持各种图像生成任务，包括文生图、图像编辑、主题驱动生成和视觉条件生成等。此外，OmniGen 还能处理经典的计算机视觉任务，将其转换为图像生成任务。
简单性： OmniGen 的架构高度简化，用户可以通过简单的指令完成复杂的任务，而无需冗长的处理步骤和额外的模块，例如 ControlNet 或 IP-Adapter。这大大简化了工作流程，使图像生成变得更加便捷。

除了统一性和简单性，OmniGen 还具备知识迁移能力。 通过统一格式的学习，OmniGen 有效地跨不同任务迁移知识，应对未见过的任务和领域，并展示出新颖的功能。例如，OmniGen 可以根据多张照片中的实体生成新图像，这在以往的模型中难以实现。

OmniGen 的能力展示：