Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

黄山的油菜花黄山的油菜花
0

杭州/北京 – 在人工智能图像生成领域,浙江大学与阿里巴巴集团的合作再次掀起波澜。双方联合推出的新型实体级可控图像生成框架——EliGen,正以其强大的实体级精确控制能力和多实体图像修复功能,重新定义AI图像编辑的可能性。

EliGen 的核心在于其创新的区域注意力机制,该机制无需额外参数,即可将实体提示和任意形状的空间掩码无缝集成到扩散变换器中。这意味着用户可以对图像中的每个实体进行精细控制,包括位置、形状和语义属性,从而实现前所未有的图像编辑精度。

“EliGen 的出现,标志着AI图像生成技术从整体控制向精细化实体控制的重大飞跃,”一位匿名AI专家评论道,“它不仅提升了图像生成质量,更赋予了用户更大的创作自由。”

技术突破:区域注意力机制与高质量数据集

EliGen 的技术突破主要体现在以下几个方面:

  • 区域注意力机制: 通过扩展扩散变换器(DiT)的注意力模块,EliGen 能够处理任意形状的实体掩码。它将全局提示和局部提示嵌入结合,形成扩展提示序列,并基于空间条件构建联合注意力掩码,从而实现对实体细节的精准修改。
  • 高质量数据集: 为了训练 EliGen,研究团队构建了包含50万个高质量注释样本的数据集。这些样本通过 Flux 生成图像,并使用 Qwen2-VL 视觉语言模型进行全局提示和实体信息标注。高质量的数据集是模型实现鲁棒且准确的实体级操控的关键。
  • 修复融合管道: EliGen 提出了修复融合管道,用于多实体图像修复任务。该管道通过基于区域的噪声融合操作,使 EliGen 能够在单次前向传递中对多个实体进行修复,同时保持非修复区域的质量。

应用场景:无限创意,触手可及

EliGen 的强大功能使其在多个领域具有广泛的应用前景:

  • 虚拟场景生成: EliGen 能够生成高质量的虚拟场景,支持任意形状掩码的实体控制,适用于虚拟现实和游戏开发中的场景设计。
  • 角色与道具设计: 用户可以精确控制角色和道具的位置、形状和风格,为虚拟世界中的角色和道具设计提供强大的工具。
  • 大规模定制数据合成: EliGen 的任意形状掩码控制能力使其能够高效生成大规模定制化的数据,适用于数据增强和机器学习任务。
  • 产品展示与宣传: EliGen 可以生成高质量的产品展示图像,支持精确的实体控制和风格化设计,满足广告和产品设计的需求。

开放生态:与社区模型无缝集成

EliGen 并非孤立存在,它能够与 IP-Adapter、In-Context LoRA 和 MLLM 等开源模型无缝集成,解锁新的创意可能性。例如,结合 IP-Adapter,EliGen 可以根据参考图像的风格生成目标图像,实现风格化的实体控制;与 MLLM 集成后,EliGen 可以基于对话进行图像设计和编辑,用户可以通过文本描述生成或修改图像。

挑战与展望

尽管 EliGen 展现出强大的能力,但其发展仍面临一些挑战。例如,如何进一步提高生成图像的真实感和细节,以及如何降低模型训练和推理的计算成本,都是未来需要解决的问题。

然而,EliGen 的出现无疑为AI图像生成领域注入了新的活力。随着技术的不断发展,我们有理由相信,EliGen 将在图像编辑、虚拟现实、游戏开发等领域发挥越来越重要的作用,为人们带来更加丰富多彩的视觉体验。

项目地址:

参考文献:

  • 浙江大学. (2024). EliGen: 实体级可控图像生成框架.
  • 阿里巴巴集团. (2024). AI图像生成技术研究进展.

(本文作者为一名资深新闻记者,曾供职于多家知名媒体,对人工智能领域的发展趋势有着深入的了解。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注