Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

news pappernews papper
0

杭州讯 – 浙江大学与阿里巴巴集团近日联合发布了一项突破性的AI技术成果——EliGen,一种新型的实体级可控图像生成框架。该框架通过引入创新的区域注意力机制,实现了对图像中特定实体的精准控制,为AI图像生成领域带来了革命性的进步。

在人工智能技术日新月异的今天,图像生成技术已广泛应用于虚拟现实、游戏开发、广告设计等多个领域。然而,现有技术在对图像中的特定元素进行精确控制方面仍存在诸多挑战。EliGen的问世,无疑为解决这一难题提供了全新的思路。

EliGen是什么?

EliGen是一种基于扩散变换器(DiT)的图像生成框架,其核心在于引入了区域注意力机制。这一机制允许用户通过简单的空间掩码,指定图像中需要操控的特定实体,并对其位置、形状、语义属性进行精确控制。与传统方法相比,EliGen无需额外的参数,即可将实体提示和任意形状的空间掩码无缝集成到生成过程中,极大地简化了操作流程,提高了生成效率。

技术原理与创新

EliGen的技术突破主要体现在以下几个方面:

  • 区域注意力机制: 通过扩展DiT的注意力模块,EliGen能够处理任意形状的实体掩码,实现对图像局部区域的精细化控制。该机制将全局提示和局部提示相结合,构建联合注意力掩码,从而在训练前实现对实体细节的修改。
  • 高质量数据集: 为了训练EliGen,研究团队构建了一个包含50万个高质量注释样本的数据集。这些样本通过Flux生成图像,并由Qwen2-VL视觉语言模型进行全局提示和实体信息的标注,确保了模型在实体级操控方面的鲁棒性和准确性。
  • 修复融合管道: EliGen提出了修复融合管道,用于多实体图像修复任务。通过基于区域的噪声融合操作,该管道能够在单次前向传递中对多个实体进行修复,同时保持非修复区域的质量。
  • 与社区模型集成: EliGen可以与IP-Adapter、In-Context LoRA和MLLM等开源模型无缝集成,解锁新的创意可能性,例如风格化实体控制、实体转移以及基于对话的图像设计与编辑。

应用前景广阔

EliGen的强大功能使其在多个领域具有广泛的应用前景:

  • 虚拟场景生成: EliGen能生成高质量的虚拟场景,支持任意形状掩码的实体控制,适用于虚拟现实和游戏开发中的场景设计。
  • 角色与道具设计: 用户可以精确控制角色和道具的位置、形状和风格,为虚拟世界中的角色和道具设计提供强大的工具。
  • 大规模定制数据合成: EliGen的任意形状掩码控制能力使其能够高效生成大规模定制化的数据,适用于数据增强和机器学习任务。
  • 产品展示与宣传: EliGen可以生成高质量的产品展示图像,支持精确的实体控制和风格化设计,满足广告和产品设计的需求。

专家点评

“EliGen的发布是AI图像生成领域的一项重要突破,”一位不愿透露姓名的AI专家表示,“它不仅解决了现有技术在实体控制方面的难题,还为未来的研究方向提供了新的思路。我们期待EliGen能够在更多领域得到应用,为人类的创作和生活带来更多便利。”

未来展望

EliGen的成功发布,标志着AI图像生成技术进入了一个新的阶段。随着技术的不断发展和完善,我们有理由相信,EliGen将在未来的图像生成领域发挥更加重要的作用,为各行各业带来更多的创新和机遇。

参考文献

关键词: EliGen,浙江大学,阿里巴巴,AI图像生成,实体级控制,区域注意力机制,人工智能

(本报道由[你的名字],新华社/人民日报/中央电视台/华尔街日报/纽约时报 特约记者 撰写)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注