浙大阿里联手发布EliGen，实体级图像生成新突破！

杭州讯 – 浙江大学与阿里巴巴集团近日联合发布了一项突破性的AI技术成果——EliGen，一种新型的实体级可控图像生成框架。该框架通过引入创新的区域注意力机制，实现了对图像中特定实体的精准控制，为AI图像生成领域带来了革命性的进步。

在人工智能技术日新月异的今天，图像生成技术已广泛应用于虚拟现实、游戏开发、广告设计等多个领域。然而，现有技术在对图像中的特定元素进行精确控制方面仍存在诸多挑战。EliGen的问世，无疑为解决这一难题提供了全新的思路。

EliGen是什么？

EliGen是一种基于扩散变换器（DiT）的图像生成框架，其核心在于引入了区域注意力机制。这一机制允许用户通过简单的空间掩码，指定图像中需要操控的特定实体，并对其位置、形状、语义属性进行精确控制。与传统方法相比，EliGen无需额外的参数，即可将实体提示和任意形状的空间掩码无缝集成到生成过程中，极大地简化了操作流程，提高了生成效率。

技术原理与创新

EliGen的技术突破主要体现在以下几个方面：

区域注意力机制： 通过扩展DiT的注意力模块，EliGen能够处理任意形状的实体掩码，实现对图像局部区域的精细化控制。该机制将全局提示和局部提示相结合，构建联合注意力掩码，从而在训练前实现对实体细节的修改。
高质量数据集： 为了训练EliGen，研究团队构建了一个包含50万个高质量注释样本的数据集。这些样本通过Flux生成图像，并由Qwen2-VL视觉语言模型进行全局提示和实体信息的标注，确保了模型在实体级操控方面的鲁棒性和准确性。
修复融合管道： EliGen提出了修复融合管道，用于多实体图像修复任务。通过基于区域的噪声融合操作，该管道能够在单次前向传递中对多个实体进行修复，同时保持非修复区域的质量。
与社区模型集成： EliGen可以与IP-Adapter、In-Context LoRA和MLLM等开源模型无缝集成，解锁新的创意可能性，例如风格化实体控制、实体转移以及基于对话的图像设计与编辑。

应用前景广阔

EliGen的强大功能使其在多个领域具有广泛的应用前景：

虚拟场景生成： EliGen能生成高质量的虚拟场景，支持任意形状掩码的实体控制，适用于虚拟现实和游戏开发中的场景设计。
角色与道具设计： 用户可以精确控制角色和道具的位置、形状和风格，为虚拟世界中的角色和道具设计提供强大的工具。
大规模定制数据合成： EliGen的任意形状掩码控制能力使其能够高效生成大规模定制化的数据，适用于数据增强和机器学习任务。
产品展示与宣传： EliGen可以生成高质量的产品展示图像，支持精确的实体控制和风格化设计，满足广告和产品设计的需求。

专家点评

“EliGen的发布是AI图像生成领域的一项重要突破，”一位不愿透露姓名的AI专家表示，“它不仅解决了现有技术在实体控制方面的难题，还为未来的研究方向提供了新的思路。我们期待EliGen能够在更多领域得到应用，为人类的创作和生活带来更多便利。”

未来展望

EliGen的成功发布，标志着AI图像生成技术进入了一个新的阶段。随着技术的不断发展和完善，我们有理由相信，EliGen将在未来的图像生成领域发挥更加重要的作用，为各行各业带来更多的创新和机遇。

参考文献

arXiv技术论文: https://arxiv.org/pdf/2501.01097

关键词： EliGen，浙江大学，阿里巴巴，AI图像生成，实体级控制，区域注意力机制，人工智能

（本报道由[你的名字]，新华社/人民日报/中央电视台/华尔街日报/纽约时报特约记者撰写）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

浙大阿里联手发布EliGen，实体级图像生成新突破！

作者智能小编

相关文章

腾讯AI“元宝”杀入微信，13亿用户社交版图重塑？

2025人工智能：颠覆与新生

北大团队突破！单目长视频实时重建高质量3D点云

发表回复取消回复

为您推荐