浙大阿里联手发布EliGen，图像生成迎来新突破！

杭州/北京 – 在人工智能图像生成领域，浙江大学与阿里巴巴集团的合作再次掀起波澜。双方联合推出的新型实体级可控图像生成框架——EliGen，正以其强大的实体级精确控制能力和多实体图像修复功能，重新定义AI图像编辑的可能性。

EliGen 的核心在于其创新的区域注意力机制，该机制无需额外参数，即可将实体提示和任意形状的空间掩码无缝集成到扩散变换器中。这意味着用户可以对图像中的每个实体进行精细控制，包括位置、形状和语义属性，从而实现前所未有的图像编辑精度。

“EliGen 的出现，标志着AI图像生成技术从整体控制向精细化实体控制的重大飞跃，”一位匿名AI专家评论道，“它不仅提升了图像生成质量，更赋予了用户更大的创作自由。”

技术突破：区域注意力机制与高质量数据集

EliGen 的技术突破主要体现在以下几个方面：

区域注意力机制： 通过扩展扩散变换器（DiT）的注意力模块，EliGen 能够处理任意形状的实体掩码。它将全局提示和局部提示嵌入结合，形成扩展提示序列，并基于空间条件构建联合注意力掩码，从而实现对实体细节的精准修改。
高质量数据集： 为了训练 EliGen，研究团队构建了包含50万个高质量注释样本的数据集。这些样本通过 Flux 生成图像，并使用 Qwen2-VL 视觉语言模型进行全局提示和实体信息标注。高质量的数据集是模型实现鲁棒且准确的实体级操控的关键。
修复融合管道： EliGen 提出了修复融合管道，用于多实体图像修复任务。该管道通过基于区域的噪声融合操作，使 EliGen 能够在单次前向传递中对多个实体进行修复，同时保持非修复区域的质量。

应用场景：无限创意，触手可及

EliGen 的强大功能使其在多个领域具有广泛的应用前景：

虚拟场景生成： EliGen 能够生成高质量的虚拟场景，支持任意形状掩码的实体控制，适用于虚拟现实和游戏开发中的场景设计。
角色与道具设计： 用户可以精确控制角色和道具的位置、形状和风格，为虚拟世界中的角色和道具设计提供强大的工具。
大规模定制数据合成： EliGen 的任意形状掩码控制能力使其能够高效生成大规模定制化的数据，适用于数据增强和机器学习任务。
产品展示与宣传： EliGen 可以生成高质量的产品展示图像，支持精确的实体控制和风格化设计，满足广告和产品设计的需求。

开放生态：与社区模型无缝集成

EliGen 并非孤立存在，它能够与 IP-Adapter、In-Context LoRA 和 MLLM 等开源模型无缝集成，解锁新的创意可能性。例如，结合 IP-Adapter，EliGen 可以根据参考图像的风格生成目标图像，实现风格化的实体控制；与 MLLM 集成后，EliGen 可以基于对话进行图像设计和编辑，用户可以通过文本描述生成或修改图像。

挑战与展望

尽管 EliGen 展现出强大的能力，但其发展仍面临一些挑战。例如，如何进一步提高生成图像的真实感和细节，以及如何降低模型训练和推理的计算成本，都是未来需要解决的问题。

然而，EliGen 的出现无疑为AI图像生成领域注入了新的活力。随着技术的不断发展，我们有理由相信，EliGen 将在图像编辑、虚拟现实、游戏开发等领域发挥越来越重要的作用，为人们带来更加丰富多彩的视觉体验。

项目地址：

arXiv技术论文：https://arxiv.org/pdf/2501.01097 （请注意，该链接为占位符，实际论文链接可能有所不同）

参考文献：

浙江大学. (2024). EliGen: 实体级可控图像生成框架.
阿里巴巴集团. (2024). AI图像生成技术研究进展.

（本文作者为一名资深新闻记者，曾供职于多家知名媒体，对人工智能领域的发展趋势有着深入的了解。）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

浙大阿里联手发布EliGen，图像生成迎来新突破！

作者智能小编

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐