北京 – 阿里巴巴通义实验室近日发布了其最新的图像生成与编辑模型ACE++,标志着AI在图像处理领域又迈出了坚实的一步。这款升级版模型凭借其指令化和上下文感知的内容填充技术,旨在为用户提供高质量的图像创作和编辑体验。
ACE++并非简单的图像生成工具,而是一个集成了多种模型的综合平台,能够满足用户在不同场景下的需求。例如,ACE++ Portrait专注于生成一致的人物肖像,确保面部特征和风格的统一;ACE++ Subject则擅长在不同背景中保持主题的一致性,让用户能够轻松地将特定物体或标志融入各种场景。更令人期待的是ACE++ LocalEditing,它允许用户重新绘制图像的特定区域,同时巧妙地保留原有结构,为局部编辑提供了前所未有的灵活性。据悉,即将推出的ACE++ Fully将支持更多指令化编辑和参考生成任务,进一步拓展了其应用范围。
ACE++的核心功能:精准、高效、多任务
ACE++的核心功能主要体现在以下几个方面:
- 图像生成: 通过ACE++ Portrait,用户可以根据指令生成高质量的人物肖像,保持面部特征和风格的一致性。ACE++ Subject则可以将特定主题的图像放置在不同的场景中,例如将品牌标志放置在不同的背景中,为营销和设计提供便利。
- 图像编辑: ACE++ LocalEditing支持对图像的特定区域进行重新绘制或修改,同时保留原有图像的结构和风格。用户可以修改人物的服装、背景或特定物体的外观,实现个性化的定制。此外,用户还可以通过指令对图像进行风格化处理,将普通照片转换为艺术风格或特定的视觉效果。
- 上下文感知内容填充: ACE++能够根据图像的上下文信息,智能地填充缺失或需要修改的部分,确保生成的图像在视觉上自然且一致。
- 指令驱动的交互: 用户可以通过简单的自然语言指令来控制图像的生成和编辑过程,例如指定生成特定风格的人物肖像,或者要求在图像中添加、删除或修改某个元素。
- 多任务支持: ACE++支持多种图像处理任务,包括虚拟试穿、标志粘贴、照片修复、电影海报编辑等。
技术解析:LCU++与两阶段训练
ACE++的技术突破主要体现在其改进的长上下文条件单元(LCU++)和两阶段训练方案上。
传统的图像生成模型通常采用序列拼接的方式处理输入图像、掩码和噪声。而ACE++提出了LCU++输入范式,通过将这些信息在通道维度上进行拼接,形成条件单元(CU)特征图。这种改进减少了上下文感知框架的干扰,降低了模型适应成本。LCU++的输入格式可以扩展到无参考图像(0-ref)任务和多参考图像(N-ref)任务,增强了模型对不同任务的适应性。
在训练方面,ACE++采用了两阶段训练方案。第一阶段,模型基于文本到图像模型进行预训练,专注于0-ref任务,基于基础模型的生成能力快速适应条件输入。第二阶段,模型在所有数据上进行微调,支持通用指令,同时优化模型对输入参考图像的重建能力和目标图像的生成能力。
ACE++的整体架构整合了LCU++范式,通过x-embed层将CU特征图映射为序列化标记,作为Transformer层的输入。模型训练目标是最小化预测速度与真实速度之间的均方误差,赋予模型上下文感知的生成能力。
应用前景:无限可能
ACE++的应用场景十分广泛,涵盖了多个领域:
- 虚拟试穿: 通过ACE++ Subject模型,用户可以将服装或配饰放置在不同的人物模型上,实现虚拟试穿效果。这为电商平台提供了个性化的试穿体验,也为设计师快速评估设计效果提供了便利。
- 品牌标志粘贴: 在产品设计或广告制作中,ACE++ Subject模型可以将品牌标志或设计元素嵌入到不同的背景或物品上,提升品牌形象。
- 照片编辑: ACE++支持对现有照片进行多种编辑操作,包括风格转换、元素添加或删除、背景替换等,满足用户个性化的需求。
- 电影海报编辑: 利用ACE++ Portrait模型,可以对电影海报中的人物肖像进行风格化处理或修改,调整人物的表情、服装风格,或为海报添加特定的艺术效果,满足电影宣传的多样化需求。
- 局部编辑: ACE++ LocalEditing模型能对图像的特定区域进行重新绘制或修改,同时保留原有图像的结构和风格。这可以用于修复照片中的划痕、污渍,或对人物的某个部位进行美化。
- 艺术创作与设计: 艺术家和设计师可以用ACE++的生成和编辑功能,快速实现创意构想。根据文字描述生成初始设计草图,或对现有设计进行风格化修改,提升创作效率。
展望未来
ACE++的发布,不仅是阿里巴巴在AI图像处理领域的一次重要突破,也为整个行业带来了新的可能性。随着技术的不断发展和应用场景的不断拓展,ACE++有望在未来改变人们创作和编辑图像的方式,为各行各业带来更高效、更便捷的解决方案。
参考资料:
- ACE++项目官网: https://ali-vilab.github.io/ACE_plus
- ACE++ Github仓库: https://github.com/ali-vilab/ACE_plus
- ACE++ HuggingFace模型库: https://huggingface.co/ali-vilab/ACE_Plus
- ACE++ arXiv技术论文: https://arxiv.org/pdf/2501.02487
(完)
Views: 0