shanghaishanghai

阿里巴巴等机构开源AI图像编辑融合框架MimicBrush,简化图像编辑流程

北京时间2024年6月28日 – 阿里巴巴、香港大学和蚂蚁集团的研究人员联合推出了一款名为MimicBrush的AI图像编辑融合框架,该框架能够通过简单的操作,实现对图像的精准编辑,并于近日正式开源。

MimicBrush允许用户在源图像上指定需要编辑的区域,并提供一张包含期望效果的参考图像。该框架能够自动识别和模仿参考图像中的视觉元素,将其应用到源图像的相应区域,支持如对象替换、样式转换、纹理调整等图像编辑操作。

MimicBrush的功能特色:

  • 参考图像模仿: 用户只需圈定希望编辑的区域,并提供一张包含所需样式或对象的参考图像,MimicBrush便能分析并模仿参考图像中的特定视觉特征,将这些特征无缝应用到源图像的指定区域,实现风格或内容的一致性。
  • 自动区域识别: MimicBrush利用先进的图像识别技术,能够自动检测和确定编辑区域。用户无需手动绘制遮罩或进行繁琐的选择,简化了编辑前的准备工作。
  • 一键编辑应用: 用户只需点击一个按钮,即可启动编辑过程。MimicBrush将自动执行从区域识别到特征模仿的整个编辑流程,编辑操作变得快速且用户友好。
  • 多样化编辑效果: MimicBrush支持多种编辑效果,包括对象替换(如将一种物体替换为另一种物体)、样式转换(如改变服装的图案或颜色)、纹理调整(如将一种材质的纹理应用到另一物体表面)等。
  • 实时反馈: 在编辑过程中,MimicBrush提供即时的预览功能,用户可以实时看到编辑效果,及时进行调整和优化,确保了编辑结果更符合用户的预期和需求。
  • 灵活性和适应性: MimicBrush能够适应不同的图像内容,包括复杂场景和多样风格,提供多种编辑选项,使用户能够根据个人喜好进行个性化调整。

MimicBrush的技术原理:

MimicBrush采用了自我监督学习、双扩散UNets结构和注意力机制等技术,能够有效地实现图像编辑。

  • 自我监督学习: MimicBrush通过自我监督的方式进行训练,利用视频帧之间的自然一致性和视觉变化。在训练过程中,系统随机选择视频中的两帧,一帧作为源图像,另一帧作为参考图像,学习如何使用参考图像的信息来补全源图像中被遮罩的部分。
  • 双扩散UNets结构: MimicBrush采用了两个UNet网络,即“imitative U-Net”和“reference U-Net”。这两个网络分别处理源图像和参考图像,并通过共享注意力层中的键(keys)和值(values)进行信息交互,帮助系统定位参考图像中与源图像编辑区域相对应的部分。
  • 注意力机制: 在MimicBrush中,参考U-Net提取的注意力键和值被注入到模仿U-Net中,这种机制有助于模仿U-Net更准确地完成遮罩区域的生成,确保生成的区域与源图像的背景和其他元素和谐地融合。

MimicBrush的应用场景:

MimicBrush在产品定制、角色设计、特效制作等场景中具有广泛的应用潜力。例如,设计师可以使用MimicBrush快速修改产品的外观、颜色和材质,为客户提供个性化的定制服务;游戏开发者可以使用MimicBrush快速创建角色模型和场景,提高游戏开发效率;电影特效师可以使用MimicBrush快速生成逼真的特效,提升电影的视觉效果。

MimicBrush的开源意义:

MimicBrush的开源为图像编辑领域带来了新的可能性,为研究人员和开发者提供了更便捷的工具和技术,推动了AI图像编辑技术的发展。

MimicBrush的官方入口:

  • 官方项目主页:https://xavierchen34.github.io/MimicBrush-Page/
  • GitHub代码库:https://github.com/ali-vilab/MimicBrush
  • Hugging Face Demo:https://huggingface.co/spaces/xichenhku/MimicBrush
  • ModelScope模型:https://www.modelscope.cn/models/xichen/MimicBrush/summary
  • arXiv技术论文:https://arxiv.org/abs/2406.07547

MimicBrush的出现,标志着AI图像编辑技术迈上了新的台阶,未来将会有更多基于AI的图像编辑工具和技术涌现,为人们的生活和工作带来更多便利和可能性。

【source】https://ai-bot.cn/mimicbrush/

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注