2025年3月29日 – 近日,图像编辑领域迎来一项突破性进展。Adobe联合香港大学推出了一种名为ObjectMover的新型图像编辑模型,该模型利用视频扩散模型(Video Diffusion Model)的强大先验知识,并创新性地使用虚幻引擎(Unreal Engine)合成数据进行训练,实现了单张图像内物体的真实感移动,为图像编辑带来了前所未有的逼真效果。
这项研究由香港大学三年级博士生余鑫担任第一作者,香港大学齐晓娟教授担任通讯作者。余鑫长期致力于生成模型及其在图像和3D中的应用研究,并在计算机视觉和图形学顶级会议期刊上发表了数十篇论文。该研究成果是余鑫在Adobe Research实习期间完成的。
现有图像编辑技术的瓶颈
近年来,随着扩散模型等图像生成与编辑技术的快速发展,图像编辑任务取得了显著进展。然而,现有技术在实现图像中物体的移动、插入和移除时,仍面临诸多挑战。例如,物体在新位置的光照与阴影难以与环境真实协调,物体身份特征容易失真,以及物体移动产生的空缺区域难以自然地补全。这些问题在复杂的真实场景中尤为突出。
ObjectMover:突破性解决方案
为了解决上述难题,Adobe和香港大学联合研发的ObjectMover模型应运而生。该模型的核心创新在于:
- 结合视频扩散模型: ObjectMover首次将视频扩散模型应用于单帧图像编辑任务。与传统方法微调单帧图像扩散模型不同,ObjectMover充分利用了视频模型预训练时习得的物理规律及物体对应关系,从而在图像编辑任务中实现了精确的光影同步与身份特征保持。
- 虚幻引擎合成数据训练: 真实环境中难以获取大规模精准标注的物体移动数据。ObjectMover创新性地利用虚幻引擎生成了丰富、高质量的合成数据集,涵盖了复杂的光照环境、多样的物体类型及真实的物体与环境交互。这有效提高了模型在真实图像编辑任务中的泛化能力。
ObjectMover的功能与优势
ObjectMover能够统一处理图像编辑中的三个常见任务:物体移动、物体删除与物体插入。与以往方法不同的是,用户只需使用边界框(Bounding Box)指定待编辑的物体及目标位置,无需额外标注(如文本指令或阴影标注),模型即可自动同步处理相关的物理效果(例如阴影、反射等)。
- 真实感的光影同步调整: 移动物体时,ObjectMover能够自动同步调整光照和阴影,使之与环境协调一致。例如,移动水中人物时,模型能够自动同步调整水中倒影,并识别并调整人物身上的太阳光,使太阳光准确地照射在水面。
- 理解物体材质特性: ObjectMover能够有效理解物体的材质特性。例如,移动透明酒杯时,模型不会简单地复制酒杯原位置上透视看到的背景内容,而是精确地去除背景,仅保留酒杯自身的透明材质属性。当酒杯被移动至新位置时,模型又能准确地透过酒杯重新生成与目标位置环境一致的新背景内容。
- 多任务处理能力: 得益于统一的条件输入框架和多任务训练机制,ObjectMover还能有效完成物体删除与插入任务。在删除任务中,模型能够真实地填充被移除物体的背景,而非生成不相干的新物体,并准确地移除光影;而在插入任务中,模型能精准保持被插入物体的身份特征,自动生成与环境一致的光影效果。
实验结果与未来展望
实验结果表明,ObjectMover在物体移动、删除和插入三个任务中均取得了明显优于现有方法的图像质量与真实感。
ObjectMover的成功,标志着图像编辑技术迈向了一个新的阶段。该模型不仅能够实现物体位置的简单变化,更表现出显著的物理规律理解能力,为图像编辑带来了更加逼真和自然的体验。随着技术的不断发展,ObjectMover有望在图像编辑、电影特效、游戏开发等领域得到广泛应用,为人们的创作带来更多可能性。
参考文献:
- ObjectMover: Generative Object Movement with Video Prior. https://arxiv.org/abs/2503.08037
- ObjectMover项目主页: https://xinyu-andy.github.io/ObjMover
Views: 0