字节跳动的研究团队近日推出了Boximator,这是一个创新的视频合成技术框架,旨在为视频生成提供更加精细和可控的对象运动。 Boximator通过引入硬框和软框两种类型的约束,使得用户能够精确地控制视频中对象的位置、形状和运动路径,从而提升视频合成的质量和可控性。
Boximator的工作原理
Boximator基于视频扩散模型,通过一种新的控制机制来增强视频合成的精细度。在对象选择与框定义阶段,用户可以使用硬框进行精确定位,或者使用软框允许对象在一定区域内自由移动。每个对象都与唯一的对象ID关联,以RGB颜色表示,便于跨帧跟踪。
在训练过程中,Boximator与现有的视频扩散模型集成,如PixelDance和ModelScope。模型的权重被冻结以保留预训练知识,仅训练新增的控制模块。此外,自跟踪技术帮助模型在训练阶段生成与对象ID对应的边界框,简化学习过程。
Boximator的训练分为三个阶段,逐步引入硬框和软框,最终让模型在不显示边界框的情况下保留框-对象关联。在推理阶段,软框被用于生成遵循预期运动轨迹的视频内容。
运动控制与质量评估
Boximator通过平均精度(AP)评估运动控制的准确性,使用Fréchet Video Distance(FVD)和CLIP相似性分数(CLIPSIM)来衡量视频质量。这些评估指标确保了生成视频的逼真度和运动控制的精确性。
应用场景
Boximator的应用前景广泛,尤其在电影和电视制作中,可以方便地添加或修改场景,创造特效。在游戏开发领域,它能加速动态内容的创建,降低开发成本。此外,对于VR和AR内容创作,Boximator能够生成逼真的虚拟环境和交互对象,提升用户体验。
综上所述,Boximator的发布标志着视频生成技术的又一重大进步,为内容创作者提供了更强大的工具,有望在多个行业中推动创新和效率提升。
【source】https://ai-bot.cn/boximator/
Views: 1