字节跳动发布Boximator：革新视频对象运动控制，引领AI视频生成新纪元

8 月 28, 2024 #Boximator, #字节, #每日AI快讯

字节跳动的研究团队近日推出了Boximator，这是一个创新的视频合成技术框架，旨在为视频生成提供更加精细和可控的对象运动。 Boximator通过引入硬框和软框两种类型的约束，使得用户能够精确地控制视频中对象的位置、形状和运动路径，从而提升视频合成的质量和可控性。

Boximator的工作原理

Boximator基于视频扩散模型，通过一种新的控制机制来增强视频合成的精细度。在对象选择与框定义阶段，用户可以使用硬框进行精确定位，或者使用软框允许对象在一定区域内自由移动。每个对象都与唯一的对象ID关联，以RGB颜色表示，便于跨帧跟踪。

在训练过程中，Boximator与现有的视频扩散模型集成，如PixelDance和ModelScope。模型的权重被冻结以保留预训练知识，仅训练新增的控制模块。此外，自跟踪技术帮助模型在训练阶段生成与对象ID对应的边界框，简化学习过程。

Boximator的训练分为三个阶段，逐步引入硬框和软框，最终让模型在不显示边界框的情况下保留框-对象关联。在推理阶段，软框被用于生成遵循预期运动轨迹的视频内容。

Boximator通过平均精度（AP）评估运动控制的准确性，使用Fréchet Video Distance（FVD）和CLIP相似性分数（CLIPSIM）来衡量视频质量。这些评估指标确保了生成视频的逼真度和运动控制的精确性。

Boximator的应用前景广泛，尤其在电影和电视制作中，可以方便地添加或修改场景，创造特效。在游戏开发领域，它能加速动态内容的创建，降低开发成本。此外，对于VR和AR内容创作，Boximator能够生成逼真的虚拟环境和交互对象，提升用户体验。

综上所述，Boximator的发布标志着视频生成技术的又一重大进步，为内容创作者提供了更强大的工具，有望在多个行业中推动创新和效率提升。

【source】https://ai-bot.cn/boximator/