南大蚂蚁联手开源：3D轨迹控制视频合成新突破

引言

在人工智能（AI）技术日新月异的今天，视频生成领域正迎来一场新的变革。近日，南京大学联合蚂蚁集团、浙江大学等机构，共同开源了一项名为 LeviTor 的创新技术，该技术专注于3D目标轨迹控制的视频合成。LeviTor 的出现，不仅为视频创作带来了前所未有的灵活性和控制力，也为电影特效、游戏动画、虚拟现实等领域开辟了更广阔的应用前景。这项技术的开源，无疑将加速AI视频生成技术的普及和发展，为创意产业注入新的活力。

背景：视频合成技术的挑战与机遇

长期以来，视频合成技术一直面临着诸多挑战。传统的视频编辑方法往往需要专业人员耗费大量时间和精力，才能实现复杂的特效和动画。而基于AI的视频生成技术虽然在快速发展，但在精确控制视频中物体的运动轨迹方面，仍然存在一定的局限性。

现有的视频生成模型，大多依赖于对视频内容的整体理解，难以对单个物体的运动轨迹进行精细控制。这使得创作者在制作特定场景或特效时，往往需要借助复杂的3D建模和动画软件，才能实现理想的效果。

然而，随着深度学习技术的不断进步，以及大规模数据集的积累，AI在视频生成领域的潜力正在被逐渐挖掘。如何让AI更好地理解和控制视频中的物体运动，成为当前研究的热点。LeviTor 的出现，正是对这一挑战的积极回应。

LeviTor：3D轨迹控制视频合成的创新解决方案

LeviTor 的核心创新在于其将深度信息和 K-means 聚类算法相结合，实现了对视频中 3D 物体轨迹的精确控制。与以往的视频生成技术不同，LeviTor 无需进行显式的 3D 轨迹跟踪，而是通过用户友好的交互方式，让用户能够轻松定义物体的运动路径。

主要功能

精确操控物体运动： LeviTor 允许用户在从静态图像生成视频时，精确控制物体的运动轨迹。这意味着用户可以自由地设定物体在视频中的移动方向、速度和路径，实现各种复杂的动画效果。
增强创意应用： 基于3D 轨迹控制，LeviTor 极大地拓宽了视频合成的创意应用范围。无论是电影特效、游戏动画，还是虚拟现实体验，都可以借助 LeviTor 实现更加逼真和引人入胜的视觉效果。
简化用户输入： LeviTor 的一大亮点在于其用户友好的交互方式。用户只需在 2D 图像上绘制轨迹，并调整深度值，即可输入 3D 轨迹。这种简化的输入方式，大大降低了技术门槛，使得更多用户可以轻松上手。
自动提取深度信息和物体掩码： LeviTor 系统可以自动从图像中提取深度信息和物体掩码，无需用户进行繁琐的手动操作。这不仅提高了工作效率，也降低了用户的学习成本。
交互式轨迹绘制： 用户可以通过交互式的方式绘制物体轨迹，系统会将这些轨迹解释为 3D 路径。这种交互式的设计，使得用户可以更加直观地控制物体的运动，并及时调整效果。

技术原理

LeviTor 的技术原理可以概括为以下几个步骤：

K-means 聚类： 首先，LeviTor 对视频对象掩码（mask）的像素进行 K-means 聚类，得到一组代表性的控制点。这些控制点将作为物体运动轨迹的关键参考。
深度信息融合： 接下来，LeviTor 使用深度估计网络 DepthAnythingV2预测相对深度图，并在每个控制点采样深度。通过融合深度信息，控制点不仅具有 2D 坐标，还具有了 3D 空间信息。
控制信号构建： 将 2D 坐标和估计的深度值相结合，LeviTor 构建出控制轨迹。这些轨迹将作为视频扩散模型的控制信号，指导视频的生成过程。
视频扩散模型： 最后，LeviTor 将控制信号输入到视频扩散模型中，生成与 3D 轨迹对齐的视频。通过这种方式，可以确保视频中的物体按照用户设定的轨迹进行运动。
用户友好的推理流程： LeviTor 设计了用户友好的交互系统，用户可以通过点击和调整深度值的方式输入 3D 轨迹。这种简单直观的交互方式，使得用户可以轻松上手，无需专业的 3D 建模知识。

开源意义

LeviTor 的开源，具有重要的意义：

促进技术普及： 开源意味着任何人都可以免费使用和修改 LeviTor 的代码，这将加速该技术的普及和应用。
推动技术创新： 开源社区的参与，将为 LeviTor 的发展注入新的活力，促进技术的不断创新和完善。
降低创作门槛： LeviTor 的易用性，将降低视频创作的技术门槛，使得更多人可以参与到视频内容的创作中来。
促进产业发展： LeviTor 的应用，将为电影特效、游戏动画、虚拟现实等产业带来新的发展机遇，推动相关产业的升级和转型。

应用场景

LeviTor 的应用场景非常广泛，以下是一些典型的例子：

电影特效制作： LeviTor 可以用于生成逼真的特效场景，例如爆炸、飞行、变形等。这不仅可以减少实地拍摄的成本，还可以提高制作效率，让电影制作更加灵活和高效。
游戏动画生成： 在游戏开发中，LeviTor 可以用于创建动态的游戏背景和角色动画。通过精确控制物体的运动轨迹，可以增强游戏的沉浸感，提升玩家的体验。
虚拟现实体验： 在 VR 应用中，LeviTor 可以用于合成逼真的虚拟环境，为用户提供更加真实的沉浸式体验。例如，用户可以在虚拟环境中自由行走、与物体互动，仿佛置身于真实世界。
增强现实展示： 在 AR 领域，LeviTor 可以将虚拟信息与现实世界无缝结合。例如，在教育领域，可以使用 AR 技术展示复杂的科学概念；在导航领域，可以使用 AR 技术提供实时的路线指引。
广告视频制作： LeviTor 可以用于制作动态广告视频，吸引观众的注意力，提升品牌形象和产品吸引力。例如，可以使用 LeviTor 制作产品展示动画，让产品更加生动和有趣。

项目地址

项目官网： ppetrichor.github.io/levitor
GitHub 仓库： https://github.com/qiuyu96/LeviTor
HuggingFace 模型库： https://huggingface.co/hlwang06/LeviTor
arXiv 技术论文： https://arxiv.org/pdf/2412.15214

未来展望

LeviTor 的开源，标志着 3D 目标轨迹控制视频合成技术迈出了重要一步。未来，随着技术的不断发展，我们可以期待 LeviTor 在以下几个方面取得更大的突破：

更高的生成质量： 通过改进模型架构和训练方法，可以进一步提高视频生成的质量和逼真度。
更强的控制能力： 未来可以探索更加精细的控制方式，例如对物体运动的加速度、旋转等进行控制。
更广泛的应用场景： 随着技术的成熟，LeviTor 将被应用于更多的领域，例如教育、医疗、艺术等。
更智能的交互方式： 未来可以探索更加智能的交互方式，例如通过语音、手势等方式输入 3D 轨迹。

结论

LeviTor 的开源，不仅是一项技术的突破，更是一次开放合作的典范。它展示了 AI 技术在视频生成领域的巨大潜力，也为创意产业带来了新的发展机遇。我们有理由相信，随着 LeviTor 的不断完善和普及，未来的视频创作将更加便捷、高效和富有创意。这项技术的开源，无疑将加速AI视频生成技术的普及和发展，为创意产业注入新的活力。我们期待看到更多基于 LeviTor 的创新应用，以及它在未来为我们带来的惊喜。

参考文献