快手联手浙大开源：视频生成新突破！

北京讯 – 短视频巨头快手联合浙江大学、新加坡国立大学Show Lab，近日正式开源其研发的全新可控视频生成方法——DragAnything。这一突破性技术基于实体表示，用户只需简单拖动，即可精确控制视频中任意物体的运动轨迹，为视频创作、游戏开发、教育培训等领域带来革命性变革。

传统的视频编辑往往需要繁琐的像素级操作，难以实现对特定物体的精准控制。DragAnything的出现，打破了这一瓶颈。它通过扩散模型的潜在特征，将视频中的每个实体进行语义信息表征，巧妙地将物体的语义特征与用户定义的运动轨迹相结合，实现了真正的实体级运动控制。

技术创新：从像素到实体的飞跃

DragAnything的核心技术在于其创新的实体表示方法。不同于以往直接操作像素点，该方法从扩散模型的潜在特征中提取语义信息，从而更准确地识别和控制视频中的物体。此外，DragAnything还引入了2D高斯表示，通过对物体中心区域赋予更高的权重，减少边缘像素的影响，使运动控制更加自然流畅。

该项目基于扩散模型架构，例如Stable Video Diffusion，利用其强大的生成能力和去噪能力，生成高质量的视频内容。用户只需绘制简单的轨迹，DragAnything就能将其与实体表示相结合，生成符合意图的视频，避免了直接操作像素点的局限性。

功能亮点：灵活、精准、易用

DragAnything的功能亮点主要体现在以下几个方面：

应用前景：无限可能

DragAnything的开源，预示着可控视频生成技术将迎来更广泛的应用。

开源地址：

专家观点：

“DragAnything的开源，标志着可控视频生成技术进入了一个新的阶段，”一位匿名人工智能专家表示，“其创新的实体表示方法和用户友好的交互方式，将极大地降低视频创作的门槛，激发更多创意。”

未来展望：

随着DragAnything的开源，相信会有更多的开发者和研究者加入到这一领域，共同推动可控视频生成技术的发展。未来，我们有望看到更多基于DragAnything的创新应用，为各行各业带来更高效、更便捷的解决方案。

参考文献：

Wu, W., et al. (2024). DragAnything: Controllable Video Generation with Trajectory-Guided Subject Manipulation. arXiv preprint arXiv:2403.07420.

（完）

>>> Read more <<<