Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报
0

北京讯 – 短视频巨头快手联合浙江大学、新加坡国立大学Show Lab,近日正式开源其研发的全新可控视频生成方法——DragAnything。这一突破性技术基于实体表示,用户只需简单拖动,即可精确控制视频中任意物体的运动轨迹,为视频创作、游戏开发、教育培训等领域带来革命性变革。

传统的视频编辑往往需要繁琐的像素级操作,难以实现对特定物体的精准控制。DragAnything的出现,打破了这一瓶颈。它通过扩散模型的潜在特征,将视频中的每个实体进行语义信息表征,巧妙地将物体的语义特征与用户定义的运动轨迹相结合,实现了真正的实体级运动控制。

技术创新:从像素到实体的飞跃

DragAnything的核心技术在于其创新的实体表示方法。不同于以往直接操作像素点,该方法从扩散模型的潜在特征中提取语义信息,从而更准确地识别和控制视频中的物体。此外,DragAnything还引入了2D高斯表示,通过对物体中心区域赋予更高的权重,减少边缘像素的影响,使运动控制更加自然流畅。

该项目基于扩散模型架构,例如Stable Video Diffusion,利用其强大的生成能力和去噪能力,生成高质量的视频内容。用户只需绘制简单的轨迹,DragAnything就能将其与实体表示相结合,生成符合意图的视频,避免了直接操作像素点的局限性。

功能亮点:灵活、精准、易用

DragAnything的功能亮点主要体现在以下几个方面:

  • 实体级运动控制: 不仅仅是像素级别的操作,而是对视频中的任何实体(包括前景和背景)进行精确的运动控制。
  • 多实体独立控制: 支持同时对多个物体进行独立的运动控制,每个物体根据用户定义的轨迹进行不同的运动。
  • 用户友好的交互方式: 用户基于简单的交互(如选择区域并拖动)实现复杂的运动控制,无需复杂的输入信号(如分割掩码或深度图)。
  • 相机运动控制: 除控制视频中的物体,DragAnything 还能实现相机的运动控制,如缩放和平移。
  • 高质量视频生成: 在保持运动控制精度的同时,生成高质量的视频内容,适用于多种应用场景。

应用前景:无限可能

DragAnything的开源,预示着可控视频生成技术将迎来更广泛的应用。

  • 视频创作与编辑: 艺术家和视频编辑师可以利用DragAnything快速生成动画、调整物体运动轨迹,从而大幅提升创作效率。
  • 游戏开发: 游戏开发者可以利用该技术生成角色动作,增强玩家的交互体验,创造更逼真的游戏世界。
  • 教育与培训: 在科学模拟和技能培训领域,DragAnything可以辅助理解复杂的运动过程,使教学更加直观生动。
  • 广告与营销: 广告商和营销人员可以利用DragAnything制作动态广告和产品展示,突出产品特点,吸引消费者眼球。
  • 娱乐与社交: 用户可以利用DragAnything生成互动视频,控制虚拟角色动作,增强趣味性,丰富社交体验。

开源地址:

专家观点:

“DragAnything的开源,标志着可控视频生成技术进入了一个新的阶段,”一位匿名人工智能专家表示,“其创新的实体表示方法和用户友好的交互方式,将极大地降低视频创作的门槛,激发更多创意。”

未来展望:

随着DragAnything的开源,相信会有更多的开发者和研究者加入到这一领域,共同推动可控视频生成技术的发展。未来,我们有望看到更多基于DragAnything的创新应用,为各行各业带来更高效、更便捷的解决方案。

参考文献:

  • Wu, W., et al. (2024). DragAnything: Controllable Video Generation with Trajectory-Guided Subject Manipulation. arXiv preprint arXiv:2403.07420.

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注