Meta联手KAUST发布视频生成模型MarDini

Meta 携手 KAUST 推出新型视频生成扩散模型 MarDini：开启视频生成新纪元

Meta 与沙特阿卜杜拉国王科技大学 (KAUST) 联合开发了一种名为 MarDini 的新型视频生成扩散模型，该模型融合了掩码自回归(MAR) 和扩散模型 (DM) 的优势，为大规模视频生成开辟了新的可能性。 MarDini 的出现，标志着视频生成领域取得了重大突破，其在视频插值、图像到视频生成、视频扩展等多个方面展现出卓越的性能，为娱乐、电影、游戏、虚拟现实等多个行业带来了革新。

MarDini的核心技术在于将掩码自回归 (MAR) 和扩散模型 (DM) 巧妙地结合在一起。 MAR 主要负责处理时间序列的长期依赖关系，而 DM 则专注于生成空间细节。这种分工协作的机制，使得 MarDini 能够在保持视频内容连贯性的同时，生成更加精细的画面细节。

MarDini 的另一个关键技术是其不对称网络设计。 模型在低分辨率阶段拥有更多的参数，并在低分辨率下运行 MAR，从而能够处理更多的计算任务。而在高分辨率阶段，模型则拥有较少的参数，专注于 DM 的细节生成。这种设计策略，有效地提高了模型的效率和灵活性。

MarDini 的优势不仅体现在技术层面，更体现在其应用场景的广泛性。

在娱乐与社交媒体领域， MarDini 可以用于生成社交媒体上分享的短视频内容，如自动生成的舞蹈视频、特效视频或者用户自定义的故事短片，为用户提供更加丰富多彩的视频内容体验。
在电影与视频制作领域， MarDini可以生成或增强特效场景，或用在创建电影预告片中的某些镜头，为电影制作带来新的创意和效率提升。
在游戏开发领域， MarDini 可以生成游戏内的动态背景视频或者作为游戏角色动画的原型设计工具，为游戏开发提供更加逼真的视觉效果和更加流畅的动画体验。
在虚拟现实 (VR) 与增强现实 (AR) 领域， MarDini 可以用于生成 VR 或 AR 应用中的动态环境和场景，提升用户沉浸感，为用户带来更加身临其境的体验。
在广告与营销领域， MarDini 可以用于创建吸引人的广告视频，基于动态内容吸引潜在客户的注意力，为广告营销带来新的创意和效果提升。

MarDini 的出现，为视频生成领域带来了新的曙光。 该模型的卓越性能和广泛的应用场景，将为各个行业带来革命性的变革，推动视频生成技术的发展，为用户带来更加丰富多彩的视频内容体验。

MarDini 项目地址：