Meta联手KAUST打造视频生成新神器：MarDini

Meta 携手 KAUST 推出视频生成扩散模型 MarDini：开启视频创作新纪元

Meta 与沙特阿卜杜拉国王科技大学 (KAUST) 共同推出的视频生成扩散模型 MarDini，标志着视频生成领域迈入全新阶段。这一模型融合了掩码自回归 (MAR) 和扩散模型 (DM) 的优势，能够生成高质量的视频内容，并支持多种视频创作任务，包括视频插值、图像到视频生成、视频扩展等。

MarDini 的核心优势在于其独特的网络设计和训练策略。 模型将大部分计算资源分配给低分辨率的规划模型，实现了空间-时间注意力机制的大规模应用，从而提高了视频生成的效率和灵活性。此外，MarDini 能从无标签数据中从头开始训练，无需依赖图像生成的预训练，展现出优异的可扩展性和效率。

MarDini 的主要功能包括：

MarDini 的技术原理基于掩码自回归 (MAR) 和扩散模型 (DM) 的结合。 MAR 用在处理时间序列的长期依赖关系，而 DM 专注于空间细节的生成。这种结合确保了 MarDini 能够生成既有时间连贯性又细节丰富的视频内容。

MarDini 的不对称网络设计进一步提升了模型的效率。MAR 在低分辨率下运行，拥有更多的参数，而 DM 在高分辨率下运行，拥有较少的参数。这种设计使得模型在低分辨率阶段能够处理更多的计算任务，在高分辨率阶段专注于细节生成，从而提高了整体效率。

MarDini 的端到端训练策略使其能够从无标签视频数据中学习。 模型基于掩码帧级扩散损失进行训练，无需依赖预训练数据，展现出良好的泛化能力。

MarDini 的灵活掩码策略使其能够适应不同的视频生成任务。 模型根据任务需求改变掩码帧的数量和位置，从而实现不同的视频生成效果。

MarDini 的渐进式训练策略确保了模型的稳定性和可靠性。 模型逐步调整掩码比例和训练任务的难度，从视频插值平滑过渡到完整的视频生成，避免了训练过程中的不稳定性。

MarDini 的应用场景十分广泛，包括：

MarDini 的出现将极大地推动视频生成技术的发展，为用户提供更加便捷高效的视频创作工具，并为各行各业带来新的机遇。 未来，随着技术的不断发展，我们可以期待 MarDini 在更多领域发挥作用，为我们带来更加精彩的视频内容。

项目地址：

MarDini 的出现，预示着视频生成技术的未来将更加充满活力和想象力。 相信在不久的将来，我们将会看到更多基于 MarDini 的创新应用，为我们的生活带来更多精彩和便利。