港中文联手腾讯，AI视频生成新突破

港中文联合腾讯等机构推出DiTCtrl：多提示视频生成技术迎来新突破

香港，中国 – 近日，香港中文大学与腾讯等机构联合推出了一项名为DiTCtrl的创新技术，该技术能够基于多模态扩散变换器（MM-DiT）架构，实现多提示文本驱动的连贯视频生成。这项研究成果不仅在多提示视频生成领域取得了重要进展，也为电影制作、游戏开发、广告行业等多个领域带来了新的可能性。

引言

在人工智能领域，视频生成一直是备受关注的研究方向。然而，传统的视频生成模型往往难以处理复杂的场景，特别是当需要根据多个文本提示生成连贯视频时，挑战尤为突出。DiTCtrl的出现，正是在这一难题上迈出了关键一步。

DiTCtrl：多提示视频生成的新范式

DiTCtrl的核心在于其基于多模态扩散变换器（MM-DiT）的架构。与以往的模型不同，DiTCtrl无需额外的训练，即可实现零样本（zero-shot）的多提示视频生成。这意味着，用户只需提供多个文本提示，DiTCtrl就能生成与之对应的连贯视频，并且在不同提示之间实现平滑过渡，保持内容和运动的一致性。

技术原理

DiTCtrl的技术突破主要体现在以下几个方面：

MM-DiT架构：DiTCtrl基于多模态扩散变换器（MM-DiT）架构，将文本和视频映射到统一序列进行注意力计算，有效处理多模态数据。这种架构能够更好地理解文本提示的语义，并将其转化为视频内容。
注意力机制分析：研究团队首次对MM-DiT的3D全注意力机制进行了深入分析，发现其与UNet类扩散模型中的交叉/自注意力模块相似。这一发现为精确的语义控制提供了理论基础。
KV共享机制：为了保持不同提示视频片段之间的语义一致性，DiTCtrl采用了键值（KV）共享机制，使得不同片段可以共享注意力信息。
潜在混合策略：为了实现视频片段之间的平滑过渡，DiTCtrl采用了潜在混合策略，通过在相邻视频片段的重叠区域应用位置依赖的权重函数，实现了不同语义片段之间的自然过渡。
掩码引导的注意力融合：DiTCtrl还提取特定对象的注意力掩码，并用掩码引导注意力融合，生成新提示的注意力特征，从而实现不同提示之间的一致性。

性能评估与基准

为了评估多提示视频生成的性能，研究团队引入了MPVBench基准。该基准包含多种过渡类型和专门的评估指标，用于衡量模型在多提示视频生成方面的表现。实验结果表明，DiTCtrl在保持计算效率的同时，在新基准MPVBench上取得了最先进的性能，标志着多提示视频生成技术的重要进展。

应用前景

DiTCtrl的出现，为多个行业带来了新的机遇：