浙大联手腾讯华为，零样本定制视频框架问世

浙大联手腾讯华为推出VideoMaker：零样本定制视频生成框架开启个性化创作新纪元

北京—— 在人工智能领域，视频生成技术正以前所未有的速度发展。近日，浙江大学联合腾讯和华为诺亚方舟实验室，共同推出了一款名为VideoMaker的创新型零样本定制视频生成框架，引发业界广泛关注。该框架基于视频扩散模型（VDM），无需额外训练，即可直接从参考图片中提取和注入主题特征，实现个性化视频内容的一键生成，为视频创作带来了前所未有的便捷性和灵活性。

技术突破：无需额外训练的个性化定制

VideoMaker的核心突破在于其零样本定制能力。与传统的视频生成方法需要大量数据训练不同，VideoMaker直接利用VDM的内在能力进行细粒度特征提取。通过空间自注意力机制，框架能够将参考图片中的主题特征有效地注入到每一帧视频中，确保视频内容与参考图片保持高度一致性。这一技术的创新之处在于，它无需对VDM进行复杂的再训练或参数调整，只需简单微调即可激活模型的内在力量，实现定制视频生成。

“VideoMaker的出现，标志着视频生成技术进入了一个新的阶段，”一位不愿透露姓名的AI专家表示，“它不仅降低了视频创作的门槛，也为个性化内容生产提供了强大的工具。”

核心功能：细粒度特征提取与高保真度生成

VideoMaker的主要功能包括：

细粒度特征提取： 直接利用VDM的内在能力，从参考图片中提取细节丰富的主题特征。
特征注入： 通过VDM的空间自注意力机制，将提取的主题特征有效地注入到每一帧视频中，确保视频内容与参考图片保持高度一致性。
视频内容生成： 在保持与参考图片中主题外观一致的同时，保证生成视频的多样性和动态性，避免内容单调和重复。
无需额外训练： 不需要对VDM进行复杂的再训练或参数调整，只需简单微调即可激活模型的内在力量，实现定制视频生成。
高保真度： 生成的视频能够保持高保真度，无论是人物还是物体，都能在视频中准确呈现其外观和动态特征。

技术原理：VDM与空间自注意力机制的巧妙结合

VideoMaker的技术核心在于视频扩散模型（VDM）和空间自注意力机制的巧妙结合。VDM通过逐步去噪的方式学习视频数据分布，而VideoMaker将参考图像直接输入到VDM中，利用VDM的预训练知识进行细粒度的特征提取。为了实现特征注入，VideoMaker修改了VDM中的空间自注意力计算，允许模型在生成每一帧视频时，将主题特征与生成内容进行双向交互，确保主题特征的准确呈现。

此外，为了在训练过程中区分参考信息和生成内容，VideoMaker还设计了一种引导信息识别损失函数，帮助模型更准确地识别和处理参考信息。在训练阶段，VideoMaker通过微调VDM的空间自注意力层和运动块参数，实现主题信息的有效注入。在推理时，直接丢弃与参考信息对应的输出，确保生成的视频不受噪声干扰。

应用场景：广泛的应用前景

VideoMaker的应用前景十分广阔，包括：