浙大腾讯华为联手，零样本定制视频生成破局

浙大联手腾讯华为推出VideoMaker：零样本定制视频生成技术开启个性化创作新纪元

北京 — 在人工智能领域，一项名为VideoMaker的创新技术正悄然兴起，它有望彻底改变视频内容的创作方式。由浙江大学联合腾讯和华为诺亚方舟实验室共同研发的VideoMaker，是一款基于视频扩散模型（VDM）的零样本定制视频生成框架。这项技术无需额外的模型训练，即可直接从参考图片中提取和注入主题特征，实现个性化视频内容的一键生成，为视频创作带来了前所未有的便捷性和灵活性。

技术突破：无需额外训练，细粒度特征提取

传统的视频生成方法往往需要大量的训练数据和复杂的模型调整，而VideoMaker则打破了这一限制。它直接利用VDM的内在能力，从参考图片中提取细粒度的主题特征，并通过空间自注意力机制将这些特征注入到视频的每一帧中。这种方法不仅保证了生成视频与参考图片的高度一致性，还保留了视频的多样性和动态性。

“VideoMaker的核心在于其零样本学习能力，”浙江大学项目负责人王教授在接受采访时表示，“它能够直接利用VDM的预训练知识，无需额外的训练或参数调整，这大大降低了视频生成的门槛，让更多人能够参与到个性化视频创作中来。”

技术原理：VDM与空间自注意力机制的巧妙结合

VideoMaker的技术核心在于视频扩散模型（VDM）和空间自注意力机制的巧妙结合。VDM通过逐步去噪的方式学习视频数据分布，而VideoMaker则将参考图像直接输入到VDM中，利用VDM的预训练知识进行细粒度的特征提取。

为了实现特征注入，VideoMaker修改了VDM中的空间自注意力计算，使得模型在生成每一帧视频时，能够将主题特征与生成内容进行双向交互。同时，为了区分参考信息和生成内容，VideoMaker还设计了一种引导信息识别损失函数，帮助模型更准确地识别和处理参考信息。

在训练阶段，VideoMaker通过微调VDM的空间自注意力层和运动块参数，实现主题信息的有效注入。在推理时，直接丢弃与参考信息对应的输出，确保生成的视频不受噪声干扰。

应用场景：潜力无限，覆盖多领域

VideoMaker的应用前景十分广阔，它不仅可以应用于影视制作、虚拟偶像、产品展示、定制广告等领域，还可以为教学视频和动画游戏设计提供新的解决方案。

影视制作： 导演和制片人可以使用VideoMaker生成特定的场景和动作，帮助他们进行前期预览和规划。
虚拟偶像： 为虚拟偶像生成多样化的视频内容，增强其与粉丝的互动和影响力。
产品展示： 企业可以利用VideoMaker展示产品在不同环境下的效果，如家具在不同装修风格中的效果，汽车在不同路况下的表现。
定制广告： 根据目标客户群体定制个性化的广告视频，提高广告的吸引力和营销效果。
教学视频： 教师可以制作生动的教学视频，如物理力学原理的演示、化学实验现象的展示，以及历史事件的重现，提升学习体验。
动画游戏设计： 游戏设计师可以通过输入角色草图和动作设计概念图，快速生成初步的角色动画视频，评估角色动作的流畅性和视觉效果。

未来展望：开启个性化视频创作新时代

VideoMaker的推出，标志着零样本定制视频生成技术迈出了重要一步。它不仅降低了视频创作的门槛，还为个性化视频内容带来了无限可能。随着技术的不断发展和完善，VideoMaker有望在未来成为视频创作领域的重要工具，开启个性化视频创作的新时代。

项目信息：

项目官网： https://wutao-cs.github.io/VideoMaker/
arXiv技术论文： https://arxiv.org/pdf/2412.19645

参考文献：

Wu, T., et al. (2024). VideoMaker: Zero-Shot Personalized Video Generation with Fine-Grained Feature Injection. arXiv preprint arXiv:2412.19645.

记者手记：

作为一名长期关注科技发展的记者，我深感VideoMaker的出现具有划时代的意义。它不仅是一项技术突破，更是一种思维方式的转变。它将视频创作的权力交还给用户，让每个人都能成为自己故事的讲述者。我们有理由相信，在不久的将来，VideoMaker将会在各个领域发挥更大的作用，为我们的生活带来更多精彩和便利。

（完）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

浙大腾讯华为联手，零样本定制视频生成破局

作者智能小编

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐