腾讯港中文联手，单目视频运镜新突破！

北京 – 近日，腾讯 PCG ARC Lab 联合香港中文大学推出了一项名为 TrajectoryCrafter 的创新技术，该技术旨在彻底改变单目视频的后期制作流程，让用户能够以前所未有的方式自由调整视频中的相机位置和角度，实现对视频运镜的精细控制。这项技术有望为沉浸式娱乐、创意视频制作、智能视频会议等领域带来革命性的变革。

TrajectoryCrafter 的核心在于其能够解耦视图变换和内容生成，并利用双流条件视频扩散模型，将点云渲染和源视频作为条件，从而实现对用户指定相机轨迹的精确控制和高质量的 4D 内容生成。这意味着，用户可以轻松地在后期调整视频的平移、旋转、缩放等参数，而无需重新拍摄。

技术原理：双流条件视频扩散模型与混合数据集训练

TrajectoryCrafter 的技术突破主要体现在以下几个方面：

双流条件视频扩散模型： 该模型将相机轨迹的确定性变换与内容生成的随机性分开处理，利用点云渲染实现精确的视图变换，并使用视频扩散模型生成高质量的内容。模型包含两个条件输入：点云渲染（用于精确控制视图变换）和源视频（用于提供细节和纹理）。
Ref-DiT 模块： 独特的 Ref-DiT 模块（参考条件扩散变换器）通过交叉注意力机制将源视频的细节信息注入到生成过程中，从而提升生成视频的保真度。
动态点云渲染： 通过深度估计将单目视频转换为动态点云，并根据用户指定的相机轨迹渲染新视图。点云渲染能够准确捕捉几何关系和视图变换，为视频生成提供几何指导。
混合数据集与训练策略： TrajectoryCrafter 采用混合数据集策略，结合网络规模的单目视频和静态多视角数据集进行训练。对于单目视频，采用双重重投影策略生成大规模的训练样本。

应用场景：从娱乐到教育，潜力无限

TrajectoryCrafter 的应用场景十分广泛，涵盖了以下几个主要领域：

沉浸式娱乐： 在 VR/AR 领域，用户可以自由切换视角，增强沉浸感，获得更加逼真的体验。
创意视频制作： 影视、短视频创作者可以利用 TrajectoryCrafter 添加新视角效果，提升内容吸引力，创作出更具创意的作品。
智能视频会议： 动态调整会议视角，聚焦特定区域或人员，提升交互性，让远程会议更加高效。
自动驾驶与机器人： 生成多视角驾驶或导航场景，用于训练和测试算法，提高自动驾驶和机器人的智能化水平。
教育与培训： 创建多视角教学视频，帮助学生更好地理解和学习，提升教学效果。

项目链接与未来展望

目前，TrajectoryCrafter 的项目地址已公开，感兴趣的开发者和研究者可以通过以下链接了解更多信息：

项目官网： https://trajectorycrafter.github.io/
GitHub 仓库： https://github.com/TrajectoryCrafter/TrajectoryCrafter
arXiv 技术论文： https://arxiv.org/pdf/2503.05638
在线体验 Demo： https://huggingface.co/spaces/Doubiiu/TrajectoryCrafter

TrajectoryCrafter 的推出，标志着单目视频处理技术迈上了一个新的台阶。凭借其强大的功能和广泛的应用前景，有望在未来引领视频制作领域的技术革新，为用户带来更加丰富和沉浸式的视觉体验。

参考文献

TrajectoryCrafter GitHub 仓库：https://github.com/TrajectoryCrafter/TrajectoryCrafter
TrajectoryCrafter arXiv 技术论文：https://arxiv.org/pdf/2503.05638

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

腾讯港中文联手，单目视频运镜新突破！

作者智能小编

相关文章

Tencent-Backed Founder Builds AIGC Platform Boasts High Engagement & Conversion

ICLR 2025：中国科大、Meta论文荣膺杰出奖

腾讯收购后再创业，AIGC交互平台用户粘性惊人

发表回复取消回复

为您推荐