上海AI Lab联手港中文，发布Lumina-Video！

摘要： 上海AI Lab与香港中文大学联合发布了视频生成框架Lumina-Video，该框架基于Next-DiT架构，通过多尺度设计、运动分数控制以及渐进式训练等技术，实现了高质量、可控性强的视频生成，并扩展了Lumina-V2A模型，为视频添加同步声音，为内容创作、虚拟现实、教育培训等领域带来新的可能性。

上海，[日期] – 人工智能领域再添新星。上海AI Lab与香港中文大学近日联合推出了一款名为Lumina-Video的视频生成框架，该框架旨在解决视频生成领域时空复杂性的挑战，为用户提供高质量、可控性强的视频生成解决方案。

Lumina-Video的核心在于其基于Next-DiT架构的多尺度设计。研究人员巧妙地运用不同大小的patchify层，提升了框架的效率和灵活性，使其能够在不同计算预算下学习视频结构。更令人瞩目的是，Lumina-Video引入了运动分数作为条件输入，用户可以直接控制生成视频的动态程度，从静态画面到高度动态的场景，皆可轻松实现。

技术创新驱动性能提升

Lumina-Video的技术亮点主要体现在以下几个方面：

多尺度Next-DiT架构： 通过动态调整patch大小，模型在推理阶段可以根据资源需求灵活调整计算成本，在保证生成质量的同时，提升效率。
运动控制机制： 基于计算光流的运动分数，作为条件输入到扩散模型中，实现对视频动态程度的精细控制。
渐进式训练： 通过多阶段训练策略，逐步提高视频的分辨率和帧率，结合图像-视频联合训练，利用高质量的图像数据提升模型对视觉概念的理解和帧级质量。
多源训练： 利用自然和合成数据源进行训练，提升模型的泛化能力和生成质量。
视频到音频同步（Lumina-V2A）： 基于Next-DiT和流匹配技术，将视频和文本特征与音频潜表示融合，生成与视觉内容同步的声音，增强视频的现实感。

应用前景广阔，赋能多行业

Lumina-Video的应用场景十分广泛，有望在多个领域发挥重要作用：

内容创作与媒体制作： 为电影、电视剧、广告、短视频等媒体内容创作提供高效生成工具，降低创作成本，提高内容生产效率。
虚拟现实与增强现实： 生成逼真的虚拟场景和动态内容，增强用户体验，为虚拟现实和增强现实应用提供丰富的视觉和听觉素材。
教育与培训： 创建教育视频、模拟训练场景等，帮助学生和受训者更好地理解和掌握知识，提升学习效果和培训质量。
游戏开发： 用于生成游戏中的动画、过场视频、虚拟角色动作等，提升游戏的视觉效果和沉浸感，缩短游戏开发周期。
智能视频编辑： 作为智能视频编辑工具的一部分，辅助用户快速生成视频片段、添加特效或生成视频的音频，提升视频编辑的效率和创意性。

开源共享，推动AI发展

Lumina-Video的项目代码已在GitHub上开源（https://github.com/Alpha-VLLM/Lumina-Video），相关技术论文也已发布在arXiv上（https://arxiv.org/pdf/2502.06782）。这一举措体现了上海AI Lab和香港中文大学开放合作的态度，旨在吸引更多研究者和开发者参与其中，共同推动视频生成技术的发展。

未来展望

Lumina-Video的发布，无疑为视频生成领域注入了新的活力。随着技术的不断完善和应用场景的不断拓展，我们有理由相信，Lumina-Video将在未来的内容创作、虚拟现实等领域发挥更加重要的作用，为人们带来更加丰富多彩的视听体验。

参考文献：

Alpha-VLLM. (2024). Lumina-Video GitHub Repository. Retrieved from https://github.com/Alpha-VLLM/Lumina-Video
Alpha-VLLM. (2024). Lumina-Video arXiv Technical Paper. Retrieved from https://arxiv.org/pdf/2502.06782

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

上海AI Lab联手港中文，发布Lumina-Video！

作者智能小编

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐