上海AI Lab联手港中文，发布Lumina-Video视频生成框架

上海，[日期] – 上海人工智能实验室（Shanghai AI Lab）与香港中文大学（CUHK）近日联合推出了一款名为Lumina-Video的视频生成框架，该框架基于Next-DiT架构，旨在解决视频生成过程中复杂时空关系的难题。这一创新成果有望为内容创作、虚拟现实、教育培训等多个领域带来革命性的变革。

技术创新：多尺度架构与运动控制

Lumina-Video的核心在于其多尺度Next-DiT架构。该架构通过引入不同大小的patchify层，显著提升了视频生成的效率和灵活性。研究人员通过动态调整patch大小，使得模型能够在不同的计算预算下学习视频结构，从而在推理阶段根据资源需求灵活调整计算成本，同时保持生成质量。

更值得关注的是，Lumina-Video引入了基于运动分数的条件输入，可以直接控制生成视频的动态程度。这种运动控制机制允许用户灵活调整视频的动态范围，从静态场景到高度动态的动作，实现对视频内容更为精细的控制。

训练策略：渐进式与多源结合

为了进一步提高训练效率和生成质量，Lumina-Video采用了渐进式训练策略，逐步提高视频的分辨率和帧率。此外，研究团队还采用了图像-视频联合训练方法，利用高质量的图像数据来提升模型对视觉概念的理解和帧级质量。

在数据来源方面，Lumina-Video采用了多源训练策略，结合自然和合成数据源进行训练，充分利用多样化数据，从而提升模型的泛化能力和生成质量。

视频到音频同步：Lumina-V2A模型

Lumina-Video还扩展了Lumina-V2A模型，为生成的视频添加同步声音，从而增强视频的现实感。Lumina-V2A基于Next-DiT和流匹配技术，将视频和文本特征与音频潜表示融合，生成与视觉内容同步的声音。通过使用预训练的音频VAE和HiFi-GAN vocoder进行音频编码和解码，确保生成音频的质量和同步性。

应用前景：潜力无限

Lumina-Video的推出，为众多领域带来了新的可能性：

内容创作与媒体制作： 能够高效生成高质量的视频素材，降低创作成本，提高内容生产效率，为电影、电视剧、广告、短视频等媒体内容创作提供有力支持。
虚拟现实与增强现实： 可以生成逼真的虚拟场景和动态内容，增强用户体验，为虚拟现实和增强现实应用提供丰富的视觉和听觉素材。
教育与培训： 能够创建教育视频、模拟训练场景等，帮助学生和受训者更好地理解和掌握知识，提升学习效果和培训质量。
游戏开发： 可以用于生成游戏中的动画、过场视频、虚拟角色动作等，提升游戏的视觉效果和沉浸感，缩短游戏开发周期。
智能视频编辑： 作为智能视频编辑工具的一部分，辅助用户快速生成视频片段、添加特效或生成视频的音频，提升视频编辑的效率和创意性。

开源与未来展望

Lumina-Video已在GitHub上开源，并发布了相关的技术论文，方便研究人员和开发者进行学习和应用。

GitHub仓库：https://github.com/Alpha-VLLM/Lumina-Video
arXiv技术论文：https://arxiv.org/pdf/2502.06782

Lumina-Video的发布，标志着视频生成技术迈出了重要一步。随着人工智能技术的不断发展，我们有理由相信，Lumina-Video将在未来为各行各业带来更多的创新和变革。

关键词： Lumina-Video, 上海AI Lab, 香港中文大学, 视频生成, 人工智能, Next-DiT, Lumina-V2A, 开源, 机器学习。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

上海AI Lab联手港中文，发布Lumina-Video视频生成框架

作者智能小编

相关文章

Sports Brands Go Big Outsizing Luxury with Mega-Stores

TikTok劲敌？两天MVP估值5亿，资本狂涌！

运动品牌“巨无霸”店来袭，奢侈品都得让路？

发表回复取消回复

为您推荐