Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: 上海AI Lab与香港中文大学联合发布了视频生成框架Lumina-Video,该框架基于Next-DiT架构,通过多尺度设计、运动分数控制以及渐进式训练等技术,实现了高质量、可控性强的视频生成,并扩展了Lumina-V2A模型,为视频添加同步声音,为内容创作、虚拟现实、教育培训等领域带来新的可能性。

上海,[日期] – 人工智能领域再添新星。上海AI Lab与香港中文大学近日联合推出了一款名为Lumina-Video的视频生成框架,该框架旨在解决视频生成领域时空复杂性的挑战,为用户提供高质量、可控性强的视频生成解决方案。

Lumina-Video的核心在于其基于Next-DiT架构的多尺度设计。研究人员巧妙地运用不同大小的patchify层,提升了框架的效率和灵活性,使其能够在不同计算预算下学习视频结构。更令人瞩目的是,Lumina-Video引入了运动分数作为条件输入,用户可以直接控制生成视频的动态程度,从静态画面到高度动态的场景,皆可轻松实现。

技术创新驱动性能提升

Lumina-Video的技术亮点主要体现在以下几个方面:

  • 多尺度Next-DiT架构: 通过动态调整patch大小,模型在推理阶段可以根据资源需求灵活调整计算成本,在保证生成质量的同时,提升效率。
  • 运动控制机制: 基于计算光流的运动分数,作为条件输入到扩散模型中,实现对视频动态程度的精细控制。
  • 渐进式训练: 通过多阶段训练策略,逐步提高视频的分辨率和帧率,结合图像-视频联合训练,利用高质量的图像数据提升模型对视觉概念的理解和帧级质量。
  • 多源训练: 利用自然和合成数据源进行训练,提升模型的泛化能力和生成质量。
  • 视频到音频同步(Lumina-V2A): 基于Next-DiT和流匹配技术,将视频和文本特征与音频潜表示融合,生成与视觉内容同步的声音,增强视频的现实感。

应用前景广阔,赋能多行业

Lumina-Video的应用场景十分广泛,有望在多个领域发挥重要作用:

  • 内容创作与媒体制作: 为电影、电视剧、广告、短视频等媒体内容创作提供高效生成工具,降低创作成本,提高内容生产效率。
  • 虚拟现实与增强现实: 生成逼真的虚拟场景和动态内容,增强用户体验,为虚拟现实和增强现实应用提供丰富的视觉和听觉素材。
  • 教育与培训: 创建教育视频、模拟训练场景等,帮助学生和受训者更好地理解和掌握知识,提升学习效果和培训质量。
  • 游戏开发: 用于生成游戏中的动画、过场视频、虚拟角色动作等,提升游戏的视觉效果和沉浸感,缩短游戏开发周期。
  • 智能视频编辑: 作为智能视频编辑工具的一部分,辅助用户快速生成视频片段、添加特效或生成视频的音频,提升视频编辑的效率和创意性。

开源共享,推动AI发展

Lumina-Video的项目代码已在GitHub上开源(https://github.com/Alpha-VLLM/Lumina-Video),相关技术论文也已发布在arXiv上(https://arxiv.org/pdf/2502.06782)。这一举措体现了上海AI Lab和香港中文大学开放合作的态度,旨在吸引更多研究者和开发者参与其中,共同推动视频生成技术的发展。

未来展望

Lumina-Video的发布,无疑为视频生成领域注入了新的活力。随着技术的不断完善和应用场景的不断拓展,我们有理由相信,Lumina-Video将在未来的内容创作、虚拟现实等领域发挥更加重要的作用,为人们带来更加丰富多彩的视听体验。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注