Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

上海,[日期] – 上海人工智能实验室(Shanghai AI Lab)与香港中文大学(CUHK)近日联合推出了一款名为Lumina-Video的视频生成框架,该框架基于Next-DiT架构,旨在解决视频生成过程中复杂时空关系的难题。这一创新成果有望为内容创作、虚拟现实、教育培训等多个领域带来革命性的变革。

技术创新:多尺度架构与运动控制

Lumina-Video的核心在于其多尺度Next-DiT架构。该架构通过引入不同大小的patchify层,显著提升了视频生成的效率和灵活性。研究人员通过动态调整patch大小,使得模型能够在不同的计算预算下学习视频结构,从而在推理阶段根据资源需求灵活调整计算成本,同时保持生成质量。

更值得关注的是,Lumina-Video引入了基于运动分数的条件输入,可以直接控制生成视频的动态程度。这种运动控制机制允许用户灵活调整视频的动态范围,从静态场景到高度动态的动作,实现对视频内容更为精细的控制。

训练策略:渐进式与多源结合

为了进一步提高训练效率和生成质量,Lumina-Video采用了渐进式训练策略,逐步提高视频的分辨率和帧率。此外,研究团队还采用了图像-视频联合训练方法,利用高质量的图像数据来提升模型对视觉概念的理解和帧级质量。

在数据来源方面,Lumina-Video采用了多源训练策略,结合自然和合成数据源进行训练,充分利用多样化数据,从而提升模型的泛化能力和生成质量。

视频到音频同步:Lumina-V2A模型

Lumina-Video还扩展了Lumina-V2A模型,为生成的视频添加同步声音,从而增强视频的现实感。Lumina-V2A基于Next-DiT和流匹配技术,将视频和文本特征与音频潜表示融合,生成与视觉内容同步的声音。通过使用预训练的音频VAE和HiFi-GAN vocoder进行音频编码和解码,确保生成音频的质量和同步性。

应用前景:潜力无限

Lumina-Video的推出,为众多领域带来了新的可能性:

  • 内容创作与媒体制作: 能够高效生成高质量的视频素材,降低创作成本,提高内容生产效率,为电影、电视剧、广告、短视频等媒体内容创作提供有力支持。
  • 虚拟现实与增强现实: 可以生成逼真的虚拟场景和动态内容,增强用户体验,为虚拟现实和增强现实应用提供丰富的视觉和听觉素材。
  • 教育与培训: 能够创建教育视频、模拟训练场景等,帮助学生和受训者更好地理解和掌握知识,提升学习效果和培训质量。
  • 游戏开发: 可以用于生成游戏中的动画、过场视频、虚拟角色动作等,提升游戏的视觉效果和沉浸感,缩短游戏开发周期。
  • 智能视频编辑: 作为智能视频编辑工具的一部分,辅助用户快速生成视频片段、添加特效或生成视频的音频,提升视频编辑的效率和创意性。

开源与未来展望

Lumina-Video已在GitHub上开源,并发布了相关的技术论文,方便研究人员和开发者进行学习和应用。

Lumina-Video的发布,标志着视频生成技术迈出了重要一步。随着人工智能技术的不断发展,我们有理由相信,Lumina-Video将在未来为各行各业带来更多的创新和变革。

关键词: Lumina-Video, 上海AI Lab, 香港中文大学, 视频生成, 人工智能, Next-DiT, Lumina-V2A, 开源, 机器学习。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注