Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京 – 视频生成领域正迎来一场开源革命。中国人工智能公司潞晨科技近日重磅发布了Open-Sora 2.0,一款全新的开源视频生成模型,以仅20万美元的训练成本,实现了媲美百万美元级闭源模型的性能。这一突破性的进展,极大地降低了高质量视频生成的门槛,为行业发展注入了新的活力。

开发高性能的视频生成模型通常耗资巨大。据了解,Meta的视频模型训练需要超过6000张GPU卡片,投入高达数百万美元。而Open-Sora 2.0的出现,打破了这一局面。该模型仅使用224张GPU,耗资20万美元,就成功训练出11B参数的商业级视频生成大模型。

Open-Sora 2.0在各项关键指标上都表现出色。在权威评测平台VBench上,Open-Sora 2.0与行业领先的OpenAI Sora之间的性能差距大幅缩小至0.69%,几乎实现了性能的全面追平。此外,Open-Sora 2.0在VBench评测中取得的分数已超过腾讯的HunyuanVideo,以更低的成本实现了更高的性能。

用户偏好评测也证实了Open-Sora 2.0的卓越性能。在视觉表现、文本一致性和动作表现三个评估维度上,Open-Sora在至少两个指标上超越了开源SOTA HunyuanVideo,以及商业模型Runway Gen-3 Alpha等。

潞晨科技此次发布不仅开源了模型权重和推理代码,还开源了全流程训练代码,旨在打造一个强大的开源生态圈。Open-Sora自开源以来,凭借其在视频生成领域的高效与优质表现,吸引了众多开发者的关注与参与。据第三方技术平台统计,Open-Sora的学术论文引用量半年内获得近百引用,在全球开源影响力排名中稳居首位,领先所有开源的I2V/T2V视频生成项目,成为全球影响力最大的开源视频生成项目之一。

技术解析:低成本高效能的秘诀

Open-Sora 2.0之所以能够以低成本实现高性能,得益于其在模型架构和训练方法上的创新。

  • 模型架构: Open-Sora 2.0延续了Open-Sora 1.2的设计思路,继续采用3D自编码器和Flow Matching训练框架,并通过多桶训练机制,实现对不同视频长度和分辨率的同时训练。在模型架构上,引入3D全注意力机制,进一步提升视频生成质量。同时,采用最新的MMDiT架构,更精准地捕捉文本信息与视频内容的关系,并将模型规模从1B扩展至11B。此外,借助开源图生视频模型FLUX进行初始化,大幅降低训练成本,实现更高效的视频生成优化。
  • 高效训练方法: Open-Sora 2.0从四个方面着手削减训练开销。首先,通过严格的数据筛选,确保高质量数据输入,从源头提升模型训练效率。其次,优先将算力投入到低分辨率训练,以高效学习运动信息,在降低成本的同时确保模型能够捕捉关键的动态特征。与此同时,Open-Sora优先训练图生视频任务,以加速模型收敛。最后,Open-Sora采用高效的并行训练方案,结合ColossalAI和系统级优化,大幅提升计算资源利用率,实现更高效的视频生成训练。

此外,Open-Sora还探索了高压缩比视频自编码器的应用,以大幅降低推理成本。目前,大多数视频模型仍采用4×8×8的自编码器,导致单卡生成768px、5秒视频耗时近30分钟。为解决这一瓶颈,Open-Sora训练了一款高压缩比(4×32×32)的视频自编码器,将推理时间缩短至单卡3分钟以内,推理速度提升10倍。

未来展望:开源生态助力视频生成技术普及

Open-Sora 2.0的开源发布,无疑将加速视频生成技术的普及。开发者可以基于Open-Sora 2.0进行二次开发,构建各种应用场景,例如:

  • 内容创作: 快速生成高质量的短视频、动画等内容,降低创作门槛。
  • 教育培训: 创建生动形象的教学视频,提升学习效果。
  • 游戏开发: 快速生成游戏场景和角色动画,缩短开发周期。
  • 虚拟现实: 构建逼真的虚拟现实场景,提升用户体验。

潞晨科技的Open-Sora 2.0,不仅是一款优秀的视频生成模型,更是一个开放的平台,一个充满活力的生态系统。相信在开源社区的共同努力下,视频生成技术将迎来更加广阔的发展前景。

参考文献:

(本文作者为资深新闻记者,曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等媒体。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注