Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

最新消息最新消息
0

“`markdown

潞晨科技开源Open-Sora 2.0:低成本挑战Sora,开源视频生成领域迎来新里程碑

北京 – 人工智能视频生成领域迎来重磅消息,中国科技公司潞晨科技正式开源其最新力作——Open-Sora 2.0。这款AI视频生成模型以其卓越的性能和显著的低成本优势,迅速引发业界关注,被誉为开源视频生成领域的新里程碑。

Open-Sora 2.0:性能比肩闭源大模型

Open-Sora 2.0 是一款基于先进技术架构的视频生成模型,拥有110亿参数。令人惊讶的是,它仅用20万美元(224张GPU)的成本就完成了训练,这与传统高性能视频生成模型相比,大大降低了训练门槛。

更令人振奋的是,Open-Sora 2.0 在权威评测平台 VBench 以及用户偏好测试中表现出色,其性能甚至可以媲美或超越腾讯的 HunyuanVideo 和 300亿参数的 Step-Video 等主流闭源模型。这意味着,在视频生成领域,开源模型正在迅速赶超闭源模型,为更多开发者和研究者提供了参与的机会。

技术解析:Open-Sora 2.0 的核心竞争力

Open-Sora 2.0 的卓越性能并非偶然,而是源于其独特的技术架构和高效的训练方法:

  • 3D 自编码器、3D 全注意力机制和 MMDiT 架构: 这些技术组合能够高效处理视频数据,捕捉时间维度上的动态信息,提升视频生成的时空一致性,并更精准地捕捉文本与视频内容的关联。
  • 高压缩比自编码器: 基于 4×32×32 的高压缩比自编码器,显著降低了推理成本,使得Open-Sora 2.0 在实际应用中更具优势。
  • 多阶段、多层次的数据筛选机制: 确保高质量数据输入,提升训练效率。
  • 并行训练与优化: 结合 ColossalAI 和系统级优化,提升计算资源利用率,关键技术优化包括序列并行、ZeroDP、细粒度 Gradient Checkpointing、自动恢复机制、高效数据加载与内存管理等,确保训练效率最大化。
  • 模型初始化与蒸馏: 借助开源图生视频模型 FLUX 进行初始化,降低训练成本。基于蒸馏的优化策略提升自编码器特征空间的表达能力,减少训练所需数据量和时间。

功能亮点:高质量、可控、多样化

Open-Sora 2.0 不仅在性能上表现出色,在功能上也十分强大:

  • 高质量视频生成: 生成 720p 分辨率、24 FPS 的流畅视频,支持多种场景和风格,从自然风光到复杂动态场景都能表现出色。
  • 动作幅度可控: 根据用户需求调整视频中人物或物体的动作幅度,实现更细腻、精准的动态表现。
  • 文本到视频(T2V)生成: 支持用文本描述直接生成对应的视频内容,满足创意视频制作和内容生成的需求。
  • 图像到视频(I2V)生成: 结合开源图像模型,基于图像生成视频,进一步提升生成效果和多样性。

性能对比:Open-Sora 2.0 如何超越对手?

根据 VBench 的评测结果,Open-Sora 2.0 的性能表现极为出色。从Open-Sora 1.2升级到2.0版本后,与行业领先的 OpenAI Sora 闭源模型之间的性能差距从 4.52% 缩减至仅 0.69%,几乎实现完全的性能对齐。Open-Sora 2.0 的评测分数已超越腾讯的 HunyuanVideo,用更低的训练成本达成了更高的性能水平。

在用户偏好评测中,Open-Sora 2.0 在视觉表现、文本一致性和动作表现三大关键维度中,至少在两个指标上超越开源 SOTA 模型 HunyuanVideo 和商业模型 Runway Gen-3 Alpha,用更少的资源实现更优的性能表现。

开源意义:推动视频生成技术普及

潞晨科技开源 Open-Sora 2.0 的举动,无疑将极大地推动视频生成技术的普及和发展。开源意味着更多的开发者和研究者可以免费使用、修改和改进 Open-Sora 2.0,从而加速技术的创新和应用。

Open-Sora 2.0 的开源,不仅为视频生成领域带来了新的选择,也为人工智能的未来发展注入了新的活力。

项目地址:

结语:

Open-Sora 2.0 的发布,标志着开源视频生成技术进入了一个新的阶段。我们期待 Open-Sora 2.0 能够在未来推动更多创新应用,为人们的生活带来更多便利和乐趣。同时,我们也期待更多的科技公司能够加入到开源的行列中来,共同推动人工智能技术的进步。
“`


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注