Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: 潞晨科技近日开源了其最新的AI视频生成模型Open-Sora 2.0,该模型以仅110亿参数的规模,在性能上媲美甚至超越了HunyuanVideo和30B参数的Step-Video等主流闭源模型。Open-Sora 2.0的开源,不仅降低了AI视频生成的门槛,也为该领域带来了新的发展机遇。

引言:

AI视频生成领域正迎来一场新的变革。在OpenAI的Sora引领风潮之际,中国科技公司潞晨科技推出了开源的Open-Sora 2.0模型,以更低的成本和更高的效率,向闭源巨头们发起了挑战。这不仅是技术上的突破,更是AI民主化的重要一步。

Open-Sora 2.0:技术原理与功能亮点

Open-Sora 2.0并非横空出世,而是潞晨科技在AI视频生成领域持续深耕的成果。该模型基于以下关键技术:

  • 3D自编码器: 能够高效处理视频数据,捕捉时间维度上的动态信息,保证视频的流畅性和连贯性。
  • 全注意力机制: 提升视频生成的时空一致性,确保画面中的元素在时间和空间上保持协调。
  • MMDiT架构: 多模态扩散架构,更精准地捕捉文本与视频内容的关联,实现更精确的文本到视频生成。
  • 高压缩比自编码器: 基于 4×32×32 的高压缩比自编码器,显著降低推理成本,使得普通用户也能体验高质量的AI视频生成。

Open-Sora 2.0具备以下主要功能:

  • 高质量视频生成: 生成720p分辨率、24 FPS的流畅视频,支持多种场景和风格,从自然风光到复杂动态场景都能表现出色。
  • 动作幅度可控: 根据用户需求调整视频中人物或物体的动作幅度,实现更细腻、精准的动态表现。
  • 文本到视频(T2V)生成: 支持用文本描述直接生成对应的视频内容,满足创意视频制作和内容生成的需求。
  • 图像到视频(I2V)生成: 结合开源图像模型,基于图像生成视频,进一步提升生成效果和多样性。

性能表现:挑战闭源模型

Open-Sora 2.0的性能表现令人瞩目。在VBench和用户偏好测试中,它达到了与HunyuanVideo和30B参数的Step-Video等高成本闭源模型相媲美的水平。更令人惊讶的是,Open-Sora 2.0仅使用了11B参数,这意味着更低的训练成本和更高的效率。

根据VBench的评测结果,Open-Sora 2.0从1.2版本升级到2.0版本后,与OpenAI Sora之间的性能差距从4.52%缩减至仅0.69%,几乎实现完全的性能对齐。这一数据充分证明了Open-Sora 2.0在技术上的突破。

开源的意义:加速AI视频生成发展

潞晨科技选择开源Open-Sora 2.0,具有重要的战略意义:

  • 降低门槛: 开源使得更多的开发者和研究者能够参与到AI视频生成的研究和应用中来,加速技术创新。
  • 促进合作: 开源鼓励社区合作,集思广益,共同解决技术难题,推动AI视频生成技术的进步。
  • 加速应用: 开源降低了企业和个人使用AI视频生成技术的成本,加速了其在各个领域的应用,例如广告、教育、娱乐等。

挑战与展望:

尽管Open-Sora 2.0取得了显著的成就,但AI视频生成领域仍然面临着诸多挑战:

  • 生成视频的真实性: 如何确保AI生成的视频不被用于恶意目的,例如虚假宣传和信息操纵,是一个亟待解决的问题。
  • 计算资源的需求: 尽管Open-Sora 2.0降低了训练成本,但生成高质量的视频仍然需要大量的计算资源。
  • 伦理问题: 如何平衡AI视频生成技术的发展与伦理道德的约束,避免侵犯个人隐私和版权,需要全社会的共同努力。

展望未来,随着技术的不断进步和社区的共同努力,AI视频生成技术将会在各个领域发挥更大的作用。Open-Sora 2.0的开源,无疑为这一领域的繁荣发展注入了新的活力。

项目地址:

参考文献:

  • 潞晨科技Open-Sora 2.0官方介绍
  • VBench视频生成模型评测榜单
  • HunyuanVideo相关技术文档
  • Step-Video相关技术文档


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注