北京 – 视频生成领域正迎来一场开源革命。中国人工智能公司潞晨科技近日重磅发布了Open-Sora 2.0,一款全新的开源视频生成模型,以仅20万美元的训练成本,实现了媲美百万美元级闭源模型的性能。这一突破性的进展,极大地降低了高质量视频生成的门槛,为行业发展注入了新的活力。
开发高性能的视频生成模型通常耗资巨大。据了解,Meta的视频模型训练需要超过6000张GPU卡片,投入高达数百万美元。而Open-Sora 2.0的出现,打破了这一局面。该模型仅使用224张GPU,耗资20万美元,就成功训练出11B参数的商业级视频生成大模型。
Open-Sora 2.0在各项关键指标上都表现出色。在权威评测平台VBench上,Open-Sora 2.0与行业领先的OpenAI Sora之间的性能差距大幅缩小至0.69%,几乎实现了性能的全面追平。此外,Open-Sora 2.0在VBench评测中取得的分数已超过腾讯的HunyuanVideo,以更低的成本实现了更高的性能。
用户偏好评测也证实了Open-Sora 2.0的卓越性能。在视觉表现、文本一致性和动作表现三个评估维度上,Open-Sora在至少两个指标上超越了开源SOTA HunyuanVideo,以及商业模型Runway Gen-3 Alpha等。
潞晨科技此次发布不仅开源了模型权重和推理代码,还开源了全流程训练代码,旨在打造一个强大的开源生态圈。Open-Sora自开源以来,凭借其在视频生成领域的高效与优质表现,吸引了众多开发者的关注与参与。据第三方技术平台统计,Open-Sora的学术论文引用量半年内获得近百引用,在全球开源影响力排名中稳居首位,领先所有开源的I2V/T2V视频生成项目,成为全球影响力最大的开源视频生成项目之一。
技术解析:低成本高效能的秘诀
Open-Sora 2.0之所以能够以低成本实现高性能,得益于其在模型架构和训练方法上的创新。
- 模型架构: Open-Sora 2.0延续了Open-Sora 1.2的设计思路,继续采用3D自编码器和Flow Matching训练框架,并通过多桶训练机制,实现对不同视频长度和分辨率的同时训练。在模型架构上,引入3D全注意力机制,进一步提升视频生成质量。同时,采用最新的MMDiT架构,更精准地捕捉文本信息与视频内容的关系,并将模型规模从1B扩展至11B。此外,借助开源图生视频模型FLUX进行初始化,大幅降低训练成本,实现更高效的视频生成优化。
- 高效训练方法: Open-Sora 2.0从四个方面着手削减训练开销。首先,通过严格的数据筛选,确保高质量数据输入,从源头提升模型训练效率。其次,优先将算力投入到低分辨率训练,以高效学习运动信息,在降低成本的同时确保模型能够捕捉关键的动态特征。与此同时,Open-Sora优先训练图生视频任务,以加速模型收敛。最后,Open-Sora采用高效的并行训练方案,结合ColossalAI和系统级优化,大幅提升计算资源利用率,实现更高效的视频生成训练。
此外,Open-Sora还探索了高压缩比视频自编码器的应用,以大幅降低推理成本。目前,大多数视频模型仍采用4×8×8的自编码器,导致单卡生成768px、5秒视频耗时近30分钟。为解决这一瓶颈,Open-Sora训练了一款高压缩比(4×32×32)的视频自编码器,将推理时间缩短至单卡3分钟以内,推理速度提升10倍。
未来展望:开源生态助力视频生成技术普及
Open-Sora 2.0的开源发布,无疑将加速视频生成技术的普及。开发者可以基于Open-Sora 2.0进行二次开发,构建各种应用场景,例如:
- 内容创作: 快速生成高质量的短视频、动画等内容,降低创作门槛。
- 教育培训: 创建生动形象的教学视频,提升学习效果。
- 游戏开发: 快速生成游戏场景和角色动画,缩短开发周期。
- 虚拟现实: 构建逼真的虚拟现实场景,提升用户体验。
潞晨科技的Open-Sora 2.0,不仅是一款优秀的视频生成模型,更是一个开放的平台,一个充满活力的生态系统。相信在开源社区的共同努力下,视频生成技术将迎来更加广阔的发展前景。
参考文献:
- 潞晨科技官方网站:https://www.hpcaitech.com/
- Open-Sora 2.0 GitHub开源仓库:https://github.com/hpcaitech/Open-Sora
- VBench评测平台:(请自行搜索VBench视频生成模型评测平台)
(本文作者为资深新闻记者,曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等媒体。)
Views: 0