Open-Sora 2.0开源：20万美元炼成百万级视频模型

北京 – 视频生成领域正迎来一场开源革命。中国人工智能公司潞晨科技近日重磅发布了Open-Sora 2.0，一款全新的开源视频生成模型，以仅20万美元的训练成本，实现了媲美百万美元级闭源模型的性能。这一突破性的进展，极大地降低了高质量视频生成的门槛，为行业发展注入了新的活力。

开发高性能的视频生成模型通常耗资巨大。据了解，Meta的视频模型训练需要超过6000张GPU卡片，投入高达数百万美元。而Open-Sora 2.0的出现，打破了这一局面。该模型仅使用224张GPU，耗资20万美元，就成功训练出11B参数的商业级视频生成大模型。

Open-Sora 2.0在各项关键指标上都表现出色。在权威评测平台VBench上，Open-Sora 2.0与行业领先的OpenAI Sora之间的性能差距大幅缩小至0.69%，几乎实现了性能的全面追平。此外，Open-Sora 2.0在VBench评测中取得的分数已超过腾讯的HunyuanVideo，以更低的成本实现了更高的性能。

用户偏好评测也证实了Open-Sora 2.0的卓越性能。在视觉表现、文本一致性和动作表现三个评估维度上，Open-Sora在至少两个指标上超越了开源SOTA HunyuanVideo，以及商业模型Runway Gen-3 Alpha等。

潞晨科技此次发布不仅开源了模型权重和推理代码，还开源了全流程训练代码，旨在打造一个强大的开源生态圈。Open-Sora自开源以来，凭借其在视频生成领域的高效与优质表现，吸引了众多开发者的关注与参与。据第三方技术平台统计，Open-Sora的学术论文引用量半年内获得近百引用，在全球开源影响力排名中稳居首位，领先所有开源的I2V/T2V视频生成项目，成为全球影响力最大的开源视频生成项目之一。

技术解析：低成本高效能的秘诀

Open-Sora 2.0之所以能够以低成本实现高性能，得益于其在模型架构和训练方法上的创新。

模型架构： Open-Sora 2.0延续了Open-Sora 1.2的设计思路，继续采用3D自编码器和Flow Matching训练框架，并通过多桶训练机制，实现对不同视频长度和分辨率的同时训练。在模型架构上，引入3D全注意力机制，进一步提升视频生成质量。同时，采用最新的MMDiT架构，更精准地捕捉文本信息与视频内容的关系，并将模型规模从1B扩展至11B。此外，借助开源图生视频模型FLUX进行初始化，大幅降低训练成本，实现更高效的视频生成优化。
高效训练方法： Open-Sora 2.0从四个方面着手削减训练开销。首先，通过严格的数据筛选，确保高质量数据输入，从源头提升模型训练效率。其次，优先将算力投入到低分辨率训练，以高效学习运动信息，在降低成本的同时确保模型能够捕捉关键的动态特征。与此同时，Open-Sora优先训练图生视频任务，以加速模型收敛。最后，Open-Sora采用高效的并行训练方案，结合ColossalAI和系统级优化，大幅提升计算资源利用率，实现更高效的视频生成训练。

此外，Open-Sora还探索了高压缩比视频自编码器的应用，以大幅降低推理成本。目前，大多数视频模型仍采用4×8×8的自编码器，导致单卡生成768px、5秒视频耗时近30分钟。为解决这一瓶颈，Open-Sora训练了一款高压缩比（4×32×32）的视频自编码器，将推理时间缩短至单卡3分钟以内，推理速度提升10倍。

未来展望：开源生态助力视频生成技术普及

Open-Sora 2.0的开源发布，无疑将加速视频生成技术的普及。开发者可以基于Open-Sora 2.0进行二次开发，构建各种应用场景，例如：

内容创作： 快速生成高质量的短视频、动画等内容，降低创作门槛。
教育培训： 创建生动形象的教学视频，提升学习效果。
游戏开发： 快速生成游戏场景和角色动画，缩短开发周期。
虚拟现实： 构建逼真的虚拟现实场景，提升用户体验。

潞晨科技的Open-Sora 2.0，不仅是一款优秀的视频生成模型，更是一个开放的平台，一个充满活力的生态系统。相信在开源社区的共同努力下，视频生成技术将迎来更加广阔的发展前景。

参考文献：

潞晨科技官方网站：https://www.hpcaitech.com/
Open-Sora 2.0 GitHub开源仓库：https://github.com/hpcaitech/Open-Sora
VBench评测平台：(请自行搜索VBench视频生成模型评测平台)

（本文作者为资深新闻记者，曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等媒体。）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Open-Sora 2.0开源：20万美元炼成百万级视频模型

作者智能小编

相关文章

AI 指数报告：斯坦福揭示 2025 年趋势

RAG Evolution Four Key Questions Shaping the Future

25年后Agent：简单至上，复杂淘汰

发表回复取消回复

为您推荐