北京 – 在人工智能领域,国产力量正加速崛起。继DeepSeek之后,国内AI创业公司阶跃星辰于本周二宣布联合吉利汽车集团,开源两款多模态大模型,引发行业广泛关注。这两款模型分别是视频生成模型Step-Video-T2V和行业内首款产品级开源语音交互模型Step-Audio。
根据阶跃星辰官方测评报告,Step-Video-T2V目前是全球范围内参数量最大、性能最佳的开源视频生成模型。该模型采用宽松的MIT许可协议,支持免费商用、任意修改和衍生开发,为开源社区注入了新的活力。
技术突破:Step-Video-T2V引领视频生成新高度
Step-Video-T2V的开源,无疑为视频生成领域带来了新的技术思路。这款模型在多个方面展现出卓越的性能:
- 强大的运镜能力: 能够实现推、拉、摇、移、旋转、跟随等多种镜头运动方式,并支持不同景别之间的切换,显著提升了视频的电影感和叙事能力。
- 逼真的人物运动: 擅长复杂运动生成,无论是芭蕾舞、空手道、羽毛球还是跳水,都能展现出对复杂运动场景的优秀把控能力。
- 细腻的人物形象: 生成的人物形象更加逼真、生动,细节更丰富,表情也更自然,五官、发型、皮肤纹理都更加细腻。
这些优势使得Step-Video-T2V在复杂运动、人物美感、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大能力,能够帮助用户更精准地呈现创意。
技术细节:300亿参数模型背后的创新
惊艳的视频生成效果背后,是阶跃星辰自研且具有创新性的基础多模态大模型。Step-Video-T2V的参数量达到300亿,可以单次直接生成204帧、540P分辨率的高质量视频。
为了实现更加逼真的视频生成,研究人员设计了深度压缩变分自编码器Video-VAE,实现了16×16的空间压缩比,相比绝大多数8×8×4压缩比的VAE模型,能够在相同视频帧数下额外压缩8倍,从而实现训练和生成效率提升64倍的效果。此外,阶跃星辰还使用流匹配训练了一个具有3D全注意力机制的DiT,用于将输入噪声去噪成潜在帧,并应用了基于视频的DPO方法以减少伪影并提高生成视频的视觉质量。
开源评测:Step-Video-T2V-Eval数据集的推出
为了对开源视频生成模型的性能进行全面评测,阶跃星辰还开源了针对文生视频质量评测的基准数据集Step-Video-T2V-Eval。该测试集包含128条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D动画、电影摄影等11个内容类别上的质量。评测结果显示,Step-Video-T2V的模型性能在指令遵循、运动平滑性、物理合理性等方面均表现出色。
行业反响:AI社区的积极评价
阶跃星辰的大模型在AI社区引发了广泛关注。Hugging Face工程师、前谷歌TensorFlow团队成员Tiezhen Wang表示,阶跃星辰简直就是下个DeepSeek。Hugging Face官推也转贴了他的评论。GPT-J作者Aran Komatsuzaki贴出了用新模型生成的视频。更多网友对国内AI公司对开源社区的贡献表示了欢迎。
体验入口:跃问App和桌面端
目前,两款大模型均已可以在“跃问”App上进行体验,视频模型还可以在桌面端使用。
开源地址:
- GitHub:https://github.com/stepfun-ai/Step-Video-T2V
- Hugging Face:https://huggingface.co/stepfun-ai/stepvideo-t2v
- Modelscope:https://modelscope.cn/models/stepfun-ai/stepvideo-t2v
- 技术报告:https://arxiv.org/abs/2502.10248
结语:国产AI的崛起与开源的未来
阶跃星辰开源两款多模态大模型,不仅展现了中国AI技术的进步,也体现了国产AI企业积极拥抱开源、回馈社区的姿态。在人工智能加速发展的今天,开源共享将成为推动技术创新的重要力量。我们期待更多中国AI企业能够加入开源行列,共同构建繁荣的AI生态,为全球人工智能发展贡献中国智慧。
Views: 0