Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京 – 在人工智能领域,国产力量正加速崛起。继DeepSeek之后,国内AI创业公司阶跃星辰于本周二宣布联合吉利汽车集团,开源两款多模态大模型,引发行业广泛关注。这两款模型分别是视频生成模型Step-Video-T2V和行业内首款产品级开源语音交互模型Step-Audio。

根据阶跃星辰官方测评报告,Step-Video-T2V目前是全球范围内参数量最大、性能最佳的开源视频生成模型。该模型采用宽松的MIT许可协议,支持免费商用、任意修改和衍生开发,为开源社区注入了新的活力。

技术突破:Step-Video-T2V引领视频生成新高度

Step-Video-T2V的开源,无疑为视频生成领域带来了新的技术思路。这款模型在多个方面展现出卓越的性能:

  • 强大的运镜能力: 能够实现推、拉、摇、移、旋转、跟随等多种镜头运动方式,并支持不同景别之间的切换,显著提升了视频的电影感和叙事能力。
  • 逼真的人物运动: 擅长复杂运动生成,无论是芭蕾舞、空手道、羽毛球还是跳水,都能展现出对复杂运动场景的优秀把控能力。
  • 细腻的人物形象: 生成的人物形象更加逼真、生动,细节更丰富,表情也更自然,五官、发型、皮肤纹理都更加细腻。

这些优势使得Step-Video-T2V在复杂运动、人物美感、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大能力,能够帮助用户更精准地呈现创意。

技术细节:300亿参数模型背后的创新

惊艳的视频生成效果背后,是阶跃星辰自研且具有创新性的基础多模态大模型。Step-Video-T2V的参数量达到300亿,可以单次直接生成204帧、540P分辨率的高质量视频。

为了实现更加逼真的视频生成,研究人员设计了深度压缩变分自编码器Video-VAE,实现了16×16的空间压缩比,相比绝大多数8×8×4压缩比的VAE模型,能够在相同视频帧数下额外压缩8倍,从而实现训练和生成效率提升64倍的效果。此外,阶跃星辰还使用流匹配训练了一个具有3D全注意力机制的DiT,用于将输入噪声去噪成潜在帧,并应用了基于视频的DPO方法以减少伪影并提高生成视频的视觉质量。

开源评测:Step-Video-T2V-Eval数据集的推出

为了对开源视频生成模型的性能进行全面评测,阶跃星辰还开源了针对文生视频质量评测的基准数据集Step-Video-T2V-Eval。该测试集包含128条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D动画、电影摄影等11个内容类别上的质量。评测结果显示,Step-Video-T2V的模型性能在指令遵循、运动平滑性、物理合理性等方面均表现出色。

行业反响:AI社区的积极评价

阶跃星辰的大模型在AI社区引发了广泛关注。Hugging Face工程师、前谷歌TensorFlow团队成员Tiezhen Wang表示,阶跃星辰简直就是下个DeepSeek。Hugging Face官推也转贴了他的评论。GPT-J作者Aran Komatsuzaki贴出了用新模型生成的视频。更多网友对国内AI公司对开源社区的贡献表示了欢迎。

体验入口:跃问App和桌面端

目前,两款大模型均已可以在“跃问”App上进行体验,视频模型还可以在桌面端使用。

开源地址:

结语:国产AI的崛起与开源的未来

阶跃星辰开源两款多模态大模型,不仅展现了中国AI技术的进步,也体现了国产AI企业积极拥抱开源、回馈社区的姿态。在人工智能加速发展的今天,开源共享将成为推动技术创新的重要力量。我们期待更多中国AI企业能够加入开源行列,共同构建繁荣的AI生态,为全球人工智能发展贡献中国智慧。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注