摘要: 中国人工智能公司阶跃星辰(StepFun)近日开源了其研发的图生视频模型Step-Video-TI2V,该模型拥有300亿参数,能够根据用户提供的图像和文本描述生成高质量、长达102帧的视频。这一突破性的技术不仅降低了视频创作的门槛,也为动画制作、短视频生成等领域带来了新的可能性。
北京 – 在人工智能技术日新月异的今天,视频生成领域再次迎来重大突破。中国人工智能公司阶跃星辰(StepFun)正式开源了其自主研发的图生视频模型Step-Video-TI2V。这一举措无疑将加速AI视频创作的普及,并为相关行业带来深远影响。
Step-Video-TI2V模型拥有高达300亿的参数,能够根据用户提供的单张图片和文本描述,生成最长可达102帧的视频内容。这意味着用户只需提供一张图片和一段文字描述,即可快速生成一段生动、连贯的视频,极大地降低了视频创作的门槛。
技术解析:深度压缩与Transformer架构的融合
Step-Video-TI2V的核心技术在于其深度压缩的变分自编码器(Video-VAE)和基于扩散的Transformer(DiT)架构。Video-VAE实现了16×16的空间压缩和8×的时间压缩,显著提高了训练和推理效率,同时保证了视频重建的质量。而DiT架构则通过3D全注意力机制,将输入噪声逐步去噪为潜在帧,并以文本嵌入和时间步作为条件因子,从而生成具有强烈运动动态和高美学质量的视频。
“我们采用了双路径架构的Video-VAE,能够有效分离高低频信息,进一步优化视频生成的效果,”阶跃星辰的技术负责人表示,“同时,DiT架构在生成具有复杂运动和高质量视觉效果的视频方面表现出色。”
功能亮点:灵活控制与多样化应用场景
Step-Video-TI2V不仅在技术上有所突破,在功能上也十分强大。用户可以通过调整“运动分数”(motion score)来平衡视频的动态性和稳定性。例如,较低的运动分数可以生成更稳定的视频,而较高的运动分数则可以带来更强的动态效果。
此外,该模型还支持多种运镜方式,包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等,能够生成类似电影级别的复杂运镜效果。
Step-Video-TI2V的应用场景十分广泛,包括:
- 动画制作: 尤其擅长生成动漫风格的视频,能根据输入的图片和文本描述生成流畅的动画。
- 短视频制作: 支持多种运镜方式,能生成具有电影级效果的短视频。
- 动作教学: 可以生成复杂动态场景,如体育动作教学、舞蹈教学等。
- 特效制作: 适用于电影、电视剧和游戏中的特效制作。
- 产品展示: 可以生成吸引人的广告视频,展示产品特点或品牌故事。
开源意义:加速AI视频创作生态的构建
阶跃星辰选择开源Step-Video-TI2V,无疑将加速AI视频创作生态的构建。通过开放源代码和模型,开发者和研究人员可以更方便地使用、改进和扩展该模型,从而推动AI视频生成技术的进步。
“我们相信开源是推动技术发展的最佳方式,”阶跃星辰的CEO表示,“我们希望Step-Video-TI2V能够成为一个开放的平台,吸引更多的开发者和研究人员参与进来,共同推动AI视频创作的发展。”
未来展望:特效生成与多语言支持的持续优化
虽然Step-Video-TI2V已经取得了显著的成果,但阶跃星辰并未止步于此。据了解,该公司计划在未来继续优化该模型,进一步提升特效生成效果,并扩展其多语言支持能力。
“我们正在努力提升Step-Video-TI2V的特效生成能力,使其能够生成更具美感和真实感的视频,”阶跃星辰的技术负责人透露,“同时,我们也在积极扩展其多语言支持能力,以便让更多的用户能够使用该模型进行创作。”
Step-Video-TI2V的开源,标志着AI视频创作进入了一个新的阶段。随着技术的不断进步和生态的不断完善,我们有理由相信,AI视频创作将在未来发挥更加重要的作用,为人们的生活带来更多的便利和乐趣。
参考文献:
- Step-Video-TI2V Github仓库: https://github.com/stepfun-ai/Step-Video-TI2V
- Step-Video-TI2V HuggingFace模型库: https://huggingface.co/stepfun-ai/stepvideo-ti2v
- Step-Video-TI2V arXiv技术论文: https://arxiv.org/pdf/2503.11251
Views: 0