阶跃星辰发布图生视频模型Step-Video-TI2V

摘要： 中国人工智能公司阶跃星辰（StepFun）近日开源了其研发的图生视频模型Step-Video-TI2V，该模型拥有300亿参数，能够根据用户提供的图像和文本描述生成高质量、长达102帧的视频。这一突破性的技术不仅降低了视频创作的门槛，也为动画制作、短视频生成等领域带来了新的可能性。

北京 – 在人工智能技术日新月异的今天，视频生成领域再次迎来重大突破。中国人工智能公司阶跃星辰（StepFun）正式开源了其自主研发的图生视频模型Step-Video-TI2V。这一举措无疑将加速AI视频创作的普及，并为相关行业带来深远影响。

Step-Video-TI2V模型拥有高达300亿的参数，能够根据用户提供的单张图片和文本描述，生成最长可达102帧的视频内容。这意味着用户只需提供一张图片和一段文字描述，即可快速生成一段生动、连贯的视频，极大地降低了视频创作的门槛。

技术解析：深度压缩与Transformer架构的融合

Step-Video-TI2V的核心技术在于其深度压缩的变分自编码器（Video-VAE）和基于扩散的Transformer（DiT）架构。Video-VAE实现了16×16的空间压缩和8×的时间压缩，显著提高了训练和推理效率，同时保证了视频重建的质量。而DiT架构则通过3D全注意力机制，将输入噪声逐步去噪为潜在帧，并以文本嵌入和时间步作为条件因子，从而生成具有强烈运动动态和高美学质量的视频。

“我们采用了双路径架构的Video-VAE，能够有效分离高低频信息，进一步优化视频生成的效果，”阶跃星辰的技术负责人表示，“同时，DiT架构在生成具有复杂运动和高质量视觉效果的视频方面表现出色。”

功能亮点：灵活控制与多样化应用场景

Step-Video-TI2V不仅在技术上有所突破，在功能上也十分强大。用户可以通过调整“运动分数”（motion score）来平衡视频的动态性和稳定性。例如，较低的运动分数可以生成更稳定的视频，而较高的运动分数则可以带来更强的动态效果。

此外，该模型还支持多种运镜方式，包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等，能够生成类似电影级别的复杂运镜效果。

Step-Video-TI2V的应用场景十分广泛，包括：

动画制作： 尤其擅长生成动漫风格的视频，能根据输入的图片和文本描述生成流畅的动画。
短视频制作： 支持多种运镜方式，能生成具有电影级效果的短视频。
动作教学： 可以生成复杂动态场景，如体育动作教学、舞蹈教学等。
特效制作： 适用于电影、电视剧和游戏中的特效制作。
产品展示： 可以生成吸引人的广告视频，展示产品特点或品牌故事。

开源意义：加速AI视频创作生态的构建

阶跃星辰选择开源Step-Video-TI2V，无疑将加速AI视频创作生态的构建。通过开放源代码和模型，开发者和研究人员可以更方便地使用、改进和扩展该模型，从而推动AI视频生成技术的进步。

“我们相信开源是推动技术发展的最佳方式，”阶跃星辰的CEO表示，“我们希望Step-Video-TI2V能够成为一个开放的平台，吸引更多的开发者和研究人员参与进来，共同推动AI视频创作的发展。”

未来展望：特效生成与多语言支持的持续优化

虽然Step-Video-TI2V已经取得了显著的成果，但阶跃星辰并未止步于此。据了解，该公司计划在未来继续优化该模型，进一步提升特效生成效果，并扩展其多语言支持能力。

“我们正在努力提升Step-Video-TI2V的特效生成能力，使其能够生成更具美感和真实感的视频，”阶跃星辰的技术负责人透露，“同时，我们也在积极扩展其多语言支持能力，以便让更多的用户能够使用该模型进行创作。”

Step-Video-TI2V的开源，标志着AI视频创作进入了一个新的阶段。随着技术的不断进步和生态的不断完善，我们有理由相信，AI视频创作将在未来发挥更加重要的作用，为人们的生活带来更多的便利和乐趣。

参考文献：

Step-Video-TI2V Github仓库: https://github.com/stepfun-ai/Step-Video-TI2V
Step-Video-TI2V HuggingFace模型库: https://huggingface.co/stepfun-ai/stepvideo-ti2v
Step-Video-TI2V arXiv技术论文: https://arxiv.org/pdf/2503.11251

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

阶跃星辰发布图生视频模型Step-Video-TI2V

作者智能小编

相关文章

纳瓦尔揭露：人性的44个残酷真相

Discord如何索引千亿消息：技术揭秘

MongoDB联手Voyage AI，革新信息检索

发表回复取消回复

为您推荐