阶跃星辰发布图生视频模型Step-Video-TI2V

北京—— 在人工智能技术日新月异的今天，视频生成领域再次迎来突破。近日，由阶跃星辰（StepFun）公司研发的开源图生视频模型Step-Video-TI2V正式发布，这款拥有300亿参数的模型，能够根据用户提供的单张图片和文本描述，生成最长102帧的流畅视频，为AI视频创作开启了新的可能性。

Step-Video-TI2V的发布，无疑为动画制作、短视频创作、特效制作等领域带来了福音。用户只需上传一张图片，并输入一段描述视频内容的文字，即可快速生成一段高质量的视频。例如，上传一张静止的风景照片，并描述“微风拂过，树叶摇曳”，Step-Video-TI2V便能生成一段栩栩如生的动态视频，展现出微风吹拂下树叶的自然摆动。

技术解析：深度压缩与Transformer架构的融合

Step-Video-TI2V之所以能够实现如此出色的图生视频效果，得益于其背后强大的技术支撑。该模型采用了深度压缩的变分自编码器（Video-VAE），实现了16×16的空间压缩和8×的时间压缩，极大地提高了训练和推理效率。这意味着，在保证视频质量的前提下，模型能够更快地生成视频，并降低对计算资源的需求。

此外，Step-Video-TI2V还采用了基于扩散的Transformer（DiT）架构，并融入了3D全注意力机制。这种架构能够更好地捕捉视频中的时空信息，从而生成具有强烈运动动态和高美学质量的视频。通过Flow Matching训练方法，模型能够将输入噪声逐步去噪为潜在帧，并将文本嵌入和时间步作为条件因子，从而实现对视频内容的精准控制。

动态性调节与镜头运动控制：赋予创作者更多自由

Step-Video-TI2V不仅能够生成高质量的视频，还允许用户通过调整“运动分数”（motion score）来平衡视频的动态性和稳定性。较低的运动分数会生成更稳定的视频，而较高的运动分数则会带来更强的动态效果。这一功能为创作者提供了更大的创作自由，使其能够根据不同的需求，调整视频的风格和节奏。

更令人惊喜的是，Step-Video-TI2V还支持多种镜头运动方式，包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等。这些丰富的镜头运动方式，使得生成的视频更具电影感，能够满足专业创作的需求。

多语言支持与特效生成：未来可期

Step-Video-TI2V配备了双语文本编码器，支持中英文提示输入，方便不同语言背景的用户使用。此外，该模型还初步具备特效生成能力，未来将通过技术优化进一步提升特效生成效果。这意味着，Step-Video-TI2V有望在未来成为一款功能更加强大的AI视频创作工具。

开源共享：推动AI视频技术的发展

阶跃星辰选择开源Step-Video-TI2V，无疑将加速AI视频技术的发展。通过开源，更多的研究者和开发者可以参与到Step-Video-TI2V的改进和优化中来，共同推动AI视频技术的进步。

项目地址：

Github仓库：https://github.com/stepfun-ai/Step-Video-TI2V
HuggingFace模型库：https://huggingface.co/stepfun-ai/stepvideo-ti2v
arXiv技术论文：https://arxiv.org/pdf/2503.11251

Step-Video-TI2V的发布，是AI视频生成领域的一次重要突破。它不仅为创作者提供了更便捷、更高效的创作工具，也为AI视频技术的未来发展指明了方向。随着技术的不断进步，我们有理由相信，AI视频创作将在未来迎来更加广阔的应用前景。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

阶跃星辰发布图生视频模型Step-Video-TI2V

作者智能小编

相关文章

Cloudflare发布AutoRAG：全托管检索增强生成服务

Cloudflare Workflows：持久化执行，生产就绪！

Agent技术揭秘：MCP、认证、授权与免费持久对象

发表回复取消回复

为您推荐