Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京—— 在人工智能技术日新月异的今天,视频生成领域再次迎来突破。近日,由阶跃星辰(StepFun)公司研发的开源图生视频模型Step-Video-TI2V正式发布,这款拥有300亿参数的模型,能够根据用户提供的单张图片和文本描述,生成最长102帧的流畅视频,为AI视频创作开启了新的可能性。

Step-Video-TI2V的发布,无疑为动画制作、短视频创作、特效制作等领域带来了福音。用户只需上传一张图片,并输入一段描述视频内容的文字,即可快速生成一段高质量的视频。例如,上传一张静止的风景照片,并描述“微风拂过,树叶摇曳”,Step-Video-TI2V便能生成一段栩栩如生的动态视频,展现出微风吹拂下树叶的自然摆动。

技术解析:深度压缩与Transformer架构的融合

Step-Video-TI2V之所以能够实现如此出色的图生视频效果,得益于其背后强大的技术支撑。该模型采用了深度压缩的变分自编码器(Video-VAE),实现了16×16的空间压缩和8×的时间压缩,极大地提高了训练和推理效率。这意味着,在保证视频质量的前提下,模型能够更快地生成视频,并降低对计算资源的需求。

此外,Step-Video-TI2V还采用了基于扩散的Transformer(DiT)架构,并融入了3D全注意力机制。这种架构能够更好地捕捉视频中的时空信息,从而生成具有强烈运动动态和高美学质量的视频。通过Flow Matching训练方法,模型能够将输入噪声逐步去噪为潜在帧,并将文本嵌入和时间步作为条件因子,从而实现对视频内容的精准控制。

动态性调节与镜头运动控制:赋予创作者更多自由

Step-Video-TI2V不仅能够生成高质量的视频,还允许用户通过调整“运动分数”(motion score)来平衡视频的动态性和稳定性。较低的运动分数会生成更稳定的视频,而较高的运动分数则会带来更强的动态效果。这一功能为创作者提供了更大的创作自由,使其能够根据不同的需求,调整视频的风格和节奏。

更令人惊喜的是,Step-Video-TI2V还支持多种镜头运动方式,包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等。这些丰富的镜头运动方式,使得生成的视频更具电影感,能够满足专业创作的需求。

多语言支持与特效生成:未来可期

Step-Video-TI2V配备了双语文本编码器,支持中英文提示输入,方便不同语言背景的用户使用。此外,该模型还初步具备特效生成能力,未来将通过技术优化进一步提升特效生成效果。这意味着,Step-Video-TI2V有望在未来成为一款功能更加强大的AI视频创作工具。

开源共享:推动AI视频技术的发展

阶跃星辰选择开源Step-Video-TI2V,无疑将加速AI视频技术的发展。通过开源,更多的研究者和开发者可以参与到Step-Video-TI2V的改进和优化中来,共同推动AI视频技术的进步。

项目地址:

Step-Video-TI2V的发布,是AI视频生成领域的一次重要突破。它不仅为创作者提供了更便捷、更高效的创作工具,也为AI视频技术的未来发展指明了方向。随着技术的不断进步,我们有理由相信,AI视频创作将在未来迎来更加广阔的应用前景。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注