Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

摘要: 中国人工智能公司阶跃星辰(StepFun)近日开源了其研发的图生视频模型Step-Video-TI2V,该模型拥有300亿参数,能够根据用户提供的图像和文本描述生成高质量、长达102帧的视频。这一突破性的技术不仅降低了视频创作的门槛,也为动画制作、短视频生成等领域带来了新的可能性。

北京 – 在人工智能技术日新月异的今天,视频生成领域再次迎来重大突破。中国人工智能公司阶跃星辰(StepFun)正式开源了其自主研发的图生视频模型Step-Video-TI2V。这一举措无疑将加速AI视频创作的普及,并为相关行业带来深远影响。

Step-Video-TI2V模型拥有高达300亿的参数,能够根据用户提供的单张图片和文本描述,生成最长可达102帧的视频内容。这意味着用户只需提供一张图片和一段文字描述,即可快速生成一段生动、连贯的视频,极大地降低了视频创作的门槛。

技术解析:深度压缩与Transformer架构的融合

Step-Video-TI2V的核心技术在于其深度压缩的变分自编码器(Video-VAE)和基于扩散的Transformer(DiT)架构。Video-VAE实现了16×16的空间压缩和8×的时间压缩,显著提高了训练和推理效率,同时保证了视频重建的质量。而DiT架构则通过3D全注意力机制,将输入噪声逐步去噪为潜在帧,并以文本嵌入和时间步作为条件因子,从而生成具有强烈运动动态和高美学质量的视频。

“我们采用了双路径架构的Video-VAE,能够有效分离高低频信息,进一步优化视频生成的效果,”阶跃星辰的技术负责人表示,“同时,DiT架构在生成具有复杂运动和高质量视觉效果的视频方面表现出色。”

功能亮点:灵活控制与多样化应用场景

Step-Video-TI2V不仅在技术上有所突破,在功能上也十分强大。用户可以通过调整“运动分数”(motion score)来平衡视频的动态性和稳定性。例如,较低的运动分数可以生成更稳定的视频,而较高的运动分数则可以带来更强的动态效果。

此外,该模型还支持多种运镜方式,包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等,能够生成类似电影级别的复杂运镜效果。

Step-Video-TI2V的应用场景十分广泛,包括:

  • 动画制作: 尤其擅长生成动漫风格的视频,能根据输入的图片和文本描述生成流畅的动画。
  • 短视频制作: 支持多种运镜方式,能生成具有电影级效果的短视频。
  • 动作教学: 可以生成复杂动态场景,如体育动作教学、舞蹈教学等。
  • 特效制作: 适用于电影、电视剧和游戏中的特效制作。
  • 产品展示: 可以生成吸引人的广告视频,展示产品特点或品牌故事。

开源意义:加速AI视频创作生态的构建

阶跃星辰选择开源Step-Video-TI2V,无疑将加速AI视频创作生态的构建。通过开放源代码和模型,开发者和研究人员可以更方便地使用、改进和扩展该模型,从而推动AI视频生成技术的进步。

“我们相信开源是推动技术发展的最佳方式,”阶跃星辰的CEO表示,“我们希望Step-Video-TI2V能够成为一个开放的平台,吸引更多的开发者和研究人员参与进来,共同推动AI视频创作的发展。”

未来展望:特效生成与多语言支持的持续优化

虽然Step-Video-TI2V已经取得了显著的成果,但阶跃星辰并未止步于此。据了解,该公司计划在未来继续优化该模型,进一步提升特效生成效果,并扩展其多语言支持能力。

“我们正在努力提升Step-Video-TI2V的特效生成能力,使其能够生成更具美感和真实感的视频,”阶跃星辰的技术负责人透露,“同时,我们也在积极扩展其多语言支持能力,以便让更多的用户能够使用该模型进行创作。”

Step-Video-TI2V的开源,标志着AI视频创作进入了一个新的阶段。随着技术的不断进步和生态的不断完善,我们有理由相信,AI视频创作将在未来发挥更加重要的作用,为人们的生活带来更多的便利和乐趣。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注