Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

苹果发布STIV:8.7亿参数视频生成大模型,开启多模态视频创作新纪元

旧金山—— 科技巨头苹果公司近日正式发布了其最新的视频生成大模型——STIV (Scalable Text and Image Conditioned Video Generation)。这款拥有8.7亿参数的强大模型,不仅能够处理文本到视频(T2V)和文本图像到视频(TI2V)的任务,更以其卓越的性能和广泛的应用前景,预示着多模态视频创作新时代的到来。

技术突破:融合创新,提升视频生成质量

STIV模型基于PixArt-Alpha架构,并在此基础上进行了多项技术创新。其核心技术包括:

  • 联合图像-文本分类器自由引导(JIT-CFG): 这一技术通过调整文本和图像条件的权重,优化视频生成过程,显著提升了视频内容的质量和与输入条件的一致性。
  • 时空注意力机制: STIV采用了分解的时空注意力机制,分别处理空间和时间维度的特征,从而提高了模型的效率和效果,使其能够更好地理解和生成动态的视频内容。
  • 旋转位置编码(RoPE): RoPE的引入增强了模型处理相对时空关系的能力,使其能够更好地适应不同分辨率的生成任务,并生成更流畅、更真实的视频。
  • 流匹配训练目标: STIV采用流匹配目标替代传统的扩散损失,实现了更优的条件最优传输策略,进一步提升了生成视频的质量。

这些技术的融合,使得STIV在视频生成领域取得了显著的突破,不仅能够生成高质量的视频,还能够支持多种下游应用,包括视频预测、帧插值和长视频生成等。

功能强大:多模态支持,应用场景广泛

STIV模型的主要功能包括:

  • 文本到视频(T2V)和文本图像到视频(TI2V)生成: 用户只需输入文本提示或结合文本和初始图像帧,即可快速生成高质量的视频内容。
  • 多模态条件支持: 模型能够基于文本和图像的条件进行视频生成,增强视频内容与输入条件的一致性,为用户提供更加灵活的创作空间。
  • 视频预测: STIV能够对视频未来帧进行预测,这在自动驾驶和嵌入式AI等领域具有重要的应用价值。
  • 帧插值: 模型能够在给定的帧之间生成中间帧,提高视频的流畅度和连续性,为用户带来更好的观看体验。
  • 多视角生成: STIV能够从单一视角生成视频的新视角,增强视频的立体感和真实感,为用户提供更加丰富的视觉体验。
  • 长视频生成: 基于关键帧预测和帧插值技术,STIV能够生成更长时长的视频内容,满足用户对长视频创作的需求。

这些功能使得STIV在娱乐、广告、教育、新闻、自动驾驶等多个领域都具有广泛的应用前景。例如:

  • 娱乐与社交媒体: 用户可以利用STIV生成个性化的短视频,在抖音、Instagram等社交平台上分享。
  • 广告与营销: 企业可以利用STIV快速生成动态的广告视频,提高广告的吸引力和转化率。
  • 教育与培训: 教育机构可以利用STIV生成教育视频,为学生提供更加直观和互动的学习体验。
  • 新闻与报道: 新闻机构可以利用STIV将新闻报道转化为视频内容,提高新闻的传播效率和观众的理解度。
  • 自动驾驶与仿真: 自动驾驶技术公司可以利用STIV生成各种交通场景的视频,测试和训练自动驾驶系统的决策和反应能力。

开放合作:Hugging Face模型库,促进技术发展

为了促进技术的发展和应用,苹果公司将STIV模型发布在了Hugging Face模型库(https://huggingface.co/papers/2412.07730),并提供了相关的技术论文(https://arxiv.org/pdf/2412.07730)。这一举措将有助于研究人员和开发者深入了解STIV的技术原理,并在此基础上进行创新和应用。

未来展望:AI视频创作新篇章

STIV的发布标志着AI视频生成技术迈向了一个新的高度。随着技术的不断发展和完善,我们有理由相信,AI将在视频创作领域发挥越来越重要的作用,为用户带来更加便捷、高效和富有创意的视频创作体验。苹果公司在AI领域的持续投入和创新,无疑将推动整个行业的发展,并为我们带来更加美好的未来。

参考文献:

(完)

注: 本文在撰写过程中,参考了提供的网页信息,并进行了深入分析和解读,力求提供准确、客观和深入的报道。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注