Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

港大与字节跳动联合推出长视频生成模型Loong:开启AI视频创作新纪元

香港–(2024年10月26日) 香港大学与字节跳动联合宣布推出新型长视频生成模型Loong,这一突破性技术将为AI视频创作领域带来革命性的变革。Loong能够生成外观一致、动态丰富、场景过渡自然的分钟级长视频,为用户提供前所未有的视频创作体验。

Loong的独特之处

Loong的独特之处在于其能够生成长达一分钟或更长时间的视频内容,并确保生成的视频在外观、动态变化和场景过渡上具有高度连贯性。这得益于其基于自回归大型语言模型(LLM)的独特设计,将文本和视频信息整合为统一序列,并采用渐进式短到长训练方案与损失重新加权策略,克服了长视频训练中的挑战。

Loong的技术优势

Loong的技术优势主要体现在以下几个方面:

  • 统一序列建模: Loong将文本标记和视频标记作为统一序列进行建模,让LLM基于文本提示预测视频标记,从而实现文本到视频的转换。
  • 渐进式短到长训练: Loong采用分阶段训练策略,逐渐增加训练视频的长度,模型能学习并生成更复杂、更具连贯性的视频内容。
  • 损失重新加权: 为了解决长视频训练中的损失不平衡问题,Loong对早期帧的损失进行加权,强化模型对早期帧的学习。
  • 视频标记重新编码: 在视频推理过程中,Loong基于将预测的视频标记解码为像素空间的视频帧,重新编码,保持视频内容的连贯性和一致性。
  • 采样策略: Loong基于Top-k采样策略,从最可能的标记中进行选择,减少潜在错误对后续标记生成的影响,缓解错误累积问题。

Loong的应用场景

Loong的应用场景十分广泛,涵盖娱乐、社交媒体、电影制作、广告营销、教育培训、新闻报道等多个领域。

  • 娱乐和社交媒体: 用户可以生成个性化的长视频内容,分享在社交媒体平台上,如音乐视频、旅行日志、趣味故事等。
  • 电影和视频制作: Loong可以快速生成视频草图,帮助导演和制片人探索不同的故事线和视觉效果,在电影预告片、特效制作或者长视频内容的初步创意阶段发挥重要作用。
  • 广告和营销: 企业可以生成吸引人的广告视频,更生动的方式展示产品或服务,提高广告的吸引力和记忆度。
  • 教育和培训: Loong可以创建教育内容,如历史重现、科学实验模拟,提供更加直观和互动的学习体验。
  • 新闻和报道: 新闻机构可以快速生成新闻故事的视频摘要,提高报道的效率和吸引力。

Loong的未来展望

Loong的出现标志着AI视频创作领域迈入了一个全新的时代。随着技术的不断发展和完善,Loong有望在未来实现更高级的功能,例如:

  • 生成更长的视频内容: Loong可以生成更长时间的视频内容,满足用户对更完整、更丰富视频内容的需求。
  • 提高视频质量: Loong可以生成更高质量的视频内容,包括更高的分辨率、更逼真的画面效果和更流畅的动态效果。
  • 支持更多语言: Loong可以支持更多语言,为全球用户提供更便捷的视频创作体验。
  • 与其他AI技术结合: Loong可以与其他AI技术结合,例如语音合成、文本生成、图像识别等,实现更强大的功能。

Loong的推出将为AI视频创作领域带来革命性的变革,为用户提供前所未有的视频创作体验,并推动AI技术在各个领域的应用和发展。

项目地址:

  • 项目官网:epiphqny.github.io/Loong-video
  • arXiv技术论文:https://arxiv.org/pdf/2410.02757v1

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注