港大与字节跳动联合推出长视频生成模型Loong:开启AI视频创作新纪元
香港–(2024年10月26日) 香港大学与字节跳动联合宣布推出新型长视频生成模型Loong,这一突破性技术将为AI视频创作领域带来革命性的变革。Loong能够生成外观一致、动态丰富、场景过渡自然的分钟级长视频,为用户提供前所未有的视频创作体验。
Loong的独特之处
Loong的独特之处在于其能够生成长达一分钟或更长时间的视频内容,并确保生成的视频在外观、动态变化和场景过渡上具有高度连贯性。这得益于其基于自回归大型语言模型(LLM)的独特设计,将文本和视频信息整合为统一序列,并采用渐进式短到长训练方案与损失重新加权策略,克服了长视频训练中的挑战。
Loong的技术优势
Loong的技术优势主要体现在以下几个方面:
- 统一序列建模: Loong将文本标记和视频标记作为统一序列进行建模,让LLM基于文本提示预测视频标记,从而实现文本到视频的转换。
- 渐进式短到长训练: Loong采用分阶段训练策略,逐渐增加训练视频的长度,模型能学习并生成更复杂、更具连贯性的视频内容。
- 损失重新加权: 为了解决长视频训练中的损失不平衡问题,Loong对早期帧的损失进行加权,强化模型对早期帧的学习。
- 视频标记重新编码: 在视频推理过程中,Loong基于将预测的视频标记解码为像素空间的视频帧,重新编码,保持视频内容的连贯性和一致性。
- 采样策略: Loong基于Top-k采样策略,从最可能的标记中进行选择,减少潜在错误对后续标记生成的影响,缓解错误累积问题。
Loong的应用场景
Loong的应用场景十分广泛,涵盖娱乐、社交媒体、电影制作、广告营销、教育培训、新闻报道等多个领域。
- 娱乐和社交媒体: 用户可以生成个性化的长视频内容,分享在社交媒体平台上,如音乐视频、旅行日志、趣味故事等。
- 电影和视频制作: Loong可以快速生成视频草图,帮助导演和制片人探索不同的故事线和视觉效果,在电影预告片、特效制作或者长视频内容的初步创意阶段发挥重要作用。
- 广告和营销: 企业可以生成吸引人的广告视频,更生动的方式展示产品或服务,提高广告的吸引力和记忆度。
- 教育和培训: Loong可以创建教育内容,如历史重现、科学实验模拟,提供更加直观和互动的学习体验。
- 新闻和报道: 新闻机构可以快速生成新闻故事的视频摘要,提高报道的效率和吸引力。
Loong的未来展望
Loong的出现标志着AI视频创作领域迈入了一个全新的时代。随着技术的不断发展和完善,Loong有望在未来实现更高级的功能,例如:
- 生成更长的视频内容: Loong可以生成更长时间的视频内容,满足用户对更完整、更丰富视频内容的需求。
- 提高视频质量: Loong可以生成更高质量的视频内容,包括更高的分辨率、更逼真的画面效果和更流畅的动态效果。
- 支持更多语言: Loong可以支持更多语言,为全球用户提供更便捷的视频创作体验。
- 与其他AI技术结合: Loong可以与其他AI技术结合,例如语音合成、文本生成、图像识别等,实现更强大的功能。
Loong的推出将为AI视频创作领域带来革命性的变革,为用户提供前所未有的视频创作体验,并推动AI技术在各个领域的应用和发展。
项目地址:
- 项目官网:epiphqny.github.io/Loong-video
- arXiv技术论文:https://arxiv.org/pdf/2410.02757v1
参考文献:
Views: 0