Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

新闻报道新闻报道
0

港大与字节跳动联手打造长视频生成模型Loong,开启视频内容创作新纪元

香港–(2024年10月28日)— 香港大学与字节跳动今日联合宣布推出名为Loong的新型长视频生成模型,该模型能够生成外观一致、动态丰富、场景过渡自然的分钟级长视频。Loong的诞生标志着人工智能在视频内容创作领域的重大突破,为用户提供了一种前所未有的生成长视频内容的便捷方式。

Loong基于自回归大型语言模型(LLM),将文本和视频信息整合为统一序列,并采用渐进式短到长训练方案与损失重新加权策略,克服了长视频训练中面临的诸多挑战。与传统的视频生成模型相比,Loong在以下几个方面展现出显著优势:

1. 长视频生成: Loong能够生成长达一分钟或更长时间的视频内容,突破了传统视频生成模型在时长上的限制,为用户提供更丰富的视频内容创作可能性。

2. 文本到视频的转换: Loong可以根据给定的文本提示生成与之相符的视频内容,将文本信息转化为生动的视觉呈现,为用户提供了一种全新的内容创作方式。

3. 内容连贯性: Loong生成的视频在外观、动态变化和场景过渡上具有高度连贯性,确保了视频内容的完整性和逻辑性,为用户提供更加自然流畅的观影体验。

4. 动态丰富性: Loong能够捕捉并表现出视频中的复杂动态和动作变化,为用户呈现更加生动逼真的视频内容。

5. 场景自然过渡: Loong在视频的不同场景之间实现平滑过渡,保持视觉连贯性,为用户提供更加沉浸式的观影体验。

Loong的技术原理主要体现在以下几个方面:

1. 统一序列建模: Loong将文本标记和视频标记作为统一序列进行建模,让自回归大型语言模型(LLM)基于文本提示预测视频标记,实现文本和视频信息的有效融合。

2. 渐进式短到长训练: Loong基于分阶段训练策略,逐渐增加训练视频的长度,模型能学习并生成更复杂、更具连贯性的视频内容,有效解决长视频训练中的复杂性问题。

3. 损失重新加权:为了解决长视频训练中的损失不平衡问题,Loong对早期帧的损失进行加权,强化模型对早期帧的学习,确保视频内容的完整性和一致性。

4. 视频标记重新编码: 在视频推理过程中,Loong基于将预测的视频标记解码为像素空间的视频帧,重新编码,保持视频内容的连贯性和一致性,提高视频生成质量。

5. 采样策略: Loong基于Top-k采样策略,从最可能的标记中进行选择,减少潜在错误对后续标记生成的影响,缓解错误累积问题,确保视频内容的准确性和可靠性。

Loong的应用场景十分广泛,包括:

1. 娱乐和社交媒体: 用户可以使用Loong生成个性化的长视频内容,分享在社交媒体平台上,如音乐视频、旅行日志、趣味故事等,丰富用户的内容创作和分享体验。

2. 电影和视频制作: 在电影预告片、特效制作或者长视频内容的初步创意阶段,Loong可以快速生成视频草图,帮助导演和制片人探索不同的故事线和视觉效果,提高创作效率。

3. 广告和营销:企业可以使用Loong生成吸引人的广告视频,更生动的方式展示产品或服务,提高广告的吸引力和记忆度,提升营销效果。

4. 教育和培训: 在教育领域,Loong可以创建教育内容,如历史重现、科学实验模拟,提供更加直观和互动的学习体验,提高学习效率。

5. 新闻和报道: 新闻机构可以使用Loong快速生成新闻故事的视频摘要,提高报道的效率和吸引力,增强新闻传播效果。

Loong的推出将为视频内容创作带来革命性的改变,为用户提供更加便捷、高效、高质量的视频内容创作体验。未来,随着人工智能技术的不断发展,Loong将不断完善和升级,为用户提供更加智能、便捷、高效的视频内容创作工具,开启视频内容创作的新纪元。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注