Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

新加坡/香港/北京 – 在人工智能领域,人像视频抠图一直是备受关注的研究方向。近日,南洋理工大学S-Lab实验室与商汤科技联合推出了一款名为MatAnyone的先进框架,旨在解决复杂背景下人像视频抠图的难题。这一创新成果不仅提升了视频编辑的精度和效率,也为影视后期制作、视频会议、游戏开发等多个领域带来了新的可能性。

MatAnyone:精准抠图,细节尽显

MatAnyone专注于目标指定的视频抠图任务,通过一致的内存传播模块(CMP)和区域自适应内存融合技术,确保视频序列中核心区域的语义稳定性和边界细节的精细度。这意味着,即使在复杂或模糊的背景下,MatAnyone也能稳定跟踪目标对象,并生成高质量的alpha遮罩,尤其是在头发、边缘等细节区域表现出色,提供图像级的细节精度。

“MatAnyone的优势在于其对细节的极致追求,”一位不愿透露姓名的商汤科技研究员表示,“传统的抠图技术在处理复杂背景和精细边缘时往往力不从心,而MatAnyone通过创新的技术手段,显著提升了抠图的质量和效率。”

技术解析:一致内存传播与区域自适应

MatAnyone的核心技术之一是一致内存传播(CMP)模块。该模块通过估计当前帧与前一帧之间的alpha值变化,自适应地融合来自前一帧的信息。对于变化较大的边界区域,更多依赖当前帧的信息;而对于变化较小的核心区域,则保留前一帧的内存。

此外,MatAnyone还引入了区域自适应技术,通过轻量级的边界区域预测模块,估计每个查询令牌的变化概率,实现区域自适应的内存融合。这种方法显著提高了核心区域的语义稳定性和边界区域的细节精度。

数据集与训练策略:提升稳定性和泛化能力

为了克服真实视频抠图数据稀缺的问题,MatAnyone采用了新的训练策略,用大规模分割数据直接监督抠图头。研究团队还构建了高质量、多样化的训练数据集VM800和更具挑战性的测试数据集YoutubeMatte,为模型训练和评估提供了坚实基础。

VM800数据集的规模是现有数据集VideoMatte240K的两倍,且在核心和边界区域的质量更高,显著提升了模型的训练效果。此外,MatAnyone还采用了多阶段训练策略,先在视频抠图数据上初始化模型,基于分割数据进行核心区域监督,最后用图像抠图数据进一步优化边界细节。

应用前景:多领域赋能

MatAnyone的应用场景十分广泛,涵盖了影视后期制作、视频会议与直播、广告与营销、游戏开发以及虚拟现实与增强现实等多个领域。

  • 影视后期制作: MatAnyone可用于背景替换和特效合成,将演员从原始背景中精准抠出,替换为虚拟或特效背景,提升画面的视觉效果和创意空间。
  • 视频会议与直播: 在视频会议和直播中,MatAnyone可以实时将人物从复杂背景中分离出来,替换为虚拟背景或模糊背景,增强隐私保护和视觉效果。
  • 广告与营销: 在广告视频制作中,MatAnyone可以将产品或人物从拍摄背景中抠出,替换为更具吸引力的背景,提升广告的视觉冲击力和吸引力。
  • 游戏开发: MatAnyone可用于游戏中的视频内容制作,如角色动画、过场动画等,将角色从拍摄背景中精准抠出,替换为游戏场景,增强游戏的沉浸感。
  • 虚拟现实与增强现实: 在VR和AR应用中,MatAnyone可以将用户或物体从现实场景中抠出,融合到虚拟环境中,提升用户体验和交互效果。

项目信息:开放资源,共同发展

MatAnyone项目已开放相关资源,鼓励研究者和开发者共同参与,推动人像视频抠图技术的发展。

结语:AI赋能,未来可期

MatAnyone的推出,标志着人像视频抠图技术迈向了一个新的台阶。其在精度、效率和泛化能力上的提升,为各行各业带来了更广阔的应用前景。随着人工智能技术的不断发展,我们有理由相信,MatAnyone将在未来发挥更大的作用,为人们的生活和工作带来更多便利和创新。

参考文献

  • Yang, P., et al. (2025). MatAnyone: Consistent Memory Propagation with Region-Adaptive Fusion for Video Matting. arXiv preprint arXiv:2501.14677.

致谢

感谢南洋理工大学S-Lab实验室和商汤科技为本文提供的资料和信息。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注