shanghaishanghai

HumanVid:专为人类图像动画生成而设计的高质量数据集

香港中文大学和上海人工智能实验室联合推出

AI小集 2024年7月29日

近日,香港中文大学和上海人工智能实验室联合发布了名为HumanVid 的高质量数据集,专为人类图像动画生成而设计。该数据集结合了现实世界视频和合成数据,并经过精心设计的规则筛选,确保了数据集的高质量。HumanVid旨在提高视频生成的控制性和稳定性,通过基线模型CamAnimate验证了其有效性,在控制人物姿势和摄像机运动方面达到了先进水平。

HumanVid 的主要特点:

  • 高质量数据集成: HumanVid 结合了现实世界和合成数据,确保了数据集的丰富性和多样性。
  • 版权自由: 所有视频和 3D 头像资产都是无版权的,便于研究和使用。
  • 规则筛选: 通过规则筛选机制,确保数据集中的视频具有高质量。
  • 人体和摄像机运动注释: 使用 2D 姿势估计和 SLAM 技术对视频中的人体和摄像机运动进行精确注释。

HumanVid的技术原理:

  • 数据集构建: HumanVid 通过从互联网上收集大量版权免费的现实世界视频,并结合合成数据来构建数据集。视频经过精心设计的规则筛选,确保了数据集的高质量。
  • 注释技术: 使用 2D 姿势估计器对视频中的人体动作进行注释,同时采用基于 SLAM(Simultaneous Localization and Mapping,即同时定位与建图)的方法来注释摄像机的运动。
  • 合成数据生成: 为了增加数据集的多样性,HumanVid 收集了版权免费的 3D 头像资产,并引入了基于规则的摄像机轨迹生成方法,模拟不同的摄像机运动。
  • 模型训练: HumanVid 建立了一个基线模型 CamAnimate,考虑了人体和摄像机运动作为条件,通过在 HumanVid 数据集上的训练,能够生成具有控制人物姿势和摄像机运动的视频。

HumanVid 的应用场景:

  • 视频制作: 为电影、电视和其他视频内容制作提供高质量的动画生成,支持导演和制片人通过控制人物姿势和摄像机运动来创作更加生动和逼真的场景。
  • 游戏开发: 在电子游戏中,HumanVid 可以生成逼真的 NPC(非玩家角色)动画,提高游戏的沉浸感和交互性。
  • VR 和 AR: 在 VR 和 AR 应用,HumanVid 可生成与用户互动的虚拟角色,提供更加自然和流畅的体验。
  • 教育和培训: HumanVid 可以创建教学视频,模拟人物动作和场景,帮助学生更好地理解和学习复杂的概念。

项目地址:

HumanVid 的发布将为人类图像动画生成领域带来新的突破,为相关研究和应用提供更强大的工具和资源。项目计划在 2024 年 9 月底公开代码和数据集,届时将为更多研究人员和开发者提供使用和探索的机会。

【source】https://ai-bot.cn/humanvid/

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注