香港中文大学和上海人工智能实验室近日共同推出了一款高质量数据集——HumanVid,该数据集专为人类图像动画生成而设计。HumanVid的问世,标志着我国在图像动画生成领域取得了新的突破。
数据集特点
HumanVid结合了现实世界视频和合成数据,通过精心设计的规则筛选高质量视频,并使用2D姿势估计和SLAM技术进行注释。以下是HumanVid的主要特点:
- 高质量数据集成:数据集融合了现实世界和合成数据,确保了数据集的丰富性和多样性。
- 版权自由:所有视频和3D头像资产都是无版权的,便于研究和使用。
- 规则筛选:通过规则筛选机制,确保数据集中的视频具有高质量。
- 人体和摄像机运动注释:使用2D姿势估计和SLAM技术对视频中的人体和摄像机运动进行精确注释。
技术原理
数据集构建
HumanVid通过从互联网上收集大量版权免费的现实世界视频,并结合合成数据来构建数据集。视频经过精心设计的规则筛选,确保了数据集的高质量。
注释技术
数据集中的人体动作通过2D姿势估计器进行注释,同时采用基于SLAM的方法来注释摄像机的运动。
合成数据生成
为了增加数据集的多样性,HumanVid收集了版权免费的3D头像资产,并引入了基于规则的摄像机轨迹生成方法,模拟不同的摄像机运动。
模型训练
HumanVid建立了一个基线模型CamAnimate,考虑了人体和摄像机运动作为条件,通过在HumanVid数据集上的训练,能够生成具有控制人物姿势和摄像机运动的视频。
应用场景
HumanVid的应用场景广泛,包括:
- 视频制作:为电影、电视和其他视频内容制作提供高质量的动画生成,支持导演和制片人通过控制人物姿势和摄像机运动来创作更加生动和逼真的场景。
- 游戏开发:在电子游戏中,HumanVid可以生成逼真的NPC(非玩家角色)动画,提高游戏的沉浸感和交互性。
- VR和AR:在VR和AR应用中,HumanVid可生成与用户互动的虚拟角色,提供更加自然和流畅的体验。
- 教育和培训:HumanVid可以创建教学视频,模拟人物动作和场景,帮助学生更好地理解和学习复杂的概念。
未来展望
HumanVid项目计划在2024年9月底公开代码和数据集,届时,全球的研究者和开发者将能够共同参与到这一创新性项目的进一步研究和应用开发中。
HumanVid的推出,无疑为图像动画生成领域带来了新的机遇和挑战,有望推动我国图像动画技术的进一步发展。
Views: 0