Meta 推出全新 AI 视觉模型 Sapiens:理解人类动作,赋能虚拟现实与增强现实
Meta 实验室近日发布了全新 AI视觉模型 Sapiens,旨在理解图片和视频中的人类动作。 Sapiens 能够识别图像中人体的各个关键点,分割不同人体部位,预测图像深度信息,并预测每个像素表面法线的方向,为虚拟现实、增强现实、3D 人体数字化、人机交互等领域提供强大支持。
Sapiens 的主要功能包括:
- 2D 姿态估计: Sapiens 可以识别图像中人体的各个关键点,例如关节等部位,帮助分析人体的姿势和动作。
- 身体部位分割: Sapiens 可以识别并分割图像中的不同人体部位,例如头部、躯干、手臂和腿部,这在虚拟试穿、医学成像等领域具有重要应用价值。
- 深度估计: Sapiens 可以预测图像中每个像素的深度信息,从二维图像中生成三维效果,对增强现实和自动驾驶等应用至关重要。
- 表面法线预测: Sapiens 可以预测图像中每个像素表面法线的方向,为三维重建和理解物体的几何形状提供重要信息。
Sapiens 的技术原理基于视觉变换器架构 (Vision Transformers, ViT),并采用编码器-解码器结构。 模型通过遮掩自编码器 (Masked Autoencoder, MAE) 方法进行自监督预训练,并在超过 3 亿张野外人类图像上进行训练,使其具备强大的泛化能力。
Sapiens 的应用场景十分广泛,包括:
- 增强现实 (AR): Sapiens 可以提供精确的人体姿态和部位信息,实现虚拟对象与真实世界的自然交互,为 AR 应用提供更逼真的体验。
- 虚拟现实 (VR): Sapiens 可以实时追踪和渲染用户的身体动作,提升 VR 环境的沉浸式体验,让用户在虚拟世界中更加自然地互动。
- 3D 人体数字化: Sapiens可以精确捕捉人体姿态和形态,加速 3D 内容的创作过程,为游戏开发、电影制作等领域提供更高效的工具。
- 人机交互 (HCI): Sapiens 可以理解用户的身体语言和手势,改善 HCI 系统的交互体验,让用户与机器更加自然地沟通。
- 视频监控分析: Sapiens 可以分析人体动作,用于异常行为检测或人流统计,为安全监控领域提供更智能的解决方案。
- 运动捕捉: Sapiens 可以捕捉运动员或角色的动作,进行动作分析,为体育训练、游戏开发等领域提供更精准的工具。
- 医学成像与康复: Sapiens 可以帮助分析病患的体态和运动,辅助诊断和康复训练,为医疗领域提供更有效的辅助手段。
Sapiens 的开源项目地址: https://github.com/facebookresearch/sapiens
Sapiens 的推出标志着 AI 视觉模型在理解人类动作方面取得了重大突破,为虚拟现实、增强现实等领域的应用提供了新的可能性。 未来,随着 AI 技术的不断发展,我们可以期待 Sapiens 在更多领域发挥重要作用,为人类生活带来更多便利和惊喜。
Views: 0