Meta推出AI视觉模型Sapiens：看懂人类动作

作者智能小编

8 月 27, 2024 #Meta, #sapiens, #每日AI快讯

NEWS 新闻

Meta 推出全新 AI 视觉模型 Sapiens，赋能虚拟现实和增强现实应用

北京时间 2023 年 10月 26 日 – Meta 实验室今日宣布推出全新 AI 视觉模型 Sapiens，该模型专为理解图片和视频中的人类动作而设计，为虚拟现实 (VR) 和增强现实 (AR) 等应用提供了强大的支持。

Sapiens 模型能够执行多种视觉任务，包括：

2D 姿态估计：识别图像中人体的各个关键点，如关节等部位，帮助分析人体的姿势和动作。
身体部位分割：识别并分割图像中的不同人体部位，例如头部、躯干、手臂和腿部，对虚拟试穿和医学成像等领域非常有用。
深度估计：预测图像中每个像素的深度信息，从二维图像中生成三维效果，对增强现实和自动驾驶等应用至关重要。
表面法线预测：预测图像中每个像素表面法线的方向，为三维重建和理解物体的几何形状提供重要信息。

Sapiens 模型采用视觉转换器 (Vision Transformers, ViT) 架构，并通过遮掩自编码器 (Masked Autoencoder, MAE) 方法进行自监督预训练，在超过 3 亿张野外人类图像上进行训练，使其具备强大的泛化能力，即使在标注数据稀缺的情况下也能展现出卓越的性能。

Sapiens 的主要优势：

高分辨率推理：原生支持 1K 高分辨率推理，能够处理高分辨率的图像和视频。
易于调整：模型参数从 3 亿到 20 亿不等，易于针对不同任务调整。
强大泛化能力：即使在标注数据稀缺的情况下，也能展现出卓越的泛化能力。

Sapiens 的应用场景：

增强现实 (AR)：Sapiens 可以提供精确的人体姿态和部位信息，实现虚拟对象与真实世界的自然交互，例如虚拟试衣、虚拟家具摆放等。
虚拟现实 (VR)：Sapiens 用于实时追踪和渲染用户的身体动作，提升沉浸式体验，例如虚拟游戏、虚拟社交等。
3D 人体数字化：在 3D 建模和动画制作中，Sapiens 能精确捕捉人体姿态和形态，加速 3D 内容的创作过程。
人机交互 (HCI)：在 HCI 系统中，Sapiens 用于理解用户的身体语言和手势，改善交互体验，例如智能家居控制、虚拟助手等。
视频监控分析：在安全监控领域，Sapiens 可以分析人体动作，用于异常行为检测或人流统计。
运动捕捉：在体育训练或游戏开发中，Sapiens 可以用于捕捉运动员的动作，用于训练分析或游戏角色动画制作。

Meta 实验室表示，Sapiens 模型的推出将进一步推动 AI 技术在虚拟现实和增强现实领域的应用，为用户带来更加沉浸式和交互式的体验。

了解更多信息，请访问：

GitHub 仓库：https://github.com/facebookresearch/sapiens
Meta 实验室官网：https://ai.facebook.com/

关于 Meta：

Meta 是一家全球领先的技术公司，致力于连接世界各地的人们。Meta 的产品和服务包括 Facebook、Instagram、WhatsApp 和 Messenger 等，为全球数十亿用户提供连接、分享和沟通的平台。Meta 致力于开发创新技术，为人们的生活带来积极影响，包括人工智能、虚拟现实和增强现实等领域。

【source】https://ai-bot.cn/sapiens/