Meta 推出全新 AI 视觉模型 Sapiens,赋能虚拟现实和增强现实应用
北京时间 2023 年 10月 26 日 – Meta 实验室今日宣布推出全新 AI 视觉模型 Sapiens,该模型专为理解图片和视频中的人类动作而设计,为虚拟现实 (VR) 和增强现实 (AR) 等应用提供了强大的支持。
Sapiens 模型能够执行多种视觉任务,包括:
- 2D 姿态估计:识别图像中人体的各个关键点,如关节等部位,帮助分析人体的姿势和动作。
- 身体部位分割:识别并分割图像中的不同人体部位,例如头部、躯干、手臂和腿部,对虚拟试穿和医学成像等领域非常有用。
- 深度估计:预测图像中每个像素的深度信息,从二维图像中生成三维效果,对增强现实和自动驾驶等应用至关重要。
- 表面法线预测:预测图像中每个像素表面法线的方向,为三维重建和理解物体的几何形状提供重要信息。
Sapiens 模型采用视觉转换器 (Vision Transformers, ViT) 架构,并通过遮掩自编码器 (Masked Autoencoder, MAE) 方法进行自监督预训练,在超过 3 亿张野外人类图像上进行训练,使其具备强大的泛化能力,即使在标注数据稀缺的情况下也能展现出卓越的性能。
Sapiens 的主要优势:
- 高分辨率推理:原生支持 1K 高分辨率推理,能够处理高分辨率的图像和视频。
- 易于调整:模型参数从 3 亿到 20 亿不等,易于针对不同任务调整。
- 强大泛化能力:即使在标注数据稀缺的情况下,也能展现出卓越的泛化能力。
Sapiens 的应用场景:
- 增强现实 (AR):Sapiens 可以提供精确的人体姿态和部位信息,实现虚拟对象与真实世界的自然交互,例如虚拟试衣、虚拟家具摆放等。
- 虚拟现实 (VR):Sapiens 用于实时追踪和渲染用户的身体动作,提升沉浸式体验,例如虚拟游戏、虚拟社交等。
- 3D 人体数字化:在 3D 建模和动画制作中,Sapiens 能精确捕捉人体姿态和形态,加速 3D 内容的创作过程。
- 人机交互 (HCI):在 HCI 系统中,Sapiens 用于理解用户的身体语言和手势,改善交互体验,例如智能家居控制、虚拟助手等。
- 视频监控分析:在安全监控领域,Sapiens 可以分析人体动作,用于异常行为检测或人流统计。
- 运动捕捉:在体育训练或游戏开发中,Sapiens 可以用于捕捉运动员的动作,用于训练分析或游戏角色动画制作。
Meta 实验室表示,Sapiens 模型的推出将进一步推动 AI 技术在虚拟现实和增强现实领域的应用,为用户带来更加沉浸式和交互式的体验。
了解更多信息,请访问:
- GitHub 仓库:https://github.com/facebookresearch/sapiens
- Meta 实验室官网:https://ai.facebook.com/
关于 Meta:
Meta 是一家全球领先的技术公司,致力于连接世界各地的人们。Meta 的产品和服务包括 Facebook、Instagram、WhatsApp 和 Messenger 等,为全球数十亿用户提供连接、分享和沟通的平台。Meta 致力于开发创新技术,为人们的生活带来积极影响,包括人工智能、虚拟现实和增强现实等领域。
【source】https://ai-bot.cn/sapiens/
Views: 1