周四. 4 月 10th, 2025

Meta新AI“Sapiens”亮相，视频动作识别引瞩目

作者智能小编

9 月 10, 2024 #新闻, #每日AI快讯

0

Meta 推出全新 AI 视觉模型 Sapiens：理解人类动作，赋能虚拟现实与增强现实

Meta 实验室近日发布了全新 AI视觉模型 Sapiens，旨在理解图片和视频中的人类动作。 Sapiens 能够识别图像中人体的各个关键点，分割不同人体部位，预测图像深度信息，并预测每个像素表面法线的方向，为虚拟现实、增强现实、3D 人体数字化、人机交互等领域提供强大支持。

Sapiens 的主要功能包括：

2D 姿态估计： Sapiens 可以识别图像中人体的各个关键点，例如关节等部位，帮助分析人体的姿势和动作。
身体部位分割： Sapiens 可以识别并分割图像中的不同人体部位，例如头部、躯干、手臂和腿部，这在虚拟试穿、医学成像等领域具有重要应用价值。
深度估计： Sapiens 可以预测图像中每个像素的深度信息，从二维图像中生成三维效果，对增强现实和自动驾驶等应用至关重要。
表面法线预测： Sapiens 可以预测图像中每个像素表面法线的方向，为三维重建和理解物体的几何形状提供重要信息。

Sapiens 的技术原理基于视觉变换器架构 (Vision Transformers, ViT)，并采用编码器-解码器结构。 模型通过遮掩自编码器 (Masked Autoencoder, MAE) 方法进行自监督预训练，并在超过 3 亿张野外人类图像上进行训练，使其具备强大的泛化能力。

Sapiens 的应用场景十分广泛，包括：

增强现实 (AR)： Sapiens 可以提供精确的人体姿态和部位信息，实现虚拟对象与真实世界的自然交互，为 AR 应用提供更逼真的体验。
虚拟现实 (VR)： Sapiens 可以实时追踪和渲染用户的身体动作，提升 VR 环境的沉浸式体验，让用户在虚拟世界中更加自然地互动。
3D 人体数字化： Sapiens可以精确捕捉人体姿态和形态，加速 3D 内容的创作过程，为游戏开发、电影制作等领域提供更高效的工具。
人机交互 (HCI)： Sapiens 可以理解用户的身体语言和手势，改善 HCI 系统的交互体验，让用户与机器更加自然地沟通。
视频监控分析： Sapiens 可以分析人体动作，用于异常行为检测或人流统计，为安全监控领域提供更智能的解决方案。
运动捕捉： Sapiens 可以捕捉运动员或角色的动作，进行动作分析，为体育训练、游戏开发等领域提供更精准的工具。
医学成像与康复： Sapiens 可以帮助分析病患的体态和运动，辅助诊断和康复训练，为医疗领域提供更有效的辅助手段。

Sapiens 的开源项目地址： https://github.com/facebookresearch/sapiens

Sapiens 的推出标志着 AI 视觉模型在理解人类动作方面取得了重大突破，为虚拟现实、增强现实等领域的应用提供了新的可能性。 未来，随着 AI 技术的不断发展，我们可以期待 Sapiens 在更多领域发挥重要作用，为人类生活带来更多便利和惊喜。

>>> Read more <<<

Views: 0

0

相关文章

Next.js Apps Soar Deploying on Cloudflare Workers with New Adapter

4 月 10, 2025 智能小编

Next.js拥抱Cloudflare，部署新选择！

4 月 10, 2025 智能小编

Manim：UI动画新利器，惊艳视觉呈现

4 月 10, 2025 智能小编

发表回复取消回复

为您推荐

Next.js Apps Soar Deploying on Cloudflare Workers with New Adapter

2025年4月10日

Next.js拥抱Cloudflare，部署新选择！

2025年4月10日

Manim：UI动画新利器，惊艳视觉呈现

2025年4月10日

YouTube’s Massive Scale How MySQL and Vitess Handle Billions

2025年4月10日