Meta新AI模型Sapiens：解析图片视频中人类动作

作者智能小编

9 月 5, 2024 #sapiens, #每日AI快讯

上海枫泾古镇一角_20240824

近日，全球领先的科技公司Meta（原Facebook）推出了一款名为Sapiens的AI视觉模型。该模型专为理解图片和视频中的人类动作而设计，其强大的功能和广泛的应用前景引起了业界的广泛关注。

模型功能

Sapiens支持二维姿态预估、身体部位分割、深度估计和表面法线预测等任务。具体来说，它能够识别图像中人体的各个关键点，如关节等部位，帮助分析人体的姿势和动作；同时，它还可以识别并分割图像中的不同人体部位，例如头部、躯干、手臂和腿部。

此外，Sapiens还能预测图像中每个像素的深度信息，从二维图像中生成三维效果；并且可以预测图像中每个像素表面法线的方向，为三维重建和理解物体的几何形状提供重要信息。

技术原理

Sapiens模型采用了视觉变换器（Vision Transformers, ViT）架构，通过将图像划分为固定大小的小块（称为patches），能有效处理高分辨率输入图像，并进行细粒度的特征提取。同时，模型使用编码器-解码器架构，其中编码器负责提取图像特征，解码器则根据这些特征进行具体任务的推理。

值得一提的是，Sapiens模型通过遮掩自编码器（Masked Autoencoder, MAE）方法进行自监督预训练，观察部分遮掩的图像并尝试重建原始图像，学习到鲁棒的特征表示。此外，模型在超过3亿张野外人类图像上进行预训练，利用丰富的数据提高模型的泛化能力。

应用场景

Sapiens的应用场景非常广泛，包括增强现实（AR）、虚拟现实（VR）、3D人体数字化、人机交互（HCI）、视频监控分析、运动捕捉以及医学成像与康复等。例如，在AR应用中，Sapiens可以提供精确的人体姿态和部位信息，实现虚拟对象与真实世界的自然交互；在VR环境中，Sapiens用于实时追踪和渲染用户的身体动作，提升沉浸式体验。

作为一款强大的AI视觉模型，Sapiens的推出标志着Meta在人工智能领域的研究和应用又迈出了重要的一步。我们有理由期待，Sapiens将为各行各业带来更智能、更便捷的解决方案。