人体姿态评估技术的开发与实现

译文
人工智能
本文基于实现经验,和您讨论如何为AI健身领域开发和实现3D人体姿势估计的应用。

【51CTO.com快译】根据有关研究报告,到2022年,数字健身市场的规模预计将达到274亿美元。如果有人告诉您:有某种技术能够取代健身教练的话,那么他一定指的是3D人体姿势估计(Human Pose Estimation)技术。作为数字健身中一种相对较新、但发展迅速的技术,它能够利用用户输入的体能练习视频,以自动化的方式,分析他们的各项运动参数指标。下面,我将基于自己的实现经验,和您讨论如何为AI健身领域开发和实现3D人体姿势估计的应用。

什么是人体姿势估计?

作为一种基于计算机视觉的技术,人体姿势估计可以通过人体建模,来检测和分析人体的各种动作与姿势。此类技术通常包含如下三种人体模型:

  • 基于骨骼的模型 - 由一组关节(关键点)组成,例如脚踝、膝盖、肩膀、肘部、手腕和四肢的姿势。这些组成了人体的骨骼结构。鉴于其灵活性,此类模型可用于2D和3D人体姿势估计技术。
  • 基于轮廓的模型 - 由人体躯干和四肢轮廓的粗略宽度组成,其中人体部位是以轮廓的边界和矩形呈现的。
  • 基于体积的模型 - 由3D人体形状和姿势组成。这些姿势由具有几何网格和形状的体积模型,通过3D扫描而捕获。

来源--https://arxiv.org/pdf/2006.01423.pdf

下面,我将主要讨论由2D或3D视角检测到的、基于骨骼的模型。其中:2D姿态估计的检测和分析是基于RGB图像中人体关节的X、Y坐标;而3D姿势估计则检测和分析的是X、Y、Z坐标。通常,对于健身应用而言,最好使用3D估计,来更加精确地分析体育运动中的人体姿势。因此,AI健身教练类App的基本流程是:

1. 捕捉用户练习时的动作

2. 分析运动表现的正确性

3. 在用户界面上显示错误

下面,我们来讨论一下3D人体姿势估计技术是如何检测人体关键点的:

如上图所示,该过程首先要提取人体的关节,然后通过深度学习算法分析人体的姿势。如果人体姿势估计系统使用视频记录作为数据源的话,就需要从一系列实际动作的帧,而不是单个稳定姿势的图片中检测关键点(即:关节位置),以获取更高的准确性。

虽然目前有多种方法可以用来开发3D人体姿势估计系统,但是,我们最常用的还是通过训练深度学习模型,从给定的图像/帧中提取3D或2D关键点。我们将对如下视频采用具有时空卷积的卷积神经网络(convolutional neural networks,CNN)进行分析。

来源--https://github.com/facebookresearch/VideoPose3D/blob/master/images/convolutions_anim.gif

通过对现有模型的分析,我们发现VideoPose3D是健身类应用的合适选择。它能够从输入中将COCO 2017数据集用作预训练的2D检测器,以检测出一组2D关键点。同时,为了准确地预测特定关节的位置,它会处理在不同时间段捕获到的多个帧中的视觉数据。

如何在AI健身教练App中使用人体姿势评估

假设我们的目标是:让系统能够对给定的输入视频进行检查,以发现是否存在着常见的动作错误。也就是说,该应用需要将输入的视频,与专业运动员相同示范动作的参考视频进行比较。下面,我们来讨论其具体处理流程:

1.根据动作的开末来剪切输入视频

对于起点和终点的标注,我们可以使用任意阈值,来自动检测身体控制点的位置。例如:在下蹲时,我们可以检测手臂的角度和手的高度位置,然后通过使用任意阈值(arbitrary thresholds),来比对捕获到的练习动作的起点和终点(如下图所示)。

视频来源--https://www.youtube.com/watch?v=M-qAx0yGK9w

当然,我们也可以使用另一种方法:要求用户刻意示意他们动作的开始和结束。

2.检测用户身体上的2D和3D关键点

根据上述检测到的始末点,算法会自动将其对应转换为2D和3D关键点。

3.练习阶段的分解

提取关键点(关节)位置的过程中,我们需要将其与参考视频的位置进行比较。由于用户实际的动作速度,与参照视频中专业运动员的动作速度有所差异,因此我们无法进行直接比较。

针对此类差异,我们可以通过将练习动作分解为多个阶段予以解决。如下图所示,下蹲练习可被分为下蹲和站起,两个主要阶段。

来源--stronglifts.c​​om

接着我们可以通过逐帧分析的方式,从输入视频中检测到的关键点,然后通过动作标准,将它们逐个与参考视频中的关键点进行比较,以完成分解。

4.搜索常见错误

在完成了3D关键点的检测,以及练习阶段的分解后,我们便可以在输入的视频中检测练习动作中的常见错误了。如下图所示,在该用户下蹲时,我们检测到其腿部是向外弯曲,而不是笔直的。同时,他的膝盖应当比双脚更靠近躯干。

视频来源--https://www.youtube.com/watch?v=W73Mc0Gil9A&t=244s

5.将输入视频与参考视频进行逐帧比较

为了更加精准地纠正用户的动作,我们需要通过如下分步流程,将输入视频与参考视频进行逐帧比较:

1) 通过减慢或快进参考视频,使其与输入视频的进度相匹配。

2) 将用户和专业运动员的骨骼模型对齐,使他们旋转的角度和对照点相匹配。

3) 由于参考视频和输入视频可能是从不同的距离拍摄的,因此我们需要合并或归一化两套骨骼。

4) 通过逐帧比较关键点,以检测并发现动作的不一致性。

5) 对不同的关节处(如:脚、膝盖、手、肘等位置)分别重复执行上述流程。

6.显示结果并为用户生成建议

当整个分析周期完成后,用户需要获得以不同格式显示的结果。例如,输出结果可以包括带有错误提示信息的各种交互式3D重建,以便用户可以对某个动作细节进行放大、缩小、后退、前进或暂停。当然,输出结果也可以收集和显示有关某些动作的统计信息,例如:重复的次数、单次循环动作的平均速度、以及持续时间等。

下图便是基于视频的3D人体姿势估计系统的输出示例:

来源--stronglifts.c​​om的男性健康频道

经验总结

综上所述,我从AI健身教练App的开发角度,描述了3D人体姿势估计系统的基本工作原理,以及运作流程。当然,根据实际项目的具体特征,该流程可能会随着业务需求的变化,而有所增、删、减、改。下面是我的一些经验总结:

  • 3D人体姿势估计可用于检测健身练习中的动作错误。
  • 选择合适的2D关键点检测器,对于获得高质量3D关键点是至关重要的。
  • 快速移动的关节,对于检测2D关键点模型,以及发现错误是极具挑战的。
  • 预训练的模型可能对于异常的动作和身体姿势,无法很好地发挥作用。此时,您可能需要微调或重新训练,让具有特定属性的数据,对模型进行优化。

注:本文源自https://mobidev.biz。MobiDev是一个提供技术研究和软件开发服务经验的网站。

原文标题:Human Pose Estimation Technology 2021 Guide,作者: Maksym Tatariants

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

责任编辑:华轩 来源: 51CTO
相关推荐

2021-09-24 10:08:07

算法模型技术

2011-12-20 15:46:01

评估

2009-08-27 09:11:31

敏捷开发成效评估

2015-11-03 09:28:52

Hybrid技术设计实现

2021-12-02 06:40:43

SSPMSaaS应用风险

2009-07-03 11:07:37

JSP Web开发

2014-11-14 09:42:53

VoLTE

2022-09-15 09:24:43

OLAP 引擎公有云

2021-10-13 15:15:22

人工智能AI人脸识别

2023-06-03 21:06:05

2018-07-25 15:13:40

存储虚拟化技术

2011-02-20 19:47:52

VirtualCent

2023-05-22 08:00:00

深度学习机器学习人工智能

2012-10-24 14:52:19

IBMdw

2013-05-22 14:57:50

海外推广全球化品牌公司

2017-05-16 15:33:42

Python网络爬虫核心技术框架

2015-09-25 09:56:37

负载均衡

2020-08-21 13:40:17

Python代码人体肤色

2011-04-21 15:22:27

ArcGIS Engi
点赞
收藏

51CTO技术栈公众号