基于姿态估计的护具佩戴检测与动作识别

吴胜昔, 咸博龙, 冒鑫鑫, 顾幸生

吴胜昔, 咸博龙, 冒鑫鑫, 顾幸生. 基于姿态估计的护具佩戴检测与动作识别[J]. 信息与控制, 2021, 50(6): 722-730, 739. DOI: 10.13976/j.cnki.xk.2021.0591
引用本文: 吴胜昔, 咸博龙, 冒鑫鑫, 顾幸生. 基于姿态估计的护具佩戴检测与动作识别[J]. 信息与控制, 2021, 50(6): 722-730, 739. DOI: 10.13976/j.cnki.xk.2021.0591
WU Shengxi, XIAN Bolong, MAO Xinxin, GU Xingsheng. Protective Wearing Detection and Action Recognition Based on Pose Estimation[J]. INFORMATION AND CONTROL, 2021, 50(6): 722-730, 739. DOI: 10.13976/j.cnki.xk.2021.0591
Citation: WU Shengxi, XIAN Bolong, MAO Xinxin, GU Xingsheng. Protective Wearing Detection and Action Recognition Based on Pose Estimation[J]. INFORMATION AND CONTROL, 2021, 50(6): 722-730, 739. DOI: 10.13976/j.cnki.xk.2021.0591
吴胜昔, 咸博龙, 冒鑫鑫, 顾幸生. 基于姿态估计的护具佩戴检测与动作识别[J]. 信息与控制, 2021, 50(6): 722-730, 739. CSTR: 32166.14.xk.2021.0591
引用本文: 吴胜昔, 咸博龙, 冒鑫鑫, 顾幸生. 基于姿态估计的护具佩戴检测与动作识别[J]. 信息与控制, 2021, 50(6): 722-730, 739. CSTR: 32166.14.xk.2021.0591
WU Shengxi, XIAN Bolong, MAO Xinxin, GU Xingsheng. Protective Wearing Detection and Action Recognition Based on Pose Estimation[J]. INFORMATION AND CONTROL, 2021, 50(6): 722-730, 739. CSTR: 32166.14.xk.2021.0591
Citation: WU Shengxi, XIAN Bolong, MAO Xinxin, GU Xingsheng. Protective Wearing Detection and Action Recognition Based on Pose Estimation[J]. INFORMATION AND CONTROL, 2021, 50(6): 722-730, 739. CSTR: 32166.14.xk.2021.0591

基于姿态估计的护具佩戴检测与动作识别

基金项目: 

国家自然科学基金资助项目 61673175

详细信息
    作者简介:

    吴胜昔(1976-), 女, 博士, 副教授.研究领域为计算机视觉在工业领域的应用

    咸博龙(1994-), 男, 硕士生.研究领域为机器视觉, 行为识别

    冒鑫鑫(1998-), 男, 硕士生.研究领域为机器视觉, 行为识别

    通讯作者:

    顾幸生, xsgu@ecust.edu.cn

  • 中图分类号: TP273

Protective Wearing Detection and Action Recognition Based on Pose Estimation

  • 摘要:

    护具佩戴检测和动作识别是智慧安监系统中的一个重要环节.针对传统并行识别方法准确率低且实时性不高的问题,提出了一种基于姿态估计的并行识别方案,利用一种基于距离和匈牙利算法的数据交互方法,将人员躯干和护具进行匹配,快速并行实现了护具佩戴检测与动作识别.并行识别方案利用深度可分离卷积,对Openpose模型的参数进行压缩,使Openpose模型轻量化,提高了该模型姿态估计的实时性,并提出了一种结合姿态信息的四边形检测法,解决了未佩戴护具(手持安全帽)的误判问题.在实时检测实验中,并行识别方案的手持安全帽的误判率下降29.3%,系统的整体准确率达到93.5%;改进后的Openpose模型的速度比原模型每秒提升12帧,为原模型的2.2倍.实验结果表明,所提的并行识别方案准确度高,且实时性强,满足实际护具佩戴检测和动作识别的需求.

    Abstract:

    Protective wearing detection and action recognition are an important part in the intelligent safety supervision system. Aiming at the problem of low accuracy and low real-time performance of traditional parallel recognition methods, We propose a parallel recognition scheme based on pose estimation to realize protective wearing detection and action recognition in parallel quickly, which uses a data interaction method based on distance and Hungarian algorithm to combine the pose with the guardian. Useing deep separable convolution to reduce parameters, the parallel recognition scheme improve the Openpose model, which makes the Openpose model lighter and improves the real-time performance of pose estimation. A quadrilateral detection method combined with pose information is proposed to solve the misjudgment problem of not wearing a guardian (holding helmet). In real-time detection experimental, the misjudgment rate of the holding helmet drops by 29.3%, and the overall accuracy rate of the system reaches 93.5%. The speed of improved Openpose model increases 12 frames per second faster than the original model, which is 2.2 times that of the original model. Experimental verification shows that the parallel recognition scheme has high accuracy and strong real-time performance, which meets the needs of actual protective wearing detection and action recognition.

  • 随着人工智能、机器视觉技术的提升,在生产环境的安全防护方面,研究人员提出了智慧安监的概念. 护具佩戴检测和动作识别的并行实现是实现智慧安监的一个重要步骤. 文[1]利用数据交互算法,将姿态估计中的姿态信息引入到护具佩戴检测算法中,实现两种数据的交互,从而提出了一种三点定位法,确定护具检测区域,有效识别出护具佩戴情况. 姿态估计算法[2-4],能够有效地将图像信息中的人体姿态转化为姿态坐标,人体姿态坐标的特征丰富,数据量小,便于传输,使动作识别的速度更快,准确性更强;数据交互算法,能够利用一种数据增加其他数据算法的性能,包括准确率和实时性,如匈牙利算法[5]可以最大程度地将两种集合进行匹配,为护具佩戴检测和动作识别的并行识别提供了新的思路.

    护具佩戴检测属于护具检测领域,是利用目标检测的方法,检测人员是否佩戴护具(安全帽、安全背心),并剔除未正确佩戴的护具信息(如手持安全帽),得到人员的护具佩戴情况. 传统的目标检测算法需要通过手工设计特征,在实际检测中存在准确率低、模型泛化性差等问题. 近年来,国内外学者提出了一系列基于深度学习的目标检测算法,可以用于护具检测系统. 2018年Seong等[6]利用安全背心的颜色进行了色彩空间转换和亮度成分评估,提出了一种颜色空间转换的方法,增强安全背心检测的精度. 2019年Fang等[7]针对传统检测方法准确率低、鲁棒性差的问题,提出了一种基于改进YOLOv2网络的安全帽佩戴情况检测方法,识别速度可以达到每秒148帧(YOLOv3的实时性低于YOLOv2). 2019年Dasgupta等[8]提出了一种基于卷积神经网络的摩托车安全帽佩戴情况检测结构,通过实验评价,检测结果优于传统的卷积神经网络. 2020年Felix等[9]利用交通数据制作摩托车头盔佩戴情况数据集,利用深度学习算法对复杂路况下,摩托车佩戴情况进行检测,并通过实验证明了其方法的有效性. 已有的护具佩戴检测方法,在检测过程中没有对未佩戴的护具与佩戴后的护具进行区分,而未佩戴的护具与佩戴后的护具特征相似,属于未正确佩戴护具行为,因此,本文对文[1]的数据交互方法进行改进,在护具佩戴检测算法中引入姿态信息,对这两种特征进行明确区分.

    动作识别是深度学习和机器视觉领域的一个分支,是对各种背景下的人员动作(打电话、挥舞等)进行识别. 随着人工智能技术的发展,基于机器视觉技术的人员动作监控已成为可能. 2019年Lei等[10]提出了一种基于骨架匹配的人体姿态估计方法,通过对姿态信息分类获得动作分类信息,有效地实现了动作分类. 2020年Tufek等[11]利用数据平衡和数据扩充方法,在有限的动作数据集上实现了动作分类,并通过实验证明了该方案的有效性. 2020年Tsai等[12]使用3D ConvNet结构和基于非极大值抑制原理的数据处理方法,实现了基于深度学习算法的多人动作识别系统. 针对背景信息影响动作识别精度的问题,2020年周波等[13]提出一种新的结合目标检测的人体行为识别的算法,在人体动作识别的过程中增加目标检测机制,使神经网络有侧重地学习人体的动作信息,降低了背景信息对动作识别精度的影响. 此外,很多学者使用智能传感器进行动作识别,如Kinect摄像机,2020年Wang等[14]对基于Kinect的动作识别方法进行了综述,并基于综述进行了算法改进,提升了算法的性能. 智能传感器简化了动作识别流程,但对设备要求较高,不易于算法的推广. 以上方法针对动作识别的准确性出发,但现实需求对动作识别算法的实时性同样有较高的要求[15].

    通过对已有方法的研究,针对算法的实时性问题,本文提出了基于姿态估计的护具佩戴检测与动作识别并行识别方案. 并行识别方案使用深度可分离卷积[16]对Openpose模型进行轻量化改进,改善姿态估计的实时性,快速获得多种人体姿态坐标,保证动作特征的丰富性. 本方案采用了一种基于距离和匈牙利算法的数据交互方法和基于姿态信息的四边形检测法,利用头肩区域的强鉴别性[17],对未佩戴护具和佩戴后护具的特征进行明确区分,剔除误判的护具信息,并选取14种关键姿态节点,从多方位获得姿态数据,通过深度神经网络(deep neural network,DNN),快速实现动作识别,有效解决了断续的图像序列难以有效识别的问题.

    基于姿态估计的并行识别系统主要可以分为4个部分:姿态估计、动作分类、护具检测和数据交互. 第一部分是姿态估计. 在多特征的情况下,深度可分离卷积(depthwise separable convolution,DSC)可以有效压缩网络模型的参数量. 本文利用DSC对Openpose模型的特征提取层进行改进,降低Openpose模型的参数量,有效提升姿态估计的实时性. 另外,针对Openpose模型存在对同一人体躯干重复估计的情况,本文在Openpose模型中加入非极大值抑制算法,去除重复的姿态信息,提高姿态估计的精度. 第二部分是动作分类. 改进的Openpose模型将图像特征转化为关节特征,利用算法将关节特征转化为关节坐标,通过DNN网络即可对图像序列进行有效的人体动作识别. 第三部分是护具检测. Darknet53模型可以快速准确地提取护具信息的特征,利用YOLOv3+Darknet53模型可以有效地检测出护具信息,包括安全帽和安全背心. 第四部分是数据交互. 匈牙利算法可以最大程度地将两个集合进行匹配,本文利用人体躯干和护具检测框的距离信息,使用匈牙利算法对人体躯干和护具进行匹配,并利用四边形检测法对护具检测框进行检验,剔除未正确佩戴的护具检测框. 本文提出的并行识别系统框架如图 1所示.

    图  1  并行识别系统框架图
    Fig. 1.  Framework of parallel recognition system

    考虑到系统的实时性,本并行识别系统选取不同动作切换过程中,较为活跃的14个姿态信息,进行DNN动作分类.

    本文使用DSC对Openpose模型的特征提取层进行改进,降低模型的参数量,增加Openpose模型姿态估计的速度,并搭建深度神经网络(DNN),对姿态信息进行动作分类,提出了一种基于改进Openpose模型和DNN的快速动作分类方案.

    多人姿态估计包含自顶向下和自底向上两种常用的方法. 自顶向下,首先检测出每个人体,再对人体进行关节识别;自底向上,先对所有的关节点进行识别,然后对关节点进行分组、连接,构成人体躯干. 在多人场景下,同时对每个人的关节点进行识别速度更快,为保证识别系统具有更高的实时性,本文根据自底向上的思路,使用改进的Openpose模型,进行姿态估计.

    传统的Openpose模型利用VGGnet(Visual Geometry Group network)获取图像特征,再利用图像特征进行特征点识别和特征区域识别. 特征点识别,利用卷积网络识别出18个关节点,输出每个关节点的热图以及1个背景热图. 特征区域识别,对19种特征点信息,两两之间生成骨骼区域的热图,共38种(C192). 可视化后的特征点和特征区域热图如图 2所示. 在图 2中,图 2(a)为可视化后的脚踝关节点. 图 2(b)为可视化后的特征区域(骨骼).

    图  2  可视化特征图像
    Fig. 2.  Visual features image

    Openpose模型对一个躯干进行姿态估计时,需要计算19种特征点和38种特征区域,共57种数据特征,网路参数庞大,降低了Openpose模型的识别速度. 因此,本文使用DSC对Openpose模型进行改进,降低参数量,可以增加系统的实时性.

    DSC能够有效压缩多特征模型[16],本文使用DSC对Openpose的特征提取层进行改进,得到改进的特征提取层DSCnet(Depthwise Separable Convolution network),使Openpose模型拥有更轻量化的网络结构,提升姿态估计模型的实时性. VGGnet、DSCnet的结构如图 3图 4所示.

    图  3  传统特征提取层:VGGnet
    Fig. 3.  Traditional feature extraction layer: VGGnet
    图  4  改进特征提取层:DSCnet
    Fig. 4.  Improve feature extraction layer: DSCnet

    图 3所示,VGGnet的输入图像为三通道的RGB图像,图像的宽度为W,长度为L. 正常卷积令图像的通道数(深度)为卷积核的第三维度,即正常卷积的卷积核大小为M×N×3,数量为1,得到的图像特征的大小为(W-M+1)×(L-N+1)×1. 一个图像特征所需的卷积核参数为M×N×3个,姿态估计需要获得57个图像特征,所需的卷积核参数为M×N×3×57个.

    图 4中,DSCnet的输入图像为三通道的RGB图像,图像的宽度为W,长度为L. 深度可分离卷积的实现分为两步:第1步,深度可分离卷积令图像的通道数(深度)为卷积核数量,即深度可分离卷积的卷积核大小为M×N×1,数量为3,得到的图像特征的大小为(W-M+1)×(L-N+1)×3. 第2步,建立大小为1×1×3的特征卷积核(不同图像特征对应不同参数的特征卷积核)对第1步获得的图像特征进行卷积,获得最终的图像特征大小为(W-M+1)×(L-N+1)×1,与正常卷积的图像特征大小一致. 一个图像特征所需的卷积核参数为M×N×1×3+1×1×3个,姿态估计需要获得57个图像特征,因此,建立57个大小为1×1×3的特征卷积核对第一步中获得的图像特征进行卷积,获得57个图像特征,所需的卷积核参数为M×N×1×3+1×1×3×57个.

    图 3图 4的分析可知,利用VGGnet进行57个图像特征提取时,卷积层需要的卷积核参数为M×N×3×57个;利用DSCnet进行57个图像特征提取时,卷积层需要的卷积核参数为M×N×1×3+1×1×3×57个,远远低于VGGnet所需要的卷积核参数个数,可以大大提高Openpose模型的识别速度.

    基于图像序列的动作识别方法,难以对断续图像序列有效识别. 本文使用改进的Openpose模型将图像中的人体特征转化为人体关节点坐标数据,保证了人体动作特征的丰富性和轻量化(坐标数据格式简单,数据量小,便于后续处理和传输),并在制作数据集时,从多角度采集数据,保证了各种动作数据的丰富性. 在数据丰富情况下,本文设计DNN进行动作分类,并采用全连接层(Dense)和批量标准化层(batch normalization,BN)交替的网络结构,如图 5所示. 针对DNN梯度消失问题,本文利用基于姿态信息的Batch Normalization算法,对中间网络层的输出进行标准化处理后,降低了不同样本间值域的差异性,增加姿态特征的变化梯度,解决了梯度消失的问题.

    图  5  DNN动作分类网络结构
    Fig. 5.  DNN action classification network structure

    基于姿态信息的Batch Normalization算法实现可以分为两步:第一步,利用式(1)~式(3)将输入的多种姿态特征Pi进行正态标准化,获得标准化后的姿态信息. 第二步,利用式(4)为Pi增加梯度信息,获得,避免DNN动作分类网络出现梯度消失问题.

    (1)

    (2)

    (3)

    在式(1)~式(3)中,k为姿态特征的种类数,μBk种姿态特征的均值,σB2k种姿态信息的方差,ε为方差阈值. 利用式(3),将姿态姿态信息正态标准化.

    (4)

    在式(4)中,γβ为梯度函数系数和常数向量. 利用式(4)改变姿态特征变化的梯度,从而增加网络收敛速度,避免梯度消失问题.

    在人员躯干与护具信息未进行匹配的情况下,进行数据交互容易出现信息误删问题(护具误删). 基于这一问题,本文提出一种基于距离和匈牙利算法的数据交互方法,将目标检测算法获得的护具信息和动作识别中的姿态信息进行匹配,解决了信息误删问题,实现了护具佩戴检测和动作识别的数据交互. 利用四边形检测法进行护具佩戴检测算法的误判判断(如手持安全帽),将未正确佩戴的护具信息进行剔除,增加了护具佩戴检测算法的准确性.

    Openpose模型在姿态估计过程中,同一个躯干存在重复估计的问题,如图 6所示,降低了数据交互的准确率. 本文在改进Openpose模型的输出阶段,利用式(5)、式(6)加入非极大值抑制算法(non-maximum suppression,NMS),对姿态信息进行预处理,去除重复的姿态信息.

    图  6  姿态重复信息
    Fig. 6.  Repeat data of pose

    (5)

    (6)

    在式(5)、式(6)中,Nin为待检测的姿态信息,Nscore为待检测姿态信息的原始分数,M为得分最高的姿态信息,Nt为预设阈值,Nmap为待检测姿态信息的最后得分,Nms为非极大值抑制算法的输出值,Pfoot为局部最优化窗口. 利用式(5)从N in获得每个姿态信息的最后姿态信息的Nmap,再使用Max函数,利用Pfoot进行滚动,对姿态信息进行去重.

    基于距离和匈牙利算法的数据交互方法,利用式(7)、式(8),计算护具检测框与躯干的距离,再利用距离作为匈牙利算法的输入,进行护具信息和躯干信息的匹配.

    (7)

    (8)

    在式(7)中,H i=(xiyi)为第i个护具检测框的中心点坐标;Het为护具检框中心点坐标集合;n为护具检测框个数;P j=(xj,yj)为第j个躯干的0号关节点(Nose)坐标,正确佩戴的安全帽;Nose关节点始终处于安全帽的检测框之内;Pose是姿态关节坐标集合;m为躯干数量. Li为距离转换阈值,等于第i个护具检测框长和宽的算数平均数. 首先利用式(7),计算各个护具检测框与躯干的距离Lij,然后利用式(8),将Lij中超过阈值Li的值转换为无穷大,从而得到匈牙利算法的输入量NHP,利用匈牙利算法将护具信息与人体躯干进行匹配.

    护具信息和躯干数据的交互关系可以分为两种情况,如图 7所示,分别为护具信息与躯干数目相同、护具信息与躯干数目不相同. 护具佩戴检测的目标为判断人员是否正确佩戴护具,因此,本文在使用匈牙利算法对护具和躯干进行匹配时,以躯干为主导,优先为所有躯干匹配护具检测框.

    图  7  数据交互格式
    Fig. 7.  Format of exchange data

    式(8)获得的NHP为具体数值,其数值的大小为躯干和护具匹配的具体量纲,基于此,本文对传统的匈牙利算法进行改进,具体步骤如下:

    1) 由式(7)中护具检测框集合Het和姿态关节坐标集合Pose的维度建立行数m,列数n的匈牙利矩阵Magy.

    2) 利用式(8),计算m×nPjHiNHP,并对每个躯干的nNHP进行升序排序,然后将排序的名次填入匈牙利矩阵Magy.

    3) 先将矩阵Magy的每一行减去该行的最小值,获得矩阵M agyF,再将矩阵M agyF的每一列减去该列的最小值,获得矩阵M agyS.

    4) 将矩阵M agyS中,所有不同行且不同列的0元素取出,读出0元素对应坐标值(ji),将第j个躯干与第i个护具检测框进行匹配.

    针对未佩戴护具的误判问题(如手持安全帽),本文提出了结合姿态信息的四边形检测法,示意图如图 8所示. 利用基于距离和匈牙利算法的数据交互方法将躯干与护具检测框进行匹配,通过计算节点坐标与安全帽的位置关系,将误判的护具信息剔除. 假设,护具检测框box的左上角坐标Qi(xminymin)和右下角坐标Qj(xmaxymax). 利用公式(9)通过QiQj建立第一级数值四边形Q uaF(QF11QF12QF21QF22).

    图  8  四边形检测法示意图
    Fig. 8.  Schematic diagram of quadrilateral detection

    (9)

    图 8所示,box1、box2、box3均为护具检测框,box1和box3为包含了0号关节点(Nose)的护具误判信息,为了将box1和box3进行剔除,必须对数值四边形进行压缩. 设置压缩比例θ,压缩比例θ由式(10)获得. 获得压缩比例θ后,利用式(11),获得第二级数值四边形QuaS(Q S11QS12QS21QS22).

    (10)

    在式(10)中,nh为每个躯干匹配的护具检测框数量,压缩比例最多为0. 5,保证算法的准确性.

    (11)

    判断0号关节点坐标P j=(xjyj)和第二级数值四边形QuaS的位置关系,若QS11 < Pj < QS22,则0号关节点在QuaS之内,保留此护具检测框;否则,将此护具检测框去除.

    本文实验中,使用准确率(Ar,Accuracy rate),帧速(FPS,Frames Per Second),漏检率(Mr,Miss rate),误判率(FFr,False Fositive rate)来测试模型的性能. 实测实验中,使用单GeForce2080进行算法的性能验证.

    (12)

    (13)

    (14)

    在式(12)~式(14)中,FP为误判帧,RP为正确识别帧,MP为漏判帧. 在利用公式计算Ar、FFr、Mr时,考虑到动作的延续性,本实验以每秒2帧的格式提取和计算FP、RP、MP的值.

    本文的数据集包括护具佩戴检测数据集(protective appliance wearing dataset,PAWD)、动作识别数据集(skeleton Openpose dataset,SOD)两部分. 在开源的安全帽检测数据集(safety helmet wearing dataset,SHWD)的基础上,加入了hat和vest两类数据进行扩充,构成了最终的护具佩戴检测数据集PAWD. SOD由NTU RGB+D动作识别数据集[18]和Openpose数据集组成,其中Openpose数据集为本文自制数据集.

    SHWD数据集中只包括helmet、person两类标签,无法对helmet和hat进行区分,且无法识别安全背心,因此本文对SHWD数据集进行扩充,得到PAWD数据集. 经过对SHWD数据集的扩充,本文的PAWD数据集共7 462张图片,标签设置为hat、helmet、person和vest四类. 从数据集中,选取80%的数据作为训练集,20%的数据作为测试集,然后再从训练集中选取10%的数据作为验证集,最后进行交叉验证测试,结果如表 1所示.

    表  1  护具佩戴检测数据集测试结果
    Tab. 1.  Test results of protective wear detect dataset
    数据集 Epoch:10 mAP Epoch:20 mAP Best mAP
    SHWD 0.734 0.815 0.821
    PAWD 0.692 0.791 0.791
    下载: 导出CSV 
    | 显示表格

    在目标检测问题中,mAP(mean Average Precision)是衡量检测结果的一个重要指标. 表 1中记录了两种数据集在YOLOv3+Darknet 53网络下训练10次、20次达到的平均精度. 在第13次,SHWD数据集的mAP达到的最大值;在第17次,PAWD数据集的mAP达到的最大值. 由于标签类别数的增加,PAWD数据集的mAP值稍低于SHWD数据集,且mAP值的最大值晚于SHWD数据集出现,符合训练规律,数据集扩充成功.

    本文实验中选取关节点标号对应表中的14种关节点作为动作识别的输入,关节点标号对应表如表 2所示;并利用NTU RGB+D动作识别数据集中的Skeleton数据和自制Openpose数据制作本文实验中的SOD数据集.

    表  2  关节点标号对应表
    Tab. 2.  Correspondence table of joint label
    关节名 Openpose Skeleton
    Nose 0 4
    Neck 1 21
    RShoulder 2 9
    Relbow 3 10
    RWrist 4 12
    LShoulder 5 5
    LElbow 6 6
    LWrist 7 8
    RHip 8 17
    Rknee 9 18
    Rankle 10 19
    LHip 11 13
    LKnee 12 14
    LAnkle 13 15
    下载: 导出CSV 
    | 显示表格

    1) Openpose数据

    Openpose数据为本文的实测数据,通过改进的Openpose模型进行姿态估计,得到各个动作对应的关节点数据,制作数据集. 步骤如下:(1)选取6位体型相差较大的同学依次做各种动作,对每种连续动作的各种情况进行采集,如图 9所示,将各种打电话动作均进行采集. (2)设置姿态估计网络,以每秒固定帧数的方式,输出指定的14个关节点信息. (3)建立数据集白板,将输出的关节点信息导入.

    图  9  动作实测数据
    Fig. 9.  Measured data of action

    2) Skeleton数据

    在动作识别的研究范围内,COCO、NTU RGB+D两个数据集的认可度较高. Skeleton数据是NTU RGB+D数据集中的三维骨骼数据,由Kinect传感器采集获得,含深度信息. 本文实验使用NTU RGB+D数据集中等量Skeleton数据和自制Openpose数据构造数据集,进行动作分类网络的训练. Skeleton数据与Openpose数据的格式如图 10所示. 由于Skeleton数据与Openpose数据格式不同,因此需要对Skeleton数据进行格式转换.

    图  10  动作数据格式图
    Fig. 10.  Format of action data

    表 2为Skeleton数据和Openpose数据的关节点标号对应表. 本文根据关节点标号对应表,提取Skeleton数据中Openpose数据对应的14个关节点数据,再利用去除深度值的方法,将三维Skeleton数据转化为二维Openpose数据.

    3) 动作识别数据集测试

    将数据集分为三类进行测试,包括Skeleton Dataset、Openpose Dataset、Skeleton+Openpose Dataset. 从各自数据集中,选取10%的数据做验证集,90%的数据为训练集,进行交叉训练测试,获得动作识别的Ar(Accuracy rate)如表 3所示.

    表  3  动作识别数据集测试结果
    Tab. 3.  Test results of action recognition dataset
    数据集 Skeleton Openpose Skeleton+Openpose
    Ar 0.94 0.938 0.91
    下载: 导出CSV 
    | 显示表格

    由测试可知,Skeleton数据集和Openpose数据集的准确率较高,但SOD数据集的鲁棒性更高. 在人员数据可测的情况下,可选择Openpose数据集进行动作识别,在人员信息未知的情况下,可选择SOD数据集进行动作识别.

    本文针对于Openpose模型的实时性不高的问题,利用DCS压缩模型参数的特性,对Openpose模型的特征提取层进行改进,并设计实验进行验证. 本实验使用准确率Ar和帧速FPS来评价系统的性能,分为单人识别和多人识别两类,分别在楼梯间、停车场和户外道路三种环境下进行实验,实验结果如图 11表 4所示. 图 11左侧3幅图为楼梯间实验,中间3幅图为停车场实验,右侧3幅图为户外道路实验.

    图  11  Openpose改进验证实验结果图
    Fig. 11.  Result of Openpose improved verification experiment
    表  4  Openpose改进验证对比实验结果
    Tab. 4.  Result of Openpose improved verification comparison experiment
    网络类别 Ar FPS 模型大小
    DSCnet 0.947 22 7.6 MB
    VGGnet 0.955 10 204.4 MB
    下载: 导出CSV 
    | 显示表格

    表 4中的测试结果可知,VGGnet的模型大小是DSCnet的26. 9倍,每秒识别动作的帧数比DSCnet少12帧. 原因在于,DSCnet中,利用深度可分离卷积对网络的参数进行轻量化处理,大大提高了网络的处理速度. 通过实验得到结论:使用DSCnet作为特征提取层,进行基于Openpose模型的动作识别,大大提升动作识别的实时性.

    本文中,利用数据交互方法和四边形检测法,将姿态信息加入到护具检测算法中,剔除误判信息,提升护具检测算法的准确率. 为验证基于姿态信息的护具检测算法的有效性,本文设计安全帽检测对比实验,使用准确率Ar、漏检率Mr和误判率FFr对算法的进行验证. 实验分为二个实验组:YOLOv3[20]和YOLOv3+PoseData(基于姿态信息的安全帽检测算法). 实验分别在楼梯间、停车场和户外道路三种环境下进行,实验结果如图 12表 5所示.

    图  12  安全帽检测对比实验结果图
    Fig. 12.  Result of helmet detect comparison experiment
    表  5  安全帽检测对比实验结果
    Tab. 5.  Result of helmet detect comparison experiment
    网络类别 Ar(HaH) FFr(HaH) Ar(Worn) Mr(Worn) Ar
    YOLOv3 0.675 0.325 0.952 0.048 0.867
    YOLOv3 + PoseData 0.968 0.032 0.945 0.065 0.959
    下载: 导出CSV 
    | 显示表格

    图 12上面3幅图为三种环境下,YOLOv3测试实验. 图 12下面3幅图为三种环境下,YOLOv3+PoseData测试实验.

    表 5中的实验结果可知,利用数据交互算法将误判的护具检测框进行剔除,可以提高护具检测的准确性. 由结果可知,YOLOv3+PoseData获得的手持安全帽误判率比文[19]中的安全帽检测方法降低29. 3%,整体准确率增加9. 2%. 因此,由实验结果得到结论:结合了姿态信息的YOLOv3+PoseData安全帽检测模型,大幅降低了手持安全帽的误判率,提升了护具佩戴检测系统的整体准确率,增加了系统的实用性.

    利用基于距离和匈牙利算法的数据交互方法,本文并行完成了动作识别和护具佩戴检测,提出一种快速的并行识别方案. 本文设计并行识别实验,使用准确率Ar、漏检率Mr和FPS对并行识别方案进行验证. 实验分为单人并行识别和多人并行识别两类,分别在楼梯间、停车场和户外道路三种环境下进行实验,实验结果如图 13表 6所示.

    图  13  人员行为识别实验结果图
    Fig. 13.  Result of human behavior recognition experiment
    表  6  并行识别实验结果
    Tab. 6.  Result of parallel recognition experiment
    Ar(Action) Ar(Helmet) Ar(Vest) Ar FPS
    0.942 0.953 0.910 0.935 9
    下载: 导出CSV 
    | 显示表格

    图 13左侧3幅图为楼梯间实验,中间3幅图为停车场实验,右侧3幅图为户外道路实验.

    在并行识别实验中,并行识别模型的整体正确率Ar为动作识别准确率、安全帽检测准确率和安全背心准确率的算术平均值. 由表 6中的实验结果可知,模型的整体正确率为93. 5%. 动作识别准确率和安全帽检测准确率与单独测试获得结果一致,并行识别实验结果合理. 考虑到行为的延续性,本文并行识别模型的FPS达到每秒9帧,基本满足识别要求. 因此,并行实验结果得到以下结论:本文提出的D-ODY(DSC-Openpose+DNN+YOLOv3,D-ODY)并行识别方案,在满足系统实时性的要求下,能够有效识别出动作信息、安全帽和安全背心佩戴情况.

    D-ODY并行识别方案在NTU RGB+D标准数据集上的动作识别准确率,PAWD数据集上的护具佩戴检测的准确率整体优于其他文献. 比文[9]的护具佩戴检测准确率高5. 2%,比文[12]的动作识别准确率高3. 4%,比文[20]的护具佩戴检测准确率高9. 2%,比文[21]的动作识别准确率高7. 3%.

    表  7  D-OPY与相关文献对比
    Tab. 7.  Comparison of D-OPY and related literature
    方法 Ar(Action) Ar(Helmet)
    D-ODY 0.942 0.953
    RetinaNet[9] 0.901
    3DConvNet+NMS[12] 0.908
    DeepSORT+YOLOv3[19] 0.867
    PoT2I+CNN[20] 0.869
    下载: 导出CSV 
    | 显示表格

    本文提出了一种D-ODY并行识别方案,快速并行实现了护具佩戴检测和动作识别. D-ODY使用DSC对Openpose模型的特征提取层进行改进,使姿态估计的FPS达到每秒22帧,较未改进的Openpose模型提高12帧. 本文在D-ODY中,使用基于距离和匈牙利算法的数据交互算法,以及四边形检测法,将姿态信息加入到安全帽检测算法中,使手持安全帽的误判率下降29. 3%. 并以实时性为前提,并行完成动作识别和护具佩戴检测,整体准确率达到93. 5%,解决了护具佩戴检测和动作识别并行识别实时性低的问题. 但D-ODY并行识别方案依然处于实验室研究阶段,系统的鲁棒性还有待提升,在今后的研究中,会继续改进,提高方案的实用性.

  • 图  1   并行识别系统框架图

    Figure  1.   Framework of parallel recognition system

    图  2   可视化特征图像

    Figure  2.   Visual features image

    图  3   传统特征提取层:VGGnet

    Figure  3.   Traditional feature extraction layer: VGGnet

    图  4   改进特征提取层:DSCnet

    Figure  4.   Improve feature extraction layer: DSCnet

    图  5   DNN动作分类网络结构

    Figure  5.   DNN action classification network structure

    图  6   姿态重复信息

    Figure  6.   Repeat data of pose

    图  7   数据交互格式

    Figure  7.   Format of exchange data

    图  8   四边形检测法示意图

    Figure  8.   Schematic diagram of quadrilateral detection

    图  9   动作实测数据

    Figure  9.   Measured data of action

    图  10   动作数据格式图

    Figure  10.   Format of action data

    图  11   Openpose改进验证实验结果图

    Figure  11.   Result of Openpose improved verification experiment

    图  12   安全帽检测对比实验结果图

    Figure  12.   Result of helmet detect comparison experiment

    图  13   人员行为识别实验结果图

    Figure  13.   Result of human behavior recognition experiment

    表  1   护具佩戴检测数据集测试结果

    Table  1   Test results of protective wear detect dataset

    数据集 Epoch:10 mAP Epoch:20 mAP Best mAP
    SHWD 0.734 0.815 0.821
    PAWD 0.692 0.791 0.791
    下载: 导出CSV

    表  2   关节点标号对应表

    Table  2   Correspondence table of joint label

    关节名 Openpose Skeleton
    Nose 0 4
    Neck 1 21
    RShoulder 2 9
    Relbow 3 10
    RWrist 4 12
    LShoulder 5 5
    LElbow 6 6
    LWrist 7 8
    RHip 8 17
    Rknee 9 18
    Rankle 10 19
    LHip 11 13
    LKnee 12 14
    LAnkle 13 15
    下载: 导出CSV

    表  3   动作识别数据集测试结果

    Table  3   Test results of action recognition dataset

    数据集 Skeleton Openpose Skeleton+Openpose
    Ar 0.94 0.938 0.91
    下载: 导出CSV

    表  4   Openpose改进验证对比实验结果

    Table  4   Result of Openpose improved verification comparison experiment

    网络类别 Ar FPS 模型大小
    DSCnet 0.947 22 7.6 MB
    VGGnet 0.955 10 204.4 MB
    下载: 导出CSV

    表  5   安全帽检测对比实验结果

    Table  5   Result of helmet detect comparison experiment

    网络类别 Ar(HaH) FFr(HaH) Ar(Worn) Mr(Worn) Ar
    YOLOv3 0.675 0.325 0.952 0.048 0.867
    YOLOv3 + PoseData 0.968 0.032 0.945 0.065 0.959
    下载: 导出CSV

    表  6   并行识别实验结果

    Table  6   Result of parallel recognition experiment

    Ar(Action) Ar(Helmet) Ar(Vest) Ar FPS
    0.942 0.953 0.910 0.935 9
    下载: 导出CSV

    表  7   D-OPY与相关文献对比

    Table  7   Comparison of D-OPY and related literature

    方法 Ar(Action) Ar(Helmet)
    D-ODY 0.942 0.953
    RetinaNet[9] 0.901
    3DConvNet+NMS[12] 0.908
    DeepSORT+YOLOv3[19] 0.867
    PoT2I+CNN[20] 0.869
    下载: 导出CSV
  • [1] 王雨生, 顾玉宛, 封晓晨, 等. 基于姿态估计的安全帽佩戴检测方法研究[J]. 计算机应用研究, 2021, 38(3): 937-940, 945. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ202103058.htm

    Wang Y S, Gu Y W, Feng X C, et al. Research on detection method of helmet wearing based on attitude estimation[J]. Application Research of Computers, 2021, 38(3): 937-940, 945. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ202103058.htm

    [2]

    Munea T L, Jembre Y Z, et al. The progress of human pose estimation: A survey and taxonomy of models applied in 2D human pose estimation[J]. IEEE Access, 2020, 8: 133330-133348. doi: 10.1109/ACCESS.2020.3010248

    [3]

    Liang G, Zhong X, Ran L, et al. An adaptive viewpoint transformation network for 3D human pose estimation[J]. IEEE Access, 2020, 8: 143076-143084. doi: 10.1109/ACCESS.2020.3013917

    [4]

    Xu J, Yu Z, Ni B, et al. Deep kinematics analysis for monocular 3D human pose estimation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, USA: IEEE, 2020: 896-905.

    [5]

    Pang C, Shan G L, Ma W N, et al. Sensor radiation interception risk control in target tracking[J]. Defence Technology, 2020, 16(3): 695-704. doi: 10.1016/j.dt.2019.10.014

    [6]

    Seong H, Son H. A comparative study of machine learning classification for color-based safety vest detection on construction-site images[J]. KSCE Journal of Civil Engineering, 2018(22): 4254-4262.

    [7]

    Fang M, Sun T T, Shao Z. Fast helmet-wearing-condition detection based on improved YOLOv2[J]. Optics and Precision Engineering, 2019, 27(5): 1196-1205. doi: 10.3788/OPE.20192705.1196

    [8]

    Dasgupta M, Bandyopadhyay O, Chatterji S. Automated helmet detection for multiple motorcycle riders using CNN[C]//IEEE Conference on Information and Communication Technology. Piscataway, USA: IEEE, 2019. DOI: 10.1109/CICT48419.2019.9066191.

    [9]

    Siebert F W, Lin H H. Detecting motorcycle helmet use with deep learning[J]. Accident Analysis the Prevention, 2020, 134. DOI: 10.1016/j.app.2019.105319.

    [10]

    Lei F, An Z H, Wang X L. Pose estimation of complex human motion[C]//International Conference on Video and Image Processing. Piscataway, USA: IEEE, 2019: 153-156.

    [11]

    Tufek N, Yalcin M, Altintas M, et al. Human action recognition using deep learning methods on limited sensory data[J]. IEEE Sensors Journal, 2020, 20(6): 3101-3112. doi: 10.1109/JSEN.2019.2956901

    [12]

    Tsai J K, Hsu C C, Wang W Y, et al. Deep learning-based real-time multiple-person action recognition system[J]. Sensors, 2020, 20(17): 4758. doi: 10.3390/s20174758

    [13] 周波, 李俊峰. 结合目标检测的人体行为识别[J]. 自动化学报, 2020, 46(9): 1961-1970. https://www.cnki.com.cn/Article/CJFDTOTAL-MOTO202009016.htm

    Zhou B, Li J F. Human action recognition combined with object detection[J]. Acta Automatica Sinica, 2020, 46(9): 1961-1970. https://www.cnki.com.cn/Article/CJFDTOTAL-MOTO202009016.htm

    [14]

    Wang L, Huynh D Q, Koniusz P. A comparative review of recent kinect-based action recognition algorithms[J]. IEEE Transactions on Image Processing, 2020, 29: 15-28. doi: 10.1109/TIP.2019.2925285

    [15]

    Zhao X, Huang Y, Yang J, et al. Discriminative pose analysis for human action recognition[C]//6th World Forum on Internet of Things (WF-IoT). Piscataway, USA: IEEE, 2020. DOI: 10.1109/WF-I0748130.2020.9221390.

    [16]

    Zhang T, Zhang X, Shi J, et al. Depthwise separable convolution neural network for high-speed SAR ship detection[J]. Remote Sensor, 2019, 11(21): 2483-2520. doi: 10.3390/rs11212483

    [17] 姬东飞, 丁学明. 基于特定区域去相关的行人检测算法[J]. 信息与控制, 2020, 49(4): 404-413. http://xk.sia.cn/CN/abstract/abstract4377.shtml

    Ji D F, Ding X M. Specific region decorrelation feature channel on pedestrian detection[J]. Information and Control, 2020, 49(4): 404-413. http://xk.sia.cn/CN/abstract/abstract4377.shtml

    [18]

    Shahroudy A, Liu J, Ng T, et al. NTU RGB+D: A large scale dataset for 3D human activity analysis[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, USA: IEEE, 2016: 1010-1019.

    [19] 何超. 基于改进YOLOv3的安全帽检测系统研究[D]. 武汉: 华中科技大学, 2019.

    He C. Research on safety helmet detection system based on improved YOLOv3[D]. Wuhan: Huazhong University of Science and Technology, 2019.

    [20]

    Thien H T, Hua C H, Ngo T T, et al. Image representation of pose-transition feature for 3D skeleton-based action recognition[J]. Information Sciences, 2020, 513: 112-126. doi: 10.1016/j.ins.2019.10.047

  • 期刊类型引用(7)

    1. 孟祥璞,李硕,苑明哲,王文洪,张志佳,宋纯贺,曹飞道. 基于人体骨架的动作识别:综述与展望. 信息与控制. 2025(01): 1-27 . 本站查看
    2. 赵冬,杨改红,喻龙,周帅,薛俊杰. 运动员体能训练动作量化修正系统设计. 信息技术. 2024(04): 87-92 . 百度学术
    3. 丁静怡,王凌霄,袁竞峰,薛竣. 基于目标识别与姿态检测的套筒灌浆过程监测方法. 土木工程与管理学报. 2023(01): 136-144 . 百度学术
    4. 杨露. 基于视觉图像的靖边跑驴舞姿动作自动识别系统设计. 自动化与仪器仪表. 2023(05): 124-128 . 百度学术
    5. 费树岷,赵宏涛,杨艺,李春锋. 基于时序拓扑非共享图卷积和多尺度时间卷积的骨架行为识别. 信息与控制. 2023(06): 758-772 . 本站查看
    6. 晏国良. 基于动作捕捉的舞蹈视频动作识别技术研究. 赤峰学院学报(自然科学版). 2022(09): 48-52 . 百度学术
    7. 常丽萍. 基于多尺度特征融合的舞蹈规范动作姿态估计方法. 河北北方学院学报(自然科学版). 2022(11): 15-22 . 百度学术

    其他类型引用(6)

图(13)  /  表(7)
计量
  • 文章访问数:  166
  • HTML全文浏览量:  3
  • PDF下载量:  164
  • 被引次数: 13
出版历程
  • 收稿日期:  2020-12-13
  • 录用日期:  2021-03-02
  • 发布日期:  2021-12-19
  • 刊出日期:  2021-12-19

目录

/

返回文章
返回
x

声明

我刊近期收到个别作者反馈,发现有不法分子盗用《信息与控制》编辑部名义联系作者,提供外审意见、索要版面费等,严重侵害广大作者的合法权益,并对我刊声誉造成恶劣影响。

我刊现再次严正声明如下:在论文正式录用前,我刊不会以任何名义向作者索要版面费用。我刊收款账号为中国科学院沈阳自动化研究所,21001394201050000710-0004,无个人收款账号。 

如有问题可邮件或电话联系编辑部。联系人:孙静、韩颖,邮箱xk@sia.cn,电话024-23970049。

《信息与控制》编辑部

2024年2月23日