admin 管理员组

文章数量: 1086019


2024年3月10日发(作者:html5动画制作工具)

JournalofComputerApplications

计算机应用,

2021,41(5):1458-1464

文章编号:1001-9081(2021)05-1458-07

ISSN1001⁃9081

CODENJYIIDU

2021⁃05⁃10

http:

//

DOI:10.11772/.1001-9081.2020071113

基于人体骨架特征编码的健身动作识别方法

郭天晓

1

,胡庆锐

1

,李建伟

2*

,沈燕飞

2

(1.北京体育大学运动人体科学学院,北京100084;2.北京体育大学体育工程学院,北京100084)

(∗通信作者电子邮箱jianwei@)

摘要:健身动作识别是智能健身系统的核心环节。为了提高健身动作识别算法的精度和速度,并减少健身动作

中人体整体位移对识别结果的影响,提出了一种基于人体骨架特征编码的健身动作识别方法。该方法包括三个步

骤:首先,构建精简的人体骨架模型,并利用人体姿态估计技术提取骨架模型中各关节点的坐标信息;其次,利用人体

中心投影法提取动作特征区域以消除人体整体位移对动作识别的影响;最后,将特征区域编码作为特征向量并输入

多分类器进行动作识别,同时通过优化特征向量长度使识别率和速度达到最优。实验结果表明,本方法在包含28种

动作的自建健身数据集上的动作识别率为97.24%,证明该方法能够有效识别各类健身动作;在公开的KTH和

Weizmann数据集上,所提方法的动作识别率分别为91.67%和90%,优于其他同类型方法。

关键词:计算机视觉;动作识别;智能健身;骨架信息;姿态估计

中图分类号:TP391.41文献标志码:A

Fitnessactionrecognitionmethodbasedonhumanskeletonfeatureencoding

(ofSportScience,BeijingSportUniversity,Beijing100084,China;

GUOTianxiao

1

,HUQingrui

1

,LIJianwei

2*

,SHENYanfei

2

ofSportsEngineering,BeijingSportUniversity,Beijing100084,China)

speedoffitnessactionrecognitionalgorithm,andreducetheinfluenceoftheglobaldisplacementoffitnessactionsonthe

recognitionresults,afitnessactionrecognitionmethodbasedonhumanskeletonfeatureencodingwasproposedwhich

extractedbyusingthehumancentralprojectionmethodinordertoeliminatetheinfluenceoftheglobaldisplacementon

Abstract:rtoimprovetheaccuracyand

includedthreesteps:firstly,thesimplifiedhumanskeletonmodelwasconstructed,andtheinformationofskeletonmodel’s

jointpointcoordinateswasextractedthroughthehumanposeestimationtechnology;secondly,theactionfeatureregionwas

actionrecognition;finally,thefeatureregionwasencodedasthefeaturevectorandinputtoamulti-classifiertorealizethe

actionrecognition,atthesametimethelengthofthefeaturevectorwasoptimizedforimprovingtherecognitionrateand

mentresultsshowedthattheproposedmethodachievedtherecognitionrateof97.24%ontheself-builtfitness

datasetwith28typesoffitnessactions,whichverifiedtheeffectivenessofthismethodtorecognizedifferenttypesoffitness

respectively,higherthanthoseofothersimilarmethods.

Keywords:computervision;actionrecognition;intelligentfitness;skeletoninformation;poseestimation

者掌握动作

[7]

。运动技能学习过程的起始阶段为泛化阶段

[8]

其学习重点为掌握动作要领,需要通过重复观看示范和接收

反馈来纠正错误动作

[9]

。通过技术手段对运动过程进行监控

和评估,不仅能够帮助运动者掌握动作,还能够节省人力成

本,增加训练过程的趣味性和互动性。

智能健身系统

[10-11]

是集成了人体运动信息采集,数据处

理与交互,用户终端与设备等模块的综合训练平台。健身动

作识别作为其中的核心环节之一,通过采集和分析人体运动

特征区分受试者执行的不同动作。目前,人体动作识别主要

分为基于惯性传感器

[12-13]

和基于视觉特征采集

[1,14]

的两大类

方法。前者通过可穿戴设备采集人体运动学信息完成动作识

actions;onthepublicKTHandWeizmanndatasets,therecognitionratesoftheproposedmethodwere91.67%and90%

0

随着计算机视觉和图像处理技术的高速发展,基于视觉

[1]

[2]

引言

信息处理的智能化训练系统逐渐被应用于运动训练和康复

医疗领域。对于初学者而言,接受及时有效的指导和反馈

不仅能够帮助其掌握动作,还能够有效避免运动损伤

[3][4-5]

传统的健身动作指导是在教练员的监督引导下纠正错误动作

以实现良好的锻炼效果,要求在特定场地下由专人指导进行

练习,不适用于居家环境以及利用碎片化时间锻炼的场景。

而当前已经出现的依托智能设备的健身指导方案大多缺少

对运动过程的有效监控且无法给出反馈和建议,不利于初学

[6]

收稿日期:2020⁃07⁃30;修回日期:2020⁃09⁃25;录用日期:2020⁃10⁃05。

基金项目:国家重点研发计划项目(2018YFC2000600);中央高校基本科研业务费专项资金资助项目(校2020056,校2020010)。

作者简介:郭天晓(1996—),男,山西大同人,硕士研究生,主要研究方向:智能体育、体育视频分析;胡庆锐(1996—),男,安徽滁州人,硕

士研究生,主要研究方向:智能体育、体育视频分析;李建伟(1987—),女,甘肃兰州人,讲师,博士,主要研究方向:SLAM、计算机视觉、智能体

育;沈燕飞(1976—),男,江苏靖江人,教授,博士,主要研究方向:人工智能、智能视频分析、体育大数据。

第5期郭天晓等:基于人体骨架特征编码的健身动作识别方法

1459

别,但在各关节处附着传感器不仅提高了成本,也会影响运

动体验;而采集视觉特征进行动作识别的方法能够依托各类

相机完成非侵入式

[15]

的动作识别,更适用于健身场景。

当前,利用人体视觉特征进行动作识别的方法主要分为

基于传统特征提取和基于深度学习的两大类:基于深度学习

的动作识别方法构建神经网络

[16-20]

描述人体运动特征,在大

型动作数据集上实现良好的检测效果,此类方法通常依赖大

量数据进行模型训练且对计算资源要求较高,限制了其在不

同场景下的应用;相对而言,基于传统特征提取的方法

[21-22]

数据量和计算资源的要求较小,能够根据不同需要提取相应

动作特征完成识别。在运动训练领域的相关研究中,研究者

根据训练目的和项目特点设计动作特征提取方法来完成各

类动作的识别和分析:Örücü等

[14]

针对上肢力量训练中对动

作执行标准程度的评价和指导问题,依托KinectV2设计了一

套智能训练系统,该系统通过提取受试者上肢各关节点的运

动数据监控和评估日常训练过程,实验结果证明该系统能有

效改善动作质量;Li等

[23]

为了对比赛视频中运动员的动作进

行分析,通过分层提取视频特征获取运动员动作的关键运动

学参数并据此完成动作识别,辅助教练员完成比赛录像分

析;Ting等

[1]

针对羽毛球运动中复杂技术动作的分类问题,采

集各动作RGB-D视频并提取四元数特征向量对10类羽毛球

动作进行识别,所选取的三维动作特征能有效表示各类羽毛

球动作。

针对健身动作的识别问题,除了考虑所选取特征对动作

的描述能力外,还应当考虑后续动作评价的可行性。健身动

作评价通过捕捉人体各环节间的相对运动来评估动作执行

的标准程度。人体整体位移是无关的干扰特征,如跑步时在

水平方向的行进位移、跳跃时的垂直高度等。因此,提取健

身动作中人体各环节间的相对运动特征不仅有利于区分相

似动作,而且能为动作评价创造条件。但在以往基于传统特

征提取的动作识别方法

[24-29]

中,很少考虑到人体运动过程中

无关位移对动作识别的影响。此外,健身动作识别场景通常

包含多变的背景和光照条件,而基于背景消除提取人体特征

的方法对于多变背景的鲁棒性相对较差

[30-31]

。随着人体姿

态估计技术

[32-33]

的发展,语义特征提取方法

[34]

为人体动作特

征的提取提供了新的思路:通过提取图像中的人体骨架信息

来描述动作特征并进行动作识别。提取出的人体关节位置

信息是具有高度代表性的人体运动特征,能够表示动作视频

中的人体活动空间分布

[35]

,有利于捕捉人体各环节间的组合

特征

[36]

,且在一定程度上避免了传统特征提取方法依赖于图

像分割效果的问题,对于视频中多变的背景和光照条件也具

有较好的鲁棒性

[34]

,能够为健身动作识别任务提供具有高度

代表性的人体运动骨架信息。

针对上述问题,本文提出了一种基于人体骨架特征编码

的健身动作识别方法,包含3个步骤:首先,根据健身动作特

点构建包含15个关节点的精简人体模型,并利用人体姿态

估计技术

[33]

获取视频中的运动骨架信息;然后,通过人体中

心投影法消除运动过程中整体位移对识别结果的干扰,并对

投影区域的轨迹特征进行缩放以降低人体体型差异对识别

结果的影响并提高识别速度,通过优化函数确定缩放比例以

在保证识别率的基础上获得有效特征更为集中的动作特征

区域;最后,对特征区域进行线性编码以获得描述健身动作

的特征向量,并设计了一个基于支持向量机(SupportVector

Machine

检验本方法对健身动作的识别效果,

,SVM)

[37]

的多分类器进行模型训练和识别。为了

构建了一个包含28种

健身动作的数据集进行实验,结果表明本方法能够有效识别

健身动作,

TekniskaHögskolan

识别率达到了

)数据集

97.24%。在公开的KTH(Kungliga

[26]

和Weizmann数据集

[24]

上,本方

法的识别率分别达到91.67%和90%。

本文贡献主要体现在以下3个方面:1)通过人体中心投

影法消除健身动作中人体整体位移对动作识别的影响,对利

用骨架信息进行动作识别的方法具有普适性;2)提出一种高

效的骨架信息编码方法,能够有效表示健身动作,并使得方

法具有较高的识别精度和速度;3)构建了一个健身动作数据

集,能够支持健身动作识别以及后续动作评价方法的研究。

图1所示为本文提出的健身动作识别方法流程,首先通

过人体姿态估计技术提取运动骨架信息,然后通过人体中心

投影法和缩放投影区域消除干扰,最后将特征区域进行线性

编码实现动作分类。

图1

1

Fig.

基于人体中心投影的动作特征提取

1Flowchartofthe

本文健身动作识别方法流程

proposedfitnessactionrecognitionmethod

从健身动作视频中提取动作特征区域包括两个步骤:人

体运动骨架信息提取和基于人体中心的动作特征区域提取。

1.1

人体骨架信息是具有高度代表性的人体运动特征。本

人体运动骨架信息提取

方法利用人体姿态估计技术

[33]

获取运动过程中人体各环节

位置信息并据此提取动作特征。根据健身动作的特点,选取

包含25个关节点的Body_25人体模型进行简化,删除对动作

识别贡献有限的双目特征点、双耳特征点,以及足趾和足跟

关节点。获得包含15个关节点的精简人体模型,相比原模

型更关注人体躯干和四肢的动作,有利于提高计算效率。

图2所示为Body_25模型和精简人体模型和对比。根据

精简人体模型,对包含

N

帧图像的健身动作视频进行姿态估

计,提取出人体关节坐标序列

{(x

i,j

,y

i,j

j≤15

x

)}

,其中

1≤i≤N,1≤

i,j

∈R

y

i,j

坐标系中的坐标。

∈R

分别为第

i

帧中第

j

个关节点在图像

1.2

动作特征区域提取主要是基于人体中心投影法,

基于人体中心的特征区域提取

在人体

中心坐标系中提取动作特征所在区域。

1.2.1

健身动作一般由人体各环节间的相对运动和人体整体

人体中心投影法

位移两部分组成,其中前者是健身动作识别和评价的主要内

1460

计算机应用

第41卷

容,反映动作执行是否标准有效,而人体整体位移通常不纳入

评价体系中,对动作识别而言是无关的干扰特征。另外,健身

动作识别可看作相似序列的搜索匹配问题

[38]

,同类动作不同

样本间的时间差异会增加样本的类内差异性,从而影响动作

识别结果。

Fig.2

Comparison

2模型对比

ofmodels

Fig.3Human

图3人体中心投影法

centralprojectionmethod

综合考虑上述因素,本文提出基于髋关节中点的人体中

心投影法消除人体整体位移和动作执行时间差异。如图3所

示(O-XY表示图像坐标系,B-UV表示人体中心坐标系),以位

于人体中心的髋关节中点作为坐标系原点建立人体中心坐标

系B-UV,通过投影变换获取在人体中心坐标系下的运动骨架

信息。在齐次坐标下的人体中心投影过程如式(1)所示:

(u

é

i,j

,v

i,j

,1)=(x

i,j

,y

i,j

,1)

ê

ê

ê

1

ê

0

0

i,

1

0

0

ù

ú

ú

(1)

ë

其中:

(u

-x

hip

-y

ú

ú

i,hip

1

û

i,j

,v

i,j

中心坐标系和图像坐标系下的坐标,

)

(x

i,j

,y

i,j

)

分别为第

i

帧中第

(x

j

个关节点在人体

i,hip

,y

i,hip

系中髋关节中点坐标。

)

为图像坐标

通过人体中心投影法可以将关节坐标序列转换至人体中

心坐标系,使得动作轨迹围绕人体髋关节中点分布,消除了人

体整体位移和动作执行时间差异对动作识别的影响。

1.2.2

特征区域提取的目的是获取动作轨迹的空间分布信息,

特征区域提取

寻找一个最小区域使其能包含全部关节坐标点。在人体中心

坐标系中,假设存在一个以坐标系原点为对角线交点的正方

形区域

{

Q

,能够包含任一关节坐标

(u

i,j

,v

i,j

u

)

,即满足式(2):

i,j

v

[

-l2,l2

]

i,j

其中:

l

为特征区域的边长,

[

-l2,l2

]

(2)

其取值如式(3)所示:

l=max(max(u

i,j

式(3)基于人体最大活动范围获取投影区域,

)-min(u

i,j

),max(v

i,j

)-min(v

i,j

原始尺寸

))

(3)

l×l

较大,完整保留了不同动作执行者之间的体型差异。为

了降低体型差异的影响并提升动作识别算法的效率,对投影

区域进一步压缩以获得更为有效的特征区域

Q

。即将投影区

域缩放为一个尺寸为

l

×l

的特征区域

Q

,在

l

充分小的情况

下能够包含足够的有效特征。假设特征区域

Q

中包含

K

个动

作轨迹特征点,则缩放投影区域变换如式(4)所示:

é

ê

u

ê

v

k

ù

k

ú

=

é

ê

l

l00

ù

ê

0l

l

ú

é

ê

u

i,j

ù

ú

4)

ë

其中

(

1

ú

û

ê

ê

ë

u

00

0

ú

1

ú

ú

ê

v

i,j

ú

û

ë

1

û

k

,v

k

影变换,不仅获得了有效特征更为集中的特征区域表示人体

)

表示第

k

1≤k≤K

)个动作特征点坐标。通过投

动作,而且可以降低体型差异对动作识别的影响。

2

从动作特征区域中提取特征向量进行动作识别包括两个

基于特征区域编码的健身动作识别

2.

步骤:

1

将特征区域进行线性编码的目的是提取动作特征向量。

特征区域编码

动作特征区域线性编码和基于SVM的健身动作识别。

(

S={s

k

}

表示含有

K

个元素的集合,

s

k

为第

k

个动作特征点

中包含动作特征点多少而变化,

u

k

,v

k

)

在特征区域中的位置编码。集合大小

s

K

随特征区域

Q

k

取值如式(5)所示:

s

k

=l

×v

k

+u

k

;1≤k≤K

(5)

则集合

S

中包含特征区域中动作特征点的位置分布信息。基

于集合

S

继续构造一个长度为

l

×l

的特征向量

Z

表示特征

区域

Q

。特征向量

Z

的初值为全零向量,根据特征区域中动

作特征点的位置分布更新各元素:将

Z

s

k

位置的值置1以表

示特征向量中的运动轨迹信息,其余值不变表示背景区域。

经过以上步骤,可以获得一个固定长度的特征向量

Z

来表示

一次动作特征。

2.

2.

2

2.1

动作识别与特征向量长度优化

本文基于

基于SVM

SVM

的健身动作分类

设计了一个多类分类器对特征向量集进

行分类。假设

D={(Z

a

,L

a

的特征向量集,

Z

l

)

是第

}(1≤

a

a

个样本的特征向量,

≤n)

是一组含有

n

个样本

a

a

个样本的类别。对样本的分类识别可以等价于一个约束最

∈R

l

×

L

a

是第

优化问题,如式(6)所示:

s.t.

min

1

w

2

+C

n

ξ

其中:

L

2

(6)

a=1

a

a

(

ξ

wZ

a

+b)≥1-ξ

a

,ξ

a

≥0,1≤a≤n

a

为松弛变量;

C

为惩罚因子,取值越大对误差的容忍

程度越低,相对来说容易出现过拟合,反之则容易欠拟合。针

对数据集的样本量和特征向量维度,

BasisFunction,RBF)作为核函数

选用径向基函数(Radial

[37]

。惩罚因子

C

和核函数参

gamma

的选择决定分类器的性能,前者调整拟合和预测样

本的能力,后者则与样本划分有关。在本文的实验中,通过对

特征向量训练集进行网格寻优以获取最优参数(

C=64

gamma=0.0078125

2.2.2

)完成模型训练,实现动作识别。

由于不同长度的特征向量中包含的动作特征点数量不

特征向量长度优化

同,会对识别精度和速度产生影响。在本方法中,特征区域

Q

第5期郭天晓等:基于人体骨架特征编码的健身动作识别方法

1461

的尺寸

l

×l

决定特征向量的长度。为了兼顾识别精度与速

度,需要对

l

取值进行优化。

本方法预设了一系列

l

的离散取值,通过比较实验结果

进行参数选择。对于特征向量集

aa

=

D

L

,当

l

取一定值时,将

D

a

个样本识别为类别

L

L

的概率为

p

a

(l

)=p(L

a

L

率的基础上提高检测速度,

l

)

,识别该样本的时间为

(

其优化函数如式

t

=

a

|

a

(l

)

l

a

的取值应当在保证识别

(7)所示:

F(l

)=min

é

ê

ë

1-

1

n

ù

n

p

a

(l

)

ú

û

1

n

t

(7)

a=1

n

a=1

a

(l

)

)

其中:

β

为平衡识别精度和识别速度的权重值,在本实验中取

值为0.5。

3

本章首先介绍所使用的三个数据集,

实验与讨论

然后介绍在不同数

据集上的实验结果及讨论。实验均在

CPU

InterCoreTMi7-

3.1

3.

本实验使用的

动作识别数据集

60GHz处理器,Ubuntu16.04系统的计算机上实现。

7700

3个动作识别数据集,分别是健身动作数

据集、KTH数据集和Weizmann数据集。

GoPro

健身动作数据集该数据集使用两台主光轴相互垂直的

主机位和副机位,

Hero7Black

主机位相机用于拍摄主动作特征平面。在

对15名运动者进行同步拍摄,分别命名为

执行不同的动作时,根据动作特点决定使用主机位拍摄运动

者的矢状面或冠状面。每位受试者执行28种健身动作,动作

分类和部分动作示例如表1和图4所示,这些动作包含力量练

习、拉伸练习和综合练习,进一步可细化为器械和徒手练习、

静态和动态练习。选择主机位和副机位相机拍摄的24人次

共5854组(每组包含主副机位)视频作为视频数据集,数据集

拍摄及受试者相关信息如表2所示。

表1健身动作数据集的动作分类

Tab.1Classificationofactionsinfitnessactiondataset

一级分类二级分类动作序号

力量练习

哑铃练习

徒手练习

12

3,

5

13

,14,15,16,25,26,28

拉伸练习

动态练习

静态练习

17

综合练习

22

,18

6,

8

20

,10

,21

,24

1,

2

23

,4,7,9,11,19,27

表2健身动作数据集信息

Tab.2Informationoffitnessactiondataset

数据集参数参数值

分辨率

帧率

1920×1

受试者身高分布

受试者体重分布

66.

171±10.

60fps

440

79±13.

19

46

cm

kg

击、挥手和鼓掌)

KTH数据集

,由

包含

25名受试者在四种不同的场景下完成:

6种人体动作(行走、慢跑、奔跑、拳

室外环境、室外环境(缩放镜头)、室外环境(不同着装)和室内

环境。共包含598段平均时长为4s的视频,由固定相机拍摄

完成,

跃移动、

Weizmann

拍摄帧率为

原地跳跃、

数据集

25fps,

奔跑、

包含

分辨率为

侧向跨步移动、

10种人体动作

160×120。

单腿跳跃移动、

(弯腰、开合跳、

行走、

单侧挥手、双侧挥手)。该数据集由9名受试者拍摄完成,共

包含90段视频,拍摄帧率为50fps,分辨率为188×144。

3.

Fig.4

图4

Some

健身动作数据集部分动作

actionsinfitnessactiondataset

3.

2

2.1

实验结果

为了验证本方法各模块对识别结果的影响,

健身动作数据集上的实验结果

在健身数据

集上分别进行了以下3部分实验:1)分别在包含主副机位拍

摄动作的数据集上使用不同长度的特征向量表示动作,观察

其对识别结果的影响并验证算法对拍摄视角和背景变化的鲁

棒性;

3

影响,

)使用不同数据量的训练集训练模型,

2)应用人体中心投影法,观察其对识别结果的影响;

并验证本方法在较小样本量数据集上的可迁移性。

观察其对识别结果的

特征向量长度对识别结果的影响为了探究特征向量长

度对识别结果的影响并验证算法对拍摄视角和背景变化的鲁

棒性,在包含主副机位动作视频的数据集上进行实验。随机选

取9人次共2062组视频作为测试集,其余15人次共3792组视

频作为训练集。分别使用长度为

784、1024的特征向量表示动作。实验结果如图

16、64、144、256

5~6

所示。

400、576、

Fig.5Comparison

图5

of

不同长度特征向量的识别率对比

recognitionrateofdifferentfeaturevectorlengths

Fig.6Comparison

图6不同长度特征向量的识别时间对比

ofrecognitiontimedifferentfeaturevectorlengths

对比不同特征向量长度下的识别率,长度为16的特征向

量描述动作特征的能力较弱,难以捕捉一些位于四肢环节处

的动作区分特征导致识别结果欠佳;当特征向量的长度增加

到64时,对于大多数动作都能够较好地识别,同时主机位拍

摄动作的识别率达到接近90%;使用长度为144及以上的特

征向量时,识别主机位动作的正确率基本稳定在95%以上,

副机位识别率也超过80%。当长度为576的特征向量作为分

类器输入时,主机位识别率最高达到了97.24%,副机位识别

率也超过90%。测试不同长度特征向量下的识别速度结果如

1462

计算机应用

第41卷

图6所示,识别样本的时间与特征向量长度同向变化且上升

趋势明显。识别主副机位动作在使用相同长度特征向量时识

别速度相同,故图6只显示主机位数据集上的实验结果。综

合识别精度和速度,根据式(7)特征向量长度优化函数确定参

l

为24,对应特征向量长度为576。

对比算法对主副机位拍摄动作的识别率,对副机位拍摄

动作的识别率总体低于主机位。其原因有两部分:1)相比主

机位拍摄健身动作的主特征平面,副机位所拍摄平面中关节

遮挡较为严重,造成提取动作特征更加困难;2)主副机位的拍

摄背景不同也会对识别结果造成影响。尽管如此,算法对副

机位拍摄动作的识别率最高仍能达到91.77%,证明方法对相

机视角的变化和背景改变具有一定鲁棒性。

人体中心投影法对识别结果的影响为了验证所提出的

人体中心投影法对识别结果的影响,对比了应用人体中心投

影法和图像坐标系投影识别主机位拍摄健身动作的结果。对

比结果如图7所示,相比图像坐标系投影,应用人体中心投影

法使得动作识别率在大部分情况下都有所提升。

Fig.

7

7

Comparison

人体中心投影法与图像坐标系投影的识别率对比

andimage

ofrecognition

coordinate

rates

system

ofhuman

projection

centralprojection

由于健身动作数据集中所有动作均在原地执行,运动过

程中整体无关位移对动作识别造成的影响较小,故人体中心

投影法对动作识别性能的提升幅度有限。

训练集大小对识别结果的影响为了验证本文方法在数

据量较小的数据集上的识别能力,在主机位拍摄的健身动作

数据集中进行实验。分别使用包含1、2、3、7、10、13和15人次

动作视频的训练集进行训练,仍用包含9人次视频的测试集

进行测试。实验结果如表3所示:识别率与训练集数据量同

向变化,但随着数据量的增长,增加训练样本对于识别正确率

的提升幅度逐渐下降。当使用1人次健身动作视频(每类动作

含有1~10个样本不等)作为训练集时,测试能够获得85.45%

的正确率,这是由于一方面本文方法使用了最优化长度的特征

向量表示动作,另一方面所使用的分类器对于小样本量数据集

也有较好的识别效果。结果说明本方法在较小样本量的数据

集上拥有较好的识别能力。

表3不同训练集数据量的识别率对比单位:%

Tab.3

different

Recognition

training

rate

data

comparison

sizes

with

unit:%

训练集训练集

数据量

识别率

1

数据量

识别率

训练集数

识别率

2

85.95.

据量

3

91.

45

94.

46

28

10

7

96.

68

51

13

15

96.

97.

56

24

3.2.2

KTH

公开数据集上的实验结果

数据集按照Schüldt等

[26]

的方法划分测试集和训

练集,训练集包含16名受试者的动作视频,测试集包含9名受

试者的动作视频,用本文方法对其进行数据处理,实验结果如

表4所示。

表4本文方法在KTH数据集上识别率结果单位:%

theproposed

Tab.4

method

Recognition

onKTH

rate

dataset

of

unit:%

真值

预测值

行走慢跑挥手

行走

拳击

100

拳击

0

鼓掌

0

慢跑

080

00

奔跑

奔跑

0090

2.517.

0

500

挥手

0012.

00

鼓掌

0

0

0

0

0

5

10

87.50

0

0

0

100

0

7.592.

0

5

应用人体中心投影法对识别结果的改善对比如图8所示。

结果显示,对于KTH数据集中的6个动作,应用人体中心投影

能够对除拳击动作外的五个动作进行更为精确的识别,特别是

对行走、慢跑、奔跑三个动作的改进效果更为明显。这是由于

在图像坐标系中,行走、慢跑、奔跑动作中大范围的人体整体位

移覆盖了动作间的有效区分特征,在将其消除后识别率得到大

幅提高。最终在KTH数据集上算法识别率达到91.67%,应用

人体中心投影法使得整体识别率提升了14.57%。

图8

before

Fig.

应用人体中心投影法前后识别率对比

and

8

after

Comparison

applyinghuman

ofrecognition

centralprojection

rate

拳击动作是唯一在应用人体中心投影法后识别率下降的

动作类别,误识别为慢跑或奔跑。其原因是:在消除了较大范

围的整体位移后提取出奔跑和慢跑动作的特征与拳击动作发

生混淆。通过观察动作识别结果,发生误检的拳击动作中受试

者出拳幅度往往较小且方向水平,与奔跑和慢跑动作的上肢环

节运动轨迹相似,从而引起误检。针对此类个别动作类别间的

混淆问题,后续可通过增加局部运动特征权重予以解决。

练集和包含

Weizmann

3名受试者的测试集,

数据集将数据集划分为包含

用本文方法进行数据处理、

6名受试者的训

训练和测试,实验结果如表5和图9所示。除奔跑和原地跳跃

Weizmann

个动作

数据集上平均识别率为

外,对其余8个动作

90%

的识

别率均为100%,在

图9

图9中呈现的四类动作在应用人体中心投影法前识别率

before

Fig.

应用人体中心投影法前后识别率对比

and

9

after

Comparison

applyinghuman

ofrecognition

centralprojection

rate

第5期郭天晓等:基于人体骨架特征编码的健身动作识别方法

1463

较低,通过消除运动中的整体位移使得各自的识别率得到了

较大程度改善,其中跳跃移动和侧向跨步移动的识别率达到

了100%。对该数据集总体识别率提升了16.67%。

在KTH数据集和Weizmann数据集上的实验结果表明,

本方法对于同类型的数据集具有较好的泛化能力,能够应用

于类似的动作识别任务。另外,应用人体中心投影法能够消

Tab.5

真值

弯腰

开合跳

行走

单侧挥手

双侧挥手

跳跃移动

奔跑

侧向跨步移动

单腿跳跃移动

原地跳跃

弯腰

100

0

0

0

0

0

0

0

0

0

开合跳

0

100

0

0

0

0

0

0

0

0

行走

0

0

100

0

0

0

0

0

0

0

表5

除健身动作中的人体整体位移从而提升识别率。尽管改进投

影策略使得对KTH数据集中拳击动作识别率降低,但从整体

上较大幅度地提高了算法对各类动作的识别率。另外,消除

人体整体位移使得算法能够提取各关节间的相对运动特征完

成动作识别,这对于进一步提取人体局部运动特征和进行动

作质量评价是非常重要的。

单位:%

unit:%RecognitionrateonWeizmanndataset

预测值

跳跃移动

0

0

0

0

0

100

0

0

0

0

[1]

奔跑

0

0

0

0

0

0

33.3

0

0

0

侧向跨步移动

0

0

0

0

0

0

0

100

0

0

单腿跳跃移动

0

0

0

0

0

0

67.7

0

100

33.3

Weizmann数据集识别率

单侧挥手双侧挥手

00

00

00

1000

0100

00

00

00

00

00

原地跳跃

0

0

0

0

0

0

0

0

0

67.7

本文方法与其他方法实验比较为了验证本文方法在公

开数据集上的识别能力,与其他同类型方法进行了比较。表

6列出四种动作识别方法在两个公开数据集上的识别结果,

均为基于特征提取的动作识别方法。四类方法分别利用局部

时空特征

[26]

、时空兴趣点

[27]

、随机时间规划

[28]

和方向梯度直

方图

[29]

描述动作特征,并结合分类算法完成动作识别。如表

均高于同类型其他方法。

表6

6所示,本文方法在两个公开动作识别数据集上的识别精度

Tab.6Comparisonofrecognitionrateof

theproposedmethodwithothermethods

数据集

KTH

方法

局部时空特征

[26]

时空兴趣点+隐主题模型

[27]

随机时间规划+格拉斯曼判别

[28]

本文方法

方向梯度直方图+K均值聚类

[29]

时空兴趣点+隐主题模型

[27]

本文方法

本文方法与其他方法识别率对比

平均识别率/%

71.71

83.33

83.96

91.67

86.66

90.00

90.00

Weizmann

4

针对健身动作识别场景,本文结合人体中心投影法和运

结语

动骨架编码提出了一种高效的动作识别方法,能够有效且快

速识别健身动作。首先,基于精简人体骨架模型提取人体运

动骨架信息;然后,通过人体中心投影提取运动特征区域,消

除健身动作中人体整体位移的干扰;最后,进行骨架信息编码

和动作识别。在自建健身数据集和公开数据集上均获得了较

好的识别效果,并证明本方法在由固定相机位拍摄的动作数

据上有较好的可迁移性,所提出的人体中心投影法能够消除

运动过程中人体无关位移的影响从而改善动作识别效果。在

今后的研究中,将考虑关节点之间的相对关系以及人体局部

运动特征,进一步提高动作识别率并为动作评估创造条件。

未来的工作将在本文的研究基础上对健身动作进行相应的评

级和评分,完善智能健身指导系统。

TINGHY,SIMKS,ticbadmintonaction

recognitionusingRGB-Dsensor[J].AdvancedMaterials

Research,2014,1042:89-93.

[2]KUOYM,LEEJS,lcontext-awareness-

basedsleeping-respirationmeasurementsystem[J].IEEE

TransactionsonInformationTechnologyinBiomedicine,2010,14

(2):255-265.

[3]VANDOS,HADDADM,MASALAD,feedback

traininginyoungkarateathletes[J].Muscles,Ligamentsand

TendonsJournal,2014,4(2):137-140.

[4]JONESCM,GRIFFITHSPC,ngload

andfatiguemarkerassociationswithinjuryandillness:asystematic

reviewoflongitudinalstudies[J].SportsMedicine,2017,47(5):

943-974.

[5]ringtrainingloadtounderstandfatiguein

athletes[J].SportsMedicine,2014,44(S2):139-147.

[6]吕咏.从符号互动理论看当今社会运动健身类APP热的现象

——以keepapp为例[C]//第十一届全国体育科学大会论文摘要

汇编.南京:中国体育科学学会,2019:4330-4332.(

thephenomenonofsportsandfitnessappsincurrentsocietyfrom

theperspectiveofsymbolicinteractiontheory—takingKeepAPP

asanexample[C]//Proceedingsofthe11thNationalConventionon

SportsScienceofChina—g:ChinaSportScience

Society,2019:4330-4332.)

[7]SIGRISTR,RAUTERG,RIENERR,tedvisual,

auditory,haptic,andmultimodalfeedbackinmotorlearning:a

review[J].PsychonomicBulletinandReview,2013,20(1):

21-53.

[8]王瑞元,苏全生.运动生理学[M].北京:人民体育出版社,

2012:295-296.(WANGRU,Physiology[M].

Beijing:People’sSportsPress,2012:295-296.)

[9]ingtheeffectofrealismatthecognitivestageof

complexmotorskilllearning[J].E-LearningandDigitalMedia,

2019,16(4):242-266.

[10]HUANGCC,LIUHM,igentschedulingof

executionforcustomizedphysicalfitnessandhealthcaresystem

[J].TechnologyandHealthCare,2016,24(S1):S385-S392.

[11]HUANGCC,HUANGCL,-proofingdesignand

参考文献(References)

1464

计算机应用

第41卷

crisismanagementforcustomizedintelligentphysicalfitness

[12]

healthcare

QI

S1):407-

system

413.

[J].TechnologyandHealthCare,2016,

and

24

framework

J,YANG

using

for

P

gym

,HANNEGHAN

physicalactivity

M,

recognition

d

andmeasurement

hierarchical

[13]

2019

HAUSBERGER

wearable

6(2):1384

sensors

-1393.

[J].IEEEInternetofThingsJournal,

smart

42nd

fitnessdevices

P,FERNBACH

forweighttraining

A,KASTNER

[C]//Proceedings

-based

[14]

Society.

AnnualConferenceoftheIEEEIndustrialElectronics

ofthe

ÖRÜCÜ

Piscataway

system

S,

:IEEE,2016:5182-5189.

[15]

Applied

byusing

SELEK

Kinect

V2for

and

real

validation

-timeathlete

ofrule-

support

basedexpert

SHIHH

Sciences

y

,2020,

of

10

content

(2):No.

J].

-

611.

[16]

Technology

J].IEEE

TRAN

,2018

Transactions

awarevideoanalysisforsports

,28

onCircuitsandSystemsforVideo

spatiotemporal

D,BOURDEV

(5):1212-1231.

Proceedings

featureswith

L,FERGUSR,ng

[17]

Computer

SIMONYAN

Vision.

ofthe

Piscataway

2015

3Dconvolutionalnetworks[C]//

IEEE

IEEE,

International

2015

Conferenceon

networks

27th

foraction

K,ZISSERMAN

recognitionin

A.

videos

Two

[C

-

4489-4497.

stream

//

convolutional

[18]

Systems.

InternationalConferenceonNeuralInformation

Proceedings

Processing

ofthe

KARPATHY

Cambridge:MITPress,2014:568-576.

video

Proceedings

classification

A,TODERICI

withconvolutional

G,SHETTY

neural

S,etal.

networks

Large

-scale

C]//

[19]

Pattern

ofthe2014IEEEConferenceonComputerVisionand

WANG

away:IEEE,2014:1725-1732.

networks

L

Proceedings

towards

XIONG

good

Y,

practices

WANG

for

Z,

deep

etal.

action

Temporal

recognition

segment

[C

[20]

Vision

ZHU

,LNCS

of

9912.

the

Cham

2016

European

Springer,2016

Conference

:20-

onComputer

]//

framework

W,HU

IEEE

foraction

J,SUN

recognition

G,etal.

36.

Akeyvolumeminingdeep

[21]

Piscataway

Conference

左国玉,

:IEEE,

on

2016

Computer

C]//Proceedingsofthe2016

:1991

VisionandPatternRecognition.

康复训练动作识别方法

徐兆坤,卢佳豪,

561.

J]

.

.

基于结构优化的

-1999.

自动化学报,2020

DDAG

,46(

-SVM

3

上肢

DDAG

(ZUOGY,XUZK,LUJH,ture

):549-

rehabilitation

-SVM

[22]

549

training

action

[J]

recognition

.ActaAutomatica

method

Sinica

for

,2020

upper

-optimized

,46(

limb

3):

闫航,

-561.

作识别

陈刚,

G

on

,TONG

[J]

Y

.

佟瑶,等.基于姿态估计与GRU网络的人体康复动

计算机工程,

etal.

2021,47(1):12-20.(YANH,CHEN

[23]

2021

pose

LI

player

H

47

estimation

TANG

(1):

and

Human

GRU

rehabilitation

network[J].

action

Computer

recognition

Engineering

based

J

12

-

WU

20.)

S,ticdetectionandanalysis

IEEE

[24]

2010

Transactions

actioninmoving

onCircuits

background

andSystems

sports

for

video

Video

sequences

Technology

[J]

of

.

BLANK

,20

time

M

3)

GORELICK

:351-364.

L,SHECHTMANE,s

Conference

shapes[

[25]

1402.

on

C]

Computer

//Proceedings

Vision.

of

asspace-

Piscataway

the10th

:IEEE

IEEE

,2005

International

:1395-

BOBICK

using

[26]

Analysis

temporal

AF,DAVIS

templates

JW.

[J

Therecognitionofhumanmovement

SCHÜLDT

andMachineIntelligence

].

IEEE

2001,

Transactions

23(3):257-267.

onPattern

actions:a

C

local

,LAPTEV

SVMapproach

I,CAPUTO

[C]//Proceedings

izing

ofthe

human

17th

International

[27]

IEEE

NIEBLES

,2004

away:

human

J

C

32

-36.

WANGH

[28]

International

action

SALESDE

Journal

categories

using

LIF

spatial

rvised

-temporalwords

learning

[J]

of

.

SOUZA

of

L

Computer

,GATTO

Vision,2008,79(3):299-318.

discriminability

[29]

Machine

C]//Proceedings

ofrandomized

ofthe

time

B

warping

B,FUKUI

formotion

K.

recognition

Enhancing

THURAU

Vision

human

C.

Applications.

15th

Behavior

Piscataway

IAPRInternational

:IEEE,2017

Conference

:77-80.

on

[30]

HumanMotion

detection

,LNCS

[C]//Proceedings

histogramsfor

ofthe

action

2007

recognition

Workshop

and

on

KUMARIS,MITRAS

4814.

Berlin:

action

Springer

recognition

,2007:299

using

-312.

DFT

Vision

C]//

[31]

Piscataway

Proceedings

PatternRecognition

ofthe3rd

National

ImageProcessing

Conference

and

on

Graphics.

Computer

CHERLA

invariant

S

IEEE

KULKARNI

,2011:

K

239

,KALE

-242.

A,etal.

IEEE

[32]

Pattern

Computer

humanaction

Society

recognition

Conference

[C]

Towardsfast,view-

on

//Proceedingsofthe2008

FANG

pose

Conference

estimation

H

Recognition

,XIE

S,

away

Computer

:IEEE,2008

Vision

:1-8.

and

C]

TAI

//Proceedings

YW,etal.

of

RMPE

the

:regionalmulti-person

[33]

2362.

away

2017

:IEEE

IEEE

,2017

International

:2353-

CAO

pose

2017

estimation

Z,SIMON

using

T,WEI

part

S

affinity

E,et

fields

me

[C

multi-person2D

[34]

Recognition.

IEEE

BUX

Piscataway

Conference

:IEEE

on

Computer

]//Proceedingsofthe

2017:1302

VisionandPattern

recognition

A,ANGELOV

et

:areview[

P

M

HABIB

//ANGELOV

P,GEGOV

based

-1310.

human

A,JAYNE

activity

C,

[35]

513.

esinComputationalIntelligenceSystems,AISC

YAO

Cham

recognition

A,GALL

:Springer

J,

FANELLI

2017:341-

G

371.

2011

[36]

2011

British

benefit

Machine

from

Vision

pose

Conference.

estimation?[

Durham

C]//Proceedings

humanaction

:BMVAPress

ofthe

YAN

networks

S

No.

,XIONG

67.

Y,ltemporalgraphconvolutional

the

[37]

CA

32nd

for

AAAI

skeleton

Conference

-basedaction

onArtificial

recognition

Intelligence.

[C]//Proceedings

Palo

of

HSU

:AAAI

vector

CW,

Press

CHANG

,2018

C

C

7444

Alto,

,LIN

-7452.

[38]

1400.

classification[J].BJUInternational

ical

,2008,

guide

101(1

to

):

support

1396-

RAKTHANMANON

Searching

dynamic

andmining

T

trillions

,CAMPANA

of

B,MUEENA,etal.

International

timewarping

k

Conference

[C]//

timeseriessubsequencesunder

:ACM,2012

on

Proceedings

Knowledge

ofthe18thACMSIGKDD

:262-270.

DiscoveryandData

Development

Thiswork

ResearchFunds

Program

ispartially

forCentral

ofChina

supportedbytheNationalKeyResearchand

Universities

(2018YFC2000600

(2020056,

2020010

,theFundamental

).

interests

GUOTianxiao,born

include

HU

include

in1996,earch

Qingrui

intelligent

,bornin

sports

1996,

M.

sports

ate.

videoanalysis.

Hisresearchinterests

include

LI

intelligent

Jianwei,

sports

bornin

,sports

1987,

video

Ph.D.

analysis.

,earchinterests

interests

SHEN

SLAM

Yanfei

,computer

,born

vision

in

1976

intelligent

,Ph.

sports.

D.,earch

bigdata.

includeartificialintelligence,intelligentvideoanalysis,sports


本文标签: 动作 识别 人体 特征 健身