毕业设计(论文)开题报告
针对竞走技术动作的姿态估计与动作质量评价研究
目录
一、课题的目的及意义
(一)课题目的及意义
(二)国内外研究现状分析
二、课题任务、重点研究内容及实现途径
(一)课题任务
(二)重点研究内容
(三)实现途径
四、指导教师意见
一、课题的目的及意义
(一)课题目的及意义
姿态估计是计算机视觉中的重要任务,也是计算机理解人体的动作、行为不可或缺的一部分。从上世纪七十年代末,随着人们对人机交互的认识和理解不断加深,人们希望机器可以在人机交互过程中正确识别并模仿人的交互方式,比如:手势、触觉、表情、语音等,从而使得机器也具备获取外界信息的能力,也就是说,让机器能够像人类一样,能够拥有自己的“眼睛”。正是在这样的背景下,姿态估计被提出,让它成为了当下的重要技术之一,而且人体姿态估计存在着潜在的应用价值,让学术界、工业界备受关注。
现在越来越多的数码产品融入到人们的日常生活当中,每天都会产生大量的图片与视频数据,社会是人的集合,我们想要更好地进行社会生活,就必然会想要在这些图片及视频数据中提取主要内容,进而会希望快速有效地理解与处理这些数据中的人类活动,所以这时需要借助当下的工具来进行处理,于是人体姿态估计便成为了计算机视觉的重要部分,并且该功能在现实生活中具有实际的使用意义。人体姿态估计具体表现在以下几个领域:
(1)人机交互以及运动分析:人机交互多用于VR(虚拟增强),AR(现实增强),比如:一些娱乐游戏需要通过检测到人体的姿态来进行游戏互动。还有一些用于运动分析,比如:医学界通过观察病人的姿态来诊断身体的受伤程度;竞技体育界通过监督运动员的姿态,协助运动员训练,从而提高运动员的技术水平。
(2)电影捕捉以及动画制作:通过真人驱动,让虚拟形象可以做出类似真人的肢体动作,并支持与3D人脸特效、手势识别等功能的结合应用,使虚拟形象更加灵活生动。
(3)自动驾驶领域的行人捕捉:当下自动驾驶渐渐的步入我们生活当中。对于无人驾驶的汽车来讲,为了避免危险的发生,不仅需要精准的检测到前方范围内的人体,还需要预测估计并且理解人体姿势的下一步行为。
本课题的目的及意义是通过对竞走运动员在竞走过程中的三维姿态分析,并提出合适的竞走动作质量评价方法,从而实现对运动员的技术动作提出改进建议以提高运动员的竞走技术水平。
(二)国内外研究现状分析
早在1973年心理学家开始研究人体运动时的问题将各个关节装上了发光体,形成关节点集合序列,并发表了一篇有关人体姿态估计的文章。
早期的传统人体姿态估计,一般是基于图结构和形变部件模型,即2D人体部件检测器,使用图模型建立各部件的连通性,并结合人体运动学的相关约束不断优化图结构模型来估计人体姿态。传统方法虽然具有较高的时间效率,但无法充分利用图像信息,会导致遮挡等问题的出现,同时传统方法的部件结构单一,当人体姿态变化较大时,部件模型不能精确地刻画和表达这种形变,使姿态估计的结果不唯一,导致传统方法适用范围受到很大限制。
近年来,随着深度学习的快速发展,在人体姿态估计领域中,基于深度学习的解决方案明显优于传统方法。深度学习被引入姿态估计之后,基于深度学习的人体姿态估计方法可以通过建立网络模型,在图像数据上进行训练和学习,直接得到最有效的表征方法,其核心是深度神经网络,主要是利用神经网络从图像中提取出比人工特征语义信息更丰富、准确性更高和更具鲁棒性的图像特征,并且网络模型的表达能力会因网络堆叠数量的增加而增长,因此相较于传统方法可以进一步提升复杂环境下的人体姿态估计的精度和鲁棒性。
基于深度学习的三维人体姿态估计方法依据方法的特征具有多种分类形式,且不同分类形式之间存在相互耦合包含的关系:根据输入数据的类型,基于深度学习的三维人体姿态估计方法可分为以单目RGB图像为输入的方法、以单目RGB-D图像为输入的方法、以多张图像为输入的方法;根据任务与输出类型,可分为单人人体姿态估计方法、多人人体姿态估计方法;根据方法的基本原理,又可分为基于回归的方法与基于检测的方法、基于人体模型的方法与无模型方法、自顶向下的方法与自底向上的方法、多阶段方法与端到端方法。
3D人体姿态估计的主要任务是预测出人体关节点的三维坐标位置和角度等信息。由于人体姿态标记数据集的缺乏,使得大多数研究方法都是基于2D人体姿态估计方法之上,因此2D人体姿态估计研究的发展也为3D人体姿态估计奠定了基础,使得3D人体姿态估计研究有着巨大的潜力。
在实际应用中,由于3D姿态估计在2D姿态估计的基础上加入了深度信息,其对于人体姿态的表述比2D更为精准,因此其应用范围和研究价值都要高于2D人体姿态估计,但是3D姿态估计的难度也更高,存在着遮挡,单视角2D到3D的映射中固有的深度模糊性、不适定性,缺少大型的室外数据集等挑战。
二、课题任务、重点研究内容及实现途径
(一)课题任务
本课题的任务主要包括以下几部分:
1、模型设计与训练:设计深度神经网络用于3D人体姿态估计任务,来提取出竞走动作的技术动作参数。
2、评价方法设计:研究竞走动作质量评价方法,对提取出的竞走动作进行评价,并提出改进建议。
3、效果验证:在公开及自建数据集上进行效果验证。
(二)重点研究内容
① 强化深度学习相关的数学基础。
② 学习python以及pytorch、numpy等框架和模块的应用;
③ 学习深度学习相关的算法。
④ 了解三维人体姿态估计的模型及算法。
⑤ 了解竞走运动及竞走动作质量评价的规则。
(三)实现途径
本课题主要研究的方向就是先获取2D下人体的信息,再“提升”到3D姿态,可以直接使用预训练好的2D姿态神经网络,将得到的2D坐标输入到3D姿态神经网络中,这种方法减少了模型在2D姿态估计上的压力,网络结构简单,训练快,占用显存少。
代码工作目前暂定将主要在Pthyon中完成,并预计在Humman3.6M等公开数据集或自建数据集中进行训练。
参考文献:
[1] Munea T L , Jembre Y Z , Weldegebriel H T , et al. The Progress of Human Pose Estimation: A Survey and Taxonomy of Models Applied in 2D Human Pose Estimation[J]. IEEE Access, 2020, PP(99):1-1.
[2] Chen Y , Tian Y , He M . Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods: Computer Vision and Image Understanding, 10.1016/j.cviu.2019.102897[P].
[3] Martinez J , Hossain R , Romero J , et al. A Simple Yet Effective Baseline for 3d Human Pose Estimation[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017.
[4] Li W , Liu H , Tang H , et al. MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation[J]. 2021.
[5] Pavllo D , Feichtenhofer C , Grangier D , et al. 3D Human Pose Estimation in Video With Temporal Convolutions and Semi-Supervised Training[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020.
三、进度计划
|
序号
|
起止周次
|
工 作 内 容
|
1
|
1周至4周
|
模型设计与训练:做有关深度学习及其在三维人体姿态估计上的应用的调研,阅读相关文献并学习实际的应用方法,设计深度神经网络用于3D人体姿态估计任务,来提取出竞走动作的技术动作参数。
|
2
|
5周至6周
|
评价方法设计:阅读有关竞走技术及动作质量评价的文献,研究竞走动作质量评价方法,对提取出的竞走动作进行评价,并提出改进建议。
|
3
|
7周至9周
|
效果验证:在公开及自建数据集上进行效果验证。
|
4
|
10周至12周
|
论文撰写:整理成果,撰写毕业论文
|