附件6
电气与动力工程学院本科毕业论文(设计)开题报告表
课题名称
|
多模态行人重识别算法研究
|
课题来源
|
教师拟题
|
课题类型
|
[2]设计
|
导 师
|
|
学生姓名
|
|
专业班级
|
|
学 号
|
|
开题报告内容(意义、要求、思路、预期成果和时间安排)
意义:随着城市信息化建设的大规模推进,视频监控作为平安城市概念框架的核心建设内容,已广泛应用于包括城市安全、社区安防、交通管控、数字化城市管理等多个体系,并覆盖商业写字楼、工业园区、居民小区内部监控等多种生活化场景。而在社会治安、突发事件处理、公安刑侦、法律取证等方面,对特定行人的识别是跟踪与定位行人行动轨迹、判定行人行为的重要前提。由此发展而来的行人重识别技术近年来得到了学术界和工业界的广泛关注。
在实际应用中,因受到前景遮挡、背景噪声、行人姿态的非刚性形变以及光照变化等诸多外在因素影响,当前行人重识别任务依然面临着巨大的挑战。传统方法在非对齐场景下难以取得理想的识别精度。因此跨模态行人重识别问题被提出,随之引起了广泛的关注。有效解决跨模态行人重识别问题,对公共安全、预防犯罪和刑侦追查等方面有着重大的意义。
要求:多模态行人重识别算法的研究和实现
思路:围绕行人重识别研究领域的多项关键问题进行系统深入的研究,对关系特征潜力发掘、颜色特征过度依赖、遮挡算法缺乏通用性、注意力模型训练困难等问题展开探索,并与多种有关行人重识别的算法在公开数据集进行算法性能对比和分析,同时,开发一套多模态行人重识别算法系统。
预期目标:开展多模态行人重识别算法的研究。
预期成果:撰写一篇学术论文。
时间安排:见附页
|
指导教师意见:
日期:
|
教研室主任签字:
日期:
|
系主任签字:
日期:
|
课题类型:[1]实际工程项目;[2]设计;[3]科研项目;[4]论文;[5] 其它
1.选题意义
行人重识别(Person Re-Identification, re-id)是指利用计算机视觉技术在指定视频或图片序列中对特定行人进行识别的技术,通常被认为是图像分类或图像检索的子问题。作为跨摄像头行人轨迹跟踪、行人行为识别等机器视觉方案的核心构成,行人重识别技术在园区安防、公安刑侦、交通纠违与公共安全等领域展现出广阔的应用前景。
在实际应用中,因受到前景遮挡、背景噪声、行人姿态的非刚性形变以及光照变化等诸多外在因素影响,当前行人重识别任务依然面临着巨大的挑战。传统方法在非对齐场景下难以取得理想的识别精度。
模态是指人接收信息的方式,包括听觉、视觉、嗅觉、触觉等多种方式。多模态学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。多模态学习的目的是建立能够处理和关联来自多种模式信息的模型,它是一个充满活力的多学科领域,具有日益重要和巨大的潜力。为了使人工智能在理解我们周围的世界方面取得进展,它需要能够一起解释这样的多模态信号。多模态机器学习旨在建立能够处理和关联多模态信息的模型。这是一个充满活力的多学科领域,重要性与日俱增,潜力非凡。
因此跨模态行人重识别问题被提出,随之引起了广泛的关注。有效解决跨模态行人重识别问题,对公共安全、预防犯罪和刑侦追查等方面有着重大的意义。
2.国内外研究现状概述
跨模态行人重识别,主要研究在给定一个特定个体的可见光图像或者红外图像,尝试在两种模态下的图像库中检索匹配属于同一个体图像的问题。该问题于2017年在行人重识别领域首次被 Wu 等人[1] 提出定义。他们提出了一个跨模态行人重识别 框架,并提供了一个公开的大规模 RGB-红外多模态行人数据库名称 为SYSU Multiple Modality Re-ID(SYSU-MM01)。之后开始有大量相关工作涌现,有了很大的进展,然而距离跨模态行人重识别能够投入实际场景中应用依旧存在许多问题。
目前,跨模态行人重识别问题面临的困难与挑战主要在于:(1)两种模态下捕捉的图像存在较大差异。RGB 图像拥有三个通道,包含了红绿蓝的可见光颜色信息,而红外图像只有一个通道,包含了近红外光的强度信息,而且从成像原理的角度出发,二者的波长范围也有 所区别。不同的清晰度和光照条件在两类图像上所能 产生效果可能会大相径庭。(2)数据集较为单一且规模较小。虽然现在已经 有许多工作致力于扩充行人重识别数据集,然而数据 集中的图像大多来源于相似型号以及角度的机位,和实际中多样化的场景差距较大。 (3)传统行人重识别中存在的模态内差异,例如低分辨率、遮挡、视角变化等问题在跨模态行人重识别中也依旧存在。
跨模态行人重识别面临的主要难题在于跨模态问题中。针对模态的建模如何较好地减少两种模态图像间的差异,学习两种模态间共享的鲁棒性特征,是目前研究的关键。早期的研究主要集中于基于表征的学习以及基于度量的学习这两种方法,之后又出了基于模态互转的学习方法,实现 RGB 图像和红外图像之间的模态风格转换,从而将跨模态行人重识别问题转换为单一模态下的行人重识别问题。目前跨模态行人重识别的研究可大致分为以下三类:基于表征学习的方法,基于度量学习的方法,基于模态互转的方法。
基于表征学习的方法 2018 年,Ye 等人[2]提出了一种分层的跨模态匹配模型,该模型通过联合优化模态特异性和模态共享矩阵来实现,其框架分为表征学习和度量学习两个部分,前者通过构造一个双流网络对分属两个模态的图像输入进行特征学习,再结合特征损失和对比损失进行相似度的学习。Dai 等人[3]为解决识别信息不足的问题,利用了 GAN 生成器和判别器对抗训练的思想,提出了一个交叉模式生成对抗网络,该网络分为生成器和判别器两个部分。生成器使用三元组损失和身份损失进行训练,从而使得同一身份下不同模态行人之间的相似性增加,而不同身份且不同模态的行人之间的相似性会减小;判别器则使用 RGB 图像和红外图像的二分类损失进行训练,从而和生成器展开对抗,减少二者特征的相似性。之后,为了解决模式间和模式内的差异这两个问题,Liu 等人[4]提出了一种增强鉴别学习的方法(Enhancing the Discriminative Feature Learning,ED⁃FL),通过采用跳跃连接从而融合中间层特征,增强了特征的鲁棒性。Zhang 等人[5]提出了一种双路径交叉模态特征学习框架,主要由双路空间结构保持公共空间网络(DSCSN)和对比相关网络两部分组成。前者利用部分共享结构,学习跨模态结构共同空间特征,将交叉模态图像嵌入到一个三维张量空间从而保留空间结构;后者是通过关注两个相似对象的差异来模拟学习机制。Xiang 等人[6]利用 RGB 图像和红外图像之间的内在联系,提出了一个端到端的双路多分支交叉模态网络,通过结合图像的全局以及局部信息来提取鲁棒性特征。针对由于集中学习跨模态图像共同特征而丢失大量特异信息的情况,Lu 等人[7]一种新的跨模态共享特征转移算法(cross-modality Shared- Specific Fea⁃ture Transfer,cm-SSFT),在表示相似性的跨模态近邻吸引力模型的基础上引入模态特征,有效地利用了每个样本的共享信息和特定信息。Ye 等人[8]提出了两个注意力模块机制去提高模型的识别能力和鲁棒性。模态内加权部分聚合模块(Intra-modality Weighted-PartAggregation,IWPA),将同一模态内的局部特征的权重聚合在一起;跨模态图结构化全局特征学习注意力模块(Cross-modality Graph Structured Attention for globalfeature learning,CGSA)利用跨模态的邻近结构关系去学习两个模态的全局特征。
基于度量学习的方法 Ye 等人[9]提出了一种双向排序损失,将不同模态下属于同一个体的样本图像距离拉近,同时融合传统的交叉熵损失,从而达到不同模态特征进行融合的目的。Lin 等人[10]提出了一种新的特征学习框架。在该框架中,对现有的单模态行人重识别模型进行了修正以适应跨模态场景,并设计了一种难五联损失函数,它由难全局三元组损失和难跨模态三元组函数组成,从而有效处理跨模态变化和内模态变化,再结合身份损失以提高修正后的跨模态重识别模型的准确性。Hao等人[11]提出了一种具有分类和识别约束的端到端双流超球面流形嵌入网络(Hyper-Sphere Manifold Embed⁃ding network,HSMEnet),与传统映射到欧氏空间不同,该网络设计了 Sphere Softmax 函数将样本的深度特征映射到超球上,使模型能够学习该超球的判别表示,在这个超球面上,两个样本图像之间的距离可以通过它们的特征向量的角度来确定,结合身份损失和排序损失进行训练,再通过 KL 散度衡量两个领域的相似性。最后,通过单矢量分解方法对 Sphere Softmax 最大值权矩阵进行了修正,从而由高相关状态转换为低相关状态。Ye 等人[12]提出了一种基于双流网络的模态意识协同学习方法(Modality-Aware Collaborative,MAC),提出了基线分类器、模态特异分类器和模态分类器,进行多分类器的协同学习。Zhu 等人[13]提出一个简单且高性能的网络架构来学习跨模态人再辨识的局部特征表示。由于直接约束模态分布之间的距离比较困难且代价高昂,所以使用两个模态分布之间的中心距离来代替两个模态分布之间的距离,从而缩小每个类中两个模态特征分布之间的距离。针对忽略了一致模态下样本相似性,Jia 等人[14]提出了一种新颖的相似性推断度量(Similarity Inference Metric,SIM),该度量方法利用一致模态内样本图像相似性来规避针对跨模态图像匹配的跨模态差异,通过连续相似图推理和相互最近邻推理进行训练,从两个不同的角度利用一致模态内样本图像相似性来挖掘跨模态样本相似性,缩小了模态间差异。
基于模态互转的方法 随着近年来 GAN 的快速发展,实现模态的相互转换,将跨模态行人重识别问题转化为单模态的行人重识别问题,这在很大程度上减少了模态间的差异这一难点。为了实现两者的相互转换,Wang 等人[15]提出了一种双层差异减少方法(Dual- level Discrepancy ReductionLearning,D2RL),分为两个部分,先使用变分自编码器消除模态之间的差异,再使用传统的行人重识别方法约束外表特征差异。Wang 等人[16]一种用于跨模态行人重识别任务的端到端对齐生成对抗网络。像素对齐模块将 RGB 图像转化为红外图像;特征对齐模块把真实的红外图像和合成的红外图像映射到同一个特征空间,并使用基于身份标签的分类和三元组损失来监督特征;联合判别模块负责判别真假红外图像,通过身份一致性特性使得前两者互相学习从而得到鲁棒性特征。
因此,目前研究的关键是如何更好地设计特征提取网络和设计损失函数来减少模态间、模态内的差异;同时,如何增大数据量,扩充数据集来更好地解决现实生活的各种实际情况下的问题也是主要难点。
3.主要研究内容
传统的行人重识别主要工作集中在同一模态下的行人重识别上,大部分应用于光源充足的场景。随着视频安防监控 要求的不断提升,为了克服可见光摄像头无法全天候进行使用的缺点,能够切换红外模式的摄像头正在普及。针对昼夜光照条件不同的问题,展开对研究跨模态行人重识别问题的研究。目前,跨模态行人重识别问题面临许多困难与挑战,其中之一就是传统行人重识别中存在的模态内差异的问题,例如低分辨率、遮挡、视角变化等问题在跨模态行人重识别中也依旧存在。本课题基于此问题进行研究,主要内容包括:
第一,了解跨模态行人重识别问题的背景和要解决的问题。通过对综述论文的学习了解,对计算机视觉、多模态相关领域的基础进行简要介绍,并在跨模态行人重识别研究领域归纳国内外研究现状和发展趋势,明确当前面临的问题和挑战,并针对当前存在的问题展开后续研究。
第二,研究解决该问题的途径和方法。通过对当前行人重识别领域国内外研究现状分析,学习当前有关的前沿算法,从特征表示、跨模态重构方法、损失函数研究等方面来考虑减少模态差异,并使用这些算法方法在跨模态行人重识别的公开数据集进行算法性能对比和分析。
第三,找到并下载合适的公开数据集。通过查阅相关了解在跨模态行人重识别领域权威的公开数据集,下载并在此数据集上进行算法实现的验证。经查找了解,拟采用的公开数据集为SYSU-MM01和RegDB。 SYSU-MM01 数据集是2017年为研究跨模态行人重识别问题而提出的公开数据集,它包含了在白天的 4 个用于捕捉 RGB 图像的摄像视域以及在黑暗环境中用于捕捉红外图像的摄像视域,共有 491个不同身份行人的287628张RGB图像和15792张红外图像。RegDB 数据集共有 412 个不同身份的行人,分为 254 个女性和 158 个男性,每个人分别对应 10 张RGB 图像和 10 张红外图像,其中拍摄到 156 个行人的正面,256 个行人的背面。该数据集总共有 4120 张RGB 图像和 4120 张的红外图像。
第四,优化算法。通过对个算法的学习了解,总结各个方法的优缺点,尝试多模态行人重识别算法的改进并进行实验验证其性能,完成跨模态行人重识别的任务。
第五,利用PYQT 或其它 GUI 图形用户界面开发框架设计简单的图形交互界面,对虹膜检测与识别的实验结果进行展示。
4.拟采用的研究思路
4.1研究方法
(1)文献研究法:通过收集、整理、阅读、分析与深度学习、多模态行人重识别系统领域有关的论文文献,了解多模态、深度学习和计算机视觉领域的基础知识和框架体系,对该领域的研究有相应的认识,了解该领域的发展现状和应用背景,为之后系统性的研究打好基础。
(2)实验法:通过利用计算机进行相应算法的实现,验证代码的可行性,对实验效果进行分析,优化算法。并且通过阅读文献资料,查阅相关网站,对实验中遇到的各项问题进行归纳和分析,总结经验,不断完善。
(3)比较研究法:通过比较传统的算法和自己的优化算法在公开数据集上边的对比,对算法的功能结构进行分析,对算法的优缺点以及性能指标进行对比。
4.2技术路线
行人重识别流程的主要流程如下:
(1)给定一张行人图像作为待检索图像;
(2)提取给定图像和搜索库中每一张图像的特征信息;
(3)比较待检索图像特征和搜索库中行人图像特征的距离;
(4)根据距离的结果大小来确定是否为同一个人。
本课题主要是采用理论研究和计算机实验的研究方法,是对跨模态行人重识别在深度学习领域的研究分析与归纳总结,并进行相应的创新。大致研究思路如下:
(1)探究学习。学习研究深度学习的基础理论,包括神经网络、反向传播算法、卷积神经网络等,并对基本的神经网络模型架构进行探究。学习跨模态行人重识别领域内的相关内容,包括国内外研究现状、存在的问题与挑战。
(2)实验研究。本课题利用python语言编写相应程序代码,并且利用Anaconda搭建实验所需环境,通过网络框架(如:Tensorflow、Pytorch)进行相关实验。通过计算机对Two-stream 、Resnet50等网络模型进行实验,采用CMC、mAP等作为评价指标。利用SYSU-MM01、RegDB等基础数据集进行大量测试,对相关算法进行优化。
(3)总结归纳。归纳本课题中的跨模态行人重识别模型,对研究内容进行总结。
4.3可行性分析
(1)理论支撑。在跨模态行人重识别领域,已有许多的成熟算法模型被应用并有着不错的实验效果,如Two-stream网络结构等。可以参考已有的算法代码来进行复现学习。
(2)设备支撑。可以利用GPU(图形处理器)进行训练,相对于单独的CPU(中央处理器),GPU可以对深度学习中超大的向量和矩阵运算以及庞大的训练样本进行快速处理。
(3)软件支撑。使用Anaconda搭建环境。Anaconda是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项,利用其可以很方便的管理第三方库,减少在环境配置方面的工作量。
5.研究工作安排及进度
第一阶段(2022/2/20-2022/3/3):
(1)确定选题:行人重识别系统的多模态算法研究和实现
(2)选题分析:搜集相关文献资料,了解应用现状,制定研究方案,对选题进行分析。
(3)开题报告:对相关文献综述进行研究,完成开题报告和开题答辩。
第二阶段(2022/3/4-2022/3/11):
(1)编程基础:学习Python编程语言,掌握利用Python进行的编程能力,并进行相关实践训练。
(2)配置环境:安装本课题所需的软件,安装Pytorch等相关软件,掌握软件的使用方法,并对所需实验环境进行搭建。
(3)整理文献资料,完成综述。
第三阶段(2022/3/12-2022/4/28):
(1)相关跨模态行人重识别方法的学习:基于表征学习的方法,基于度量学习的方法,基于模态互转的方法。
(2)(2)分析代码:下载跨模态行人重识别数据集和网络模型代码,对代码算法进行深入分析,理解每个模块的代码功能。
(3)文献翻译:对外文文献进行翻译。
(4)完成中期检查
第四阶段(2022/4/29-2022/5/10):
(1)实验训练:在公开数据集上进行实验,并与公开数据集进行对比。
(2)分析总结:解决在实际训练过程中遇到的问题;对测试结果进行分析和改进;对网络模型进行性能指标评价和对比分析。
(3)整理资料和归纳总结,分析数据,开始撰写论文初稿。
第五阶段(2022/5/11-2022/5/31):
(1)撰写并完善论文。
(2)准备论文答辩。
6.参考文献
[1] Wu A,Zheng W S,Yu H X,et al. RGB-Infrared Cross-Modality Person Re-identification[C]// 2017 IEEE International Conference on Computer Vision(ICCV). IEEE,2017.
[2]Ye M,Lan X,Li J,et al. Hierarchical discriminative learning for visible thermal person re-identification[C]//Thirty-Second AAAI conference on artificial intelligence,2018.
[3]DAI P,JI R,WANG H,et al. Cross-modality person re-identification with generative adversarial training[C]// Twenty-Seventh International Joint Conference on Artificial Intelligence IJCAI-18,2018.
[4]LIU H,CHENG J. Enhancing the discriminative feature learning for visible-thermal cross-modality person re-identification[J],2019.
[5]ZHANG S,YANG Y,WANG P,et al. Attend to the difference:cross-modality person re-identification via contrastive correlation[J],2019.
[6]XIANG X,LV N,YU Z,et al. Cross- modality person re-identification based on dual- path multi- branch network[J]. IEEE Sensors Journal,2019(99):1-1.
[7]LU Y,WU Y,LIU B,et al. Cross-modality person re-identification with shared-specific feature transfer[J],2020.
[8]YE M,et al. Dynamic dual-attentive aggregation learning for visible-infrared person re-identification. ArXiv abs/2007.09314(2020):n. pag.
[9]YE M,WANG Z,LAN X,et al. Visible thermal person re-identification via dual-constrained top-ranking[C]//Twenty-Seventh International Joint Conference on Artificial Intelligence IJCAI-18,2018.
[10]ZHAO Y B,LIN J W,XUAN Q,et al. HPILN:a feature learning framework for cross-modality person re-identification[J]. IET Image Processing,2020,13(14):2897-2904.
[11]HAO Y,WANG N,LI J,et al. HSME:hypersphere manifold embedding for visible thermal person re-identification[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2019(33):8385-8392.
[12]YE M,LAN X,LENG Q. Modality-aware collaborative learning for visible thermal person re-identification[C]//The 27th ACM International Conference. ACM,2019.
[13]ZHU Y,YANG Z,WANG L,et al. Hetero-center loss for cross-modality person re-identification[J]. Neurocomputing,2019.
[14]JIA M,ZHAI Y,LU S,et al. A similarity inference metric for RGB-infrared cross-modality person re-identification[J],2020.
[15]WANG Z,WANG Z,ZHENG Y,et al. Learning to reduce dual-level discrepancy for infrared-visible person re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). IEEE,2020.
[16]WANG G,ZHANG T,CHENG J,et al. RGB-infrared cross-modality person re-identification via joint pixel and feature alignment[J],2019.