摘 要
本次实验中,使用所学方法进行人数统计的实验。我主要使用了深度学习的方法,选用了基于目标检测的 YOLO v3 模型,基于多列卷积神经网络的 MCNN 模型,利用检测方法进行人群计数的 LSC-CNN 模型,以及多任务的视觉语言联合预训练的 12-in-1 模型,使用 4 种不同的模型分别对低密度人群和高密度人群两段监测视频进行了人数统计实验。
首先,我在 CDNET 和 Videezy 网站上分别选取了一段低密度人群和一段高密度人群的视频,然后分别使用 YOLO v3 和 MCNN 两种模型对两段视频进行了计数实验, 发现 YOLO v3 的低密度人群计数效果更好,而 MCNN 在高密度人群计数中表现更佳。接着,我使用了较新的利用检测方法进行人群计数的 LSC-CNN 模型对两段视频做了实验,发现在高密度人群计数中效果得到了提升。然后我还将人群计数任务联系到了
VQA 任务,并使用了最新提出的视觉语言联合预训练的 12-in-1 模型进行了实验,发现在低密度人群计数中效果理想。最后,我对以上的实现方法进行了比较总结,进一步加深了对人群计数算法的理解。
关键词:人群计数;深度学习;多种计数模型;高低密度人群
目 录
1 理论基础 2
2 实验结果及分析 8
2.1 YOLO v3 目标检测算法 9
2.2 MCNN 人群计数算法 9
2.3 LSC-CNN 人群计数算法 10
2.4 视觉语言联合预训练的 12-in-1 模型 11
3 实验总结 10
参考文献 12













