目录
一、 CNN 模型原理 1
CNN 模型 1
1. 什么是 CNN 2
2. 为什么要用 CNN 2
3. CNN 的内在原理 2
a) 以人的神经系统识别陌生人脸为引。 2
b) 卷积层的作用 3
c) padding 的作用 3
d) 池化层的作用 4
二、 网络结构图 5
三、 创新点 7
四、 结果分析 7
a) 有无 Batch Normalization[1] 7
b) 使用不同 batch size 9
c) 使用不同的优化器 10
𝑡 11
𝜏=1 11
d) 使用残差网络[4] 13
e) 多尺度检测 14
f) 仿 FPN 的多尺度特征图融合、多尺度特征图预测 15
数据预处理 17
实验分析及思路 17
实验基本原理 18
遗忘门 20
输入门 20
Cell state(单元状态流) 20
均方误差(MSE) 22
结果分析 23
调整batch_size大小 24
1. 随着数据集的海量增长和内存限制,一次性载入所有的数据进来变得越来越不可行 24
2. 训练速度太慢,没办法查看更新过程loss下降变化和参数的变化 24
模型的改进与创新 27
组员分工 32
参考文献 32
一、 CNN 模型原理
CNN 模型
1.什么是 CNN
在数字图像处理中有一个称为“边缘检测”的技术,它用到了信号的卷积操作,使用 Sobel 算子和原图像做卷积,得到的结果就是反映原图像的边界的。 受该启发,我们可以通过设计特定的卷积核,让它跟图像做卷积,就可以识
别出图像中的某些特征。我们的 CNN 主要就是通过一个个的卷积核,不断地提取特征,从局部的特征到总体的特征,从而实现图像识别等功能。
而我们应该怎样去设计卷积核呢?这在数字图像处理中也是一个难题,不同的卷积核就会提取到不同的特征,而我们可能不知道应该提取哪些特征。但是结合了神经网络以后,我们就不用去考虑卷积核如何设计了,因为各个卷积核的参数都是通过神经网络自己学习得到的,这就是 CNN 的思想。
CNN 一般包含卷积层、池化层和全连接层,下面会给出解释。
2.为什么要用 CNN
权值共享。考虑32 × 32 × 3的一张 RGB 图像,即输入层有32 ∗ 32 ∗ 3 = 3072维,若隐藏层与输入层的维数一样,则输入层到隐藏层的全连接参数个数为 3072 ∗ 3072 = 9,437,184维,数目非常大,难以训练。假设使用卷积后隐藏层的每个神经元只和输入层的 5×5 个像素相连,则参数个数变为3072 ∗ 25 = 76,800, 对比全连接的情况大大减少了参数个数,易于训练。
局部连接。局部连接使网络可以提取数据的局部特征,再结合池化操作实现了数据的降维,将低层次的局部特征组合成为较高层次的特征。最后再通过全连接层把卷积网络提取到的所有局部特征综合起来,得到一个全局的特征,则该全局特征既考虑了图像的各个局部细节,又考虑了图像的整体轮廓,所以有很好的识别效果。