四、已完成的研究工作及成果:
1. 搭建好了程序的基本框架,能够正常运行,后期只需要根据需求来进行修改。
2. 尝试对骨干网络进行修改,结果表明使用ResNet34训练的模型效果最好,F1-Score最高为0.80584。
3. 对数据集进行扩展,通过处理S2Looking数据集样本标签,使其满足本模型训练的要求,实现数据集的使训练样本数由原来的605对图像,增加为4405对图像。
4. 上采样时采用双线性插值法和双三次插值法进行对比,结果显示双三次插值法比双线性插值法的F1-Score提高了0.004。
5. 卷积层数的增加会使图像的尺寸越来越小,从而导致图像的有一些边缘信息损失,造成模型对一些小的建筑物的变化不敏感。为了解决这一问题采用了空洞卷积,在不改变卷积核大小的情况下,增大卷积核的感受野,提高模型对小建筑物变化检测的精确度。结果表明,使用空洞卷积的模型比没有使用空洞卷积的模型,在测试集上的F1-Score提高了0.03。
6. 在计算注意力α的时候,通过序列压缩技术,将Q、K、V矩阵的维度由原来的 H × W × C 变为 [(H × W) / R] × C 从而将时间复杂度由原来的 O((HW)^2) 降为 O([(HW)^2] / R)。
|