与本课题有关的国内外研究情况:
随着互联网和多媒体技术的飞速发展,图像数据也呈现出了爆发式的增长,如何对图像进行高效的分类和检索也成为了一项新的挑战。图像分类是图像检索、物体检测和识别等应用的基础,也是模式识别和机器学习领域中的最热门的研究课题之一。传统意义中的单标签分类是指一个图像只能属于一个类别,与传统意义中的单标签分类不同的是,现实生活中的图像中可能会拥有多个语义标签,也可以理解为一张图像可能属于多个类别,比如一副图像它包含:草原、马,蓝天等。多标签分类可以广泛应用于场景识别,自动图像标注,人体属性识别,自动驾驶,农业图像检测等。
首先对图像处理,离不开图像特征提取,深度神经网络的发展给我提供了很好的工具。2014 年 Simonyan 等人提出了著名的 VGG 系列网络, 2014 年的更深的、效果更好的 VGG 网络向研究者们表明增加深度卷积神经网络的深度可以有效的提升模型。2015 年 ImageNet 竞赛的冠军网络是由何凯明团队提出的 ResNet 网络该网络最大的深度达到了 152 层。ResNet 网络的深度能如此之深,得益于网络中的残差块结构。VGG和Resnet都是很好地特征提取网络。
但多标签分类的主要问题是如何提高标签与图像区域之间的关系和标签与标签之间的关系以提高分类性能。
将卷积神经网络扩展到多标签图像分类的一种简单方法是将其转换为多个单标签分类任务。这些方法只是为每个标签训练一个二进制分类器。得益于深层卷积神经网络在单标签图像分类方面取得的巨大成功,二值解决方案的性能得到了极大提高。然而,这些方法忽略了标签的语义关系。一些学者引入了注意力机制。这些方法通过图像层面的监督来捕捉图像区域和标签之间的关联。然而,他们也同样没有考虑到标签之间的依赖性。
我们可以观察到“草原+马”,“红绿灯+汽车”一起出现的概率很高,在MS-COCO数据集上,"椅子 "与 "餐桌+杯子 "的共现率高达0.45。显然,高阶语义关系在提高多标签分类上的性能方面具有很大的潜力。
因此目前解决多标签图像分类的方法主要从建立标签的关联性入手,标签关联性能够应对多标签图像中训练数据有限,标签分布长,标签相关性复杂等难题。
为了更好地考虑标签之间的相关性,一个流行的方法是使用递归神经网络或长短期记忆来模拟标签相关性。虽然已经取得了良好的性能,但它存在着只对顺序标签关系进行建模的问题。又有学者提出了一种基于GCN的模型,用于捕捉多标签图像识别中的标签相关性,该模型在标签上构建了一个有向图。每个节点由一个标签的单词向量来表示,GCN被学习将这个标签图映射到一组相互依赖的分类器中。GCN捕捉标签之间的全局相关性,从单个图像之外的知识推断。但是这些方法都没有很好地将标签与图像区域进行关联。
综上,一个既考虑了标签与图像区域之间的关系,又考虑了标签与标签之间的关系将会极大地提高多标签分类的性能。
|