第2章 建立图片集
2.1 引言
图片集的建立是本文一切研究工作开展的基石,无论是在使用传统图像处理方法的车牌区域候选人提取研究工作中,还是在需要大量样本用于训练分类器的字符判断和识别工作中,都离不开相应的图片集的建立工作。图片集的建立除了数据的获取,还需要筛选和分类,这些工作虽然繁重耗时,但充分保证了图片集不仅数量合适,而且样本差异明显,能够充分表征研究对象的多样性。
图片集的建立了工作共分为 5 个部分,分别是获取包含车牌原始数字图片集; 获取车牌区域候选人的图片集;建立字符判断的图片集;建立数字和字母识别的图片集;建立中文字符识别的图片集。需要指出的是,图片集在电脑中的存储格式为
JPG 格式,存储图片使用 RGB 颜色空间模型,每张图片有三个通道,各通道均有
256 个可能的离散灰度值,即 8 比特图像,于黑白图片,需要以灰度图片的格式读入程序,执行阈值化操作后才能使用;由于数字和字母识别图片集的建立与中文字符识别图片集的建立方式完全不同,所以分为两个小节叙述;对于用于分类器的图片集,会细分为训练集和测试集两部分。
除了原始图片集不做处理,其他所有图片集的制作均是由程序批量处理产生, 经过手工标记和筛选制作而来,其中会涉及很多图像处理方法,来保证图片多样化尽可能的小,这些处理方法与程序综合时对单张图片的处理方式是一致的,保证了样本与总体的一致性。为了方便人工标记和筛选,批量化处理后,所有图片都会存入文件夹中。