毕业设计(论文)开题报告
题 目
|
基于文字检测识别的技术研究
|
学 院
|
计算机学院
|
专 业
|
物联网工程
|
姓 名
|
|
班 级
|
|
学 号
|
|
指导教师
|
|
一、综述本课题国内外研究动态,说明选题的依据和意义
1.1 课题依据和意义。
文字是人类记录信息的符号工具,是人类获得知识了解世界的重要窗口。文字的记录和传播是的人们可以在一定程度上打破在时间和空间上的限制,记录和交流思想,传承优秀的文化和科技。而文本检测是文字识别的基础,以往的图像文本检测研究已能很好地从纸质文本文件的扫描图像中检测到字符。但除了纸质的书籍,报刊等文字载体外,自然环境中也存在着大量的非常重要的文本,比如街道两边的交通标志、车牌、商铺的广告牌、宣传横幅、布告栏、警示标语等。这些文字一般包含明确的信息,人们再根据这些信息做出相应的反应,但是自然场景中的这些“信息”往往在检测的时候受到周围环境的干扰,比如说环境的颜色、雨雾天气、各种风格的字体、图像的角度等等,现有的简单的对文本特征进行提取和分析的方法都不能有效的实现对这类文本的检测。
文字的检测与识别其实我们已经接触了很久了,比如说手机里的手写输入,停车场的车牌自动识别,点读机,微信有道词典的拍照翻译功能,网页过滤等等。自然场景中的图像文本信息提取的研究在人们日常生活中起着越来月重要的作用,该技术的不断发展也将带给人们以更加便利的生活。
1.2 课题现状。
提取自然场景中的文本信息主要有两个步骤,一是文本检测,二是字符识别。而文本检测主要是根据文本的特征来进行定位。
(1)基于纹理的方法
基于纹理的方法采用自定向下的检测过程。在图像中使用华东窗口提取图像的局部纹理特征(如HOG、Hair特征等),然后通过分类器来预测各个窗口含有巨幅的概率,每个滑动窗口被标记为字符或者非字符,接着再结合不同的文本特性作为约束条件作进一步的处理。
Wang等人设计了基于随机阙的端对端文本识别方法。该方法采用滑动窗口来提取局部图像块的HOG特征,在训练分类器过程中使用了大量的人造字符样本数据集,最后通过使用图模型推理方法结合词典来检测图像中的文本。
这类方法的明显有点是对图像噪声更加具有鲁棒性,其缺点正是游泳采用滑动窗口机制,大大增加了计算复杂度。另外,该方法不能获取分割完整的字符,不利于文本定位之后的字符识别。
(2)基于区域的方法
基于区域的方法采用的是一种自底向上的策略用来进行文本检测与定位。这类方法首先计算图像中每个像素点的局部特征,然后通过使用连通分量分析(CCA)把具有相似特征的像素点护具继承一个连通的区域。单个字符内的像素点一般具有相似的颜色特征,因此使用CCA方法获得的通常是一个分割完整的字符。
Li等人在量化的颜色空间内采用实现设定的阈值的方式获取字符候选区域,然后通过简单的链接规则把字符融合成字符串。该方法假设字符没有经过旋转变换,并且字符前景与背景具有较大的方差。这种方法只适用于车牌识别或是简单提示牌信息提取等应用领域,而不能用于处理一般复杂场景中的文本检测任务。
Epshtein等人提出了笔画宽度变换(SWT)用于检测文本区域。SWT是根据字符笔画宽度基本一致的特点,形成一副对应原图的宽度映射图。SWT首先利用Canny算子来进行边缘检测,然后根据边缘像素点的梯度方向搜索满足田间的像素对,最后用获取的笔画宽度值来填充像素对之间的路径。Epshtein通过SWT方法获取字符候选区域,最后设计链接条件把字符融合聚集承单词。使用SWT方法能够获取绝大部分的文本区域,但是该方法最大的缺点就是过分依赖于边缘检测的结果,因此不太适合用于低分辨率图像或者文本出现遮挡的情况。
Neumann等人采用最大稳定极值区域(MSER)的方法来提取字符候选区域,结合文本的线条等特征对字符进行融合处理,最后通过高效的剪枝搜索方法获得很好的文本检测结果。实验结果证明了MSER能提取图像中绝大数的文本,提取的过程也十分的高效和快捷。该方法的不足之处就是对光照影响不具有鲁棒性。
Wang等人首次提出了基于词典驱动的端到端场景文本检测识别算法。该方法先利用滑动窗口的方式提取多尺度图像的字符概率映射图,然后结合图结构模型,从而获得文本检测与识别结果,该方法在词典较小(大于50)时能够获得较高的文本检测识别率,若词典的容量(大于500)较大时,实验的效果就会下降很多。
二、研究的基本内容,拟解决的主要问题:
2.1基本内容
主要分为文字检测与文本识别两部分。
文字检测的主要功能为:从图像中找到文字区域,并将文字区域从原始图像中分离出来。
文字识别的主要功能为:从分离出来的图像上,进行文字识别。
文字识别流程:
1)预处理:去噪(滤波算法)、图像增强、缩放,其目的是去除背景或者噪点,突出文字部分,并缩放图片为适于处理的大小
2)特征抽取:常用特征:边缘特征、笔画特征、结构特征、纹理特征。
3)识别:分类器,随机森林 、SVM、NN、CNN等神经网络。
2.2拟解决的主要问题。
1)技术本身的困难:文字背景异常复杂、文字类型丰富、分布随意、字符分割困难、噪音严重。
2)对特征的选用:不同场景下不同特征提取所能达到的提取效果肯定是不同的,这需要考虑该如何选取特征,是用一种好还是多种混用比较好需要看具体的情况,或者都用,然后给其加个比重权值还是其他方法都是需要考虑的难点。
3)识别分类的选用:同样的,不同的分类器有着各自的分类效果,如何使用分类器,选用一种还是多种这需要完全根据实际情况来进行多次对比,最后选出鲁棒性最好的一种组合方式。
三、研究步骤、方法及措施:
3.1样本的收集
虽然说什么图片都可能包含文字,可以用于检测。但是大多数图片的文字信息都是很标准正面照,这与自然场景的一般情况有所区别。自然场景中根据你所站的角度不同,所看到的文字形状必定是不一样的。所以需要各种角度的包含文本的图片。可以通过github引用别人的图片库,也可以通过百度图片,或者自己手动拍摄一些。
3.2样本的预处理
得到一张图片时可能并不会配套的有其各个角度的图片,这时通过对图像的拉伸、倾斜旋转等操作,可以近似的得到齐各种角度的图片。另外图片的大小应该缩放在一个范围之内以便于其他处理。
3.3提取特征
这一步十分重要,这决定了文本定位的准不准确,直接影响到最后结果的好坏。常用的特征提取方法有边缘特征、笔画特征、纹理特征、结构特征等。我将逐个的实验进行相互对比,选出一种相对快速并且鲁棒性较好的组合特征。尽量的多去尝试下前辈们已有的各种方法,感受下其中的优劣,如果有自己的想法就加入进去进行验证改进。
3.4识别文字
识别说白了就是一个分类的过程。识别的重要性不亚于检测,识别错误那么检测也就变得没有意义。传统的分类器有随机森林、SVM、NN等等。
3.5整体设计
现有的文字检测算法已经很多,基本可以分为水平文字检测与倾斜文字检测,
水平检测较好的是2016 ECCV乔宇老师团队的CTPN,倾斜文字较好的是20XX CVPR的EAST和Seglink。也可以参考白翔老师团队的CRNN采用CNN+RNN+CTC或者CNN+RNN基于Attention的方法。
3.6测试改进
整体设计之后还需要不断的测试与调试,使其能够正常稳定的达到文字检测识别的目的。
四、研究工作进度:
序号
|
时间
|
内容
|
1
|
20XX-12-05--20XX-01-05
|
毕设选题申报
|
2
|
20XX-01-15--20XX-03-05
|
查阅文献整理资料
|
3
|
20XX-03-06--20XX-03-13
|
撰写开题报告,开题报告ppt
|
4
|
20XX-3-14
|
开题报告
|
5
|
20XX-03-15--20XX-03-25
|
概要设计
|
6
|
20XX-03-26--20XX-04-01
|
详细设计
|
7
|
20XX-04-02--20XX-05-02
|
编码实现
|
8
|
20XX-05-03--20XX-05-15
|
测试完善修订
|
9
|
20XX-05-16--20XX-05-30
|
完成论文,准备答辩
|
10
|
20XX-06
|
毕业设计答辩
|
五、主要参考文献:
[1]Detecting Text in Natural Scenes with Stroke Width Transform Boris Epshtein Eyal Ofek Yonatan Wexler 978-1-4244-6985-7/10/$26.00 ©2010 IEEE
[2]TextBoxes++: A Single-Shot Oriented Scene Text Detector .20XX-arxiv
[3]FOTS: Fast OrientedText Spotting with a Unified Network .20XX-arxiv
[4] PixelLink: Detecting Scene Text via Instance Segmentation .20XX-AAAI
[5]WeText: Scene Text Detection under Weak Supervision .20XX-arXiv
[6]Single Shot Text Detector with Regional Attention .20XX-ICCV
[7]EAST: An Efficient and Accurate Scene Text Detector .20XX-CVPR
[8]Deep Direct Regression for Multi-Oriented Scene Text Detection .20XX-arXiv
[9]Detecting oriented text in natural images by linking segments .20XX-CVPR
[10]Arbitrary-Oriented Scene Text Detection via Rotation Proposals .20XX-arXiv