开 题 报 告
1.
选题意义和可行性分析
随着计算机技术的发展,人工智能技术的作用也越来越突出,图像识别技术作为人工智能的基础技术,它涉及的技术领域也越来越广发,应用越来越深入,也获得了越来越广泛的应用。例如字符识别、遥感图片识别、指纹识别、脸谱识别等,图像识别技术越来越多地渗入到我们的日常生活中,它涉及的技术领域也越来越广发,应用越来越深入。英文字母识别作为图像识别的新兴领域,更需我们加快对其的深入研究。
2.国内外研究现状
2.1图像识别技术发展史
图像识别技术诞生于20世纪40年代,随着计算机技术与信息技术的发展,图像识别技术获得了越来越广泛的应用。例如字符识别、医疗诊断中各种医学图片的分析与识别、天气预测中的卫星云图识别、遥感图片识别、指纹识别、脸谱识别等,图像识别技术越来越多地渗入到我们的日常生活中。图像识别技术的涵义很广,主要指通过计算机,采用数学技术方法,对一个系统前端获取的图像按照特定的进行相应的处理。图像识别包括诸如条码识别、生物特征识别(人脸识别、指纹识别等)技术、智能交通中的动态对象识别、手写识别等。可以说。图像识别技术就是人类视觉认知的延伸。是人工智能的一个重要领域,随着计算机技术以为人工智能技术的发展,图像识别技术越来越成为人工智能的基础技术。它涉及的技术领域也越来越广发,应用越来越深入。其基本分析方法也随着数学工具的不断进步而不断发展。现在,图像识别技术的应用范围已经远远突破视觉的范围,而更多地体现为机器智能、数字技术的特点。
2.2图像识别技术的基本原理
图像识别技术可能是以图像的主要特征为基础的。每个图像都有它的特征,如字母A有个尖,P有个圈、而Y的中心有个锐角等。对图像识别时眼动的研究表明,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方,这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。由此可见,在图像识别过程中,知觉机制必须排除输入的多余信息,抽出关键的信息。同时,在大脑里必定有一个负责整合信息的机制,它能把分阶段获得的信息整理成一个完整的知觉映象。
我国早就已经开始进行字符识别的研究, 然而与国外相比, 我国智能识别输入的普及和应用, 在很长一段时间里都不尽如人意。例如OCR技术[ 1] , 国外在金融、保险、税务等领域的应用至少有15年的历史, 而与此对应的是, 国内相关行业对OCR产品和技术的应用最近几年才刚刚起步。在信息时代的今天, 以OCR、手写、语音等技术为核心的识别技术, 以解决信息输入问题为目标, 已经衍生出了众多的技术、产品、市场、应用和服务, 并有望形成一个庞大、完整而且不断发展的字符智能识别产业 。而这一切的一切都是靠高水准的识别率来支持的。
在目前字符识别领域, 根据识别字符所采用具体特征的不同便衍生出了不同的识别技术。通常, 根据不同的技术策略, 识别方法可以分为如下3类[ 2] : 统计特征字符识别技术、结构字符识别技术和基于神经网络的识别技术。统计特征字符识别技术一般选取同一类字符中共有的、相对稳定的并且分类性能好的统计特征作为特征向量。常用的统计特征有字符二维平面的位置特征、字符在水平或者垂直方向投影的直方图特征、矩特征和字符经过频域变换或其它形式变换后的特征等。基于统计特征的字符识别技术对于形近字符区分能力弱, 因此, 通常应用于字符的粗分类。对于识别字符集比较小、输入图像质量比较高的图片( 例如打印的数字字符集)也可以担当主要的识别任务。结构特征字符识别技术: 实际应用中, 更一般的情况是相近字符的识别和像手写字符那样字型变化很大的字符的识别, 因此, 发展出了基于结构的字符识别技术。这种技术首先要提取字符的结构。根据识别策略的不同, 结构的选择也有所不同。可以选择字根、笔划, 也可以选择比笔划更小的笔段。提取出的结构又称作字符的子模式、部件、基元, 所有基元按照某种序排列起来就成了字符的特征。基于结构的文字识别实际上是将字符映射到了基元组成的结构空间进行识别。与统计识别方法相对应, 字符的结构识别技术更加便于区分字型变化大的字符和字型相近的字符。但是由于对结构特征的描述和比较要占用大量的存储和计算资源, 因此算法在实现上相对复杂、识别速度慢。基于神经网络的字符识别技术: 迄今为止, 人类识别文字的能力远远胜于计算机, 无论是变形的字符、模糊的字符,甚至是破损的字符, 人类都能很好地识别。基于人工神经网络的字符识别技术目的就是力图通过对人脑功能和结构的模拟来实现字符的高效识别。由于人工神经网络是对生物的神经网络的一种极端的简化, 以及人们对大脑活动的认知还停留在初级阶段, 人工神经网络在学习效率和算法收敛性等方面还存在很多亟待解决的问题。
2.4英文字母识别的一般方法
字符识别方法目前主要有基于模板匹配算法和基于人工神经网络算法。基于模板匹配算法稳定性较差、时间花费也较大,因此在此基础上提出了基于关键点的匹配算法。此算法先对待识别字符进行关键点提取,然后对关键点去噪,最后再确定字符的分类。这种匹配算法只利用了字符的关键点进行匹配,因此提高了识别速度又具有较高的识别率。
英文字符识别是字符识别的一个重要分支, 具有广泛的应用领域。字符识别主要包括文档切分、单词切分、字符识别及后处理几部分。英文字符识别系统实现了从图像扫描到得到识别结果的全过程, 而字符特征提取是重点内容。以英文字符为研究对象, 具体包括了图像预处理、特征提取、分类器设计、后处理等步骤。
3. 整体设计思路
3.1 总体设计
预处理:字符图像的预处理是字符识别前的一个重要步骤, 其主要功能有两点: 消除字符图像中的噪声, 修正字符图像断线、粘连现象; 通过各种线性、非线性归一化方法, 使变换后的图像相对稳定, 便于识别。预处理是文字识别处理的第一步,预处理的好坏将直接影响识别方法的难易及识别结果的好坏。预处理工作做得好,使反映文字本质特征的部分得到保留甚至突出出来,识别就容易进行,识别率高且识别速度快。反之,就会使识别变得困难,甚至造成误识等不良后果。
图像二值化:二值化就是为了使整个图像呈现出明显的黑白效果,而让图像上的所有点的灰度值只用两种可能,不是“0”就为“255”。二值化的最终目的应为:原图像中反映图像结构的灰度值差别经映射后被保留,而不反映图像结构的灰度值抖动被消除,从而最终得到的只是构成字符图像的关键信息。二值化的关键步骤是确定阈值,而确定阈值主要分为两种方法:定阈值法和自适应阈值。其中定阈值法思想简单,实现起来也比较容易。
字符分割:在图像处理过程中,有时会需要对图像进行分割来提取有价值的用于后继处理的部分。系统在读进来的图像中一般会含有多个字符,识别的时候只能根据每个字符的特征来进行判断,所以还要进行字符分割的工作。这一步工作就是把图像中的字符独立的分割出来。
分类识别:根据特征进行分类并识别。
3.2实验流程图
3.3需解决的主要问题
因为本系统对外部的干扰很敏感,在识别率上不能保证准确度很高。对图像的预处理以及文字的切割位置要求是很高的。
拟解决的主要问题有:
1.在对图像消噪、平滑、图像增强、边缘检测、二值化等预处理时,由于图像具有不同的模式特征,要选用不同的预处理算法和分割算法。
2.在对图像进行分割时,选取的分割窗口大小很重要, 合适的分辨率是图像处理的关键 。
4.预期研究成果
把英文字母作为研究对象,利用算法实现对英文字母特征的识别,预期达到的研究成果如下:
(1)完成对英文字母特征的分析并提出提取的方法;
(2)实现对英文字母特征的识别;
(3)图像处理的相关知识。
5.工作计划
10.12.01~11.01.08
开题报告、文献综述、英文翻译上交
11.01.09~11.03.20学习相关的数字图像处理理论知识及相关的MATLAB理论知识
11.03.21~11.04.14编程程序,并对其进行调试
11.04.15~11.04.30撰写论文,修改程序
11.05.01论文初稿上交
11.05.02-07.05.07修改论文和程序
11.05.08论文定稿上交
11.05.09-11.05.18准备答辩
参考文献
1.陈杰, 易本顺.图像识别技术[J]. 系统工程与电子技术, 2010,32(1): 200-204
2. 沈庆阳.图像识别与应用[M].北京: 清华大学出版社, 2002-9-1
3 王新辉.关于图像识别的延伸[J].电脑开发与应用,2003,(08)
4. 吕俊,张兴华. 英文字母识别的研究[J]. 现代电子技术, 2003,(24)
5.周与.《图像识别入门》[M].北京航空航天大学出版社,2004
6. 赵烨, 王明磊, 李新友. OCR 在大数据量文档系统中的应用[ J] . 计算机应用, 2000, 20(增) : 336 - 338.
7. A lessand ro V in ciarell.i A Survey on Off - line Cursive Word
Recognition[ J] . Pattern Recognit ion. 2002, (35): 1433 - 1446.
8. 荆涛, 王仲. 光学字符识别技术与展望[ J] . 计算机工程.
2003, 29(2) : 1 - 2.
9.陈友斌, 丁晓青, 吴佑寿. 一种新的用于手写汉字识别的非线性
归一化方法[ J]. 模式识别与人工智能, 1998, 11( 3): 310 - 317.
10.赵海涛, 於东军, 金忠, 杨静宇. 基于特征选择的字符识别
[J] . 计算机工程与应用, 2002, 21 :34 - 35.