一、文本检测识别的现状研究
一、前言
如今我们生活在一个信息爆炸的时代,随着数码相机、数码摄像机、摄像头等图像获取设备的广泛应用以及互联网的普及和多媒体技术的不断发展,人们所获得的信息越来越多的以图像、视频的形式进行存储,一方面,人们可以很方便的采集各种图像、视频数据,并借助相关软件对其进行加工处理;另一方面,这些采集的图像、视频数据通过网络,可以很方便的被获取到并进行传播以及共享。嵌入在图像和视频中的文字,对图像和视频要表达的信息进行了描述和说明,对于我们或者计算机理解自然场景提供了重要的线索,例如,当我们到一个不熟悉的地方,路标指示牌中的地点和指示信息,可以帮助我们到达目的地;广告牌中的文本信息,包含着关键的宣传内容,例如产品的名称,功能,销售地点等,自动辨识这些信息,将对产品信息的把握起到关键作用;许多关键的信息如比赛名称,比赛地点等包含在比赛的画面中,新闻画面中的文字信息是对整个新闻的一个总结概括等。这些信息都是我们日常生活中不可或缺的,所以能把这些信息提取出来对于我们的日常生活将会提供巨大的帮助。通过手动来标注的内容分析方法在当下已经无法满足人们日益增长的信息检索需求,而且人工标注有一些缺点,例如,对同一幅图像,不同的标注者可能理解不一样,那么标注出来的信息也就不一样,受主观影响,再者图像、视频数据存储量以爆发式的速度增长,对于海量的数据来说,单纯依靠手工标注也难以达到要求。如果可以运用计算机自动的定位,检测和识别出这些信息,对图像进行标注和分类,能在很大程度上减少成本且意义重大。[2]
与传统的文档类别照片不同,利用计算机技术定位和读取自然场景中的文本信息是十分复杂和困难的任务。其难度和挑战主要体现在以下三个方面:
(1)自然场景文本的多变性
将自然场景文本和传统的文档图片中文本相比,文档图片中的文本通常具有相对统一的字体形态、单一的字体颜色、一致的文本大小和统一的排版排列。而自然场景中的文本没有非常明显的规律可循,文本信息可能会在图像中的任何一个位置出现,也可能具有完全不同的字体、颜色、大小和排列方向,即使它们是在同一张图片中。这就给文本的检测和识别增加了诸多的不确定因素。
(2)背景的复杂性
普通的文档图片往往背景单一,一般以白色为主,字体为黑色,具有非常明显的对比性,非常容易和背景区分开来。而自然场景图片的背景十分复杂,像一些交通标志,栏杆,墙砖和花草几乎很难和真正的文本区分开来,因此很容易造成混渚和错误的判别。
(3)内容的干扰性
自然场景图片中存在各种各样的干扰因素,由于图像的拍摄角度不同,会引起文本存在不同程度的几何和透视形变。像图像噪声、图像模糊、画面扭曲、低分辨率、复杂的光照以及一部分的文本遮挡等因素,都会给自然场景的文本检测和识别提升难度。[1]
二、文本检测的现状
目前国内外的很多大学和研宄机构在基于内容的图像视频检索和文字检测方面进行了广泛的研究,并且取得了一定的成绩,其中具有代表性的机构有:卡耐基梅隆大学、哥伦比亚大学的多媒体研究中心(Digital video and Multimedia Lab)、北京科技大学、牛津大学视觉几何组、华中科技大学多媒体研究中心、中国科学院自动化研究所等。卡耐基梅隆大学是较早开展研究文本检测工作的机构之一,其最初是应用在交通指示牌中的文本检测,随后应用在新闻视频结构分析中的文本检测。哥伦比亚大学的多媒体研究中心在多媒体内容分析、检索、目标识别、安全及取证等方面做了大量的工作并取得了一定的成绩。他们利用先进的机器学习算法,研发出了Semantic Visual Concept Detection and Video Search检索系统,该系统能够快速的在海量多媒体大数据中进行准确地语义搜索。北京科技大学殷绪成博士团队提出的基于最大稳定极值区域的文本检测算法,在ICDAR2013的竞赛中获得了第一名的成绩。牛津大学视觉几何组的Jaderbarg等人探索深度学习在自然场景文本检测中的应用,发表了很多经典的文章同时公布了一些检测和识别效果极佳的网络模型。Gupata等人进一步提出了一套人工合成的方法用来合成大量的数据,他们将这些方法应用在基于文本内容的BBC新闻检索系统中。华中科技大学多媒体研究中心近年来在文本检测领域中发表了大量的基于深度学习的文章,在己有的公开数据集中取得了非常好的结果,N时构建了一个含有任意方向的中英文数据集MSRA-TD500。中国科学院自动化研究所模式识别国家重点实验室在多语言文本的检测和识别方面做了大量的工作,承担着模式识别国家级课题项目,是中国乃至世界模式识别技术当之无愧的领军者。随着国家对科研项目的支持以及计算机硬件性能的提升,我国科研人员取得的成果不断增加,在国内外高级别的期刊会议上发表的论文数量逐年增加,在国际竞赛中取得了优异的成绩。[3]
随着文本检测应用性的增强,越来越多的公司加入了这方面的研宄,其中具有代表性的公司有:微软研究院、谷歌、三星通信电子研究院、百度、阿里、腾讯、商汤科技、海康威视、今日头条等。微软研究院人类数字记忆项目中的一个研究方向是对图像的智能处理,将图像中的人名、地点、时间以及发生的事件信息提取,以便能够达到快速检索的目的,实现了对数据的智能化管理。谷歌提出了一种在安卓系统中对文本快读检测识别的算法。互联网公司如百度深度学习研宄院、阿里巴巴、腾讯等注重对图像、视频智能化的处理,给用户更好地体验,也纷纷加入了文本检测识别领域的研宄。商汤科技、海康威视、今日头条等新兴的人工智能公司把文本检测加入到重点研究的项目课题中,并且在参加的国际计算机视觉竞赛中获得优异的成绩,排名名列前茅。[3]
三、采用的相关技术
自然场景文本检测方法其核心思想是: 通过MSCRS与 MSERS 两种算法提取候选字符区域,并根据区域几何信息初步剔除部分背景区域; 然后根据字符区域的纹理特征,训练字符分类器对候选字符区域进行分类,从而得到字符区域; 最后利用区域彩色信息和几何邻接关系将字符进行合并,得到最终的文本区域。[5]
基于笔画宽度的文本检测方法是基于连通域的文本检测方法中的一个主流方法。Epshtein等人在2010年首次提出了基于字符笔画宽度变换(StrokeWidth Transform,SWT)的文本检测算法,此算法在基于连通域的文本检测方法领域中具有里程碑式的重要意义。研究人员通过对图像中文本结构的分析,在笔画宽度变换的基础上提出了很多文本检测算法,并在国际公开数据集中取得了非常好的效果。Epshtein等人参考道路中平行线检测的方法提出了基于字符笔画宽度变换的自然场景文本检测算法。[3]
文本检测算法。我们首先定义笔画的概念, 然后解描边宽度转换, 以及它如何用于将像素分组为字母候选。最后, 我们描述了将字母分组为更大的单词和线条构造的机制, 使其能够进一步进行过滤。[4]
深度学习的概念来源于人工神经网络的研究。多层隐层感知器是一种深层次的学习结构。深入学习中, 通过将低级特征组合在一起, 形成了更抽象的属性类别或特征的高层次表示。2006年, 韩丁提出了深入学习的概念。提出了一种基于深置信网络的无监督训练算法, 为解决深部结构优化问题带来了希望。此外, 还提出了卷积神经网络。它是第一个真正的多层结构学习算法, 它利用空间相关关系减少参数个数, 提高训练性能。深入学习是一种新的机器学习领域, 研究的动机是建立和模拟人脑分析神经网络学习机制, 它模仿人脑对图像、声音和文本等数据进行解释。[6]
四、对于未来设计的发展和建议
随着科技、互联网技术的发展,个人移动通讯设备已经覆盖了我们生活的各个方面,人们互相之间的交流对其依赖愈加明显。而与此同时,手机的普及也给各种形式的敏感多媒体信息的传播提供了便利。在反恐形势严峻的今天,对网络中包含敏感内容的多媒体文件进行快速检测与过滤显得越来越重要。本项目的研宄开发成果对于我国社会稳定将发挥重要作用。从技术角度来看,对该项目涉及的关键技术进行深入地探索、研究与开发,并实现自主创新。从国家安全、社会稳定的角度来看,本项目具有广阔的应用前景,将为国家经济社会建设做出贡献,并带来明显的社会和经济效益。
本项目的知识产权成果极具推广性,其产业化也将具有重大的社会效益和良好的经济效益。从公安部计算机信息系统安全产品质量监督检验中心检验的产品看,网络多媒体内容监控类产品的需求在逐年加大,这也反映了市场对网络安全管控类产品的需求在日益增大。项目的潜在用户除了中国移动以外,还可定位在国家安全部门、广电、媒体、互联网、政府、出版等重要领域等。为了更好地对本项目的知识产权成果进行推广应用,项目将力争做好在中国移动平台上示范应用。以此来展示本项目的先进技术成果,进一步推进本项目的推广应用。[1]
多种方法融合。场景文本检测方法是一个系统性工程,其中涉及了多个环节,只要一个环节没有达到要求,就极有可能使得整体性能受到影响。今后的研究中,研宄人员需要考虑场景文本的特点,如文本字符的颜色一致性、笔画宽度一致性、场景字符的排列方式等,同时又要充分吸收计算机视觉、机器学习等领域的最新发展,如以卷积神经网络为框架的深度学习方法等。因此如何将多种方法合理地结合,使每一个环节的性能得到提高,进而得到最优的文本检测性能是今后研宄的一个方向。[4]
五、总结
互联网的高速发展使得人们能够接触到越来越多的图像和视频信息,而图像和视频中的文本信息一定程度上代表着图像和视频中的内容,对于计算机自动理解图像和视频的高层语义信息十分重要。自然场景图像中的文本检测技术在图像检索、图像理解、人机交互、智能交通和工业自动化等诸多领域具有广泛的应用前景,因此场景中的文本检测具有十分重要的研宄价值和意义。然而,自然场景图像中的文本受到大小、字体、语言等主观因素和光照、遮挡、噪声等客观因素的影响,使得自然场景图像中的文本检测面临着巨大的挑战。[3]
复杂场景图像中的文本提取与识别对于我们的日常生活具有广泛的实际应用价值,目前已有许多学者对该领域进行了大量的研究,但是由于自然场景的复杂性,很难提出一种通用性较强的算法来应对各种情况。在对现有算法进行研究分析的基础上,提出了一种将多特征融合和 SVM 分类器模型结合起来的文本定位算法,同时对后续的文本分割以及 OCR 识别进行了研究。[2]
五、参考文献
[1] 自然场景中文本检测识别系统的设计与实现 师军 北京交通大学
[2] 复杂自然场景图像中的文本检测与识别技术研究_熊海朋2017.6
[3] 自然场景图像中文本检测技术研究_郑阳 2017.12
[4] Detecting Text in Natural Scenes with Stroke Width Transform Boris Epshtein Eyal Ofek Yonatan Wexler 978-1-4244-6985-7/10/$26.00 ©2010 IEEE
[5] 结合MSCRs与MSERs的自然场景文本检测_易尧华 2016.10
[6] Research on Text Detection of Network Advertising Images Based on Deep Learning Pokwai 2017