用笔画宽度变换检测自然场景中的文本
摘要
我们提出了一种新的图像算子,它寻求每个图像像素的笔画宽度值,并演示其在自然图像文本检测任务中的应用。我们建议算子是局部的和依赖于数据的,这使得它足够快速和健壮,不需要多尺度计算或扫描窗口。大量测试表明,该方案的性能优于最新公布的算法。它的简单性使算法能够检测多种字体和语言中的文本。
1. 简介
与扫描打印的页面、传真和名片相比,检测自然图像中的文本是许多计算机视觉应用的重要一步,例如计算机辅助视力受损、企业自动地理编码和城市环境中的机器人导航。在室内和室外环境中检索文本为各种视觉任务提供了上下文线索。此外,研究表明,图像检索算法的性能关键取决于其文本检测模块的性能。例如,两本书的封面设计相似,但文字不同,事实证明,如果不对文字进行检测和记录,实际上是无法区分的。最近的一些研究[1,2,3,4,5,6,7]考虑了文本检测问题。举办了两次竞赛(ICDAR 2003[8]和ICDAR 2005[9]的文字位置竞赛),以评估这一技术的现状。比赛的定性结果表明,仍有改进的余地(ICDAR 2005文本定位比赛的胜出者,召回率为67%,精确率为62%)。这项工作与以前的工作不同,它定义了一个合适的图像操作符,它的输出能够快速可靠地检测文本。我们将此运算符称为笔画宽度变换(SWT),因为它将图像数据从每个像素包含颜色值转换为包含最可能的笔画宽度。由此产生的系统能够检测文本,而不考虑其规模、方向、字体和语言。
当应用于自然场景的图像时,OCR的成功率急剧下降,如图11所示。
这有几个原因。首先,大多数OCR引擎是为扫描文本而设计的,因此依赖于正确分离文本和背景像素的分割。虽然这对于扫描文本通常很简单,但在自然图像中要困难得多。第二,自然图像表现出广泛的成像条件,如彩色噪声、模糊、遮挡等。最后,虽然传统的OCR页面布局是简单和结构化的,但是在自然图像中它要困难得多,因为文本要少得多,并且存在较少的整体结构,在几何和外观上都有很高的可变性。
图 1: SWT 将图像 (a) 从包含灰度值转换为包含每个像素 (b) 的可能描边宽度的数组。此信息可以通过测量每个组件中的宽度方差来提取文本, 如 (c) 所示, 因为文本倾向于保持固定描边宽度。这将它与其他像树叶一样的图像元素分开。检测到的文本显示在 (d) 中。
区分文本和场景其他元素的一个特性是它几乎恒定的笔画宽度。这可用于恢复可能包含文本的区域。在这项工作中,我们利用这一事实。结果表明,结合几何推理的局部图像算子能够可靠地恢复文本。本文提出的主要思想说明了如何计算每个像素的笔画宽度。图1c显示了操作符输出可以用来从场景的其他高频内容中分离文本。使用逻辑和灵活的几何推理,具有相似笔画宽度的位置可以组合成更大的可能是单词的组件。这种推理还允许算法区分文本和任意绘图,如图2所示。请注意,我们并不要求笔画宽度在整个字母中是恒定的,而是允许缓慢的有界变化。
这里建议的方法不同于以前的方法,因为它不会寻找每个像素的分离特征,如渐变或颜色。 相反,我们收集足够的信息来实现像素的智能分组。 在我们的方法中,像素渐变只有在具有a时才是重要的相应的反向梯度。这几何验证大大减少了检测到的像素的数量,因为中风迫使许多人同时出现在一个小地区配对。 我们与以前的研究工作的另一个显着不同之处在于没有多尺度金字塔的扫描窗口,需要其他几种方法。 相反,我们执行自下而上的整合信息,将相似笔画宽度的像素合并为连接的组件,这使我们能够检测同一图像中各种尺度的字母。 由于我们不使用几个离散方向的滤波器组,检测任何笔画(以及因此的文本线)方向。
此外, 我们不使用任何特定于语言的筛选机制, 如 OCR 筛选阶段 [3] 或与特定字母表相关的候选窗口中的渐变方向统计。这使我们能够想出一个真正多语种的文本检测算法。
图 2: 在自然图像中检测到文本
并不是每个文本检测的应用都需要进一步的字符识别步骤。当需要这样的步骤时, 一个成功的文本分割步骤对识别性能有很大的影响。以前的一些文本检测算法[3、18、19] 依赖于图像区域的分类, 因此不提供后续 OCR 所需的文本分割掩码。我们的方法携带足够的信息进行精确的文本分割,因此很容易为检测到的文本提供一个好的掩码。
2. 准备工作
大量的作品直接涉及从自然图像和视频帧中检测文本。其他领域的相关工作研究了线性特征的提取。
关于文本检测方法的综合调查[1, 2]。一般来说, 检测文本的方法可以大致分为两组: 基于纹理的方法和基于区域的方法。基于纹理的方法[3、4、18、19、22] 在多个尺度上扫描图像, 根据若干文本属性对像素区进行分类, 如边缘密度高、文本上方和下方的低梯度、强度高方差、分布小波或 DCT 系数等。此类方法的局限性包括: 由于需要在数个尺度上扫描图像, 在不同尺度上的信息集成问题和精度不足, 由于固有的事实, 只有小(或足够缩小) 文本展示算法所需的属性。此外, 这些算法通常无法检测到足够倾斜的文本。
另一组文本检测算法基于区域[5、6、23]。在这些方法中, 显示某些属性 (如近似常量颜色) 的像素将组合在一起。然后,将生成的连接组件 (CCs) 经过几何滤波, 并使用纹理属性排除不一定是字母的CCs。这种方法很有吸引力, 因为它可以在任何程度上同时检测文本, 且不局限于水平文本。我们的方法属于这一类, 但是我们使用的主要特性与通常使用的颜色、边缘或强度相似性有很大不同。我们测量每个像素的描边宽度, 并将相邻像素与近似相似的描边宽度合并到 CCs 中, 从而形成字母候选。
使用类似的方法来检测字符笔画的工作在[7]中提出。然而, 该方法与本文所开发的算法有很明显的区别。在[7]中提出的算法水平扫描图像, 寻找对强度的突然变化 (假设暗文本在明亮的背景)。然后检查强度变化之间的区域, 以了解颜色的恒定度和描边宽度 (假定为已知的笔画宽度范围)。生存区域在大小为W的垂直窗口中进行分组, 如果找到足够的区域, 则声明笔画为存在。此方法的限制包括一些调整到要查找的文本的刻度的参数 (如垂直窗口大小W)、无法检测水平描边以及检测到的笔画未分组为字母候选项的事实,单词和句子。因此, 该算法只能检测近似水平的文本。本文所提出的性能结果是使用与 ICDAR 竞争指标不同的度量来完成的。我们实现了从[7] 的指标, 并证明了我们的算法较优[7]。
另一种方法[ 21 ]也使用笔划宽度相似性的概念,但由于在水平扫描线上沿水平扫描线来检测垂直笔划而被限制在寻找小文本的水平线上,并且使用形态学扩展将候选像素连接到连接区域。而不提供在ICDAR数据库性能结果,算法无法处理笔画任意方向。我们的方法是不变的行程方向(见图8, 10, 12)。
最后, 工作[25]使用描边宽度一致性的思想来检测视频序列中的文本叠加。该方法的局限性包括需要对滤波器的尺度和方向进行集成, 再加上对水平文本的固有衰减。
我们对中风的定义与通常在两个领域所涉及的线性特征有关: 遥感 (道路网络的提取) 和医学成像 (血管分割)。在道路探测中, 空中或卫星照片中的道路宽度范围是已知和有限的, 而在自然图像中出现的文本则会急剧变化。另外, 道路通常是拉长的线性结构以低曲率, 对文本不再是真实的。大多数道路检测技术都依赖于上面列出的假设, 因此不能直接用于文本检测。关于技术的调查, 参考[10]。最近的工作是[11], 使用事实路边缘是反并联为发现点说谎在路的中心线, 然后小组这些候选者中心点一起。没有试图使用恒定的道路宽度, 以方便分组。我们的方法在笔画的每个像素上使用密集的投票, 从而找出更稳定的笔画识别, 而不需要对中心点候选者进行复杂而脆弱的分组。另一种方法[12]使用从高分辨率图像中提取的低分辨率图像和边界边缘提取的线, 以查找道路候选者。在文本检测的情况下, 类似的策略需要一个整体多尺度的图像金字塔;此外, 使用此方法还不太可能检测到小或薄文本。
关于对血管分割的调查, 参考[13]。本领域的工作使用模型拟合 (蛇, 广义气瓶), 脊线 (脊算子, 二值化后细化, 小波) 等方法。使用容器宽度作为从用户指定的种子开始跟踪船只的附加功能的研究包括[14、15]。现有的作品中没有一项试图以自下而上的方式直接探测容器。
3. 文本检测算法
在本节中, 我们描述了文本检测算法。我们首先定义笔画的概念, 然后解描边宽度转换(3.1), 以及它如何用于将像素分组为字母候选 (3.2)。最后, 我们描述了将字母分组为更大的单词和线条构造的机制, 使其能够进一步进行过滤 (3.3)。该算法的流程图见图5。
3.1. 描边宽度转换
描边宽度转换(简称 SWT) 是一个图像局部算子, 它计算每个像素中包含像素的最可能笔画的宽度。SWT 的输出是大小等于输入图像大小的图像, 其中每个元素都包含与该像素关联的描边的宽度。我们将笔画定义为图像的连续部分, 它形成一个几乎恒定宽度的波段, 如图 3 (a) 所示。我们并不假设知道笔画的实际宽度, 而是要恢复它。
图 3: SWT 的实现。(a) 典型中风。此示例中笔画的像素比背景像素暗。(b) p是笔画边界上的一个像素。在 p 的渐变方向上搜索,导致查找q, 即笔画另一侧的相应像素。(c) 沿射线的每个像素由其当前数值的最小值和笔画的发现宽度分配。
SWT 的每个元素的初始值都设置为∞。为了恢复笔画, 我们首先用Canny的边缘检测器[16]计算图像中的边缘。之后, 考虑每个边缘像素的渐变方向 dp (图 3b). 如果位于笔画边界上, 则 dp 必须与描边的方向大致垂直。我们遵循的射线 r=p+n·dp, n> 0, 直到找到另一个边缘像素 q 。然后, 我们考虑渐变方向 dq 在像素q 。如果 dq 大致与 dp (dq ±π/6) 相对, 则 SWT 输出图像的每个元素对应于像素在段中, 被分配为宽度, 除非它已经具有较低的值 (图 4a)。否则, 如果找不到匹配的像素 q , 或者 dq 不在 dp的对面, 则会丢弃该射线。图3显示了 SWT 计算的过程。
如图4b 所示, 在上面描述的第一个通过后, 在更复杂的情况 (如角) 中的 SWT 值不会是真正的描边宽度。因此, 我们再次传递每一个非丢弃的射线, 计算出所有像素的中间 swt 值 m , 然后将该射线的所有像素设置为 m 上的 swt 值等于 m .
图 4: 用 SWT 值填充像素。(a) 在垂直和水平光线穿过它的长度之间, 用最小的红色像素填充一个例子。存储适当的描边宽度值。(b) 红色像素的例子存储两个射线长度之间的最小值;这不是真正的描边宽度-这显示了第二个传递的必要性 (请参见文本)。
此处描述的 SWT 算子在图像的边缘像素数中是线性的, 并且在训练阶段确定了最大描边宽度中的线性。
3.2. 查找信函候选者
SWT 的输出是一个图像, 其中每个像素包含它所属的最可能笔画的宽度。算法的下一步是将这些像素分组为字母候选。在本节中, 我们讲述了为实现这一目的而采用的一套相当普遍的规则。
如果两个相邻像素的描边宽度相似, 则可以组合在一起。为此, 我们修改经典连接组件算法[17], 方法是将关联规则从二进制掩码更改为比较像素 SWT 值的谓词。我们发现一个非常保守的比较是足够的, 并组两个相邻的像素, 如果他们的 SWT 比率不超过3.0。本局部规则保证了平滑变化宽度的笔画也将组合在一起, 从而允许更精致的字体和透视扭曲 (图 8)。为了在深色背景上同时容纳明亮的文本, 反之亦然, 我们应用该算法两次, 一次沿 dp , 一次沿-dp.
我们现在需要识别可能包含文本的组件。为此, 我们采用了一套相当灵活的规则。每个规则的参数在[8]的训练集学习。我们执行的第一个测试是计算每个连接的组件中描边宽度的方差, 并拒绝其方差过大的值。这就排斥了像树叶这样的地区, 在许多自然意象中, 包括城市和乡村场景中都很盛行, 而且被认为很难区分。如图 1 (c) 所示, 此测试足以区分比叶子更一致的文本区域。学习的阈值是特定连接组件的平均描边宽度的一半。
许多自然过程中可能产生长而窄的成分, 可能会被误认为是某个字母。附加规则通过将它们的纵横比限制为介于0.1 和10之间的值, 从而降低这些组件的外观。同样, 我们限制连接的分量的直径和它的中值笔画宽度的比值小于10。
另一个常见问题是连接的组件可能环绕文本, 如符号帧。我们通过确保组件的边界框包含不超过两个其他组件 (这通常发生在斜体文本中) 来消除这些问题。
最后, 大小太小或太大的组件可能会被忽略。从我们的训练集学习, 我们将可接受的字体高度限制在10和300像素之间。使用高度测量功能使我们能够检测到连接的脚本, 如手写体和阿拉伯字体, 以及由于边缘检测阶段的混淆和不完善而使单词中的小写字母变得连接的倾向。
其余的组件被认为是字母候选者, 在下一节中我们将描述这些内容是如何凝聚成文字和文本行的。
通过优化性能, 在完全标注的训练集[8]上学习了几何测试的所有阈值。具体来说, 在训练集上, 我们计算了在每个边界框 (由注释提供) 中表示字母的连接组件, 方法是使用 "大津" 算法[20]进行自适应二值化, 然后提取连接的组件。我们调整了每个过滤规则的参数, 以便检测到99% 的连接组件。
3.3. 将字母分组到文本行
为了进一步提高算法的可靠性, 我们继续向前迈进一步来考虑字母组。
查找这些组是一个重要的过滤机制, 因为单字母通常不会出现在图像中, 这种推理使我们能够去除随机散布的噪声。
文本的一个重要提示是它以线性形式出现。行中的文本应具有相似性, 包括相似的描边宽度、字母宽度、高度和字母和单词之间的空格。包括这种推理证明是简单和有价值的。例如, 汽车车轮旁边的灯柱不会被误认为是字母 "O" 和 "I" 的组合, 因为柱子比轮子高得多。我们认为每对字母候选者有可能属于同一文本行。两个字母的考生应该有类似的笔画宽度 (比例之间的笔画宽度必须小于 2.0)。字母的高度比不得超过 2.0 (由于大写和小写字母之间的差异)。字母之间的距离不得超过宽度的三倍。
另外, 对配对的平均颜色进行比较, 因为同一单词中的字母通常会以相同的颜色书写。所有参数都是通过优化培训集的性能来了解的, 如第3.2 节所述。
在算法的下一个步骤中, 所确定的候选对被聚集在一起成链。最初, 每个链由一对字母候选者组成。两个链可以合并在一起, 如果他们共享一端和有相似的方向。当无法合并任何链时, 该进程结束。每个生成的链足够长 (至少3个字母在我们的实验中) 被认为是一个文本行。
最后, 文本行被分成不同的单词, 使用一种启发式方法计算连续字母之间的水平距离直方图, 并估计将单词内的字母距离与单词间字母隔开的距离阈值。距离.虽然问题一般不需要这一步, 我们这样做是为了比较我们的结果与那些在 ICDAR 2003 数据库[8]。在我们的数据库显示的结果[26]我们不使用这个步骤, 因为我们已经标记了整个文本行。
4. 实验
为了提供基线比较, 我们在[24]中的公共可用数据集上运行了我们的算法。它在二个最新文本检测比赛使用了: ICDAR 2003[8]与 ICDAR 2005[9]。虽然在比赛后已经发表了几篇文字检测作品, 但没有人声称在这个数据库上取得更好的成绩;此外, ICDAR 数据集仍然是自然场景中最广泛使用的文本检测基准。
由于无法进行自定义数据集, 许多其他工作仍然无法进行比较。ICDAR 数据集在训练集和测试集中的251个图像中包含258个图像。图像是全彩色的, 大小从307×93到1280×960像素不等。将算法与-f度量进行比较, 这本身就是两个度量值的组合:查准率和查全率。我们遵循[8]并且描述这些在这里为完整性缘故。
图 6: ICDAR 测试集的多个图像上的文本检测结果。请注意, 误报的数量很少。
每个算法的输出是一组矩形, 用于指定检测到的单词的边界框。此集称为“估计值”(参见图 6)。在数据集中提供了一组称为“目标”的地面真相框。两个矩形之间的匹配mp 定义为相交区域除以包含两个矩形的最小边界框的区域。此数字对于没有交集的矩形, 其值为同一个矩形和零。对于每个估计矩形, 在目标集合中找到最接近的匹配项, 反之亦然。因此, 最佳匹配 ;对于 矩形在一组矩形中由定义
m(r;R)=max{mp(r;r0)|r0εR}
(1)
然后, 准确率和召回率的定义为 (2)
(3)
其中T和E分别是地面真值和估计矩形的集合。
标准的f度量值用于将精度和召回数字组合为单个质量度量值。这些值的相对权重由一个参数控制, 我们将其设置为 0.5, 以使精确率和召回率的权重相等:
(4)
表1显示了在 ICDAR 数据库上测试的不同算法的精度、回调和f之间的比较。
为了确定描边宽度信息 (3.1 节) 和几何滤波 (3.2 节) 的重要性, 我们还在测试集上另外运行了两个配置中的算法: 配置 #1 将所有描边宽度值小于∞设置为 5 (更改此常量不会显著影响结果)。配置 #2 已关闭几何筛选。在这两种情况下, 精度和回调下降 (在配置 #1中p = 0.66, r = 0.55 , 在配置 #2中p = 0.65, r = 0.5 )。这显示了 SWT 提供的信息的重要性。
在图7中, 我们显示了未检测到文本的典型情况。这是由于强烈的突出显示、文本的透明度、超出界限的大小、过度模糊和曲线基线。
Algorithm
|
Precisi on
|
Recall
|
f
|
Time
(sec.)
|
Our system
|
0.73
|
0.60
|
0.66
|
0.94
|
Hinnerk Becker*
|
0.62
|
0.67
|
0.62
|
14.4
|
Alex Chen
|
0.60
|
0.60
|
0.58
|
0.35
|
Qiang Zhu
|
0.33
|
0.40
|
0.33
|
1.6
|
Jisoo Kim
|
0.22
|
0.28
|
0.22
|
2.2
|
Nobuo Ezaki
|
0.18
|
0.36
|
0.22
|
2.8
|
Ashida
|
0.55
|
0.46
|
0.50
|
8.7
|
HWDavid
|
0.44
|
0.46
|
0.45
|
0.3
|
Wolf
|
0.30
|
0.44
|
0.35
|
17.0
|
Todoran
|
0.19
|
0.18
|
0.18
|
0.3
|
Full
|
0.1
|
0.06
|
0.08
|
0.2
|
表 1: 文本检测算法的性能比较。有关 ICDAR 2003 和 ICDAR 2005 文本检测竞争的详细信息, 以及参与算法, 请参见[9]和[10]。
* 未发布该算法。
为了比较我们的结果[7], 我们实施了在那里提出的比较措施。我们的算法性能如下: 单词召回率为 79.04%, 笔画精度为 79.59% (因为我们对笔画的定义[7]不同, 我们计算了地面真值矩形内外的连通分量。此外, 我们计算像素精度, 地面真相矩形内的像素数除以检测到的像素总数。这个比率是90.39%。这优于[7]中显示的结果
除了提供 ICDAR 数据库的结果外, 我们还为自然图像中的文本检测提出了一个新的基准数据库[26]。该数据库, 将免费从我们的网站下载, 包括307彩色图像大小不等, 从1024x1360 到1024x768。由于存在植被、重复模式 (如 windows)、几乎无法区分文本没有OCR , 数据库比 ICDAR 困难得多。我们的算法在数据库上的性能如下: 精度: 0.54, 召回: 0.42, f-度量值: 0.47。同样, 在测量这些值时, 我们遵循了[8] 中描述的方法。
由于我们的算法的副产品之一是字母掩码, 此掩码可以用作文本分割掩码。为了评估算法所产生的文本分割的可用性, 我们提出了一个现成的 OCR 包, 其中包含文本, 另外还带有表示文本背景的二值化图像。分割.在这两种情况下, OCR 的结果如图11所示。
5. 结束语
在这项工作中, 我们展示了如何利用恢复的笔触宽度的想法, 文本检测。我们定义了笔画的概念, 并导出了一个有效的算法来计算它, 产生一个新的图像特征。一旦恢复, 它提供了一个功能, 已证明是可靠和灵活的文本检测。不像用于文本检测以前的特点,提出结合密度估计(SWT的计算在每一个像素)与非局部范围(笔画宽度取决于所包含的信息,有时在很远的像素)。与最近的可用测试相比, 我们的算法达到了第一位, 速度大约是它的15倍。该功能具有优势, 足以自行使用, 不需要实际字符识别步骤, 在一些以前的作品使用[3]。这使我们可以将该方法应用于许多语言和字体。
这项工作有几种可能的扩展。通过考虑恢复笔画的方向, 可以提高字母分组。这也可能允许检测曲线文本行。我们打算在未来探索这些方向
参考文献
[1] J. Liang, D. Doermann, H. Li, "Camera-based analysis of text and documents: a survey", International Journal on Document Analysis and Recognition", 2005, vol. 7, no 2-3, pp. 83-200
[2] K. Jung, K. Kim, A. K. Jain, “Text information extraction in images and video: a survey”, Pattern Recognition, p. 977 – 997, Vol 5. 2004.
[3] X. Chen, A. Yuille, "Detecting and Reading Text in Natural Scenes", Computer Vision and Pattern Recognition (CVPR), pp. 366-373, 2004
[4] R. Lienhart, A. Wernicke, “Localizing and Segmenting Text in Images and Videos” IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 12, NO. 4, APRIL 2002, pp. 256-268
[5] A. Jain, B. Yu, “Automatic Text Location in Images and Video Frames”, Pattern Recognition 31(12): 2055-2076 (1998)
[6] H-K Kim, "Efficient automatic text location method and content-based indexing and structuring of video database". J Vis Commun Image Represent 7(4):336–344 (1996)
[7] K. Subramanian, P. Natarajan, M. Decerbo, D. Castañòn, "Character-Stroke Detection for Text-Localization and Extraction", International Conference on Document Analysis and
Recognition (ICDAR), 2005
[8] “ICDAR 2003 robust reading competitions”, Proceedings of Seventh International Conference on Document Analysis and Recognition, 2003, pp. 682-68
[9] “ICDAR 2005 text locating competition results”, Eighth International Conference on Document Analysis and Recognition, 2005. Proceedings. pp 80-84(1)
[10] L.i J. Quackenbush, "A Review of Techniques for Extracting Linear Features from Imagery", Photogrammetric Engineering & Remote Sensing, Vol. 70, No. 12, December
2004, pp. 1383–1392
[11] P. Doucette, P. Agouris,, A. Stefanidis, "Automated Road Extraction from High Resolution Multispectral Imagery", Photogrammetric Engineering & Remote Sensing, Vol. 70, No. 12, December 2004, pp. 1405–1416
[12] A. Baumgartner, C. Steger, H. Mayer, W. Eckstein, H. Ebner, "Automatic road extraction based on multi-scale, grouping, and context", Photogrammetric Engineering & Remote Sensing, 65(7): 777–785 (1999)
[13] C. Kirbas, F. Quek, "A review of vessel extraction techniques and algorithms", ACM Computing Surveys (CSUR), Vol. 36(2), pp. 81-121 (2004)
[14] S. Park, J. Lee, J. Koo, O. Kwon, S. Hong, S, "Adaptive tracking algorithm based on direction field using ML estimation in angiogram", In IEEE Conference on Speech and Image Technologies for Computing and Telecommunications. Vol. 2. 671-675 (1999).
[15] Y. Sun, "Automated identification of vessel contours in coronary arteriogramsby an adaptive tracking algorithm", IEEE Trans. on Med. Img. 8, 78-88 (1989).
[16] J. Canny, “A Computational Approach To Edge Detection”, IEEE Trans. Pattern Analysis and Machine Intelligence, 8:679714, 1986.
[17] B. K. P. Horn, “Robot Vision”, McGraw-Hill Book Company, New York, 1986.
[18] J. Gllavata, R. Ewerth, B. Freisleben, “Text Detection in Images Based on Unsupervised Classification of High-Frequency Wavelet Coefficients”, 17th International Conference on Pattern Recognition (ICPR'04) - Volume 1, pp. 425-428
[19] H. Li, D. Doermann, O. Kia, "Automatic Text Detection and Tracking in Digital Video", IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 9, NO. 1, JANUARY 2000
[20] N. Otsu, "A threshold selection method from gray-level histograms". IEEE Trans. Sys., Man., Cyber. 9: 62–66 (1979)
[21] V. Dinh, S. Chun, S. Cha, H. Ryu, S. Sull "An Efficient Method for Text Detection in Video Based on Stroke Width Similarity", ACCV 2007
[22] Q. Ye, Q. Huang, W. Gao, D. Zhao, "Fast and robust text detection in images and video frames", Image and Vision Computing 23 (2005) 565–576
[23] Y. Liu, S. Goto, T. Ikenaga, "A Contour-Based Robust Algorithm for Text Detection in Color Images", IEICE TRANS. INF. & SYST., VOL.E89–D, NO.3 MARCH 2006
[24] http://algoval.essex.ac.uk/icdar/Datasets.html.
[25] C. Jung, Q. Liu, J. Kim, "A stroke filter and its application for text localization", PRL vol 30(2), 2009
[26] http://research.microsoft.com/enus/um/people/eyalofek/text_detection_database.zip