面向视障人士的文本阅读器
1.1. 1莫赫德纳迪尔AbWahab,1艾哈迈德·苏弗里尔·阿兹兰·穆罕默德2AbdulSyafiq阿卜杜勒苏科,1天藤
1马来西亚圣大学计算机科学学院,11800,槟城
2马来西亚秘鲁大学先进传感器技术中心(CEASTech),邮编:02600
*通讯作者:mohdnadhir@usm.my
摘要。世界上大约有13亿人患有视力障碍问题。他们通常需要用盲文来阅读印刷材料。然而,当这些材料没有用盲文印刷时,这些人也有局限性。虽然有很多电子设备可以帮助他们阅读,但价格太贵了,负担不起。因此,本文提出了一种为视障人士设计的经济实惠的移动应用程序。该移动应用程序能够用移动照相机捕捉打印材料的图像。然后利用光学字符识别(OCR)框架中的图像到文本转换,将捕获的图像转换为文本。最后,使用文本到语音(TTS)框架中的文本到语音转换,将文本读取为语音格式。因此,有视力障碍的人可以通过倾听而不是触摸来理解不是用盲文写的印刷材料。提供了一些警报声音,让用户知道在移动应用程序中到底发生了什么。它对视障人士是用户友好的,因为设计的系统有良好的指导,所以他们可以了解应用的过程。
1. 介绍
视力障碍是指失去了作为正常人看清能力的人。根据世界卫生组织(世卫组织)的数据,全球约有23亿人患有某种形式的视力障碍,占世界人口[1]的三分之一。这些人通常被剥夺了阅读文本信息的能力,这限制了他们在世界上的阅读流动性。根据国际疾病分类(ICD-112019版),如果一个人的距离视力低于3/60,则视为约有3600万人视力受损[2]。
表1显示了世界各地视力损害的类别。距离视力是识别个体视力损害类别的基本测量方法。距离视力的测试是通过使用不同大小的字母排列,称为斯奈伦图[3]。一个人用一只眼睛进行眼睛测试,然后遮住另一只眼睛。视障人士的视力小于3/60,这意味着这个人能识别的最小字母大小是3米内60或比[4]更差。
当涉及到读写时,视力障碍的人使用盲文系统。盲文的系统是一个“基本细胞”,由六个像多米诺骨牌一样排列的点组成,每个盲文的字母是由这个基本细胞[5]的点的组合组成的。总共有63种可能的点组合,不仅包含在字母表中,还可以代表标点符号,还有一组字母
本作品的内容可以根据知识共享署名3.0许可的条款来使用。该作品的任何进一步分发都必须保持归因于作者(s)和作品的标题,期刊引文和DOI。
由IOP出版有限公司授权出版 1
被称为缩写词,如不是,不是,不和其他[6]。虽然盲文是对视力障碍的人有用的语言,但该系统有一些局限性。
表1。视力损害的类别[2,3]
1.2. 视觉类别
损害程度
表示距离的视力
替代定义
温和的 或正常
无或轻微 优于6/18 正常/接近正常
低视力 中等 小于6/18 中度低视力
严重的 小于6/60 可以看到60个字体字母吗
在6米或以下的失明 发现的 小于3/60 可以看到60个字体字母吗
在3米或更少的地方,接近总数 小于1/60 可以看到60个字体字母吗
在1米或以下
合计 无光感知 完全失明。
包括无眼
研究人员进行的一项调查发现,使用盲文的儿童的平均阅读率刚好不到使用视觉[7]的印刷读者的阅读率的一半。这是因为正常人的眼睛可以一次读到几个单词,但用手指,它只能一个接一个地通过盲文。还有一些有限的阅读材料,如书籍、论文和期刊,没有用盲文印刷。有很多电子设备可以帮助视障人士阅读,但它们是相对昂贵的[8],这导致限制了视障人士可以使用的阅读媒体。此外,学习一种新的盲文语言和使用一种新的电子设备[9]是非常耗时的。
本文提出了一种可用智能手机应用的方便视障人士的应用程序。移动应用程序的设计是为了允许用户捕获印刷材料的图像。然后使用光学字符识别(OCR)方法[10]将图像转换为文本。在此之后,构建的文本将被转换为语音,并使用文本到语音(TTS)框架[11]进行说话。
2. 系统设计
2.1. 系统架构
无花果 1.文本阅读器的系统体系结构
图1显示了文本阅读器系统的系统体系结构。用户需要在他们的安卓智能手机中安装文本阅读器应用程序。他们将把一个图像作为应用程序的输入,它将处理系统中的图像(将图像转换为语音)。处理后,文本阅读器应用程序将将语音的输出转换为用户应用程序,并以语音模式向用户说话。
在所设计的系统中有三种不同类型的模块。首先,使用预处理图像模块将原始图像转换为更好的表示方式。这将有助于获得一个清晰的输出结果。然后,利用OCR模块,使用OCR算法将捕获的图像转换为文本。最后,将获得的文本在TTS模块中转换为语音模式。表2给出了用户应用程序系统中每个模块的细分信息。
表2。文本阅读器系统的详细信息
不
|
1
|
2
|
3
|
模块
|
预处理图像
|
光学字符识别系统(OCR)
|
文本到语音(TTS)
|
输入
|
图像
|
预处理图像
|
文本
|
输出
|
预处理图像
|
文本
|
演讲
|
描述
|
对用户捕获的图像进行预处理,以获得更清晰的图像和更准确的结果。
|
预处理后的图像将通过OCR技术转换为英文文本。
|
从OCR获得的文本将通过TTS技术转换为语音,并转移回前端用户应用程序进行发言
用户
|
2.2. 文本阅读器系统的流程图
无花果 2.文本阅读器系统的流程图
图2显示了文本阅读器系统的流程图。从一开始,它就将打开摄像头,允许用户捕捉到一幅图像。如果用户已经捕获了图像,它将继续处理图像,如果用户不想再捕获图像,应用程序将停止。在图像处理中,它将捕获的图像转换为文本,并将文本转换为语音。在转换完成后,它将显示文本。然后,用户可以选择是捕获另一个图像还是终止应用程序。
3. 系统实施
3.1 模块实施
安卓Studio[12]用于为文本阅读器系统创建移动应用程序。它被分为两个部分,即用户侧和系统侧。用户侧可以作为用户使用的前端界面(前端),用户可以查看。同时,系统侧是产生系统输出所采取的过程。它充当了系统的后端。图3展示了该系统的模块实现。每个系统由三个模块组成,分别为“检查权限”、“捕获图像”和“图像显示的结果”,系统侧为“图像预处理图像”、“将图像转换为文本”和“将文本转换为语音”。
无花果 3.移动应用程序的实现
3.2 用户实现
3.2.1 检查权限模块
当用户启动文本阅读器应用程序时,通知“文本阅读器,欢迎启动”。将被播放,以提醒用户应用程序已经启动和处理(图4)。然后,系统将使用弹出的消息来询问图像存储和相机权限。
|
|
|
无花果 4.文本阅读器的主页
如果安卓手机系统的运行水平低于Android6.0(API级别23),而应用程序的目标sdk版本低于23,那么它没有任何应用程序权限,因此用户可以直接使用手机摄像头,如图5所示。
无花果 5.在文本阅读器中请求权限
对于需要用户允许权限的情况,文本阅读器应用程序将发出“需要电话权限”的通知声音,以提醒视力受障人士要求进行设置。如果权限被拒绝,应用程序将被终止,只有如果用户同时允许相机和存储权限,它才会处理使用相机。如果选择了“拒绝&不要再问”,它将终止应用程序,并不能启动,除非用户改变了他们在电话设置中的权限。当应用程序因权限问题而终止时,将弹出“某些权限被拒绝”的消息。
由于文本阅读器应用程序需要人们帮助视力障碍者进行安装,因此它也请求人们在首次启动该应用程序时设置手机的权限。
3.2.2 捕获图像模块
在允许摄像头和存储权限后,系统将启动手机的OpenCV摄像头,并在横向模式下自动调整屏幕。通知声音“摄像头打开,请指向文档。”将在相机打开时出现,并提醒用户,他/她需要指向文档来捕捉图像。
该系统将检测到代表打印文档的图像的矩形形状,并使用红色来绘制矩形的轮廓,如图6所示。如果用户无法检测到任何矩形形状(没有文档),并要求它们直接指向打印出来的文档,那么它将保持警惕。当检测到矩形对象时,会播放“向右移动”、“向左移动”、“向前移动”、“向后移动”或“向下移动”等通知声音,以确保检测到的矩形对象在屏幕中间,不会太小。
无花果 6.文本阅读器中的摄像头
当所有的要求都满足了(矩形对象固定在屏幕中间,不要太小),它将播放声音“保持2秒”,然后自动捕捉图像。用户还可以使用音量下降按钮来捕捉图像。在这个应用程序中有三种方法可以捕捉图像,自动捕捉,点击屏幕中间底部的按钮和音量下降按钮,可以很容易地通过触摸找到。
当图像被捕获时,“图像被捕获”。播放“已保存的图像”来提醒用户。然后,它将处理将捕获的图像转换为语音(后端),并将通知的声音“请等待,图像正在转换为文本”。该系统还允许用户使用音量向上按钮退出应用程序。
3.2.3 图像结果模块
在将图像转换为文本后,它将在屏幕上显示文本,如图7所示。它有两种情况,如果字符串文本包含超过60%的英语单词,它将播放声音“转换是完成的”。使用音量下降按钮返回,相机和音量上升按钮退出。按任何地方开始或停止语音”,如果在第二种情况下,字符串文本中的英语单词低于60%,警报声音将播放,“完成转换。结果不好,您可以使用音量下降按钮返回相机或音量上升按钮退出。如果你仍然想检查结果,请按任何地方开始和停止演讲。”
无花果 7.查看捕获的图像
对于情况1,捕获的图像更清晰,结果良好,但对于情况2,可以假定是模糊的图像,而不是文本或英文的图像。它将请求用户再次捕获图像,但也允许用户收听结果文本。
对于这两种情况,它都会继续提醒用户播放,并通过按屏幕上的任何空间来停止语音。然后文本将以“已捕获的图像文本为”的格式向用户说话
“当用户按下屏幕上的任何空间时。它还将使用音量下降按钮返回相机(捕捉另一张图像)或使用音量上升按钮退出这个应用程序,声音“再见,再见”将被播放。
3.3 系统实施
3.3.1 图像预处理模块
捕获图像后,它将进入后端系统。图像将形成4个不同的方向,每幅图像通过转换为灰度图像,进行预处理,获得Otsu阈值,去除噪声,调整文档的角度(适合屏幕)等,以获得更好的结果。使用Python编程和OpenCV进行后端进程。
3.3.2 图像到文本模块
预处理后的图像(4幅不同方向的图像)将使用Tesseract转换为文本,并存储每个结果。每个图像的字符串文本将进行比较,并选择效果最好的图像。每个字符串文本将检查它是否包含超过15%的特殊符号,如“();*~”。如果使用=“,然后它将被拒绝。如果字符串图像包含的特殊符号小于15%,则它将计算字符串文本中包含的英文单词,并得到英文单词中计数最高的字符串文本。自然语言工具包(NLTK)用于检查字符串文本中的英语单词。
一旦选出英语单词的最高计数,它将检查英文单词在整体文本中是否超过60%。如果超过60%,它将是大小写1,字符串文本将通过使用NLTK纠正一些单词,如“lisr”到“list”,以得到一个更准确的结果。如果字符串文本中包含的英文单词小于60%,则为情况2,并且不会对字符串文本进行更正。
3.3.3 文本到语音模块
字符串文本将通过使用文本语音引擎在安卓工作室。一个包含语音格式的。wav形式的波形文件被创建并存储在电话存储器中。演讲可以在智能手机上使用wave文件播放器来播放。语音波形根据OCR输出的不同文本而变化。
4. 结论与未来工作
总之,文本阅读器系统是一个有用的移动应用程序,可以通过智能手机的相机捕捉图像,帮助视障人士阅读不是用盲文书写的印刷材料。视障人士可以通过按下智能手机的音量下降按钮来捕捉图像,通过触摸或让图像被自动捕捉,人们就可以很容易地找到它。将播放通知声音,继续提醒用户应用程序的过程。图像的文本将被转换为音频,这样用户就可以通过听力阅读印刷材料而不使用视觉。然而,它只局限于检测英语单词和工作良好的无格式印刷材料。
未来的工作将包括增强OCR技术,以识别非常小的单词,并提高打印图像的准确性。此外,该移动应用程序不仅可以转换英语语言,而且还可以转换任何其他语言。同样值得一提的是,该音频也可以用英语以外的其他语言播放(将英语文本翻译成不同的语言语音)。
1.3. 确认
该项目由USM短期资助(PKOMP/6315262)支持,是马来西亚大学(RCVIP)和马来西亚大学(UniMAP)先进传感器和技术中心(CEASTech)合作项目的一部分。
1.4. 参照
[1] 世界卫生组织(世卫组织),《世界愿景报告》。2014.
[2] W.H.组织,《疾病及相关健康的国际统计分类》
问题,”2011年。
[3] I.S.为E.的视力,“20/20视觉活动-眼图”,2006年。
[4] M.鲍文等人。,“痴呆症患者视力障碍的患病率(PrOVIDe研究):一项针对60-89岁痴呆症患者的横断面研究,以及对个人、护理人员和专业观点的定性探索”,“治愈”。保存交付。物品,第10卷。第4页、第21页。1–200,2016.
[5] T.Saba,G.苏龙和A.Rehman,“触摸人物分割的方法和策略调查”,Int。J. Res.发动机的旋转组合。科学。,第10卷。第1页,第2页。103–114,2010.
[6] K.和V.K.,“使用树莓派对视障人士的OCR的实施”,国际科学研究所。J.纯应用程序。数学,第10卷。第119号,第15页。111–117,2018.
[7] D.迪米特罗娃,《视觉障碍学生:盲文阅读率》,国际大学。J.Cogn。物品科学。雕刻Educ。,第10卷。第3页、第1页。1–6,2015.
[8] L.A.Vader,“测量视力和视力损失”。,“苗圃。Clin。北Am。,第10卷。第27页,第3页。705–714,2009.
[9] E.Ashrafi等人。,“1990-2013年伊朗国家和地方国家的视力损害负担;
研究协议,“拱门。伊朗医学,第10卷。第17页,第12页。810–815,2014.
[10] S.K.Singla和R.K.Yadav,“基于光学字符识别的语音合成系统”,J.Appl。物品技术。,第10卷。第12页,第5页。919–926,2014.
[11] N.琼德黑尔和S.古普塔,“使用OCR和机器人文本从图像中提取的文本到语音,”Int。J.最近的Eng。马纳格。物品(ijlemr)。ISSSN2455-4847,卷。03年,没有。04,pp.64– 67, 2018.
[12] H.Esmaeel,“应用安卓工作室(SDK)工具”,Int。J. Adv.物品组合。科学。软。雕刻,第10卷。第5页,第5页。88–92,2019.