目录
1 选题的背景和意义
1.1 选题的背景
1.2 国内外研究现状及发展趋势
2 研究的基本内容
2.1 基本框架
2.2 研究的重点和难点
2.3 拟解决的关键问题
3 研究的方法及措施
4 预期成果
5 研究工作进度计划
参考文献
1 选题的背景和意义
1.1 选题的背景
着计算机技术的飞速发展,信息化产业的不断推进,人类已经进入了信息时代。因此,计算机在人们生活中扮演来越来越重要的角色,已经成为人们各个领域不可缺少的工具,包括科学研究、资源管理、工程计算、办公自动化、教育、通信、娱乐等各种活动。目前计算机已经在运算和数字处理领域取得了卓越的成果,但是在人工智能领域的研究则比较缓慢。人工智能理论自六十年代提出以来,一直是广大计算机科学领域的工作人员关注的热点,并且有无数的科技人员正致力于智能化人机接口的实现。在这个过程中,语言信息的处理作为智能化人机接口的核心技术,是人们关注的热点。
同时随着 Internet 规模迅速膨胀,使信息产业得到了长足的发展。在这个以各种文字信息为途径传播的社会里,无论是个人、企业还是国家,信息的重要性和必要性与日俱增。在信息领域中,80%以上的信息是以语言文字为载体,如果完全依靠人工来整理如此繁多的信息 ,那么工作量是巨大的,也是不现实的,所以就必须借助计
算机进行信息处理。面对计算机网络、个人及大型企业的应用普及,需要处理的各种电子档案,使互联网的网页急剧膨胀。据 2013 年数据统计,每年仅通过电子邮件在全球流通的信息量就已经达到了 4 千亿兆字节,而且所需处理的数据还在每年高速增加,这相当于几万座大型图书馆。因此,如何从海量的信息中快速、准确、有效的找到我们所需要的信息,是摆在我们面前的一个迫切而重要的任务。
在这样的背景下,中文信息处理技术得到了迅速的发展。在计算机产业中,唯有中文信息处理技术是我国的专长,这是任何其他国家所不能比拟的。目前,中文信息处理技术已经广泛应用到各个领域:信息提取、中文校对、文本分类、语音识别、机器翻译、自然语言理解、自动标引和文摘、汉语语音合成等 。同时在商用领域,以互联网公司为例,如百度、谷歌、淘宝网、网易、有道、搜狐和搜狗等,这些基于网络搜索的公司,十分关注中文搜索技术,面对网上海量信息如何进行处理,是广大搜索工作者关注的热点。
中文信息处理主要包括三个平台建设:字处理平台、词处理平台和句处理平台,其中词处理平台是中间环节,是连接字处理平台和句处理平台的关键纽带 。因此,中文信息处理首先要解决的就是词处理环节。众所周知,在英文文本中,单词之间是以空格作为自然的分界符,而相对于中文而言,有其自身的特点,是以连续的中文字
符串形式出现,字与字之间没有明显的分隔标志,只有在句子和段落中通过分界符来划界,从形式上来看,中文没有“词”这个单位 。因此,中文信息处理首先要解决的问题就是词的切分问题,即中文切词问题。
自 20 世纪 80 年代初,我国相关方面的众多专家学者、科研院所和商业机构等开始对中文切词技术进行了深入的研究,经过不懈的努力,取得的成绩是有目共睹的,提出了许多中文自动切词的方法。但是,这些切词方法都存在自身的不足,需要不断的改进。近年来,随着信息的多元化和复杂化发展,信息处理的研究、发展和应用迎来了新挑战,必须跨越传统单纯文本的检索,例如在问答系统中,必须对关键字进行语义分析和处理。因此,必须不断改进信息处理的技术,在速度和性能方面具备更高的指标。由于汉语自身的复杂性,歧义问题和未登录词识别问题仍是急需我们解决的难题,因此中文切词一直都是中文信息处理研究的热点和难点。
1.2 国内外研究现状及发展趋势
自 20 世纪 60 代开始,国外开始了对自然语言处理的研究,并且形成了许多自然语言处理系统,同时广大科研人员在自然语言理解中关于语法分析、语义分析和句语分析方面,提出了一系列的系统理论分析方法。在切词方面,对于英文命名实体识别的研究开始较早,英文命名实体的识别已经达到了较高的水平,在消息理解系列会议(Message Understanding Conference,MUC)测试的