目录
1 选题的背景
2国内外现状
3 CDWS 分词系统和ICTCLAS 分词系统
参考文献
汉语切词研究综述
1 选题的背景
随着互联网的快速发展,信息产业已经走了很长的路。在这个社会中,信息的重要性和必要性在不断增长,它在各种文本信息中传播开来,无论是个人,企业还是国家。在信息领域,80%以上的信息都是基于语言的,如果我们依靠人类来组织如此广泛的信息,那么工作量是巨大的,也是不现实的,所以就必须借助计算机进行信息处理。面对计算机网络、个人和大型企业的应用,需要处理的各种电子文件,使得因特网的网页迅速扩展。根据2013年的统计数据,每年只有全球范围内的信息通过邮件传播达到4000亿字节,而高速增长的数据每年都在增长,这相当于成千上万的大型图书馆。因此,如何从信息质量中快速、准确、高效地找到需要的信息是摆在我们面前的一项紧迫而重要的任务。
在这方面,中国的信息处理技术得到了迅速的发展。在计算机工业中,只有中国信息加工技术是我们的专长,而其他任何国家都不匹配。目前,中国的信息处理技术被广泛应用于各个领域信息提取、中文校对、文本分类、语音识别、机器翻译、自然语言理解、自动标引和抽象、中文语音合成等。同时在商业、互联网公司等领域,如百度、谷歌、淘宝、网易、有道、搜狐、搜狗等,基于互联网搜索,非常关注中国的搜索技术,面对如何处理海量的网上信息,是广大搜索工作者关注的热点。
2国内外现状
自从中文切词概念出现以后,在大量的科研工作人员和专家们的努力工作下,中文分词领域取得了较好的成果并得到了实际应用,对我们快速获取有效信息做出巨大贡献。由于汉语的普遍性还没有那么高,所以国外对于中文切词系统的研究相对国内来说较少,但是国外在自然语言处理领域的技术对于我们中文信息处理研究也有重要的借鉴意义。早在20世纪60年代,第一代自然语言系统是利用关键词匹配技术智能切分输入语句。1972年美国BBN公司设计了第二代自然情报检索系统…LINAR,通过形式提问语言表示提问的语义,来做出对于输入语句的解释,最终将形式提问语言存储于数据库中。该系统的原理为对输入语句分析其语法,然后扩充状态转移网络对输入语句进行句法分析,产生对应该语句句法的句法树,将其翻译成数据库查询语言,最终的结果将通过检索相关数据库信息获取,随后,语法.句法分析技术成为了自然语言处理的主流技术。然而现实语言语法规则迅速改变及互联网技术的快速发展,对于将自然语言规则化的处理方法变得不现实。20世纪80年代,基于语料库统计模型处理自然语言对的方法得到更为广泛的应用,其中CLAWS系统(英国UCREL研究小组设计)是最为典型的系统代表。在国内,梁南元教授最早提出了匹配字典的简单切词方法,即将一个句子从左到右扫描,词典里的词语与代切分的句子进行匹配,当在句子中遍历到词典中的词语时就切分出来,虽然效率不高并且准确度差,但是这种处理方法还是为后来国内研究者提供了新的思路。近几年,随着越来越多的科研人员参与到中文切词的研究工作中,各种切词算法大量涌现,并出现切词速度快且精度较高的实用的切词系统。最具有代表意义的有基于字符串匹配算法(正向、逆向最大匹配和双向匹配),基于理解的切词算法,基于统计的分词算法、基于规则的切词算法和基于神经网络的切词算法等。中文切词科学研究人员主要集中在大学和科研结构等单位,由于很多的方法和重要思想也只是停留在理论方面,使得已经开发的切词系统尚不能满足某些领域的特殊需求,以下是研究过程中出现的几款典型分词系统。
1.CDWS分词系统,北京航空航天大学设计的CDWS分词系统,采用最大匹配的分词算法,并采用纠错技术(词尾字构词)提高分词的准确性,为国内最早的分词系统。该分词系统的特点为结构化、实用、可靠,最终其切分精度约为1/625,分词速度达到了每秒5.10个字。
2.SEGTAG和SEG分词系统为清华大学先后开发设计,其中SEG分词系统是多种分词算法的综合应用,包括全切分.评价切分、待回溯的正向、反向、双向最大匹配算法,系统最终的切分精度达到了99%左右,而分词的速度也成功提高到了每秒30个字。
3.哈尔滨工业大学分词系统的典型特征是应用了统计方法,词语与词频统计相结合,达到上下文识别部分新词的效果,并能够在一定程度上解决部分切分歧义,经过测评,该分词系统错误率可以降低到1.5%,分词速度可以达到每秒236个字。
4.北京大学计算语言学研究机构的分词系统采用了隐马尔科夫模型统计分词方法与词性标注结合,其测评结果中的分词速度达到5000词/秒
5.中科院的ICTCLAS分词系统,是目前为止分词速度与分词精度都让人较为满意的系统,这个完整的中文分词框架模型包括以下几个功能部分,中文分词粗切分,词性标注,未登录词的识别,歧义处理和排除。在分词方面,在全切分结果的基础上,通过N.最短路径的策略,召回前N个最有可能的结果,极大得提高召回率,然后引入隐马尔科夫模型,通过维特比算法标注全局最优的角色序列,最终能够识别出部分未登录词。实验结果显示,切分精度更是达到了98.45%,分词速度达到每秒996KB。通常情况下,分词算法的切分精度和切分速度两者不可兼得。一个评价指标的提高会降低另一个评价指标。一般来说,切分速度快的系统,其切分精度往往不高,反之亦然。在目前主流的一些分词算法中,切分精度有差别不大,但是高精度的算法往往没有一个较快的切分速度,在某些追求响应速度的领域例如搜索引擎就不合适。因此寻求一种切分精度高,