目 录
1 课题意义与选题依据 3
1. 1课题的意义 3
1. 2研究课题国内外现状 4
2研究目标与内容 8
2.1研究目标 8
2.2研究内容 8
2.3 关键问题与创新点 8
2.3.1 关键问题 8
2.3.2 创新点 9
3研究方案及技术路线 9
3.1研究方案 9
3.2技术路线 10
4研究工作基础 11
4.1知识储备与研究条件 11
4.2可能遇到的问题及解决办法 13
4.2.1 可能遇到的问题 13
4.2.2 解决办法 13
5研究工作计划及进度安排 14
5.1研究工作计划及进度安排 14
5.2预期成果 14
参考文献 15
1 课题意义与选题依据
1. 1课题的意义
随着科技不断发展,人工智能与生活的结合已逐渐成为潮流,人工智能领域也再度成为各大行业关注的焦点。“AI+”逐渐和“互联网+”一起推动整个社会科技的发展。人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别和自然语言处理等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,其中自然语言处理(NLP)是计算机科学,人工智能,语言学和人类(自然)语言之间的相互作用的领域,它融语言学、计算机科学、数学于一体。这一领域的研究将涉及自然语言即对人们经常使用的语言进行各种分析处理,所以它对于各种语言学的研究有着重要的意义。
中文自然语言处理是对汉语的各级语言单位(字、词、语句、文章等)进行自动加工处理的技术[1],是自然语言处理技术在中文方向应用的体现,使计算机可以分析和处理中文自然文本。而计算机在进行中文自然语言处理时一般是以词为最小单位的,更深层次的语言语义分析,比如POS tagging, chunking, parsing都是以中文分词技术为基础的。我们知道,在英文文本中,单词之间是以空格作为自然分界符的。中文和英文比起来,有其自身的特点,就是中文以字为基本书写单位,句子和段落通过分界符来划界,但是词语之间没有一个形式上分界符。也就是说,从形式上看,中文没有“词"这个单位[3]。所以中文分词是汉语自然文本处理的基础问题之一。因此,中文分词技术是做中文自然语言处理必不可少的一项关键技术。
中文分词相关研究开始于20世纪80年代初,自2003年国际中文分词评测活动Bakeoff正式开展至今,中文自动分词技术有了长足的进步。中文分词技术发展到目前为止已经提出很多各具特色的方法,包括基于字典匹配、基于规则的方法、基于统计的方法和基于神经网络的方法等。经过多年的探索发展,中文分词技术已经进入了实用化阶段,广泛应用于机器翻译、信息检索、语义识别等领域[4]。
随着计算机技术和自然语言处理技术的发展,对于古汉语文章书籍的组织、采录、收集、整理、纂修、审定也大多转移到了计算机上。古代汉语,是与现代汉语相对而言的,古代汉族群众的语言。广义的古代汉语的书面语有两个系统:一个是先秦口语为基础形成的上古汉语书面语及其后人用这种书面语写成的作品,也就是我们所说的文言;另一个是六朝以后在北方方言的基础上形成的古代白话[2],狭义的古代汉语书面语就是指文言文。由于古汉语的专业性,古汉语自然文本的采录、处理和分析过程大多由专业的古汉语研究者来操作,整个过程十分消耗人力物力。自然语言处理技术与古汉语处理的结合使人们可以用处理一般文本的方式处理晦涩的古汉语,而无需再花大量的时间和精力去学习和检索不符合现代人习惯的古汉语语法。
古汉语分词研究可以服务于古汉语学术研究,是古汉语自然语言处理领域后续的机器翻译、情感分析和语义识别等工作的基础;与此同时,词语的标注是NLP任务预处理中的重要步骤,再进行句法分析就容易多了,对于字、词用法灵活的古代汉语来说词语标注也至关重要。古汉语分词、标注研究对于古文字学、出土文献以及古史等古汉语人文研究具有重要意义。不仅如此,针对古汉语的研究对于现代汉语处理也具有一定的帮助作用,因为在现代汉语中仍然存在不少古汉语语句词汇的存留,现代汉语文本中也会存在古代汉语的诗句、文章的引用,针对于现代汉语语言特点设计的自然语言处理系统在面对古汉语的诗句时处理有效性必将受到影响,因此古汉语分词及标注系统的研究也将是现代汉语研究的重要补充。
然而目前对于中文分词及标注系统的大量研究成果主要是针对现代汉语,在古汉语分词及标注领域的研究成果相对较少。因为古代汉语在文字、词法和句法等诸多方面与现代汉语有很大的不同,例如古汉语在文字上是使用繁体字,而现代汉语大多用简体字;词法上古汉语词类活用更为丰富,词类分工并不明确,现代汉语词汇意思大多固定,词类活用的例子并不多见;句法上,古汉语在判断句中大多以名词或名词短语作谓语,现代汉语的判断句中用‘是’做谓语;从词汇构成方面来看,现代汉语以Bakeoff-2003和Bakeoff-2005训练语料库词为例,表一说明现代汉语中单音词和双音词占语料库的绝大部分,其中单音词占54%,双音词占39.3%[4]。古汉语这边以上古、中古汉语训练集为例,其中单音节词占所有词的比例仅为25%,但是其使用频率为80%,远远高于双音节及其他多音节词。
表1 Bakeoff-2003和Bakeoff-2005训练语料库词长频率分布
词长 AS2003 AS2005 CityU2003
1 0.5447 0.5712 0.4940
2 0.3938 0.3787 0.4271
≥3 0.0615 0.0501 0.0789
基于古汉语与现代汉语的以上不同,尤其是词频、 词类活用的问题,对古汉语分词标注系统增加了很大的难度,许多对现代汉语的大量研究成果不能直接应用于古代汉语处理领域中去。在古代汉语有关的领域中,如古汉语学术研究、古汉语文章检索与校对、自动翻译等,均以古汉语分词及标注为基础,若古汉语分词及标注正确率不能达到实际应用水平,则上述领域均寸步难行。所以本文决定针对古代汉语分词及标注系统做专题性的研究。
1. 2研究课题国内外现状
从1983开始,国内外的研究者在中文分词及标注领域进行了广泛的研究,提出了一些有效的算法。
1.2.1分词算法