目 录
实验-1 中文分词 1
1.1 实验目的 1
1.2 预备知识 1
1.3 实验任务 2
实验-2 基于BiLSTM-CRF的命名实体识别 4
2.1 实验目的 4
2.2 预备知识 4
2.3 实验任务 6
实验报告提交 7
实验-1 中文分词
1.1 实验目的
通过实验了解中文分词的大致思路。在实验中实现中文分词处理,可考虑使用课堂讲解过的算法(比如基于统计、基于词典的分词方法等),或者课外学习算法(比如Bi-LSTM+CRF模型等)进行分词,最后对比不同算法分词效果和性能,加深对中文分词算法的理解。
1.2 预备知识
中文分词指将汉字序列切分成单个词语的过程。在以英文为代表的拉丁语系中,单词之间是以空格作为自然分界符的。而中文只有字、句和段能通过明显的分界符来划界,唯独词没有一个形式上的分界符,这给中文的处理带来了独有的困难,因此中文分词技术得到了广泛研究。
理论上讲,构建一套完备的分词规则便可以将所有句子正确划分,但语言规则庞大复杂并且是动态发展的,编写这样一套规则是不现实的,因此目前主流的分词方法可以大致分为:(1)基于词典匹配的分词算法;(2)基于统计学习的分词算法;(3)基于深度学习的分词算法等。
1.2.1 基于词典匹配的分词算法
基于词典匹配的分词算法依赖人工建立的词库(词典)进行,包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。这里给出正向最大匹配法的大致流程:
1.从左向右取句子的前m个字作为匹配字段(m为词典中最长词的长度)
2.查找词典进行匹配
3.若匹配成功,则将该字段作为一个词切分出去
4.若匹配不成功,则将该字段最后一个字去掉,剩下的字作为新匹配字段,再次进行匹配
5.重复上述过程,直到切分所有词为止
逆向最大匹配法则从待分词句子的末端开始,也就是从右向左开始匹配扫描,每次取末端m个字作为匹配字段,匹配失败,则去掉匹配字段前面的一个字,继续匹配。双向最大匹配法将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,选取更为合适的作为结果。这里给出一种选择方式:
1.如果正反向分词结果词数不同,取分词数量少的那个
2.如果分词结果词数相同:
a)分词结果相同,没有歧义,返回任意一个
b)分词结果不同,返回其中单字数量较少的那个