目录
1.选题背景及意义 5
2.研究现状分析 5
3.本文算法 6
3.1 算法概述 7
3.2 算法公式、文字描述 8
3.3 算法细节 12
4.实验结果 14
5.讨论和分析 16
5.1结果展示和对比 16
5.2分析 16
6.结论 19
7.学习体会和建议 19
8.小组成员贡献 19
中文摘要
随着网络信息的急剧增长给人们搜索信息带来一定的困难,搜索引擎的出现及时地解决了这个问题,而在搜索引擎中,其最核心的部分之一便是中文分词算法,中文分词算法的分词效率在一定程度上影响着检索词条的速度。在这个互联网信息快速发展的时代,效率无疑是在商场上竞争的核心要素。
本学期,我们在自然语言处理课上学习了多种中文分词算法,在本次大作业中,我们选择了其中的三个算法:最大匹配的三种算法--正向、逆向、双向;基于统计的Uni-Gram模型;隐马尔可夫(HMM)统计模型。首先我们将会根据上课所学内容实现这三种模型的代码,在PKU词典的正确分词级集、测试集和训练集的基础上,针对他们三种算法的召回率、F1 score、准确率这三项指标进行比较,最终将结果打印出来,选出一个最优的算法作为实验结果。
关键词:中文分词算法、比较、准确率、召回率、F1 score
Abstract
With the rapid growth of network information, people have some difficulties in searching information. The emergence of search engine has solved this problem in time. In search engine, one of the most core parts is Chinese word segmentation algorithm. The efficiency of Chinese word segmentation algorithm affects the speed of retrieval entries to a certain extent. In this era of rapid development of Internet information, efficiency is undoubtedly the core element of competition in shopping malls.
This semester, we learned a variety of Chinese word segmentation algorithms in natural language processing class. In this assignment, we selected three of them: three algorithms of maximum matching: forward, backward and bidirectional; uni gram model based on statistics; hidden Markov model (HMM). First of all, we will implement the codes of the three models according to the content learned in class. On the basis of the correct word segmentation level set, test set and training set of PKU dictionary, we will compare the recall rate, F1 score and accuracy rate of the three algorithms. Finally, we will print out the results and select an optimal algorithm as the experimental result.
Key word:Chinese word segmentation algorithm, Comparison, Accuracy, Recall rate, F1 score
1.选题背景及意义
存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:
1.与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。
2.在中文里,“词”和“词组”边界模糊
现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。
例如:“对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准,同样的“海上”“酒厂”等等,即使是同一个人也可能做出不同判断,如果汉语真的要分词书写,必然会出现混乱,难度很大。
中文分词的方法其实不局限于中文应用,也被应用到英文处理,如手写识别,单词之间的空格就不很清楚,中文分词方法可以帮助判别英文单词的边界。
随着网络信息的急剧增长给人们搜索信息带来一定的困难,中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。