基于Python的三种中文分词方法的性能对比与评分毕业论文+演示PPT+源码-毕业作品网站

设计任务书文档开题答辩说明书格式模板外文翻译范文资料作品文献课程实习指导调研下载网络教育 计算机 网站网页 小程序 商城购物订餐电影安卓 Android Html Html5 SSM SSH Python 爬虫大数据 管理系统 图书校园网考试选题网络安全推荐系统机械模具夹具自动化数控车床汽车故障诊断电机建模 机械手 去壳机千斤顶变速器减速器图纸电气变电站电子 Stm32 单片机 物联网 监控密码锁 Plc 组态控制智能 Matlab 土木建筑结构框架教学楼住宅楼造价施工办公楼给水排水桥梁刚构桥水利重力坝水库采矿环境化工固废工厂 视觉传达 室内设计产品设计 电子商务 物流盈利案例分析评估报告营销报销会计

首　页

机械毕业设计

电子电气毕业设计

计算机毕业设计

土木工程毕业设计

视觉传达毕业设计

理工论文

文科论文

毕设资料

帮助中心

设计流程

您现在所在的位置：首页 >>计算机毕业设计 >> 文章内容

我们提供全套毕业设计和毕业论文服务，联系微信号：biyezuopinvvp QQ：1015083682

基于Python的三种中文分词方法的性能对比与评分毕业论文+演示PPT+源码

文章来源：www.biyezuopin.vip 发布者：毕业作品网站

目录
1.选题背景及意义 5
2.研究现状分析 5
3.本文算法 6
3.1 算法概述 7
3.2 算法公式、文字描述 8
3.3 算法细节 12
4.实验结果 14
5.讨论和分析 16
5.1结果展示和对比 16
5.2分析 16
6.结论 19
7.学习体会和建议 19
8.小组成员贡献 19
中文摘要
随着网络信息的急剧增长给人们搜索信息带来一定的困难，搜索引擎的出现及时地解决了这个问题，而在搜索引擎中，其最核心的部分之一便是中文分词算法，中文分词算法的分词效率在一定程度上影响着检索词条的速度。在这个互联网信息快速发展的时代，效率无疑是在商场上竞争的核心要素。
本学期，我们在自然语言处理课上学习了多种中文分词算法，在本次大作业中，我们选择了其中的三个算法：最大匹配的三种算法--正向、逆向、双向；基于统计的Uni-Gram模型；隐马尔可夫（HMM）统计模型。首先我们将会根据上课所学内容实现这三种模型的代码，在PKU词典的正确分词级集、测试集和训练集的基础上，针对他们三种算法的召回率、F1 score、准确率这三项指标进行比较，最终将结果打印出来，选出一个最优的算法作为实验结果。
关键词：中文分词算法、比较、准确率、召回率、F1 score
Abstract
With the rapid growth of network information, people have some difficulties in searching information. The emergence of search engine has solved this problem in time. In search engine, one of the most core parts is Chinese word segmentation algorithm. The efficiency of Chinese word segmentation algorithm affects the speed of retrieval entries to a certain extent. In this era of rapid development of Internet information, efficiency is undoubtedly the core element of competition in shopping malls.
This semester, we learned a variety of Chinese word segmentation algorithms in natural language processing class. In this assignment, we selected three of them: three algorithms of maximum matching: forward, backward and bidirectional; uni gram model based on statistics; hidden Markov model (HMM). First of all, we will implement the codes of the three models according to the content learned in class. On the basis of the correct word segmentation level set, test set and training set of PKU dictionary, we will compare the recall rate, F1 score and accuracy rate of the three algorithms. Finally, we will print out the results and select an optimal algorithm as the experimental result.
Key word:Chinese word segmentation algorithm, Comparison, Accuracy, Recall rate, F1 score
1.选题背景及意义
存在中文分词技术，是由于中文在基本文法上有其特殊性，具体表现在：
1．与英文为代表的拉丁语系语言相比，英文以空格作为天然的分隔符，而中文由于继承自古代汉语的传统，词语之间没有分隔。古代汉语中除了连绵词和人名地名等，词通常就是单个汉字，所以当时没有分词书写的必要。而现代汉语中双字或多字词居多，一个字不再等同于一个词。
2．在中文里，“词”和“词组”边界模糊
现代汉语的基本表达单元虽然为“词”，且以双字或者多字词居多，但由于人们认识水平的不同，对词和短语的边界很难去区分。
例如：“对随地吐痰者给予处罚”，“随地吐痰者”本身是一个词还是一个短语，不同的人会有不同的标准，同样的“海上”“酒厂”等等，即使是同一个人也可能做出不同判断，如果汉语真的要分词书写，必然会出现混乱，难度很大。
中文分词的方法其实不局限于中文应用，也被应用到英文处理，如手写识别，单词之间的空格就不很清楚，中文分词方法可以帮助判别英文单词的边界。
随着网络信息的急剧增长给人们搜索信息带来一定的困难，中文分词到底对搜索引擎有多大影响？对于搜索引擎来说，最重要的并不是找到所有结果，因为在上百亿的网页中找到所有结果没有太多的意义，没有人能看得完，最重要的是把最相关的结果排在最前面，这也称为相关度排序。中文分词的准确与否，常常直接影响到对搜索结果的相关度排序。

全套毕业设计论文现成成品资料请咨询微信号：biyezuopinvvp QQ：1015083682 返回首页如转载请注明来源于www.biyezuopin.vip

打印本页 \| 关闭窗口
上一篇文章：基于Minifilter框架的双缓冲透明加解密驱动课程论文+项目源码	下一篇文章：基于C语言的图书信息管理系统课程论文+代码及可执行exe文件

本类最新文章

基于SSM的毕业生学历证明系统设 …	基于物联网的家居安防监控系统毕 …	DR钻戒商城设计与开发论文终稿 …
基于web的大学生综测系统设计与 …	在线图书阅读平台设计与开发毕业 …	基于SpringBoot和VUE …

| 关于我们 | 友情链接 | 毕业设计招聘 |

Email：biyeshejiba@163.com 微信号：biyezuopinvvp QQ：1015083682
本站毕业设计和毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!