基于Python的汉语分词系统课程论文+源码-毕业作品网站

设计任务书文档开题答辩说明书格式模板外文翻译范文资料作品文献课程实习指导调研下载网络教育 计算机 网站网页 小程序 商城购物订餐电影安卓 Android Html Html5 SSM SSH Python 爬虫大数据 管理系统 图书校园网考试选题网络安全推荐系统机械模具夹具自动化数控车床汽车故障诊断电机建模 机械手 去壳机千斤顶变速器减速器图纸电气变电站电子 Stm32 单片机 物联网 监控密码锁 Plc 组态控制智能 Matlab 土木建筑结构框架教学楼住宅楼造价施工办公楼给水排水桥梁刚构桥水利重力坝水库采矿环境化工固废工厂 视觉传达 室内设计产品设计 电子商务 物流盈利案例分析评估报告营销报销会计

首　页

机械毕业设计

电子电气毕业设计

计算机毕业设计

土木工程毕业设计

视觉传达毕业设计

理工论文

文科论文

毕设资料

帮助中心

设计流程

您现在所在的位置：首页 >>计算机毕业设计 >> 文章内容

我们提供全套毕业设计和毕业论文服务，联系微信号：biyezuopinvvp QQ：1015083682

基于Python的汉语分词系统课程论文+源码

文章来源：www.biyezuopin.vip 发布者：毕业作品网站

汉语分词系统
目录
汉语分词系统 1
摘要 1
1 绪论 1
2 相关信息 1
2.1 实验目标 1
2.2 编程语言与环境 2
2.3 项目目录说明 2
3 训练测试 3
4 词典构建 3
5 正反向最大匹配分词实现 3
5.1 正向最大匹配分词-最少代码量 3
5.2 反向最大匹配分词-最少代码量 4
6 正反向最大匹配分词效果分析 5
7 基于机械分词系统的速度优化 6

摘要
绪论
中文分词技术，是由于中文与英文为代表的拉丁语系语言相比，英文以空格作为天然的分隔符，而中文由于继承自古代汉语的传统，词语之间没有分隔。古代汉语中除了连绵词和人名地名等，词通常就是单个汉字，所以当时没有分词书写的必要。而现代汉语中双字或多字词居多，一个字不再等同于一个词。且在中文里，“词”和“词组”边界模糊。
中文分词中存在歧义识别和新词识别两大难题。
相关信息
2.1实验目标
本次实验目的是对汉语自动分词技术有一个全面的了解，包括从词典的建立、分词算法的实现、性能评价和优化等环节。本次实验所要用到的知识如下：
基本编程能力（文件处理、数据统计等）
相关的查找算法及数据结构实现能力
语料库相关知识
正反向最大匹配分词算法
N 元语言模型相关知识
分词性能评价常用指标
2.2编程语言与环境
Python 3.7.9 ，Windows11，VScode
2.3项目目录说明
目录中存在Code和io_files两个文件夹，Code文件夹中存放第一部分到第四部分实验代码，io_files文件夹中存放第一部分到第四部分实验产生文件和依赖文件。
io_files文件夹：
199801_sent.txt 为标准文本，是1998 年 1 月《人民日报》未分词语料，用于产生训练集和测试集
199801_seg&pos.txt 为标准文本，是1998 年 1 月《人民日报》的分词语料库，用于产生测试集对应的分词标准答案
dic.txt为自己形成的分词词典，存放根据训练集产生的词典
train.txt 为训练集，取分词语料库中的数据作为训练集用于生成词典
std.txt 为标准答案，取分词语料库中另外的数据作为标准答案，与分词结果进行比对计算准确率、召回率和F 值
test.txt 为测试集，在未分词语料中取与标准答案相对应的的数据作为测试集产生分词结果
seg_FMM.txt 为全文的分词结果，使用正向最大匹配分词，使用train.txt文件作为训练集，将199801_sent.txt文件进行分词
seg_BMM.txt为全文的分词结果，使用反向最大匹配分词，使用train.txt文件作为训练集，将199801_sent.txt文件进行分词
score.txt为第三部分生成的评测分词效果的文本，其中包括准确率(precision)、召回率(recall)和F 值
seg_FMM_1_10.txt 为测试集分词结果，使用正向最大匹配分词，使用train.txt文件作为训练集，将test.txt文件进行分词
seg_BMM_1_10.txt 为测试集分词结果，使用反向最大匹配分词，使用train.txt文件作为训练集，将test.txt文件进行分词
better_seg_FMM.txt 为测试集分词结果，使用优化后的正向最大匹配分词，使用train.txt文件作为训练集，将test.txt文件进行分词，计算分词时间与seg_FMM_1_10.txt分词时间进行比较
better_seg_BMM.txt 为测试集分词结果，使用优化后的反向最大匹配分词，使用train.txt文件作为训练集，将test.txt文件进行分词，计算分词时间与seg_BMM_1_10.txt分词时间进行比较
TimeCost.txt 为分词所用时间，存放优化前和优化后的分词时间
Code文件夹：
part_1.py 为实验第一步词典的构建代码，其中包括生成分词词典函数以及生成训练集、测试集和标准答案的函数
part_2.py 为实验第二步正反向最大匹配分词实现代码，其中包括读取词典内容函数、正向最大匹配分词函数和反向最大匹配分词函数
part_3.py 为实验第三步正反向最大匹配分词效果分析代码，其中包括计算评测得分函数，计算总词数和正确词数函数，计算准确率、召回率和f值函数以及获取词对应下标的函数
part_4.py 为实验第四步基于机械匹配的分词系统的速度优化代码，其中包括Trie树的实现以及其中添加字符串函数，查找字符串函数，在子节点中查找字符对应位置函数和返回哈希值函数，还有获得正向最大匹配的词典树函数，获得反向最大匹配的词典树函数，优化后正向最大匹配分词函数，优化后反向最大匹配分词函数，全文分割函数以及计算时间函数

全套毕业设计论文现成成品资料请咨询微信号：biyezuopinvvp QQ：1015083682 返回首页如转载请注明来源于www.biyezuopin.vip

打印本页 \| 关闭窗口
上一篇文章：基于C语言设计的多功能电子钟课程论文+项目源码	下一篇文章：基于Python实现的百度搜索风云榜-娱乐-电影榜课程报告+源码及数据

本类最新文章

基于深度卷积网络的图像去噪研究 …	SSL VPN加密算法研究毕业 …	基于SVM-BP-CNN混合模型 …
基于自监督和对比学习的实体链指方 …	基于Springboot+Vue …	基于Springboot+Vue …

| 关于我们 | 友情链接 | 毕业设计招聘 |

Email：biyeshejiba@163.com 微信号：biyezuopinvvp QQ：1015083682
本站毕业设计和毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!