设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>计算机毕业设计 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于分词的朴素贝叶斯分类器的构造和应用 毕业论文+任务书+开题报告+文献综述+外文翻译及原文+Python代码及词库
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

基于分词朴素贝叶斯分类器的构造与应用

【摘要】  众多国际国内外学者和研究人员在近几年来的努力下,现以形成了多种中文分词算法,目前主要的算法有基于词典、基于理解和基于统计的三类,实际运用时经常相互结合使用。目前的系统都主要以这三类算法为主。而众所周知汉语有着相当的复杂性,新词也随时代变迁也在不断涌出,目前这三类算法并不能更好地满足我们实际生活的需要。

因此本文在这些算法的基础上,提出基于贝叶斯网络构建分词模型,在模型框架下一并完成交叉、组合歧义等等。经过运算和处理以后,能够让新的算法可以整合现有的常用算法的长处,规避他们的缺陷,有效提高分词的效率。

在测试条件下的检测结果表明,新算法进行分词的效果要较好,能够很好的对歧义进行处理,进行未登录词的处理,可以很好的满足对各种中文相关信息的处理需求。

【关键词】  中文分词,贝叶斯分类器,建立词库


Construction and Application of Naive Bayesian Classifier Based on Word Segmentation

【Abstract】   With the efforts of many scholars and researchers at home and abroad in recent years,many Chinese word segmentation algorithms have been formed. At present,the main algorithms are dictionary-based,comprehension-based and statistics-based. They are often used together in practice. Current systems are mainly based on these three kinds of algorithms. As we all know,Chinese has considerable complexity, and new words are constantly emerging with the changes of the times. At present, these three kinds of algorithms can not better meet the needs of our real life.

Therefore,on the basis of these algorithms, this paper proposes a word segmentation model based on Bayesian network components,and completes crossover, combination ambiguity and so on under the model framework. After these processing, the algorithm can fully absorb the advantages of various common algorithms,avoid their limitations, and effectively improve the efficiency of word segmentation.

The test results show that the new algorithm performs better in word segmentation. It can process ambiguity and unlisted words well. It can satisfy the processing requirements of various Chinese related information.

【Key Words】   Chinese word segmentation,Chinese word segmentation,Building Thesaurus



图目录

图2.1 正向最大匹配法步骤示意图

图2.2基于理解的中文分词系统框架图

图2.3基于统计的中文分词算法步骤示意图

图2.4歧义处理示意图

图2.5 新词内容示意图

图3.1 词库联系示意图

图3.2词库构建步骤示意图

图3.3词库更新步骤示意图

图4.1基于词库与贝叶斯原理的算法示意图

图4.2系统功能结构组织图

图4.3分词词库更新步骤示意图

图4.4算法执行步骤示意图

图5.1数据类别分布条形图

表目录

表5.1测试实例中时间、年龄等量词的切分效果

表5.2测试实例中人名、地名等词的切分效果

















  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
基于Python的在线自主考试系 基于腾讯云的个人知识库管理系统 基于Android的酒店预定系统
基于matlab变频器控制交流电 基于微信小程序的家校联动平台管理 基于时频分析与自适应滤波技术的多
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!