设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>毕设资料 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于改进TF-IDF的朴素Bayes文本分类器的实现和应用 文献综述
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

 

 

 

毕业设计(论文)

文献综述

 

 


基于改进TF-IDF的朴素Bayes文本分类器

的实现和应用

1引言

随着计算机技术与网络技术的快速发展,互联网得到了广泛应用。中国互联网络信息中心(CNNIC)在20198月发布的《第44次中国互联网络发展状况统计报告》表明:截至到20196月底,我国网民规模达8.54亿人,较2018年底增加2598万人。互联网普及率持续上升增至61.2%,与2018年底相比提高了1.6个百分点。全国域名数4800万个,全国网站数2185万个。互联网成为人们信息获取的重要来源。网络的大部分信息是文本数据,面对如此巨大的信息海洋,如何有效地组织和管理,进行自动分类,并快速、准确、全面地从中找到用户所需的信息已成为一个重要用途的研究课题。

文本自动分类简称文本分类(Text CategorizationTC)是信息检索和文本挖掘的重要基础。文本自动分类能较好地解决大量文档信息归类的问题并可以应用到很多方面,如文献组织、文本识别、智能搜索、邮件过滤等。因此,对文本分类的研究具有重要的理论意义和实用价值。

朴素贝叶斯分类器是贝叶斯分类器中最常用的方法,是一种基于概率统计的方法。朴素贝叶斯分类方法是基于条件“独立性假设”,因此它适合于处理属性个数较多的分类任务,而文本分类正是这种多属性的分类任务,因此朴素贝叶斯成为文本分类的一种常用分类方法。它是目前公认的一种简单有效的概率分类方法,其性能可以与决策树、神经网络等算法媲美,在某些领域中表现出很好的性能,成为文本分类算法的重点研究对象之一。

2国内外研究现状

在早期的文本自动分类中,主要采用了信息检索技术中经典的布尔模型对文本进行分类,表示文本和类别的特征一般较少,分类的准确率不高,无法达到处理大规模真实文本的实用目的。后来,随着对自然语言处理及人工智能技术的研究日渐深入,曾经一度被当作信息检索问题进行研究的文本自动分类问题己经被视为模式识别的一个特例进行研究。在目前的研究中,较为常用的手段是采用基于统计的方法抽取文本特征,运用信息检索中的计算模型进行特征加权,采用模式识别中的分类算法进行类别学习。朴素贝叶斯是目前公认的一种简单有效的概率分类方法,是文本分类的一种常用分类方法。

2.1国外研究现状

上世纪 80 年代以来,互联网技术迅猛发展,文本数量激增,文本分类的研究成为了技术研究的热点,仅仅依靠领域专家通过人工的方式对文本进行分类,已经不能满足分类的需求,一方面需要消耗大量的专家人力资源,另一方面文本分类的准确率不高。基于这种情况下,越来越多的统计理论和机器学习知识被应用到文本分类的过程中[9],文本被分为训练文本集和测试文本集,通过对语料库中训练文本的学习得到相应的分类规则;在对测试文本集分类时,会根据学习到的规则进行分类。这种方法不依托于领域专家,属于文本的自动分类,且分类效果显著。Vapnik 将机器学习理论应用文本分类中,提出了支持向量机分类方法[1],根据支持向量得出最优切割平面,在很多实验中都有很好的效果。在国外,文本分类技术自上世纪 50 年代就开始研究,经过几十年的发展,文本分类技术已经应用于多个领域中。专家们研发出来一系列在实际应用中得到广泛使用的分类系统,典型的分类系统有卡内基公司研发的 Consture分类系统、对网页搜素信息能够自动分类处理的 Swish 系统以及 MIT 研发的邮件分类管理系统等[2][3][4]。经历了最初的文本分类的可行性研究阶段,度过文本分类的实现性阶段,国外分本分类研究已经迈入一个新的阶段,即实用化阶段。

目前在文本分类的研究领域,文本分类的准确率是研究的关键,主要从以下几个方面做出研究和改进:

1)特征降维(包括特征提取和特征选择),文档频率、信息熵、信息增益、互信息等方法是目前常用的特征选择方法;特征提取主要包括潜在语义分析和语句主成分的分析等方法。Koller 通过分析特征变量和类分布之间的映射关系,挑选出对类特征标识显著的特征集合[5]Foithong对特征选择过程做出了改进,在互信息的基础上,结合粗糙集理论做出特征选择,并将其应用在股票预测的实际应用中[6]

2)分类算法,目前流行的分类方法是 Naive Bayes[7]K-最邻近法[8],基于神经网络的分类法[9],决策树分类法[10],基于支持向量机的分类法[11]等。近年来出现了基于复杂网络的文本分类算法,这种算法将文本的语义考虑进来。这些分类算法广泛应用在信息管理、自然语言处理、医学图像分类、数字化图书馆、搜索引擎等领域。Beheshti在医学领域文本分类中,将隐马尔科夫模型考虑进来[12]

3)相似度计算,主要研究距离度量。Weinbergei 学者在计算距离度量的过程中考虑数据分布的局限性,提出了一种数据局部自适应的计算方法[13]

  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
台式数控等离子切割机机械结构设计 台式数控等离子切割机机械结构设计 台式数控等离子切割机机械结构设计
基于PLC的罐装加工过程为全自动 基于Python电影推荐系统设计 基于西门子S7-200PLC四层
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!