设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>毕设资料 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于改进TF-IDF的朴素Bayes文本分类器的实现和应用 开题报告
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

 

 

 

 

毕业设计(论文)

 

 

 

 

 

 

 

 

 

 


目录

基于改进TF-IDF的朴素Bayes文本分类器

的实现和应用

1 选题的背景和意义

2 国内外研究现状及发展趋势

1.2.1 国外的研究现状

1.2.2 国内的研究现状

2 研究的基本内容

2.1 基本框架

2.2 研究的重点和难点

4、如何用python语言实现。

2.3 拟解决的关键问题

3 研究的方法及措施

4 预期成果

2、资料收集准备阶段

3、论文写作及答辩阶段

3月下旬-5月下旬   论文修改、定稿、小组答辩;

参考文献

基于改进TF-IDF的朴素Bayes文本分类器

的实现和应用

1 选题的背景和意义

随着internet的快速发展以及智能手机的大规模普及,每个人都可以加入到网络这个大家庭。每个用户都在强有力的技术支持下被信息收集交换传播速度飞速的互联网带入到信息网络时代。网络时代的特点是信息来源五花八门、信息容量无比巨大、查询速度以及传播速度和更新速度都达到了空前的规模。尽管这使用户获取信息变得更加便利以及可以看到来自世界各地各色各样的新闻娱乐科技等消息。但是随之而来也带来一些负面效应:如面对铺天盖地各种来源渠道的信息,用户想从中精准的获得真正对自己有价值的信息变得越发困难。这就对信息检索技术的要求变得越来越高,且越来越迫切,所以过去对信息的手动分类已经不能满足当前用户所需,基于此,自动文本分类技术应运而生。文本分类技术就是把可以体现文本内容的属性特征根据一定的规则将其划分到用户预先定义的不同类别中,使每个类别对应不同的主题,进而帮助用户更快捷、更高效地检索自己真正需要的信息。

朴素贝叶斯分类器是贝叶斯分类器中最常用的方法,是一种基于概率统计的方法。朴素贝叶斯分类方法是基于条件“独立性假设”,因此它适合于处理属性个数较多的分类任务,而文本分类正是这种多属性的分类任务,因此朴素贝叶斯成为文本分类的一种常用分类方法。它是目前公认的一种简单有效的概率分类方法,其性能可以与决策树、神经网络等算法媲美,在某些领域中表现出很好的性能,成为文本分类算法的重点研究对象之一。

朴素贝叶斯算法在进行特征计算以及分类的过程中,默认所有特征的权重是一致的,所以在使用朴素贝叶斯算法时,多与其他的特征加权算法共同使用,进行特征加权计算因此提出基于TF-IDF改进的朴素贝叶斯算法,希望可以提高文本分类的精度。

2 国内外研究现状及发展趋势

1.2.1 国外的研究现状

文本分类最早是国外20世纪50年代提出开始研究。直到80年代之间都是文本分类理论研究阶段:H.P.Luhn第一次提出词频统计思想[1],并将文本内容中的词和对应文本建立索引机制进行匹配,开启了词频进行分类处理的先河[2]。随MaronKuhn发表的《On RelevanceProbabilisticIndexing and Information Retrial》首次提出文本自动分类,开始了文本自动分类作为独立研究课题良好的开端[3]

上世纪70年代,Salton在关于信息检索方面的论文中提出了向量空间模型(VSM)。此阶段的研究在信息检索领域应用较多[4]

20世纪80年代到90年代期间,文本分类主导方法利用各领域权威专家建立的规则进行手工分类,虽然准确率高,但是较为耗时耗力,并且不同领域之间指定的规则不能平行的被移植,因此人们对于效果更好效率更高的技术需求变得更加迫切[5]

20世纪90年代开始之后,随着信息爆炸式的不断增加,计算机网络以及机器学习等技术的不断成熟,顺应时代发展与需求,与机器学习方法结合的文本分类技术快速的崛起。出现了基于贝叶斯算法的关键词提取,以及以文本中同义词词典作为基础的贝叶斯网络模型[6]

在这段期间,国外在文本分类技术以及相关领域进行了较为深入的研究,取得了不少令人注目的研究成果,并产生了一些可用的分类系统。例如,自动分类新闻稿件的文本分类器[7][Lewis 1994];自动分类Web页的文本分类器[8][Craven 1998]

  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
台式数控等离子切割机机械结构设计 台式数控等离子切割机机械结构设计 台式数控等离子切割机机械结构设计
基于PLC的罐装加工过程为全自动 基于Python电影推荐系统设计 基于西门子S7-200PLC四层
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!