目录
1 选题的背景和意义
1.1 选题的背景
1.2 国内外研究现状
1.2.1朴素贝叶斯国内外研究现状
1.2.2文本分类国内外研究现状
2 研究的基本内容
2.1 基本框架
2.2 研究的重点和难点
2.3 拟解决的关键问题
3 研究的方法及措施
4 预期成果
2、资料收集准备阶段
3、论文写作及答辩阶段
3月下旬-5月下旬 论文修改、定稿、小组答辩;
参考文献
1 选题的背景和意义
1.1 选题的背景
信息技术的迅猛发展导致电子文档呈指数级增长,在信息海洋中快速、准确、全面地找到所需信息变得越来越困难。如何有效地组织和管理信息,如何快速区分有用和无用信息,如何满足用户的个性化需求,都面临着挑战。文本自动分类是处理和组织海量信息的关键技术,可以在很大程度上解决信息的无序问题。其中朴素贝叶斯(Naive Bayes,NB)分类算法在所有分类算法中具有简单且性能优异的特点。NB从算法的提出到目前的成熟应用已经产生了丰硕的成果,有必要对其进行系统的梳理。
1.2 国内外研究现状
1.2.1朴素贝叶斯国内外研究现状
2018年郭炳勋等人指出与决策树、神经网络等分类算法进行比较,在某些领域中 朴素贝叶斯算法足够与他们相媲美,并且在理论上,朴素贝叶斯算法的错误率较低,但是在实践的应用中,因为难以找到互不相关、互不影响的数据进行分类,朴素贝叶斯算法难以达到100%的准确率。
2016年贺鸣等教授改进了朴素贝叶斯算法,并提出了加权NB算法;TWCNB(Transformed Weight-Normalized Complement Naive Bayes)算法;NB_TF和NB_TS算法。并且使用了基于集成学习的改进方法,集成学习中Boosting 算法以及改进的 AdaBoost算法被广泛使用,贺鸣学者将其NB算法相结合以提高分类器的性能。
除去以上对朴素贝叶斯算法的改进外,jiang(2012) 提出可以通过有区别的实例权重以改进NB算法的思路,称之为有区别的加权朴素贝叶斯(discriminatively weighted Naive Bayes)。Lee等(2010) 提出通过自动计算文档依赖(automati⁃ cally computed document dependent,ACDD)权重因子以及解决NB中当训练集类别倾斜所致分类准确率低的问题。
上述研究中学者们通过对朴素贝叶斯模型进行加权以及对平滑方法进行改进等以提高分类器的性能。近年来,随着集成学习研究与应用的不断深入,朴素贝叶斯方法被应用到集成学习中,比如,将期望最大化算法和朴素贝叶斯算法相结合对算法进行改进的学者群在不断增大。
1.2.2文本分类国内外研究现状
2007年胡燕等人的研究论文中对中文文本分类使用了基于词性的特征提取方法,提取特征词的效率较传统方法有了明显改善,由特征词所形成的特征向量的维数也有明显降低, 在计算量和算法的复杂度方面 ,都远远小于传统方法。在一个算法中同时实现提取文本特征词和计算其权值 ,