目录
1 选题的背景和意义
1.1 选题的背景
1.2 国内外研究现状及发展趋势
2 研究的基本内容
2.1 基本框架
5、根据本文的研究结论总结和展望。
2.2 研究的重点和难点
2.3 拟解决的关键问题
3 研究的方法及措施
4 预期成果
5 研究工作进度计划
2、资料收集准备阶段
2018年11中旬-2019年1中旬
3、论文写作及答辩阶段
参考文献
1 选题的背景和意义
1.1 选题的背景
朴素贝叶斯分类器是一种简单高效的分类算法,在数据挖掘和模式识别中应用广泛,但是朴素贝叶斯假设在现实中往往不能成立,或多或少都影响了分类的效果。很多分类方法是通过适当放松朴素贝叶斯假设,提高朴素贝叶斯分类器的分类精度,结果通常会导致计算代价的大大提高[1]。(1)详细研究了朴素贝叶斯分类器及各种改进模型,通过探讨如何更好的学习朴素贝叶斯分类器,提出了一种基于粗糙集的特征加权朴素贝叶斯分类器,从而提高了朴素贝叶斯分类器的分类性能。(2)提出一种基于粗糙集的特征加权朴素贝叶斯算法[2]。加权参数直接从属性的粗糙下近似集导出,其可看作是计算每种类别的后验概率时,该属性对此计算的影响程度。将FWNB与朴素贝叶斯分类器(Naive Bayesian classifier, NB)、贝叶斯网(Bayes Networks)和NBTree分类器通过数值实验比较。为了更充分地验证FWNB的有效性。
贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法,贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数(对离散变量的预测称作分类,对连续变量的分类称为回归),利用训练得到的分类器实现对未分类数据的分类。通过对比分析不同的分类算法,发现朴素贝叶斯分类算法(Naive Bayes),一种简单的贝叶斯分类算法,其应用效果比神经网络分类算法和判定树分类算法还要好,特别是待分类数据量非常大时,贝叶斯分类方法相较其他分类算法具有高准确率,数据分类(Classification)在电子社交网络上具有重要意义,是数据挖掘中非常重要的一项研究内容。通常数据分类的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器)[3],该分类器的具有将待分类数据项映射到某一特点类别的功能,数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。
贝叶斯分类是统计学的分类方法,其分析方法的特点是使用概率来表示所有形式的不确定性,学习或推理都要用概率规则来实现。
贝叶斯在社交网络小方面:随着电子社交网络的日益壮大,其中微博在业界的影响力越来越大,在中国网民几乎都拥有自己的微博账号,这样的规模和流量,产生了许多微博博主和微博评论者,因此随之而来的是大量爆炸的评论信息。
贝叶斯在生活大方面:数学从生活中来,所以也到到生活中去,换句话说就是研究数学的最终目的就是为了服务人类和服务社会。在电子商务高速发展的时代,大数据在人们生活中的各个领域都有较好的发展,金融方面、医学方面、机械方面、通信方面以及法律方面等等。而其中的贝叶斯可以在多数领域起到一定的作用[4]。
本文的目的就是以小见大发现并整理贝叶斯在小方面的应用,向人们展示数学无处不在。
1.2 国内外研究现状及发展趋势
目前,国外数据挖掘技术主要的发展方向是对发现知识的方法的进一步研究,比如如近年来注重对贝叶斯(Bayes)方法以及Boosting方法的研究和改进提高;知识发现( Knowledge Discovery in Databases, KDD)与数据库的紧密结合[5];KDD通过运用传统对传统的统计学回归方法。把孤立的解决问题的过程向整理的方向靠拢,这种方法被大规模运用到了银行、保险公司和一些大型销售行业中。许多研究机构、计算机公司都对数据挖掘的开发与应用十分重视,其中微软和IBM都相继成立了相应的研究中心。其中美国对数据挖掘研究在全球都是最深入的,并且占据着研究的核心地位[6]。
数据挖掘在软件市场的需求量的逐日递增,导致许多国际知名公司都加入到了数据挖掘工具研发的队伍中,到目前为止已经出现了很多技术成熟应用价值高的数据挖掘的软件了,比如Angoss软件公司开发的Knowledge Studio,