目录
1 选题的背景和意义
1.1 选题的背景
1.2 国内外研究现状及发展趋势
2 研究的基本内容
2.1 基本框架
2.2 研究的重点和难点
2.3 拟解决的关键问题
3 研究的方法及措施
4 预期成果
参考文献
1 选题的背景和意义
1.1 选题的背景
贝叶斯方法有独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等。它假定待考查的变量遵循某种概率分布,且可根据这些概率及己观察到的数据进行推理,从而作出最优的决策。他提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。其方法为,将关于未知参数的先验信息与样本信息综合,再根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数的方法。
并且朴素贝叶斯分类器是贝叶斯方法的著名应用,通常用于其他分类器难以处理的离散非数字型监督学习问题,如文本分类等,实际上也是对人们常识做的一个算法的完善[3]。其以一种更为精准的量化来判断分类,使用的方法是后验概率。朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素。朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判选项为选定内容的概率分布上独立的[5]。
对于某些类型的概率模型,在监督式学习的样本集中能获取得非常好的分类效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法;换而言之,在不用到贝叶斯概率或者任何贝叶斯模型的情况下,朴素贝叶斯模型也能奏效。尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够获取相当好的效果。
1.2 国内外研究现状及发展趋势
贝叶斯分类算法简单并适应于各种数据类型(离散或连续)的处理,在实际中有着广泛的应用,如在文本分类、垃圾短信过滤、网络异常检验、电力系统稳定性评估、影像纹理分类、电力分类与预测、雷达目标识别、信用评估等都有广泛应用,朴素贝叶斯分类器是贝叶斯分类算法之一。近几十年来,国内外专家和学者对贝叶斯算法的研究做了大量的工作,主要分为如下几个方面:
基于属性间的关系度量Kononenko提出一种采用穷尽搜索的属性分组技术,假定同一个组内的属性之间是相互依赖的,组与组之间是满足独立性假设的属性集合,即独立性假设弱化为这些属性子集之间是相互独立的。Sage和Langley构造了一种基于属性删除策略的选择性贝叶斯分类模型,当存在冗余属性时,既有部分属性依赖型于其他的属性,利用属性删除策略能够使朴素贝叶斯分类器的预测改善精确度得到。Friedman和Geiger等提出了一种树扩张型贝叶斯分类策略(Tree—Augmented Bayesian Classifier,TAN).该技术通过放宽朴素贝叶斯分类器的属性独立性假设和扩展朴素贝叶斯分类器的结构,使得当属性间存在具有某种特征的依赖关系时,分类器能够适用并且具有可接受的分类精度。
章舜仲等提出了一种基于属性相关性分析的贝叶斯分类策略(Correlated Bayes,CB),它是一种向量相关性的度量方法,并且给出了度量间存在相关度的估计公式,从而扩展了朴素贝叶斯分类模型。
石洪波和王志海提出了一种限定性的双层贝叶斯分类模型DLBAN(double-Lever Bayesian Network Augmented Native Bayes),