目录
基于词性的朴素bayes分类器在文本分类种的应用
1 引言
2 国内外研究现状
2.1 国内外朴素bayes分类算法发展情况
2.1.1朴素贝叶斯的应用
2.1.2经典朴素贝叶斯算法原理
2.1.2经典朴素贝叶斯文本分类方法
2.2 国内外基于词性的文本分类研究发展情况
2.2.1 TF-IDF方法
2.2.2 LSTM网络模型
参考文献
基于词性的朴素bayes分类器在文本分类种的应用
1 引言
信息技术的迅猛发展导致电子文档呈指数级增长,在信息海洋中快速、准确、全面地找到所需信息变得越来越困难。如何有效地组织和管理信息,如何快速区分有用和无用信息,如何满足用户的个性化需求,都面临着挑战。文本自动分类是处理和组织海量信息的关键技术,可以在很大程度上解决信息的无序问题。文本分类是指,给定文档集合D={d1,d2,......,dn},和一个类别集(标签集)C={c1,c2,......,cn},利用某种学习方法或算法得 到分类函数f,将文档集D中的每一篇文档di映射到类别集C 中的一个或者多个类别。文本自动分类始于20世纪50年代末,主要有布尔模型、概率统计模型以及向量空间模型。基于三个模型提出了诸多分类算法,其中朴素贝叶斯(Naive Bayes,NB)分类算法在所有分类算法中具有简单且性能优异的特点。
2 国内外研究现状
2.1 国内外朴素bayes分类算法发展情况
2.1.1朴素贝叶斯的应用
作为目前所有算法中理论误差最小的一型,朴素贝叶斯算法在众多领域中都有不俗的表现:
(1) 在医疗机构中用以对患者进行快速分类, 以便各个科室快速收治。
(2) 营销部门利用该算法对所收集到的信息进行分类判断, 以此调整营销策略。
(3) 证券分析师则用这种算法来对前期走势进行处理,来预测行情的发
(4) 甚至于现在各大搜索引擎使用的推荐算法, 也可以看做是朴素贝叶斯算法的一种延伸。朴素贝叶斯算法的长项是处理某些发生频度较高,围绕某个核心问题不断扩展的事件
2.1.2经典朴素贝叶斯算法原理
参考了来自郭勋诚朴素贝叶斯分类算法应用研究[1]这篇文献,得知了朴素贝叶斯分类器是基于贝叶斯分类算法的一种较为简单的分类器,在经历了时间的检验之后,朴素贝叶斯算法已经有了较强的理论依据。 其关键性因素在于朴素贝叶斯算法中各个数据需要相互独立,互不干扰,构造出来的算法需要依赖与这一较强的假设,因此称之为朴素贝叶斯算法。 根据上文中提到的贝叶斯算法的基本公式可以得出,在一定的集合 A 内,有 x1x2x3…xn∈A,且 x1x2x3…xn 的性质完全独立且互不干扰。 也就是说事件 x1、x2、x3…xn 相互独立, 事件 x1 的取值对 x2、xn 等事件无关。 其中事件相互独立是一个很强的假设,因为现实生活中的事件很少是完全相互独立的,比如对于事件 A:明天下雨和事件 B:明天出去逛街,这 两个事件,它们通常就不是完全不相关的事件。因为如果明天下雨那么会大大降低出去玩 的概率,因此事件 A 和事件 B 就不是独立事件。 但对于事件A:投两次硬币,第一次朝上和事件 B:第二次朝上,这两个事件就是相互独立的。 对于相互独立的两个事件 A 和 B,根据贝叶斯公式可以算出 x1x2x3…xn∈A 在不同的分类属性 B1B2B3…Bn 下的后验概率,并且进行比较,取其中最大的后验概率,在此处假设为p(Bn|Ac),则可以认为数据 AC 属于 Bn 的分类属性。对于其他的数据 An,通过该算法可以类推出其最大的后验概率。