基于改进TF-IDF的朴素Bayes文本分类器
的实现和应用
1引言
随着计算机技术与网络技术的快速发展,互联网得到了广泛应用。中国互联网络信息中心(CNNIC)在2019年8月发布的《第44次中国互联网络发展状况统计报告》表明:截至到2019年6月底,我国网民规模达8.54亿人,较2018年底增加2598万人。互联网普及率持续上升增至61.2%,与2018年底相比提高了1.6个百分点。全国域名数4800万个,全国网站数2185万个。互联网成为人们信息获取的重要来源。网络的大部分信息是文本数据,面对如此巨大的信息海洋,如何有效地组织和管理,进行自动分类,并快速、准确、全面地从中找到用户所需的信息已成为一个重要用途的研究课题。
文本自动分类简称文本分类(Text Categorization,TC)是信息检索和文本挖掘的重要基础。文本自动分类能较好地解决大量文档信息归类的问题并可以应用到很多方面,如文献组织、文本识别、智能搜索、邮件过滤等。因此,对文本分类的研究具有重要的理论意义和实用价值。
朴素贝叶斯分类器是贝叶斯分类器中最常用的方法,是一种基于概率统计的方法。朴素贝叶斯分类方法是基于条件“独立性假设”,因此它适合于处理属性个数较多的分类任务,而文本分类正是这种多属性的分类任务,因此朴素贝叶斯成为文本分类的一种常用分类方法。它是目前公认的一种简单有效的概率分类方法,其性能可以与决策树、神经网络等算法媲美,在某些领域中表现出很好的性能,成为文本分类算法的重点研究对象之一。
2国内外研究现状
在早期的文本自动分类中,主要采用了信息检索技术中经典的布尔模型对文本进行分类,表示文本和类别的特征一般较少,分类的准确率不高,无法达到处理大规模真实文本的实用目的。后来,随着对自然语言处理及人工智能技术的研究日渐深入,曾经一度被当作信息检索问题进行研究的文本自动分类问题己经被视为模式识别的一个特例进行研究。在目前的研究中,较为常用的手段是采用基于统计的方法抽取文本特征,运用信息检索中的计算模型进行特征加权,采用模式识别中的分类算法进行类别学习。朴素贝叶斯是目前公认的一种简单有效的概率分类方法,是文本分类的一种常用分类方法。
2.1国外研究现状
上世纪 80 年代以来,互联网技术迅猛发展,文本数量激增,文本分类的研究成为了技术研究的热点,仅仅依靠领域专家通过人工的方式对文本进行分类,已经不能满足分类的需求,一方面需要消耗大量的专家人力资源,另一方面文本分类的准确率不高。基于这种情况下,越来越多的统计理论和机器学习知识被应用到文本分类的过程中[9],文本被分为训练文本集和测试文本集,通过对语料库中训练文本的学习得到相应的分类规则;在对测试文本集分类时,会根据学习到的规则进行分类。这种方法不依托于领域专家,属于文本的自动分类,且分类效果显著。Vapnik 将机器学习理论应用文本分类中,提出了支持向量机分类方法[1],根据支持向量得出最优切割平面,在很多实验中都有很好的效果。在国外,文本分类技术自上世纪 50 年代就开始研究,经过几十年的发展,文本分类技术已经应用于多个领域中。专家们研发出来一系列在实际应用中得到广泛使用的分类系统,典型的分类系统有卡内基公司研发的 Consture分类系统、对网页搜素信息能够自动分类处理的 Swish 系统以及 MIT 研发的邮件分类管理系统等[2][3][4]。经历了最初的文本分类的可行性研究阶段,度过文本分类的实现性阶段,国外分本分类研究已经迈入一个新的阶段,即实用化阶段。
目前在文本分类的研究领域,文本分类的准确率是研究的关键,主要从以下几个方面做出研究和改进:
(1)特征降维(包括特征提取和特征选择),文档频率、信息熵、信息增益、互信息等方法是目前常用的特征选择方法;特征提取主要包括潜在语义分析和语句主成分的分析等方法。Koller 通过分析特征变量和类分布之间的映射关系,挑选出对类特征标识显著的特征集合[5]。Foithong对特征选择过程做出了改进,在互信息的基础上,结合粗糙集理论做出特征选择,并将其应用在股票预测的实际应用中[6]。
(2)分类算法,目前流行的分类方法是 Naive Bayes[7],K-最邻近法[8],基于神经网络的分类法[9],决策树分类法[10],基于支持向量机的分类法[11]等。近年来出现了基于复杂网络的文本分类算法,这种算法将文本的语义考虑进来。这些分类算法广泛应用在信息管理、自然语言处理、医学图像分类、数字化图书馆、搜索引擎等领域。Beheshti在医学领域文本分类中,将隐马尔科夫模型考虑进来[12]。
(3)相似度计算,主要研究距离度量。Weinbergei 学者在计算距离度量的过程中考虑数据分布的局限性,提出了一种数据局部自适应的计算方法[13]。