毕业设计(论文)
译文及原稿
译文题目:
|
基于维基百科的语义朴素贝叶斯学习实现文本的完美分类
|
|
|
原稿题目:
|
Towards Perfect text classification with Wikipe dia-based semantic Naïve Bayes learning
|
|
|
原稿出处:
|
Han-joon Kima,∗, Jiyun Kima, Jinseog Kimb, Pureum Lima .journal homepage: www.elsevier.com/locate/neucom
|
基于维基百科的语义朴素贝叶斯学习实现文本的完美分类
摘要:
本文提出了一种利用我们的SE-B语言对朴素贝叶斯文本分类器进行改进的新方法。文档表示的语义张量空间模型结合语义概念特征的语义朴素贝叶斯分类方法对于术语特征统计,Naive Bayes学习在张量下进行语义扩展ace模型,其中概念空间被视为与termand等同的独立空间“文档”空间,它由概念级信息性维基百科页面生成,该页面与给定文档语料库。通过三个流行文献语料库的广泛实验结合Reuters-21578、20NewsGroups和OHSUMED语料库,我们证明了所提出的方法不仅仅适用于与传统的基于深度学习的分类方法相比,该方法具有优越性,但也显示出近乎完美的分类性能。
1.介绍
文本分类是自动分配一个未知的实际文件到其适当的一个或多个类。如今,文本分类最常用的方法是使用。归纳构建分类的机器学习技术基于标记DOC的训练集的预定义类模型纪念碑。文本分类中的机器学习方法排除朴素贝叶斯[1],k近邻[2],决策树[3],支持向量机(SVM)[4]与近年来的深度学习卷积神经网络(美国有线电视新闻网)的方法[5]和电流神经网络(RNN)[6]。在我们的工作中,我们专注于朴素贝叶斯学习算法的简单化证明。然而,准确的技术,尽管其错误的独立假设:更重要的是,朴素贝叶斯学习算法具有优势与其他学习相比操作文本分类系统的构建方法即使它是旧的文本分类的机器学习算法应有效处理维数问题的诅咒由于文本数据具有大量的术语特征。贝叶斯算法比其他学习算法更不敏感就克服这个问题而言。而且,很容易由于其简单性而递增地更新其分类模型当新文件被作为训练数据时,当前术语特征统计容易更新和附加特征立即进行评估而不重新处理过去。培训数据。在这种情况下,这种特性是必不可少的。文档语料库是高度进化的。此外,朴素贝叶斯学习不需要复杂的泛化过程基于支持向量机、决策树和深度学习的支持向量机算法:它只计算每个类的特征统计信息一次通过培训文件。
由于上述优点,已有许多研究。在不同方面改进朴素贝叶斯文本分类器,以及一种有前途的方法是丰富文本的表示。具有外部或内部语义特征的文档[7-10]。在本文提出了一种语义朴素贝叶斯文本分类器。是基于我们前面提出的语义张量空间模型。在文献[11]的研究中,我们提出了一个文献代表。符合定义中的概念的模型概念分析框架[12]。这个模型代表罪恶。文档不是向量而是一个矩阵(即,第二阶张量)反映了术语特征和语义之间的关系。文档中的特征。实现语义丰富文本模型,我们采用维基百科百科全书作为一个外部知识源和概念级信息维基百科页面定义为单一语义概念。
论文的其余部分按如下方式组织。第2节介绍相关工作。第三节我们讨论传统的相关工作文本分类的朴素贝叶斯学习框架。第4节将提出的语义朴素贝叶斯文本分类基于张量的文档表示模型。第5节描述我们的实验装置和结果。最后,我们在第6节中总结我们的论文。
2.相关工作
2.1语义朴素贝叶斯分类
传统的朴素贝叶斯文本分类器是作为Gen学习的。适应文档实例分布的Erimistic模型类标签,它强烈假设这个术语文档中的特征在给定条件下是有条件独立的。类标签。如前所述,可以通过丰富具有外部(或内部)语义的文档表示由于语义特征可以减轻依赖假设。作为良好的外部知识AWikiPydia:(http://e.WikIGIAGRIG/),WordNet(http://WordNet)。普林斯顿,EDU/]和最小递归语义,因此,这些语义资源已被用于增强。朴素贝叶斯算法[9,10,14,15]。加强文本分类——费尔与DOC中出现的术语相关联的语义特征从所使用的外部知识中提取文物。增加初始特征集。此外,没有帮助外部知识,内部(或潜在)语义特征可以通过奇异值分解(SVD)导出[7 ]。也在[ 8 ]作为一个研究最类似于我们的工作等。提出嵌入的语义朴素贝叶斯分类方法应用潜在的语义信息没有外部知识的培训文档的主题模型。这些相关研究的问题是新的语义。只添加特征而不区别于原始术语特征,并且学习框架本身没有改变。如果我们要包括语义特征来改进文本分类器,然后考虑术语之间的依赖关系这一概念将对其性能做出重大贡献。在我们的工作是传统的朴素贝叶斯学习框架。为了反映术语和语义之间的依赖关系,并估计依赖程度,我们基于维基百科的11张量文档表示诱惑到基于Frobenius范数相似性的文本聚类用概念表示的文档之间的函数矩阵没有概率揭示之间的依赖关系术语和概念。
2.2文本分类的文档表示
在文档表示方面,朴素贝叶斯分类器使用只考虑频率的字(弓)模型袋在一个类中发生的术语[15]。改进的关键追根溯源是解决术语“弓”问题的根本所在。模型,并将增强的表示模型加入到朴素贝叶斯学习框架在工作文本分类中的应用基于语义张量空间模型进行的,其中一个文本由概念矩阵表示(即,第二有序张量),并且文档语料库因此被表示为第三阶。按概念张量逐项记录(参见图1(c))[11]。概念空间被看作是一个独立的空间。术语和“文档”空间,它是用概念产生的。与给定的博士学位论文相关的水平信息维基百科页面维基百科语料库页面定义为单个概念。重要的是语义特征应该是修改文档中术语的正确含义。
将文档或术语映射到概念空间的研究。这种较早的方法,潜在的语义索引,这是一个变量。经典向量空间的蚂蚁,试图产生概念空间通过捕获隐藏在其中的潜在概念进行文档索引文献[7]。在过去的十年中,关于派生的一些研究正确的词义通过维基百科页面有符号为改进文本挖掘算法[16-19]做出了积极贡献。用维基百科页面语义表示文档,确定文件中的重要术语及其含义以维基百科为基础的概念来表示毛皮Boubar和Nuu[16,18]试图提高PER值。通过丰富文档表示实现文本聚类的性能概念层次维基百科页面。同样一种提高文本分类性能的方法利用语义关系扩展向量空间模型同义词、下义关系和派生关系维基百科。大多数相关研究都是为了表达一份文件。本身作为一个基于维基百科的概念向量或做一个简单的词向量和概念向量的结合。相比之下,我们的方法是在维基百科上生成一个基于概念的向量。虚拟术语级,导致单个文档被表示作为OytPt矩阵的一个术语,