毕业设计(论文)
译文及原稿
译文题目:
|
通过朴素贝叶斯分类器和具有多个置信度阈值的关联分类
|
|
器对中文文本进行分类
|
原稿题目:
|
Chinese text classification by the Naïve Bayes Classifier and
|
|
the associative classifier with multiple confidence threshold
|
|
Value
|
原稿出处:
|
Shing-Hwa Lu, Ding-An Chiang, Huan-Chao Keh, et al.Know
|
|
ledge-Based Systems[J]. 2010, 598-604
|
通过朴素贝叶斯分类器和具有多个置信度阈值的关联分类器对中文文本进行分类
摘要
每种类型的分类器都有其自身的优点和某些缺点。在本文中,我们利用关联分类器和朴素贝叶斯分类器的优势来弥补彼此的不足,从而提高了文本分类的准确性。我们将使用朴素贝叶斯分类器对训练案例进行分类,并根据所获得的朴素贝叶斯分类器对各个类的分类准确率,为不同类别的不同类别关联规则(CAR)设置不同的置信度阈值。由于所有选定类别的汽车的准确率均高于朴素贝叶斯分类器,因此我们可以通过这些选定的汽车进一步优化分类结果。此外,对于那些未分类的案例,我们将使用朴素贝叶斯分类器对其进行分类。
关键词:协会分类;文字分类;文字挖掘;文字分类
1.介绍
在中文文档文本的情况下,汉字之间没有明显的空格,而且通常包括英文单词,数字和符号,因此特征提取需要标点符号。中文标点符号是将特定文本分为不确定长度的单词。由于单个汉字与不同的汉字结合使用时会具有不同的含义,因此中文标点符号必须依靠庞大的单词库和上下文比较才能获得最合适的单词。在这项研究中,当中国的分词系统(http://ckipsvr.iis.sinica.edu.tw/)[22],是由中央研究院图书馆团队开发的,用于标点符号的文档,我们发现某些功能可能会遗漏或分成具有不同含义的不同功能;例如””(大肠杆菌)切成“”(大肠)和“”(杆菌),尽管“”(大肠杆菌)应视为一个功能。尽管某些功能可能无法从一个功能中切出,但这些功能之间存在相关性。如果将此类型的合并功能视为特殊功能,则将有助于分类处理。无论最初具有哪些特征是单个特征还是具有相关性的不同特征,关联规则都可以用于查找可能具有相互关系的术语。因此,本文采用联想分类技术对中文文本进行分类。
近年来,已经提出了许多关联分类器[5],[14],[16],[17]。它们在执行过程中彼此非常相似,而它们之间最大的区别在于对CAR的排名和修剪方式[9],这将直接影响关联分类器的分类准确性。惰性分类器的排名方式[5]将为更长的规则赋予更高的排名。实际上,与其他分类器相比,惰性分类器的平均准确性比其他分类器高1.63%。因此,本文将采用与Lazy分类器相同的排名方法。另一方面,由于我们考虑了每个规则在分类过程中的可信度,因此我们的修剪方法与惰性的修剪方法不同。我们将在第3节中介绍我们的方法。
关联分类器[5],[8],[9],[14],[15],[20]根据术语之间的相关性建立的规则对文档进行分类,未分类的数据将被分类为默认类,以避免某些数据无法分类的情况。但是,很难设置合适的CAR的置信度阈值。较高的置信度阈值可能会删除一些有用的规则,从而导致许多数据无法被CAR分类。而较低的置信度阈值可能会导致分类不准确。这两种情况最终将影响分类的准确性。为了提高分类性能,我们需要解决这两个问题。无论如何,朴素贝叶斯分类器可以弥补关联分类器的这一缺点。我们将首先使用朴素贝叶斯分类器对训练案例进行分类,
朴素贝叶斯分类器[6],[7],[10],[13],[19]计算文档中所有术语的权重,然后对每个类别的权重求和以得出其整数。具有最高积分的术语将用于分类。朴素贝叶斯分类器的最大优势在于计算过程简单,几乎不受术语之间的相关性的影响,因此可以对所有文档进行主观分类。因此,我们在这项研究中使用朴素贝叶斯分类器。然而,由于对术语之间相关性的无知,朴素贝叶斯分类器无法通过这种相关性来提高分类精度。正确设置阈值后,关联分类器将获得比术语权重分类更高的文本分类精度,这恰好弥补了朴素贝叶斯分类器的不足。因此,我们建议结合关联分类器和朴素贝叶斯分类器的优点,分别在不同的阶段发挥作用,以弥补其他分类器的任何不足,从而提高文本分类的准确性。我们将在本节中介绍此分类过程3。
本文将在第2节中介绍相关工作。第3节将介绍使用关联分类器和朴素贝叶斯分类器的分类过程。实验结果和结论将在第4节和第5节中列出。
2.相关工作
2.1. TFIDF
在这项研究中,我们使用中文分词系统进行中文标点。标点符号后,可以用单词袋[12]表示。可以将文档D转换为d = ((f1, w1), (f2, w2) … (fi, wi)),其中每个fi是文档单词,而wi表示其频率。权重可以通过不同的方法来计算。正如Combarro等人[4]指出的,TFIDF方法很简单,但是在许多情况下效果很好。在本文中,我们使用这种过滤度量方法,并在下面进行介绍。
TFID方法使用术语频率和文档频率来计算文档中单词的权重。术语频率TF(t, d)是文档d中单词t的频率(次数)。 文档频率DF(t)是包含单词t的文档数。单词t的反文档频率IDF(t)可以通过以下公式计算: