通过朴素贝叶斯分类器和具有多个置信度阈值的关联分类（外文翻译）-毕业作品网站

设计任务书文档开题答辩说明书格式模板外文翻译范文资料作品文献课程实习指导调研下载网络教育 计算机 网站网页 小程序 商城购物订餐电影安卓 Android Html Html5 SSM SSH Python 爬虫大数据 管理系统 图书校园网考试选题网络安全推荐系统机械模具夹具自动化数控车床汽车故障诊断电机建模 机械手 去壳机千斤顶变速器减速器图纸电气变电站电子 Stm32 单片机 物联网 监控密码锁 Plc 组态控制智能 Matlab 土木建筑结构框架教学楼住宅楼造价施工办公楼给水排水桥梁刚构桥水利重力坝水库采矿环境化工固废工厂 视觉传达 室内设计产品设计 电子商务 物流盈利案例分析评估报告营销报销会计

首　页

机械毕业设计

电子电气毕业设计

计算机毕业设计

土木工程毕业设计

视觉传达毕业设计

理工论文

文科论文

毕设资料

帮助中心

设计流程

购买资料

您现在所在的位置：首页 >>理工论文 >> 文章内容

我们提供全套毕业设计和毕业论文服务，联系微信号：biyezuopinvvp QQ：1015083682

通过朴素贝叶斯分类器和具有多个置信度阈值的关联分类（外文翻译）

立即下载此资料（付费）

文章来源：www.biyezuopin.vip 发布者：毕业作品网站

毕业设计（论文）

译文及原稿

译文题目：	通过朴素贝叶斯分类器和具有多个置信度阈值的关联分类
	器对中文文本进行分类
原稿题目：	Chinese text classification by the Naïve Bayes Classifier and
	the associative classifier with multiple confidence threshold
	Value
原稿出处：	Shing-Hwa Lu, Ding-An Chiang, Huan-Chao Keh, et al.Know
	ledge-Based Systems[J]. 2010, 598-604

通过朴素贝叶斯分类器和具有多个置信度阈值的关联分类器对中文文本进行分类

摘要

每种类型的分类器都有其自身的优点和某些缺点。在本文中，我们利用关联分类器和朴素贝叶斯分类器的优势来弥补彼此的不足，从而提高了文本分类的准确性。我们将使用朴素贝叶斯分类器对训练案例进行分类，并根据所获得的朴素贝叶斯分类器对各个类的分类准确率，为不同类别的不同类别关联规则（CAR）设置不同的置信度阈值。由于所有选定类别的汽车的准确率均高于朴素贝叶斯分类器，因此我们可以通过这些选定的汽车进一步优化分类结果。此外，对于那些未分类的案例，我们将使用朴素贝叶斯分类器对其进行分类。

关键词：协会分类；文字分类；文字挖掘；文字分类

1.介绍

在中文文档文本的情况下，汉字之间没有明显的空格，而且通常包括英文单词，数字和符号，因此特征提取需要标点符号。中文标点符号是将特定文本分为不确定长度的单词。由于单个汉字与不同的汉字结合使用时会具有不同的含义，因此中文标点符号必须依靠庞大的单词库和上下文比较才能获得最合适的单词。在这项研究中，当中国的分词系统（http://ckipsvr.iis.sinica.edu.tw/）[22]，是由中央研究院图书馆团队开发的，用于标点符号的文档，我们发现某些功能可能会遗漏或分成具有不同含义的不同功能；例如””（大肠杆菌）切成“”（大肠）和“”（杆菌），尽管“”（大肠杆菌）应视为一个功能。尽管某些功能可能无法从一个功能中切出，但这些功能之间存在相关性。如果将此类型的合并功能视为特殊功能，则将有助于分类处理。无论最初具有哪些特征是单个特征还是具有相关性的不同特征，关联规则都可以用于查找可能具有相互关系的术语。因此，本文采用联想分类技术对中文文本进行分类。

近年来，已经提出了许多关联分类器[5]，[14]，[16]，[17]。它们在执行过程中彼此非常相似，而它们之间最大的区别在于对CAR的排名和修剪方式[9]，这将直接影响关联分类器的分类准确性。惰性分类器的排名方式[5]将为更长的规则赋予更高的排名。实际上，与其他分类器相比，惰性分类器的平均准确性比其他分类器高1.63％。因此，本文将采用与Lazy分类器相同的排名方法。另一方面，由于我们考虑了每个规则在分类过程中的可信度，因此我们的修剪方法与惰性的修剪方法不同。我们将在第3节中介绍我们的方法。

关联分类器[5]，[8]，[9]，[14]，[15]，[20]根据术语之间的相关性建立的规则对文档进行分类，未分类的数据将被分类为默认类，以避免某些数据无法分类的情况。但是，很难设置合适的CAR的置信度阈值。较高的置信度阈值可能会删除一些有用的规则，从而导致许多数据无法被CAR分类。而较低的置信度阈值可能会导致分类不准确。这两种情况最终将影响分类的准确性。为了提高分类性能，我们需要解决这两个问题。无论如何，朴素贝叶斯分类器可以弥补关联分类器的这一缺点。我们将首先使用朴素贝叶斯分类器对训练案例进行分类，

朴素贝叶斯分类器[6]，[7]，[10]，[13]，[19]计算文档中所有术语的权重，然后对每个类别的权重求和以得出其整数。具有最高积分的术语将用于分类。朴素贝叶斯分类器的最大优势在于计算过程简单，几乎不受术语之间的相关性的影响，因此可以对所有文档进行主观分类。因此，我们在这项研究中使用朴素贝叶斯分类器。然而，由于对术语之间相关性的无知，朴素贝叶斯分类器无法通过这种相关性来提高分类精度。正确设置阈值后，关联分类器将获得比术语权重分类更高的文本分类精度，这恰好弥补了朴素贝叶斯分类器的不足。因此，我们建议结合关联分类器和朴素贝叶斯分类器的优点，分别在不同的阶段发挥作用，以弥补其他分类器的任何不足，从而提高文本分类的准确性。我们将在本节中介绍此分类过程3。

本文将在第2节中介绍相关工作。第3节将介绍使用关联分类器和朴素贝叶斯分类器的分类过程。实验结果和结论将在第4节和第5节中列出。

2.相关工作

2.1. TFIDF

在这项研究中，我们使用中文分词系统进行中文标点。标点符号后，可以用单词袋[12]表示。可以将文档D转换为d = ((f1, w1), (f2, w2) … (fi, wi))，其中每个fi是文档单词，而wi表示其频率。权重可以通过不同的方法来计算。正如Combarro等人[4]指出的，TFIDF方法很简单，但是在许多情况下效果很好。在本文中，我们使用这种过滤度量方法，并在下面进行介绍。

TFID方法使用术语频率和文档频率来计算文档中单词的权重。术语频率TF(t, d)是文档d中单词t的频率（次数）。文档频率DF(t)是包含单词t的文档数。单词t的反文档频率IDF(t)可以通过以下公式计算：

全套毕业设计论文现成成品资料请咨询微信号：biyezuopinvvp QQ：1015083682 返回首页立即下载此资料（付费）如转载请注明来源于www.biyezuopin.vip

打印本页 \| 关闭窗口
上一篇文章：基于L1-LSSVR模型的金融状况指数的构建毕业论文+任务书+开题报告+文献综述+外文翻译及原文	下一篇文章：基于改进TF-IDF的朴素Bayes文本分类器的实现和应用毕业论文+任务书+开题报告+文献综述+外文翻译及原文

本类最新文章

降低商用飞机的直接维护费用的方法 …	基于注塑模具钢研磨和抛光工序的自 …	基于arduino的智能台灯设计 …
基于多传感器融合的井下装备周边人 …	室温下铁磁过渡金属掺杂ZnO薄膜 …	图像处理报告基于CNN的监控视频 …

| 关于我们 | 友情链接 | 毕业设计招聘 |

Email：biyeshejiba@163.com 微信号：biyezuopinvvp QQ：1015083682
本站毕业设计和毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!