毕业设计(论文)
译文及原稿
译文题目:
|
多数据集垃圾邮件过滤的朴素贝叶斯算法分析
|
原稿题目:
|
Analysis of Naïve Bayes Algorithm for Email Spam Filtering
|
|
across Multiple Datasets
|
原稿出处:
|
IOP Conference Series: Materials Science and Engineering,
|
|
Volume 226, Issue 1, pp. 012091 (2017).
|
|
|
多数据集垃圾邮件过滤的朴素贝叶斯算法分析
Nurul Fitriah Rusland, Norfaradilla Wahid, Shahreen Kasim,
网络技术系,2017,马来西亚
摘要
电子邮件中的垃圾邮件继续成为互联网上的一个问题。垃圾邮件的电子邮件可能包含相同的信息,商业广告或其他不相关的帖子就像色情内容。在以往的研究中,不同的滤波技术来检测这些电子邮件,如用随机森林,朴素贝叶斯,支持向量机(SVM)和神经网络。在本研究中,我们测试垃圾邮件过滤的两个数据集上的朴素贝叶斯算法和测试其性能,即垃圾邮件数据Spambase数据[ 8 ]。数据集的性能在评价的基础上,他们的准确率,召回率,精度和F值。我们的研究使用WEKA工具用于垃圾邮件过滤对数据集的朴素贝叶斯算法的评价。结果表明,邮件的类型和数据集的实例的数量有影响对朴素贝叶斯算法的性能。
1.引言
如今,电子邮件提供了许多方法,可以免费向数百万人发送数以百万计的广告。因此,许多不请自来的群发电子邮件,也被称为垃圾邮件,广泛传播,不仅对互联网而且对社会构成严重威胁。例如,当用户收到大量电子邮件垃圾邮件时,用户忘记读取非垃圾邮件信息的机会增加。因此,许多电子邮件阅读器不得不花时间删除不需要的消息。电子邮件垃圾也可能给拨号连接的用户不必要的宽带花费,并可能使未成年人接触到不合适的内容。在过去的许多年中,已经提供了许多方法来阻止电子邮件垃圾邮件[ 1 ]。
对于一些垃圾邮件过滤,不被标记为垃圾邮件的电子邮件过滤因为没有检测到邮件为垃圾邮件。存在的问题是关于垃圾邮件的过滤,可能会引入一些误差精度。几种机器学习算法已被用于垃圾邮件过滤,但朴素贝叶斯算法特别流行在商业和开源的垃圾邮件过滤器[ 2 ]。这是因为它的简单,使他们很容易实现,只需要较短的训练时间或快速过滤垃圾邮件的评价。滤波器需要训练,可以用以前的一套垃圾邮件和非垃圾邮件设置。它跟踪每一个只发生在垃圾邮件中的词,在非垃圾信息中,在两个方面。朴素贝叶斯算法可以用在不同的数据集,他们每个都有不同的特征和属性。
本文的研究目标是:
(一)实现垃圾邮件过滤的两个数据集上的朴素贝叶斯算法,
(二)对垃圾邮件过滤的选择数据集的朴素贝叶斯算法的性能。
本文的其余部分安排如下:第二节对垃圾邮件过滤的朴素贝叶斯算法的相关工作。第三节介绍利用Weka的垃圾邮件的方法。第四节介绍实验装置。第五节给出了两个数据集的结果和分析。最后,第六节对全文进行了总结,并指出了今后的研究方向。
2. 相关的工作
你现在能够推出大规模的垃圾邮件活动,恶意软件和僵尸网络帮助来广泛传播的垃圾邮件。在接收和打开垃圾邮件,互联网用户面临的安全问题,如垃圾邮件通常是恶意广播。用户收到的常见电子邮件垃圾邮件示例之一是请求ID和密码的电子邮件(请参阅图1)。
图1.请求ID和密码的垃圾数据样本