摘要
短信业务的迅猛发展在丰富了人们的沟通方式的同时,同样遭受到垃圾短信的困扰。对于运营商来说,垃圾短信造成基础设施资源的巨大浪费;对于移动用户来说,大量的垃圾短信使用户不能够及时查看正常的短信,干扰了用户的正常生活。垃圾短信的识别已经成为一个亟待解决的问题,而传统的基于黑白名单、关键字进行过滤的效果有限,不能起到很好的识别效果。针对该问题,我们基于垃圾短信的文本内容,将文本分类算法应用到垃圾短信的分类中。我们使用了SVM、LR、GBDT和决策树算法进行垃圾短信的识别工作,最后我们制作了线上演示系统。结果显示系统在垃圾短信的识别上有着良好的表现。
关键词:垃圾短信、文本分类、GBDT、LR
目录
摘要
一、 概述
二、 相关工作
三、 数据分析
四、 研究方法
4.1 逻辑回归(Logistic Regression)
4.2 支撑向量机(SVM)
4.3 决策树(Decision Tree)
4.4 梯度提升决策树(GBDT)
则此时的负梯度误差为
五、 实验设计
5.1 逻辑回归(Logistic Regression)模型
5.1.1 逻辑回归分类器训练
5.1.2 实验结果及分析
5.2 支持向量机(Support Vector Machine)模型
5.2.1 数据预处理
5.2.2 训练模型
5.2.3 模型评估
5.3 决策树(Decision Tree)模型
5.3.1 决策树分类器训练
5.3.2 实验结果及分析
5.4 梯度提升决策树(GBDT)模型
5.4.1 GBDT分类器训练
5.4.2 实验结果及分析
5.5 垃圾短信识别系统
六、总结
参考文献