口红销量预测
摘要:从网站爬取口红销售数据,分析影响销售数据的重要因素以及根据销售因素建模预
测其销售量。本文先将数据进行预处理得到实验数据,然后着重分析朴素贝叶斯判别分析算法、AdaBoost 算法以及随机森林算法在口红销量预测中的效果,并在随机森林算法中进
行模型优化。通过实验结果表明总评价数、价格和描述分这三个因素对销售量的影响较大,对三个算法对比分析得出随机森林算法预测错误率最低,有较好的预测效果。
关键词: 口红销量;朴素贝叶斯;AdaBoost;随机森林
目录
口红销量预测
1 问题描述
2 数据描述
2.1 数据来源
2.2 数据预处理
2.2.1 数据清洗
2.2.2 缺失值处理
2.3 颜色字段词云
2.4 功效字段词云
2.5 数据变换
2.5.1 对销售总量字段进行处理
2.5.2 对功效字段进行处理
2.5.3 对数值字段进行处理
3 模型构建
3.1 数据抽样处理
3.2 朴素贝叶斯分类
3.2.1 朴素贝叶斯算法原理
3.2.3 计算结果
3.3 集成学习
3.3.1 AdaBoost 算法原理
3.3.3 计算结果
3.4 集成学习
3.4.1 随机森林算法原理
3.4.3 计算结果
3.4.4 模型优化
3.5 模型评价
4 主要结论
5 课程建议
参考文献