目录
1数据导入与预处理 1
1.1 探查数据质量并进行缺失值和异常值处理 1
1.1.1数据结构总览查看数据集项数 1
1.1.2检查重复值 1
1.1.3数据内容总览 1
1.1.4数据分布总览 1
1.1.5消费金额和消费次数观察消费金额和消费次数的散点图 2
1.1.6观察 CardCount 特征的分布情况 2
2食堂就餐行为分析 3
3学生消费行为分析 5
3.1 根据学生的整体校园消费数据 5
3.3.1本月人均刷卡频次和人均消费额 5
3.2选择 3 个专业,分析不同专业间不同性别学生群体的消费特点 5
3.3.2.1根据程序运行结果得出学生消费总额、消费次数总数、校园卡中余额的数据特征图 5
3.3.2.2根据程序运行结果得出学生消费总额、消费次数总数、校园卡中余额的柱状图 6
3.2.1 概述 7
3.2.2 k-means 算法简介 8
3.2.3 过程 8
3.2.4 聚类结果分析 8
1数据导入与预处理
1.1 探查数据质量并进行缺失值和异常值处理
1.1.1数据结构总览查看数据集项数
发现数据集data1.csv,有4341项,5列;数据集data2.csv,有519367 项,14列;数据集data3.csv,有43156项,6列
1.1.2检查重复值
通过去重操作发现三个数据集均无重复项
1.1.3数据内容总览
查看数据信息info(),发现data1和data3中均无缺失值 ,data2中termSerNo、conOperNo 存在较大量的缺失值,因为这两项数据对后续分析无影响故直接过滤
1.1.4数据分布总览
通过对数据Describe,查看数据的均值,最大值,最小值以及方差等数据特征,观察到data1
和data3中的特征值均较为合理,data2中的Money、FundMoney、Surplus以及 CardCount,均存在和样本群体偏离程度较大的数据,会影响后序模型的性能