一、 车辆安全运行情况预测
散装水泥专用车辆安全运行是关系安全生产和社会安定的重要环节。浙江省散装水泥专用车辆互联网安全共治管理平台是为了全面提升水泥专用车辆安全施工、安全驾驶水平,降低事故率而创建的一个互联网工作平台。该平台自2017年运行以来,整治成效显著,水泥专用车辆的事故率和赔付率均有明显下降,为社会交通安全管理及行业风控提供了切实有力的技术保障。
附件的样例数据(文件夹data中,多个csv文件)是浙江省的散装水泥专用车辆2018年9月至2022年1月间出险数据信息。
数据字段名称对照如下:
表1 数据字段名称对照表
字段名称
|
英文名称
|
数据类型
|
字段描述
|
字段长度
|
是否字典项
|
是否为空
|
是否主键
|
上报车辆出险数据流水号
|
upVehicleAccidentId
|
BIGINT
|
|
20
|
否
|
否
|
是
|
事故日期
|
accidentDate
|
VARCHAR
|
格式yyyy-MM-dd
|
32
|
否
|
否
|
否
|
车辆流水号
|
vehicleId
|
VARCHAR
|
|
20
|
否
|
否
|
否
|
车牌号[冗余]
|
licPlate
|
VARCHAR
|
|
16
|
否
|
否
|
否
|
底盘架号
|
VIN
|
VARCHAR
|
|
32
|
否
|
否
|
否
|
企业流水号
|
firmId
|
VARCHAR
|
|
20
|
否
|
否
|
否
|
企业完整名称
|
firmLongName
|
VARCHAR
|
|
256
|
否
|
否
|
否
|
企业社会信用代码
|
integrityNo
|
VARCHAR
|
|
32
|
否
|
否
|
否
|
保单编号[冗余]
|
guaranteeNo
|
VARCHAR
|
|
32
|
否
|
否
|
否
|
投保公司流水号
|
claimFirmId
|
VARCHAR
|
|
20
|
否
|
否
|
否
|
投保公司完整名称
|
claimFirmLongName
|
VARCHAR
|
|
256
|
否
|
否
|
否
|
事故发生省份名称
|
provinceName
|
VARCHAR
|
|
64
|
否
|
否
|
否
|
事故发生城市名称
|
cityName
|
VARCHAR
|
|
64
|
否
|
否
|
否
|
事故发生地区名称
|
districtName
|
VARCHAR
|
|
128
|
否
|
否
|
否
|
理赔金额
|
claimAmount
|
VARCHAR
|
|
24
|
否
|
否
|
否
|
受伤人数
|
bruiseNum
|
VARCHAR
|
|
8
|
否
|
否
|
否
|
死亡人数
|
deathNum
|
VARCHAR
|
|
8
|
否
|
否
|
否
|
事故发生详细地址
|
address
|
VARCHAR
|
|
512
|
否
|
否
|
否
|
操作时间
|
opertime
|
DATETIME
|
|
0
|
否
|
否
|
否
|
新增时间
|
regtime
|
DATETIME
|
|
0
|
否
|
否
|
否
|
是否删除
|
status
|
INT
|
0:删除 1:存在
|
2
|
否
|
否
|
否
|
备注
|
remark
|
VARCHAR
|
|
1024
|
否
|
否
|
否
|
签名值
|
SIGNVALUE
|
text
|
|
0
|
否
|
否
|
否
|
时间戳
|
TNSVALUE
|
text
|
|
0
|
否
|
否
|
否
|
签名公钥证书
|
SIGNCERT
|
text
|
|
0
|
否
|
否
|
否
|
签名hash值
|
SIGNHASHCODE
|
text
|
|
0
|
否
|
否
|
否
|
数据样例如下:
{
"upvehicleaccidentid": 5329,
"accidentdate": "2018-11-16",
"vehicleid": "无",
"licplate": "039636",
"vin": "无",
"firmid": "3880",
"firmlongname": "******混凝土有限公司",
"integrityno": "91331122329985837Y",
"guaranteeno": "无",
"claimfirmid": "3252",
"claimfirmlongname": "中国人民财产保险股份有限公司(浙江)",
"provincename": "浙江省",
"cityname": "丽水市",
"districtname": "缙云县",
"claimamount": "5674.77",
"bruisenum": "0",
"deathnum": "0",
"address": "丽水市第二实验小学",
"opertime": 1554109913000,
"regtime": 1554109913000,
"status": 1,
"remark": "车辆出险数据",
"signvalue": "xej2W6Ko...7w==",
"tnsvalue": "MIIKjwYJKoZIhvc...xVhhsdCSjMkSi\ngOpfZzxH5o5AwgnWZ7yhgWfKog==\n",
"signcert": "040C46868...A4B",
"signhashcode": "74g1Q...sk4ui482o="
}
完成以下任务:
任务1 读取数据
编写程序,读取文件夹data中的数据,将多个文件的数据进行合并。
任务2 数据清洗(注意:本题中所有数据的统计以事故日期为准)
任务2.1 去除无关字段(无关字段为:是否删除, 备注, 签名值, 时间戳, 签名公钥证书, 签名hash值),生成新的数据集。请问,去除无关字段后,数据集还包括多少列?
任务2.2 检查数据中是否有重复记录等,若有,请采用合适的方法进行处理。请问,去除重复数据后,应有多少行数据?
任务2.3 对数据的质量进行分析,检查“投保公司流水号”是否存在缺失值、异常值等,并将“事故发生详细地址”调整到“理赔金额”的前一列。
任务2.4 请根据2020年车辆出险数量,对承保公司按车辆出险数量进行降序排序,给出承保数量前五的公司名称。
任务2.5 请给出2020年出险后获赔金额最多的5家企业(或个人)的企业完整名称及对应理赔金额。
任务3 数据可视化(注意:本题中所有数据的统计以事故日期为准)
任务3.1 请按月份画出总体车辆出险数量变化折线图。
任务3.2 请给出理赔金额的累积分布图(对理赔金额取10的对数)。
任务3.3 请给出“中国人寿财产保险股份有限公司(浙江)”2021年月度出险数量柱状图。
任务3.4 请给出杭州市、宁波市2020年月度伤亡总人数柱状图(双柱状图)
任务4 数据预测
请采用你所擅长的数据挖掘或机器学习算法,根据现有的数据,对2021年12月、2022年1月的总出险数量,总赔付金额进行预测,并根据实际数据进行比对验证。
将你选择的数据挖掘或机器学习算法、选择的特征值进行说明,并分析差异。
任务5 其它应用(选做)
5.1 请你对上述数据集的数据分布等情况进行描述和评价。
5.2 根据你的分析,给出事故发生的特征(不限于以上数据集中给出的特征)。
5.3 请根据浙江省杭州市所有地区的事故发生详细地址,画出事故发生地图(可调用高德地图、百度地图等第三方接口进行数据加工)。
5.4对整个数据挖掘的任务进行总结,撰写相关报告,对你的上述各项分析进行描述。