基于机器学习的共享单车资源分配和可视化
摘要:共享单车是当前一种流行的出行方式,不同地区和不同时段对共享单车的需求不同。更好的共享单车需求分析能够优化共享单车配置,降低闲置率,提高利用率。本文基于机器学习的共享单车资源分配预测和可视化,根据已经采集的共享单车资源历史数据,采用大数据技术对这些数据进行分析,采用随机森林的方法建立数学模型并进行模型训练,预测区域内相应的车辆最优资源分配,实现预测模型的误差保持在合理的范围内,并将预测结果进行可视化展示。
关键词:共享单车,机器学习,大数据技术,预测模型,可视化
1 文献综述
1.1共享单车的兴起背景
2014年首批共享单车诞生在北京大学的校园。2013年戴威从本科毕业后开始了他成为ofo小黄车首席执行官兼创始人第一步,当时他已被北大保研,但是戴维去了青海省大通县东峡镇支教。东峡镇位于西北偏远山区,生活条件比较困难,他为了改善生活每周去一次县城,而他去现成的交通工具就是一辆老自行车。每周不断的骑行戴威想起在大学四年里他丢失了5辆自行车,很多同学都有过这样的麻烦,当你需要去一些汽车不便利到达的地方的时候,你的身边却没有一辆单车。他忽然明白骑车去旅游并不是所有人都需要的,但是出行却是每个人都需要的。因此,2014年,第一代共享单车在北京大学的校园内诞生。
随着共享经济的兴起,依赖互联网的进步与进展,出现了一种全新的商业模式——共享经济,一般是指基于陌生人且存在物品使用权临时转移的,以获得一定酬劳为主要目的一种新的经济模式[1]。它的本质在于统筹调配线下的临时没有人使用的产品或者服务,让他们以更低,更经济的价格提供产品或服务。而支撑共享经济进展的理念在于,“人们需要的是产品的使用价值,而非产品本身”[2]。所以在这样共享经济的理念之下,用户共享我们单车的价值,而又不需要去购买单车的所有权,从而实现了资源更好的安排和利用。
互联网技术的进步进展和流行。众所周知,共享单车的使用依赖于互联网技术。其核心环节包括找车、开锁、还车和计费等,都严峻依赖一张高质量的无线网络将单车与云端服务器稳定连接起来[3]。随着互联网技术的进展、5g技术长码短码控制码的钻研、芯片技术含量的提高和网络的覆盖为共享单车的应用提供了强有力的支持。
1.2共享单车的进展现状
所谓共享单车,是指企业在地铁站点、校园、公共服务区、公交站点等提供自行车共享服务。这是一种分时租赁模式[4]。
作为一个新型的的共享经济理念的代表,共享单车一问世就被许多投资机构所看好,不仅仅是最始的OFO小黄车和摩拜单车,后面还有许多源源不断加入的新品牌。这些共享单车都纷纷完成了他们的融资,并且时间短,融资金额大。
1.3共享单车进展的机遇和挑战
作为一个被许多投资机构所看好的新奇事物,共享单车具有很好的前途和未来。它的出现是社会和时代飞速进展和进步的产物,在刚刚开始阶段拥有其快速进展的机会。与机遇和挑战并存的是刚开始阶段所遇到的困难。只有客服这些困难,共享单车才能够更快更好的进展。
(1)共享单车进展的机遇
有利于贯彻落实可持续进展。摩拜单车CEO王晓峰认为,与政府倡导的低碳节能,绿色出行相一致,是共享单车快速成长的重要前提[5]。共享单车作为一种绿色环保并且有益身体的出行方式,有利于用户的身体健康、缩短了出行时间并且节能减排有益环境,对于实现可持续进展有着重要的意义。
2).市场需求庞大。一是在解决了部分用户的出行难题,从出门到地铁口或者是公交车站这一段距离如果用骑行来代替步行可以很好的节省时间。而且在大城市里面,很多时候邮费高,堵车,停车难等问题都使得用户选择共享单车。二是作为一种环保健康的绿色出行方式,共享单车既能节能减排爱护环境,又可以锻炼身体,所以很廋用户喜爱。
(2)共享单车所面临的挑战
一部分用户破坏或占有单车。共享单车私有化现象、破坏共享单车现象一直很严峻。部分使用者不了解“共享”的含义,为了自己的便利或者贪欲将单车锁上自己的锁,涂改破坏二维码等等,这些都导致了单车的维修和重新投放,大大提高了成本,并且在一定程度上浪费了许多的资源。
严峻的随意停放现象。共享单车开始的设计理念就是走到哪停在哪,为用户提供更便捷的用车服务,可是这也造成了严峻的随意停放现象。此外,城市里的空地资源十分有限,尤其是一些大城市,也没有明确的自行车停放区域,这些都简单造成停车难或者引发相关问题。共享单车随意停放在路边或者人行道一定程度上会影响市容,阻碍交通,严峻的话甚至会引起交管部门的介入。
共享单车公司没有做好服务和管控。很多共享单车企业在刚开始获得融资的时候,为了能够抢占市场或者扩大市场份额,大量投放共享单车。这个做法不仅使得过剩的单车被浪费,也使得占地过大从而造成了单车的随意停放。其次,很多被破坏的单车回收后并没有被准时维修而是堆积成山,因为某种程度上维修成本才超过了重新投放单车的成本。这点也造成了资源的闲置浪费。
2 选题背景及其意义
我毕业设计的选题是“基于机器学习的共享单车资源分配和可视化”,共享单车是一个近年来很热门的新兴事物, 共享经济在我国进展迅速,收到了政府和广大民众的重大关注,而出现的很多问题也引起了众多学者的注意,关于共享单车的研究也越来越多。共享单车是指企业在在一些人群密集的行程出发点或结束点向出行人提供自行车共享服务,然后按消费时长或者骑行距离收费,是一种分时租赁模式。从共享单车数据中比如使用次数、骑行时间、骑行时长、起点和终点经纬度坐标等属性,我们可以看出人们的许多习惯从而进行研究。我们可以通过可视化更好的去了解和研究共享单车,为研究者们提供许多新的角度。我们做一个数据可视化的系统要能做到文件上传,文件解析,文件数据可视化等功能,从而进一步分析。
对于代步单车来说,单车资源分配的精准预测可以极大帮助市民和企业提升出行效益和企业效益。近些年来成为,共享单车系统正在经历着一场高速发展的浪潮,已然成为城市交通系统中不可或缺的一部分。与此同时,由于人们出行需求的不确定性,导致共享单车会出现时空不均衡问题,不能匹配人们的出行需求,从而使用户满意程度降低,这种情况会严重阻碍共享单车行业的发展。因此,基于用户需求建立合理有效模型对于共享单车资源分配预测具有较强理论和现实意义。
3 研究内容
3.1基本原理
在如今这个大数据时代,数据发觉数据挖掘数据分析无处不在。我们从网站上获得的数据可以了解到共享单车的试用情况包括站点,使用时长等各个方面的具体情况,然后通过数据可视化使其更直观更具体的展现出来。这个系统我们可以自行上传csv文件令其读取,从而对其他数据也可以进行展示,可以自定义要去展示的参数。
数据可视化技术是运用计算机图形学和数据处理技术,将数据进行读取分析并按照要求显示成为图标或者图像然后再进行处理的一门技术。数据可视化概念首先来自科学计算可视化(visualization in scientific computing),这不仅仅是将数据可视化,还要计算这一过程中数据的改变。随着计算机技术的进展,数据可视化概念已经扩张,现在不仅包含科学计算数据的可视化,而且包含工程数据和测量数据的可视化,学术界常把这种空间数据的可视化称为可视化(volume visualization)技术[7]。
3.3拟采用的技术方法
可视化技术在近年进展迅速,可视化工具与方法也出现很多,大量的数据可视化开源工具库被开发出来,大大提高开发的交互性和效率。本文构建的是基于web端的共享单车数据可视化系统,系统结构分为三层:
1)用户层:作为系统的用户界面,我们采纳web页面的模式,运行代码之后我们点击生成的网址进行访问。我们可以在用户界面进行文件上传、查看可视化的结果和查看历史文件。
2)数据库层:这一层是数据库用来存储数据、查询数据和计算数据,我们可视化所需要的数据就从这里取得。主要包括:日期、时间、开始站点、结束站点和用户个人信息(性别,年龄)等。我们的系统采纳MySQL作为数据库。
3)服务器层:服务器层是位于用户层和数据库层之间的层面。一边接受来自用户界面的恳求,然后再根据这些恳求向数据库申请数据。得到数据之后对数据进行
处理,最终得到可视化的画面再返回到用户层。
系统层次如下图所示:
图3.1 系统层次图
4 工作特色及其难点,拟采取的解决措施
4.1 工作特色及其难点
(1)上传文件:能从本地上传csv格式的数据文件
(2)保存数据:读取文件,并对文件中的共享单车的数据进行分类保存
(3)读取保存的数据,对数据进行可视化:
a.形成一个根据经纬度分布的共享单车站的散点图,同时也能反映出每个单车站点被使用的次数;
b.形成一个每个月内按天数计算的共享单车使用次数的柱状图;
c.形成一个每天内按二十四小时计算的共享单车使用次数的柱状图;
d.形成一个按是否会员分类的饼状图;
e.形成一个按性别分类的饼状图;
f.形成一个按年龄分类的饼状图;
(4)历史文件查询:有一个历史文件查询功能,能够快速的检索到以前使用过的csv文件。
4.2 拟采取的解决措施
1)用户层作为前端,我们以web的形式可以用扫瞄器打开,运行程序以后会出现一个网址,点击网址就可以进入共享单车数据可视化系统。我们利用Html来构建网页的内容结构,用Java语言作为前后端的桥梁。
2)后台服务器的框架有很多种,我们这里用的是基于Java的Spring Boot框架,虽然规模较小,但支持一个小型的系统绰绰有余。本文的可视化系统只是对共享单车的一些基本数据进行图表绘制,系统规模比较小,所以就采纳Spring Boot框架。服务器层运行在Spring Boot搭建的本地服务器上,便捷且效率高。
3)数据库我们采纳的是MySQL,操作便利,运行速度也快,也较为适合本文这个小型系统。
5 论文工作量及预期进度
2022年11月--2022年12月:查阅资料,准备开题报告,开题
2023年1月--2023年3月:总体方案的设计与规划,算法代码实现和测试分析
2023年3月--2023年4月:准备中期检查与中期答辩
2023年4月—2023年5月:毕业设计论文撰写和毕业答辩
6 预期成果及其可能的创新点
预期成果:我们把每个数据的时间这个项目提取出来,绘制成一幅每天共享单车使用数量的柱状图。同样是调用echarts。先将日期数据进行去重处理,然后定义数据,横轴为日期,一个月有三十天,纵轴为使用次数。对每天使用数据进行了可视化之后我们可以清楚的看出一个月内每天使用量的对比,表格下面还配了一个按钮,是用来选择我们要显示的天数的,我们可以一次性将一个月的全部天数都显示出来,也可以选择只显示某几天来单独对比。
可能的创新点:提取数据列表中使用时间的小时,我们可以整合出一天二十四小时的使用图像。一样的先对数据进行去重,然后调用echarts进行可视化。
参考文献:
[1]https://baike.baidu.com/item/%E5%85%B1%E4%BA%AB%E7%BB%8F%E6%B5%8E/965155?fr=aladdin
[2]牛禄青.共享单车:下一个网红[J].新经济导刊,2016(12)
[3]黄海峰.电信,ofo,华为联手发掘NB-LoT共享单车“金矿”[J].通信世界,2017(6)
[4]张倩雯.当前我国共享单车现状、问题与对策研究[D].天津外国语大学,2017
[5]刘志强.共享单车引来众多资本追捧[J].理财(经论),2017(3)
[6]http://www.myzaker.com/article/58cb23ee1bc8e/
[7]刘文炜.图形图像处理软件PhotoStyler20概述[J/OL].CNKI系列数据库镜像站;中国期刊全文数据库
[8]雷蕾.常用数据可视化技术分析.现代电视技术[J] 2014 (9)
[9]孙品 周峰. 探讨大数据时代下的数据可视化[D]. 湖北工业大学艺术设计学院, 2016
[10]http://www.tianqihoubao.com/guoji/3284.html
[11] 颜轲越, 王祎萌, 李 莹. 基于机器学习的共享单车需求预测[J]. 计算机科学与应用, 2022, 12(3):10.
[12] 徐伟. 基于机器学习的共享单车热点区域识别及需求预测[J]. 综合运输, 2019(5):6.
[13] 焦志伦, 金红, 刘秉镰,等. 大数据驱动下的共享单车短期需求预测——基于机器学习模型的比较分析[J]. 商业经济与管理, 2018(8):11.
[14] 王立. 基于机器学习的共享单车需求量预测模型研究. 长安大学, 2019.
[15] 白江龙. 基于Spark平台的共享单车骑行分析[D]. 内蒙古大学.
[16] Zhang L , Tang S , Yang Z , et al. Demo: Data Analysis and Visualization in Bike-Sharing Systems[C]// International Conference on Mobile Systems. ACM, 2016.
[17] Zhang J , Pan Y . Planning Station Capacity and Bike Rebalance Based on Visual Analytics of Taxi and Bike-Sharing Data[C]// 2018 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery (CyberC). 2018.
[18] Boufidis N , Nikiforiadis A , Chrysostomou K , et al. Development of a station-level demand prediction and visualization tool to support bike-sharing systems' operators[J]. Transportation Research Procedia, 2020, 47:51-58.