一、 研究现状
现今,大多数学校的一卡通消费数据分析技术是在校园一卡通数据库标准基础上,建立数据仓库系统并在此基础上进行OLAP(联机分析处理)和数据挖掘。通过对学生消费数据的分析,对学生的学习、生活进行分析。但是校园卡一年的记录数据就有万条左右,文件数据量过大,如此庞大的数据对挖掘算法的复杂度、计算机性能要求很高,大大增加了系统管理难度和使用成本。
如此巨大而又庞大的数据量必然无法用单台的计算机进行处理,必须采用 分布式架构。 而Hadoop是一个能够对大量数据进行 分布式处理的 软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理;它以并行的方式工作,通过 并行处理加快处理速度;并且他的成本比较低,任何人都可以使用,可以轻松地在Hadoop上开发和运行处理海量数据的 应用程序。
二、选题意义
在校园卡的日常应用过程中会产生很多数据,这些信息包含着校园卡中许多隐含其中的、不易为人知的但又有用的特点,由于校园卡本身是由人的个体使用 的,通过对一卡通数据的分析可以得到学生在校学生日常消费的习惯等信息,这对于校园一卡通系统本身的建设、领导的决策等都具有重要作用。对校园卡涉及的数据进行分析的意义主要有以下几点:
用户消费特征分析:在分析校园卡用户消费时,我们可以对用户进行整理,以消费场所为方向(例如蔚然餐厅),得到一些用户的分类信息。这样可以为相关经营单位的生产经营提供一个比较明显的可参照数据,有利于经营中的效率提高,做到既不浪费资源,也不会出现供不应求的情况。
用户分类:通过对一卡通交易数据的分析,我们希望得到用户消费能力的分析结果并进行预测。我们可以将用户分为高消费用户,普通消费用户和偏低消费用户,从而可以通过这些数据为助学贷款发放的审查、恶意欠费等工作提供数据依据。
用户行为分析:将用户在消费类别、消费日期、消费金额上进行聚类分析,并利用结果结合用户资料对在校学生的相关家庭情况进行分析,发现用户的消费习惯和潜在的消费规律。
基于Hadoop的一卡通消费数据分析是一款能够对大学生在校消费情况进行分析处理的软件。通过该软件可以有效地解决现有一卡通数据分析一系列问题,实现对大数据的快速运算和处理,降低了难度和使用成本。
该软件工程基于 Hadoop软件开发平台,运用Java语言,通过使用Map-reduce执行环境。能够综合应用大学期间的数据库系统原理与设计、软件工程、Java面向对象与设计、JavaEE程序设计与应用开发等课程的知识。将进一步锻炼学生的学习能力、应用开发能力和科技论文写作能力,提升学生的综合能力。
三、研究内容
本论文的主要研究内容如下: 1、收集相关资料,了解大数据分析处理的技术及应用现状,了解校园一卡通的组成及特点。
2、熟悉Hadoop分布式系统基础架构,学习HDFS(分布式文件系统)和MapReduce两大核心组件的用法。
3、搭建Hadopp测试平台,获取一卡通相关技术。
4、完成以下三种功能:
(1)分析就餐人员的类型及行为特征,如早、中餐的就餐费用、就餐地点、时
间等特征;
(2)不同菜品的受欢迎情况等;
(3)分析出可能的贫困人员及消费状况;
5、形成一卡通应用的统计分析报表,提高学校、相关部门对学生的关注度。
6、根据软件工程设计规范写出设计说明书,根据学校要求撰写设计报告(毕业论文)
四、研究方法
1、 文献研究法。查阅并初步了解已有文献,对课题研究中所涉及到的相关内容和技术进行初步了解,明确选题的目标、任务和内容。
2、 定性分析法。通过对相关书籍、期刊文献的研究,深入了解和Java语言相关的技术,从而理解并掌握基于Hadoop的一卡通消费数据分析软件设计与实现。
3、 案例分析法。通过对相关程序的解读、分析,便于开发本系统相关程序。
4、 沟通交流法。在研究文献和开发系统的过程中遇到问题及时和指导老师取得联系,分析并解决所遇到的问题。
5、还需要有问卷或者访谈,了解数据的统计结果是否符合学生实际情况。
五、参考文献
[1] 张敏.大数据时代大数据的应用[J].大数据研究,2015,9:125-127
[2] 曾磊.大数据研究综述[J].软件导刊,2015,8:1-2
[3] 王博文.浅析基于Hadoop的大数据分析与应用[J].数字技术与应用,2015,4:226
[4] 秦奋.Hadoop计算性能的研究[J].信息技术与信息化,2015,6:215-218
[5] 周品.Hadoop云计算实战(第1版)<M>.北京:人民邮电出版社,2012-10
[6] 刘刚.Hadoop应用开发技术详解<M>.北京:人民日报出版社,2014-01
[7] 刘灵松.校园一卡通数据分析平台研究与设计[D].山东师范大学硕士研究生学位论文,2015 |