毕业设计(论文)主要内容:
1.前端部分用于数据展示,使用spring boot构建。主要内容为饼图,展示最受欢迎的课程TOPN;
2. 后台部分在spark集群上运行,主要包括日志数据清洗,数据分析,大数据存储等。离线分析GB以上的日志文件,统计最受欢迎的课程,按照地市统计TOP3课程,按照流量统计TOPN课程, 存储到mysql数据库中。搭建分布式的spark集群,通过yarn运行到hadoop集群上。。
3.设计系统的原型并形成原型设计文档;
4.设计系统的体系架构、数据库、开发框架、关键算法等并形成系统设计文档。
5.模块代码开发及单元测试并形成最终系统实现;
6. 系统集成、功能测试及形成测试报告;
7.编写系统安装使用文档;
8.在该系统基础上,加入一定的技术研究型内容,并最终形成毕业论文
学生应交出的设计文件(论文):
1.内容完整、层次清晰、叙述流畅、排版规范的毕业设计论文;
2.包括毕业设计论文、源程序等内容在内的毕业设计电子文档及其它相关材料。
|
|
主要参考文献(资料):
[1] Christos Kozanitis,David A. Patterson. GenAp: a distributed SQL interface for genomic data[J]. BMC Bioinformatics,2016,17(1).
[2] Chenghao Guo,Zhigang Wu,Zhenying He,X. Sean Wang. An Adaptive Data Partitioning Scheme for Accelerating Exploratory Spark SQL Queries[M].Springer International Publishing:2017-06-15.
[3] Bo Dong,Qinghua Zheng,Feng Tian,Kuo-Ming Chao,Nick Godwin,Tian Ma,Haipeng Xu. Performance models and dynamic characteristics analysis for HDFS write and read operations: A systematic view[J]. The Journal of Systems & Software,2014,93.
[4] 侯敬儒. 基于Spark的机器学习模型分析与研究[D].昆明理工大学,2017.
[5] 庞超. 基于Spark和Hive的网易移动大数据支持平台的设计与实现[D].北京交通大学,2017.
[6] 鲁宗飞. 基于Spark的空间数据平台系统的设计与实现[D].山东大学,2017.
[7] 张文童. 基于Spark的混合推荐系统的研究与实现[D].北京交通大学,2017.
[8] 李筱川. 基于Spark的情报大数据可视化分析[D].山东大学,2017.
[9] 黄廷辉,王玉良,汪振,崔更申.基于Spark的分布式交通流数据预测系统[J].计算机应用研究,2018,35(02):405-409+416.
[10] 顾荣. 大数据处理技术与系统研究[D].南京大学,2016.
专业班级
|
|
学生
|
|
要求设计(论文)工作起止日期
|
|
指导教师签字
|
|
日期
|
|
教研室主任审查签字
|
|
日期
|
|
系主任批准签字
|
|
日期
|
|
|