基于Hadoop和SparkSQL大数据日志分析与可视化设计任务书-毕业作品网站

毕业设计（论文）题目：

基于Hadoop和SparkSQL大数据日志分析与可视化设计

毕业设计（论文）要求及原始数据（资料）：

1．设计大数据日志分析并可视化平台系统；

2．实现SparkSQL大数据日志分析并可视化工作;

3．按照典型软件工程的流程、规范和方法，使用scala语言和sparkSQL完成数据清洗，数据分析，大数据存储，数据可视化，可视化前端界面的设计、实现。以及大数据测试环境和真实环境搭建，对项目进行测试和部署，最终实现课程排名的展示；

4．针对特定的大数据技术或框架，给出较为深入的研究分析结果；

6．训练检索文献资料和利用文献资料的能力。

7．训练撰写技术文档与学位论文的能力。

毕业设计（论文）主要内容：

1．前端部分用于数据展示，使用spring boot构建。主要内容为饼图，展示最受欢迎的课程TOPN；

2. 后台部分在spark集群上运行，主要包括日志数据清洗，数据分析，大数据存储等。离线分析GB以上的日志文件，统计最受欢迎的课程，按照地市统计TOP3课程，按照流量统计TOPN课程，存储到mysql数据库中。搭建分布式的spark集群，通过yarn运行到hadoop集群上。。

3．设计系统的原型并形成原型设计文档；

4．设计系统的体系架构、数据库、开发框架、关键算法等并形成系统设计文档。

5．模块代码开发及单元测试并形成最终系统实现；

6. 系统集成、功能测试及形成测试报告；

7．编写系统安装使用文档；

8．在该系统基础上，加入一定的技术研究型内容，并最终形成毕业论文

学生应交出的设计文件（论文）：

1．内容完整、层次清晰、叙述流畅、排版规范的毕业设计论文；

2．包括毕业设计论文、源程序等内容在内的毕业设计电子文档及其它相关材料。

主要参考文献（资料）：

[1] Christos Kozanitis,David A. Patterson. GenAp: a distributed SQL interface for genomic data[J]. BMC Bioinformatics,2016,17(1).

[2] Chenghao Guo,Zhigang Wu,Zhenying He,X. Sean Wang. An Adaptive Data Partitioning Scheme for Accelerating Exploratory Spark SQL Queries[M].Springer International Publishing:2017-06-15.

[3] Bo Dong,Qinghua Zheng,Feng Tian,Kuo-Ming Chao,Nick Godwin,Tian Ma,Haipeng Xu. Performance models and dynamic characteristics analysis for HDFS write and read operations: A systematic view[J]. The Journal of Systems & Software,2014,93.

[4] 侯敬儒. 基于Spark的机器学习模型分析与研究[D].昆明理工大学,2017.

[5] 庞超. 基于Spark和Hive的网易移动大数据支持平台的设计与实现[D].北京交通大学,2017.

[6] 鲁宗飞. 基于Spark的空间数据平台系统的设计与实现[D].山东大学,2017.

[7] 张文童. 基于Spark的混合推荐系统的研究与实现[D].北京交通大学,2017.

[8] 李筱川. 基于Spark的情报大数据可视化分析[D].山东大学,2017.

[9] 黄廷辉,王玉良,汪振,崔更申.基于Spark的分布式交通流数据预测系统[J].计算机应用研究,2018,35(02):405-409+416.

[10] 顾荣. 大数据处理技术与系统研究[D].南京大学,2016.

专业班级						学生
要求设计（论文）工作起止日期
指导教师签字						日期
教研室主任审查签字						日期
系主任批准签字						日期