基于知乎热点问题的数据分析系统的设计与实现任务书-毕业作品网站

毕业设计（论文）题目				基于知乎热点问题的数据分析系统的设计与实现
题目类型			软件设计		课题来源	自选项目
学院(校区)					指导老师
专业					班级
学生学号					学生姓名
毕业设计（论文）的主要任务及目标：（1）查阅研究数据分析领域的国内外参考文献资料，掌握数据分析的研究现状和技术发展（2）能够考虑并评价本系统的经济成本或经济效益，及其对个体与社会的影响，并理解应当承担的责任。（3）学习Python最基本的爬虫，掌握各种爬虫技巧，应对碰到的bug。深入学习Scrapy框架，搭建工程化的爬虫（4）分析系统需要提供主动爬取、问题分类、处理存储和可视化展示等操作，所以本系统采用前后端分离技术，由前端程序提供用户交互界面，后端程序提供服务接口。（5）使用爬虫框架从知乎网站获取数据，实现数据实时更新，同时对爬取到的问题或回答进行分类和分析。使用词云、图表等对数据进行可视化展示。（6）完成系统的测试部署。
毕业设计（论文）的主要内容：（1）是结合国内外研究现状，从多方面分析数据分析系统的社会需求并分析其可行性，掌握数据分析研究现状和技术发展。（2）用爬虫框架从知乎网站获取数据，对热门问题及热门回答进行爬取。（3）学习利用NLP自然语言处理分析评论留言情绪。（4）使用词云、图表等对数据进行可视化展示。（5）在系统开发过程，积累项目的开发经验，提高自己的开发能力和学习能力。
毕业设计（论文）的基本要求：（1）针对数据分析系统开发涉及的相关内容，通过广泛查阅国内外相关文献，掌握数据分析的研究现状；（2）严格按照毕业设计进度要求，按时完成规划好的工作；（3）综合运用本专业的基础知识，具备自主学习能力和良好的动手实践能力；（4）开发过程遵守计算机领域的工程职业道德和职业规范，论文撰写遵守学术道德规范，引用他人成果有说明；（5）独立完成毕业论文的撰写，论文论点明确，分析论述清楚，论据充分，字数不少于10000字。
主要参考文献（要求至少外文二篇,中文三篇）： [1]安子建. 基于Scrapy框架的网络爬虫实现与数据抓取分析[D].吉林大学,2017. [2]赵绿草,饶佳冬.基于python的二手房数据爬取及分析[J].电脑知识与技术,2019,15(19):1-3. [3]孙瑜. 基于Scrapy框架的网络爬虫系统的设计与实现[D].北京交通大学,2019. [4]丁忠祥,杨彦红,杜彦明.基于Scrapy框架影视信息爬取的设计与实现[J].北京印刷学院学报,2018,26(09):92-97. [5]韩贝,马明栋,王得玉.基于Scrapy框架的爬虫和反爬虫研究[J].计算机技术与发展,2019,29(02):139-142. [6]李刚.疯狂Python讲义[M].电子工业出版社,2018,12(01). 罗安然，林杉杉. 基于Python的网页数据爬虫设计与数据整理[J].信息科技,互联网技术2020,19:94-95+31. [7] 王从瑜,石弘利,赵炜,基于Python及商业智能的百年奥运会数据可视化分析[J].社会科学Ⅱ辑; 信息科技.2021,5:89-91. [8] 刘珍. 大数据环境下基于Spark的油藏经营管理系统研究[D]. 西安石油大学.2020. [9]Thusoo A, Sarma J S, Jain N, et al. Hive: a warehousing solution over a map-reduce framework[J]. Proceedings of the VLDB Endowment, 2009, 2(2): 1626-1629. [10]Information Technology-Data Analytics; Reports Outline Data Analytics Study Findings from Xianyang Normal University (Research on Massive Data Analysis and Processing Platform Based on Hadoop)[J]. Computers, Networks & Communications, 2018, 07(05):3-7.
进度安排	设计（论文）各阶段主要任务						起止日期
	1	选题，查阅实时推荐相关文献和资料，收集相关数据					2022.03.08-2022.03.24
	2	计划时间安排，撰写任务书和开题报告，完成开题报告					2022.03.25-2022.03.31
	3	进行需求分析，对系统进行总体设计					2022.04.01-2022.05.09
	4	完成中期检查					2022.05.10-2022.05.17
	5	进行系统调试，撰写论文					2022.05.18-2022.05.20
	6	完善系统，修改论文和论文查重					2022.05.21-2022.05.30
	7	毕业设计答辩					2022.06.11-2022.06.13
	8	提交修改后的毕业论文					2022.06.14-2022.06.16