《[52001CC0JV]互联网数据分析与应用》
大作业考核方案
大连东软信息学院 软件学院大数据科学系
2023 年 4 月
1 终结性考核目标
课程通过针对互联网的数据分析,分析相关数据特点并进行相关应用。采用线上线下相结合的混合式教学模式,将该项目划分为信息爬取、信息处理、信息分析及信息应用等模块分别贯穿于基础知识、函数编程、数据类型、文件操作、数据操作以及网络爬虫、数据可视化编程等 Python 编程环节中。在教师的指导下,通过编程实践、分组研讨、查阅资料等方式实现项目,旨在提升学生的知识素养、专业技能与编程兴趣,构建学生在程序设计方面的逻辑思维,逐步提升 Python 语言的综合编程能力。
2 终结性考核内容及要求
本终结性考核题目的设计在课程学习与三级项目的基础上,在课程教学的1-8 周时间内利用所学互联网数据分析领域的基础理论等相关知识,完成以下大作业内容的设计。
1) 考核内容
(1) 以个人为单位,题目自拟,利用 Flask 等网站搭建知识,完成一个完整网站的设计,网站中至少包含 4 个页面(每页 html 不少于 500 行代码,各页样式不同),每个页面的信息由学生自行准备,界面样式和模板文件自行准备,网站雷同人员双方均按照 0 分计。
(2) 利用 Selenium 爬取第 1 题中搭建的网站,要求从每个页面中爬取 2 条以上有效信息(即爬取 2 条*4 页面=8 个信息)。
(3) 数据分析与展示。利用 Jieba、Neo4j 等第三方工具实现爬取数据的分词、词性判断、词频统计和词语关联的展示。此题选做,也可以选择其他的流行第三方工具实现。
2) 考核环节
大作业分为概要设计、详细设计、编码和测试等 4 个阶段。每位同学需制定开发日程表,按照进度及时完成大作业。
(1) 现场考核环节,包括演示项目和回答问题
(2) 提交大作业归档成果物,包括大作业报告和代码
成果物以“学号姓名”命名,上传至作业系统指定任务中。
3 知识与能力基础
1)知识基础
(1) 互联网数据获取
(2) Flask 服务器搭建
(3) 文本分词与语言模型
(4) 知识图谱
2)能力基础
要求学生拥有独立解决问题的能力,以及源代码阅读,分析,编写和完善的能力,并具有一定创新能力。
4 进度安排
本课程大作业设计安排四个阶段。
(1) 需求分析阶段(课内 2 学时,课外 2 学时)进行大作业的需求分析。
(2) 详细设计阶段(课内 0 学时,课外 2 学时)进行各个模块的详细设计。
(3) 编码阶段(课内 2 学时,课外 4 学时)按模块详细设计编码等。
(4) 考核阶段(课内 4 学时,课外 0 学时) 对成果物进行测试,总结,准备答辩材料等。
5 软件开发环境
(1) Python3.6 及以上
(2) pip 或 pip3
(3) selenium
(4) flask
(5) Jieba 等分词工具
(6) Neo4j
(7) gedit、VIM 等相关编辑器
(8) Anaconda Prompt
(9) PyCharm
6 考核与评价
课程终结考核评分标准:100 分(占总分的 50%)
1)终结性考核成绩构成(百分制)
(1) 网站搭建(30 分)
(2) 互联网数据爬取(20 分)
(3) 数据分析与展示(20 分)
(4) 回答问题(20 分)
(5) 项目报告(10 分)
2)终结性考核具体评分标准
一级评分项
|
二级评分项
|
网站搭建(30 分)
|
页面设计(5 分)
|
页面数量(5 分)
|
页面代码量(5 分)
|
|
网站搭建技术(5 分)
|
网站完整性(5 分)
|
网站创新性(5 分)
|
互联网数据爬取(20 分)
|
互联网数据爬取技术(5 分)
|
互联网数据爬取工作量(5 分)
|
互联网数据爬取有效信息(5 分)
|
互联网数据爬取创新性(5 分)
|
数据分析与展示(20 分)
|
互联网信息切分(5 分)
|
互联网信息统计(5 分)
|
互联网信息展示(5 分)
|
互联网信息操作创新性(5 分)
|
回答问题(20 分)
|
问题 1(10 分)
|
问题 2(10 分)
|
项目报告(10 分)
|
报告内容(5 分)
|
报告完整性(5 分)
|