设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>毕设资料 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于python的电影票房数据爬取与可视化系统的设计与实现 开题报告
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

毕业设计(论文)开题报告

学    院

系    别

专    业

班    级

学    号

学生姓名

指导教师

职    称

设计(论文)题目

基于Python的电影票房数据爬取与可视化系统的设计与实现

1.选题背景

1.1研究背景

随着互联网信息技术的高速发展,创建与分享互联网内容的方式变得越来越简单,天天都有大量的新闻、图片、音乐与视频等信息资源发布到网上。海量的娱乐资源将为人们提供更加丰富的内容,但与此同时人们查找需要的资源与信息也变得愈来愈困难。网络的快速发展从另一层面上也促进了IPTV的快速发展,随着数字电视和网络存储的不断提高,电影相关的产业也迎来发展的新机遇,网上出现了海量的电影资源,通过对电影和用户数据的相关分析,可以分析出用户喜欢的电影然而,若想对电影的相关数据进行分析是十分困难的,不仅数据的种类多,数据量大,而且其中存在的噪音较多,最后还需要用情感分析对得到的数据进行分析,但是展示的形式不够具体和形象化。

1.2国内外研究现状

1.2.1电影数据采集研究现状

目前无论是国外的还是国内的IMDB还是国内的豆瓣平台的数据获取都主要有两种方法:一种是通过平台提供公开的应用程序编程接口(API)获取数据;另外一种是通过网络爬虫获取数据。

基于开放的API虽然可以直接获取数据,但是其开放权限有较大限制。比如,目前豆瓣只开放一部分接口,并且很多对外的数据接口不是免费的,或者直接不对外开放;即使是API对外开放,但是对于访问数据的频率以及数目上都有严格的控制。所以,这种方式采集的数据量一般不会太大。

通过解析网络爬虫获取的网页,也能采集豆瓣数据。这种方法难点主要是如何应对反爬虫机制,将要花大量时间在防止403被ban上面。网络爬虫的优点是:该方法不受官方的API限制,不仅可以获取更加全面的数据,同时能够迅速的采集大量豆瓣平台的数据。该方法主要缺点是爬虫的编程开发难度会更大,并且爬虫系统后期维护成本比较高。除上述两种方法,还有一些开源免费的爬虫工具可以使用,以Python爬虫工具为例,有QuickRecon, PyRailgun, Scrapy等。其优点是开发难度比较小,缺点是对于个性化开发有些局限性。

1.2.2可视化研究现状

可视化相关技术,其主要包括数据的开发、数据的分析以及可视化图表展示几个基本概念。数据可视化主要是运用图像处理的技术将一堆看似毫无规律的数据经过计算机相关算法处理后,转化成图形或者图表展示在用户界面上,目前己成为决策处理、数据分析、WEB可视化等问题的重要手段。

在国外,可视化技术研究己经很成熟了,比如Wanner等设计了可视化系统ForAVis。目前较常用的可视化产品有展示了大量的动态交互式效果的SASR Visual BI,还有一款可视化产品Gephi,它一般针对社交图谱的数据,可视化其他相关软件也有很多,在展示效果也非常友好。

在国内,也有不少可视化产品,比如由360推出的The Network liar map of China;还有大数据魔镜为用户提供了国内最大的可视化效果库;百度旗下推出一款开源免费的可视化图表工具一一Echarts,它是商业级数据图表,一般动态的在互联网上展示分析的数据,并且代码开源,非常适合开发人员研究使用。

1.3选题依据

看电影作为人们放松心情、丰富业余生活最常用的方式之一,同时国内互联网视频网站以及周边相关服务网站也处于蓬勃的发展阶段,海量的视频资源的背后有着巨大的挖掘价值。所以,设计并同时实现一个电影数据挖掘系统,它集电影数据采集、挖掘以及可视化展示于一体。本文需要解决的重难点包括实现电影爬虫系统的开发,电影数据的存储,电影影评文本的情感分析,以及直观地可视化分析。

2.选题目的

随着经济社会的快速发展,电影作为精神文化产品,得到越来越多人的青睐,人们对电影的评价页也参差不齐,在海量的资源中如何尽快找到符合个人品味的电影,成为观众新的问题。基于Python的数据爬虫技术是目前使用最广泛的方法之一,它能够以最快捷的方式展示用户体验数据,帮助观众进行影片选择。豆瓣电影是著名的电影网站,通过豆瓣电影提供的开放接口大规模地获取电影相关数据。

3.选题意义

电影网站数据挖掘可视化系统是解决上面问题的,通过爬取电影网站的数据,并对数据进行预处理,达到处理噪音的目的,通过影评用户相关的数据可以获取该电影的具体信息,然后对海量的用户的评论信息进行分析,从而得出具体的数据分析,并进行展示,通过对用户的数据分析和电影的评论分析,从而为新用户提供更加详细电影观看建议。

本文采用五个章节对电影数据的采集、数据挖掘以及可视化的实现进行阐述:

第一章为绪论部分。本章节首先讨论数据挖掘可视化系统的研究背景以及意义,然后详细分析相关技术的国内外研究现状以及问题,最后总结可视化系统的主要研究以及本文的组织结构。

第二章主要阐述电影网站数据挖掘可视化系统的功能性需求分析以及非功能性需求分析。

第三章按照第二章的需求分析对可视化系统进行详细设计,其主要包括系统的架构设计,功能模块设计以及数据库设计。

第四章主要阐述电影数据挖掘可视化系统各功能模块具体实现过程以及相关测试的过程。

第五章是总结与展望,总结本文对电影可视化挖掘研究的主要内容和所取得的成果,最后指出研究过程中的不足以及后续需要改进的地方。

本次毕业设计用Python的Scrapy框架编写爬虫程序抓取Top250排行榜的影片榜单信息,爬取电影的短评、评分、评价数量等数据,并结合Python的多个库(Pandas、Numpy、Matplotlib),使用Numpy系统存储和处理大型数据,中文Jieba分词工具进行爬取数据的分词文本处理,wordcloud库处理数据关键词,最终通过词云图、网页动态图展示观众情感倾向和影片评分统计等信息。

重点难点:

该毕设使用Scrapy框架对一个网站进行系统化地爬取数据,相比较于使用requests来爬取网站,爬取效率直线提升,项目构建所需要的时间也大幅减少。对爬取下来的数据使用wordcloud进行词云展示,让读者一眼就能明白其主旨,用pygal和matplotlib绘图进行分析比较。

拟解决的关键问题:

模拟登录一个IP爬取一定数据后被封号的问题,由于校园网使用代理被封,无法使用代理IP来解决问题。

方法实施:

这里把ImagePipeline设置比Doubantop250Pipeline快执行,是因为Doubantop250Pipeline里面保存文本文件时没有创建文件,直接使用ImagePipeline下载图片创建的文件夹。这里还启动了Middleware是因为爬取数据量大,同一个请求头容易被封IP,设置随机请求头,并且在settings里设置延迟下载,限制速度,可以防止被封IP。

选题特色:

对爬取下来的数据进行分析处理,例如对爬取下来的电影评论进行筛选,去除重复臃肿的评论,留下‘神评论’,或是按类型、评分、时间选出最佳影片。

预期成果:

设计并实现对豆瓣电影网上海量影视数据的采集,清洗,保存到本地。并用Pandas,Numpy库对影评进行处理,使用WordCloud对处理的影评进行词云展示,让用户对电影有一个认知。


22-23-1学期第12-13周:完成开题工作;提交开题报告;在项目分析、设计的同时,进行相关技术和知识的储备;

22-23-1学期第15周前开始进行项目开发,并注意收集各阶段的过程性材料;

22-23-2学期第2周前:毕业设计项目基本完成,进入调试和调优阶段。已经开始毕业设计报告的撰写工作;

22-23-2学期第6周前:完成项目开发的各阶段任务,毕业设计(论文)撰写、修改及论文格式检测

22-23-2学期第7-8周:毕业设计(论文)定稿、评审与答辩资格审查

[1] 成文莹, 李秀敏. 基于Python的电影数据爬取与数据可视化分析研究[J]. 电脑知识与技术:学术版, 2019, 15(11):4.

[2] 杨应浩. 基于Python的电影信息爬取与数据可视化分析[J]. 新型工业化, 2021, 11(7):71,73.

[3] 裴丽丽. 基于Python对豆瓣电影数据爬虫的设计与实现[J]. 电子技术与软件工程, 2019(13):2.

[4] 高巍, 孙盼盼, 李大舟. 基于Python爬虫的电影数据可视化分析[J]. 沈阳化工大学学报, 2020, 34(1):6.

[5] 张腾. 中国电影市场票房趋势研究[J]. 福建质量管理, 2019.

[6] 乔士秀, 圣文顺. 基于网络爬虫的数据可视化系统设计与实现[J]. 电子技术与软件工程, 2021, 000(012):P.138-141.

[7] 江婷, 林嘉琦, 马建雄,等. 基于组件化的数据可视化系统设计与实现[J]. 新电脑, 2019, 051(001):48-54.

[8] 王丽. 电影票房信息管理系统的设计与实现[D]. 天津大学.

[9] 邱俊杰. 基于Python定向爬虫技术对微博数据可视化设计与实现[J]. 电脑知识与技术:学术版, 2020, 16(22):3.

[10] 林军. 基于Python的网页信息数据爬取设计与实现分析[J]. 长春工程学院学报:自然科学版, 2022(002):023.

[11] 赵帅, 许航, 严欢,等. 基于云处理的Python数据帮GUI设计[J]. 科学技术创新, 2019.

[12] 裴丽丽. 基于Python语言对电影影评数据爬虫与词云制作[J]. 信息记录材料, 2020, 21(5):3.

[13] 谢彦南, 杨呈敏. 电影票房数据采集与可视化研究[J]. 信息与电脑, 2021, 33(23):3.

[14] 彭琪凯, 杨志浩, 郭丹. 基于大数据技术的电影票房预测分析[J].  2020.

[15] 杨增. 国外影评网站上的中国电影评价研究[D]. 上海大学, 2019.

[16]  Zhao Y ,  Liang H ,  Zhao J , et al. Design and Implementation of Soil Environmental Quality Visualization System Based on WebGIS[C]// 第二届制造技术,材料和化学工程国际学术会议(MTMCE 2019). 0.

[17] Yi, Zhao, Hong, et al. Design and Implementation of Soil Environmental Quality Visualization System Based on WebGIS[J].

[18]  Jiang T ,  Lin J Q ,  Jian-Xiong M A , et al. Design and Implementation of Data Visualization System Based on Component[J]. Technology of IoT & AI, 2019.


□ 同意开题                  □ 不同意开题

指导教师签字:

2022年   月   日

选题是否符合专业目标                 符合□ 不符合□

开题报告格式是否规范                 符合□ 不符合□

开题报告内容是否完整                 符合□ 不符合□

方案论证分析是否可行                 符合□ 不符合□

工作进度计划是否科学                 符合□ 不符合□

其他:

□ 同意开题                  □ 不同意开题

系负责人签字(章):

2022年   月   日

□ 同意开题                  □ 不同意开题

院主管领导签字(章):

2022年   月   日

  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
台式数控等离子切割机机械结构设计 台式数控等离子切割机机械结构设计 台式数控等离子切割机机械结构设计
基于PLC的罐装加工过程为全自动 基于Python电影推荐系统设计 基于西门子S7-200PLC四层
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!