选
题
的
背
景
、
目
的
和
意
义
|
1.选题背景
1.1研究背景
随着互联网信息技术的高速发展,创建与分享互联网内容的方式变得越来越简单,天天都有大量的新闻、图片、音乐与视频等信息资源发布到网上。海量的娱乐资源将为人们提供更加丰富的内容,但与此同时人们查找需要的资源与信息也变得愈来愈困难。网络的快速发展从另一层面上也促进了IPTV的快速发展,随着数字电视和网络存储的不断提高,电影相关的产业也迎来发展的新机遇,网上出现了海量的电影资源,通过对电影和用户数据的相关分析,可以分析出用户喜欢的电影然而,若想对电影的相关数据进行分析是十分困难的,不仅数据的种类多,数据量大,而且其中存在的噪音较多,最后还需要用情感分析对得到的数据进行分析,但是展示的形式不够具体和形象化。
1.2国内外研究现状
1.2.1电影数据采集研究现状
目前无论是国外的还是国内的IMDB还是国内的豆瓣平台的数据获取都主要有两种方法:一种是通过平台提供公开的应用程序编程接口(API)获取数据;另外一种是通过网络爬虫获取数据。
基于开放的API虽然可以直接获取数据,但是其开放权限有较大限制。比如,目前豆瓣只开放一部分接口,并且很多对外的数据接口不是免费的,或者直接不对外开放;即使是API对外开放,但是对于访问数据的频率以及数目上都有严格的控制。所以,这种方式采集的数据量一般不会太大。
通过解析网络爬虫获取的网页,也能采集豆瓣数据。这种方法难点主要是如何应对反爬虫机制,将要花大量时间在防止403被ban上面。网络爬虫的优点是:该方法不受官方的API限制,不仅可以获取更加全面的数据,同时能够迅速的采集大量豆瓣平台的数据。该方法主要缺点是爬虫的编程开发难度会更大,并且爬虫系统后期维护成本比较高。除上述两种方法,还有一些开源免费的爬虫工具可以使用,以Python爬虫工具为例,有QuickRecon, PyRailgun, Scrapy等。其优点是开发难度比较小,缺点是对于个性化开发有些局限性。
1.2.2可视化研究现状
可视化相关技术,其主要包括数据的开发、数据的分析以及可视化图表展示几个基本概念。数据可视化主要是运用图像处理的技术将一堆看似毫无规律的数据经过计算机相关算法处理后,转化成图形或者图表展示在用户界面上,目前己成为决策处理、数据分析、WEB可视化等问题的重要手段。
在国外,可视化技术研究己经很成熟了,比如Wanner等设计了可视化系统ForAVis。目前较常用的可视化产品有展示了大量的动态交互式效果的SASR Visual BI,还有一款可视化产品Gephi,它一般针对社交图谱的数据,可视化其他相关软件也有很多,在展示效果也非常友好。
在国内,也有不少可视化产品,比如由360推出的The Network liar map of China;还有大数据魔镜为用户提供了国内最大的可视化效果库;百度旗下推出一款开源免费的可视化图表工具一一Echarts,它是商业级数据图表,一般动态的在互联网上展示分析的数据,并且代码开源,非常适合开发人员研究使用。
1.3选题依据
看电影作为人们放松心情、丰富业余生活最常用的方式之一,同时国内互联网视频网站以及周边相关服务网站也处于蓬勃的发展阶段,海量的视频资源的背后有着巨大的挖掘价值。所以,设计并同时实现一个电影数据挖掘系统,它集电影数据采集、挖掘以及可视化展示于一体。本文需要解决的重难点包括实现电影爬虫系统的开发,电影数据的存储,电影影评文本的情感分析,以及直观地可视化分析。
2.选题目的
随着经济社会的快速发展,电影作为精神文化产品,得到越来越多人的青睐,人们对电影的评价页也参差不齐,在海量的资源中如何尽快找到符合个人品味的电影,成为观众新的问题。基于Python的数据爬虫技术是目前使用最广泛的方法之一,它能够以最快捷的方式展示用户体验数据,帮助观众进行影片选择。豆瓣电影是著名的电影网站,通过豆瓣电影提供的开放接口大规模地获取电影相关数据。
3.选题意义
电影网站数据挖掘可视化系统是解决上面问题的,通过爬取电影网站的数据,并对数据进行预处理,达到处理噪音的目的,通过影评用户相关的数据可以获取该电影的具体信息,然后对海量的用户的评论信息进行分析,从而得出具体的数据分析,并进行展示,通过对用户的数据分析和电影的评论分析,从而为新用户提供更加详细电影观看建议。
|
主
要
参
考
文
献
|
[1] 成文莹, 李秀敏. 基于Python的电影数据爬取与数据可视化分析研究[J]. 电脑知识与技术:学术版, 2019, 15(11):4.
[2] 杨应浩. 基于Python的电影信息爬取与数据可视化分析[J]. 新型工业化, 2021, 11(7):71,73.
[3] 裴丽丽. 基于Python对豆瓣电影数据爬虫的设计与实现[J]. 电子技术与软件工程, 2019(13):2.
[4] 高巍, 孙盼盼, 李大舟. 基于Python爬虫的电影数据可视化分析[J]. 沈阳化工大学学报, 2020, 34(1):6.
[5] 张腾. 中国电影市场票房趋势研究[J]. 福建质量管理, 2019.
[6] 乔士秀, 圣文顺. 基于网络爬虫的数据可视化系统设计与实现[J]. 电子技术与软件工程, 2021, 000(012):P.138-141.
[7] 江婷, 林嘉琦, 马建雄,等. 基于组件化的数据可视化系统设计与实现[J]. 新电脑, 2019, 051(001):48-54.
[8] 王丽. 电影票房信息管理系统的设计与实现[D]. 天津大学.
[9] 邱俊杰. 基于Python定向爬虫技术对微博数据可视化设计与实现[J]. 电脑知识与技术:学术版, 2020, 16(22):3.
[10] 林军. 基于Python的网页信息数据爬取设计与实现分析[J]. 长春工程学院学报:自然科学版, 2022(002):023.
[11] 赵帅, 许航, 严欢,等. 基于云处理的Python数据帮GUI设计[J]. 科学技术创新, 2019.
[12] 裴丽丽. 基于Python语言对电影影评数据爬虫与词云制作[J]. 信息记录材料, 2020, 21(5):3.
[13] 谢彦南, 杨呈敏. 电影票房数据采集与可视化研究[J]. 信息与电脑, 2021, 33(23):3.
[14] 彭琪凯, 杨志浩, 郭丹. 基于大数据技术的电影票房预测分析[J]. 2020.
[15] 杨增. 国外影评网站上的中国电影评价研究[D]. 上海大学, 2019.
[16] Zhao Y , Liang H , Zhao J , et al. Design and Implementation of Soil Environmental Quality Visualization System Based on WebGIS[C]// 第二届制造技术,材料和化学工程国际学术会议(MTMCE 2019). 0.
[17] Yi, Zhao, Hong, et al. Design and Implementation of Soil Environmental Quality Visualization System Based on WebGIS[J].
[18] Jiang T , Lin J Q , Jian-Xiong M A , et al. Design and Implementation of Data Visualization System Based on Component[J]. Technology of IoT & AI, 2019.
|