摘 要:随着互联网的快速发展,在“互联网+”的时态下,大数据的挖掘和分析已成为业界和学术界研究的热点。大数据挖掘可以挖掘先前未知且潜在有用的信息样型或规则,进而转化为有价值的信息或知识,帮助决策者迅速做出适当决策。巧妇难为无米之炊,进行大数据挖掘之前,首先应该获取数据,目前使用Python爬虫技术是使用最广泛的方法之一,可以成功获取互联网上的大数据。为了帮助用户进行影片选择,本文主要基于Python的Scrapy框架,设计并实现对豆瓣电影网上海量影视数据的采集,清洗,保存到本地。并用Pandas,Numpy库对影评进行处理,使用WordCloud对处理的影评进行词云展示,让用户对电影有一个认知。用Matplotlib、Pygal展示口碑+人气电影。
关键词:Python Scrapy WordCloud Matplotlib Pygal
目 录
目录
1 网络爬虫的背景及研究现状 1
1.1 网络爬虫的背景 1
1.2 网络爬虫的研究现状 2
2 Python及Pycharm简介 3
2.1 Python简介 3
2.2 Pycharm简介 3
3 运行环境和系统结构 4
4 项目设计 5
4.1 环境搭建 5
4.2 设计思路 5
4.3 第三方类库的简介和安装 6
4.4 Scrapy详解 10
4.5 影视基本数据爬取 13
4.6 影评数据爬取 23
4.7 数据可视化及分析 28
4.8 小结 39
5 结语 40
致谢 41
参考文献 42