摘 要
在互联网时代,伴随着各种社交媒体的盛行,公众人物的一言一行也被无限放大,对于广大群众的价值导向作用也被进一步的激发。由此从大数据的角度对综艺节目进行分析和研究,实现一个基于Python的综艺明星分析系统。
本设计拟实现综艺明星分析系统,本系统要具备公众人物分析、节目分析、观众反馈、数据采集、数据预处理等功能。对公众人物的静态数据、动态数据、影响力等进行分析,本毕业设计用Python的Scrapy框架编写爬虫程序抓取了爱奇艺的《奔跑吧兄弟》的弹幕、评论以及用户的内集数据,对采集到的数据进行缺失值及异常值处理、文本处理,通过数据可视化技术生成图等图表,来将基本的内容呈现出来。
并结合Python的多个库(Pandas、Numpy、Matplotlib),使用Numpy系统存储和处理大型数据,中文Jieba分词工具进行爬取数据的分词文本处理,wordcloud库处理数据关键词,最终通过图、网页动态图展示观众情感倾向和明星评分统计等信息。网络信息资源充盈的今天,网络信息的获取工作十分重要,该毕业设计的意义在于为用户观影提供决策支持。
关键词:Python;弹幕;明星;评论;数据分析
ABSTRACT
In the Internet era, with the prevalence of various social media, the words and deeds of public figures have been infinitely magnified, and the value-guiding role for the masses has been further stimulated.Therefore, variety shows are analyzed and studied from the perspective of big data, and a variety star analysis system based on Python is realized.
This design plans to realize the variety show star analysis system, which should have the functions of public figure analysis, program analysis, audience feedback, data collection, data pre-processing and so on.Data analysis of public figures, dynamic data, influence, the graduation design with Python Scrapy framework writing crawler crawl B station of the running brothers bullet screen, comments and user's internal data, to collect data missing value and outlier processing, text processing, through data visualization technology generated word cloud chart, to present the basic content.
In combination with multiple Python libraries (Pandas, Numpy, Matplotlib), Numpy system is used to store and process large data, Chinese Jieba word segmentation tool is used to crawl the data word text processing, wordcloud library processes data keywords, and finally displays the audience's emotional tendency and star score statistics through wordcloud map and web page dynamic map.Today, with abundant network information resources, the acquisition of network information is very important. The significance of the graduation design is to provide decision support for users to watch movies.
Key words: Python; bullet screen; star; comment; data analysis
目录
第1章 绪论 1
1.1 选题背景及意义 1
1.2 研究现状 1
1.3 研究主要内容 2
第2章 相关理论及技术 3
2.1 robot协议对本设计的影响 3
2.2 爬虫 3
2.2.1 工作原理 3
2.2.2 工作流程 3
2.2.3 抓取策略 4
2.3 Python及Pycharm简介 4
2.4运行环境和系统结构 5
第3章 系统设计 6
3.1环境搭建 6
3.2设计思路 6
3.3 第三方类库的简介和安装 7
3.3.1 Scarpy简介及安装 7
3.3.2 Numpy简介及安装 8
3.3.3 Pandas简介及安装 8
3.3.4 JieBa简介及安装 8
3.3.5 WordCloud简介及安装 8
3.3.6 Matplotlib简介及安装 9
3.3.7 Pygal简介及安装 9
3.3.8 re简介 9
3.3.9 json简介 9
3.3.10 os简介 9
3.3.11 shutil简介 9
3.3.12 pathlib简介 9
3.3.13 random简介 9
3.3.14 math简介 10
3.3.15 PIL简介 10
3.4 Scrapy详解 10
3.4.1 架构介绍 10
3.4.2 数据流 11
第4章《奔爬吧兄弟》基本数据爬取 12
4.1 《奔爬吧兄弟》基本数据爬取 12
4.1.1 新建Python项目 12
4.1.2 项目里安装Scrapy 12
4.1.3 爱奇艺网站分析 12
4.1.4 创建一个Scrapy项目 12
4.1.5 创建一个Spider 13
4.1.6 定义Rule 13
4.1.7 解析爱奇艺页面 14
4.1.8 保存文件 16
4.1.9 settings配置 17
4.1.10 运行蜘蛛 19
4.2 弹幕数据爬取 20
4.2.1 弹幕网站分析 20
4.2.2 创建一个Spider 20
4.2.3 重写start_requests方法 20
4.2.4 解析弹幕页面 21
4.2.5 保存文件 22
4.2.6 运行蜘蛛 22
4.3 数据可视化及分析 22
4.3.1 弹幕数据可视化 22
4.3.2 近年来爱奇艺弹幕各类图 24
4.3.4 用户评论时间分布 25
4.3.5 人物热度 26
4.3.6 评论热词 26
4.3.7 绘图代码 26
4.4 小结 30
结 论 31
致 谢 32
参考文献 33