设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>计算机毕业设计 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于Python的中国影业数据分析 毕业论文+开题报告+文献综述+答辩PPT+外文翻译及原文+项目源码
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

摘  要

随着经济社会的快速发展,电影作为精神文化产品,得到越来越多人的青睐,人们对电影的评价页也参差不齐,在海量的资源中如何尽快找到符合个人品味的电影,成为观众新的问题。基于Python的数据爬虫技术是目前使用最广泛的方法之一,它能够以最快捷的方式展示用户体验数据,帮助观众进行影片选择。中国影业是著名的电影网站,通过中国影业提供的开放接口大规模地获取电影相关数据。

本毕业设计用Python的Scrapy框架编写爬虫程序抓取了中国影业的影片榜单信息,爬取电影的短评、评分、评价数量等数据,并结合Python的多个库(Pandas、Numpy、Matplotlib),使用Numpy系统存储和处理大型数据,中文Jieba分词工具进行爬取数据的分词文本处理,wordcloud库处理数据关键词,最终通过词云图、网页动态图展示观众情感倾向和影片评分统计等信息。网络信息资源充盈的今天,网络信息的获取工作十分重要,该毕业设计的意义在于为用户观影提供决策支持。

关键词:Python;电影;数据;分析

Abstract

With the rapid development of economy and society, film, as a spiritual and cultural product, has been favored by more and more people. People's evaluation pages of films are also uneven. How to find films that meet personal taste as soon as possible in massive resources has become a new problem for the audience. Python based data crawler technology is one of the most widely used methods at present. It can display the user experience data in the quickest way and help the audience to choose the film. Douban Film is a famous film website, through the open interface provided by Douban Film to obtain film-related data on a large scale.

This graduation design uses the Python Scrapy framework to write the crawler program to grab the Chinese film industry film list information, crawls the movie short comment, the score, the appraisal quantity and so on data, and combines the Python multiple libraries (Pandas、Numpy、Matplotlib), uses the Numpy system to store and process the large data, the Chinese Jieba word segmentation tool carries on the word segmentation text processing, the wordcloud database processing data keyword, finally displays the audience emotion tendency and the film score statistics through the word cloud chart, the web page dynamic chart and so on information. With the full network information resources, the acquisition of network information is very important. The significance of this graduation project is to provide decision support for users to watch the film.

Keywords: Python; film; data; analysis


目  录

摘  要

Abstract

第1章 绪论

1.1  选题背景及意义

1.2  研究现状

1.3  研究主要内容

第2章 相关理论及技术

2.1 robot协议对本设计的影响

2.2 爬虫

2.2.1 工作原理

2.2.2 工作流程

2.2.3 抓取策略

2.3 Python及Pycharm简介

2.4运行环境和系统结构

第3章 系统设计

3.1环境搭建

3.2设计思路

3.3 第三方类库的简介和安装

3.3.1 Scarpy简介及安装

3.3.2 Numpy简介及安装

3.3.3 Pandas简介及安装

3.3.4 JieBa简介及安装

3.3.5 WordCloud简介及安装

3.3.6 Matplotlib简介及安装

3.3.7 Pygal简介及安装

3.3.8 re简介

3.3.9 json简介

3.3.10 os简介

3.3.11 shutil简介

3.3.12 pathlib简介

3.3.13 random简介

3.3.14 math简介

3.3.15 PIL简介

3.4 Scrapy详解

3.4.1 架构介绍

3.4.2 数据流

第4章 影视基本数据爬取

4.1  影视基本数据爬取

4.1.1  新建Python项目

4.1.2  项目里安装Scrapy

4.1.3  中国影业top250网站分析

4.1.4  创建一个Scrapy项目

4.1.5  创建一个Spider

4.1.6  定义Rule

4.1.7  解析中国影业top250页面

4.1.8  保存文件

4.1.9  settings配置

4.1.10  运行蜘蛛

4.2  影评数据爬取

4.2.1  影评网站分析

4.2.2  创建一个Spider

4.2.3  重写start_requests方法

4.2.4  解析影评页面

4.2.5  保存文件

4.2.6  运行蜘蛛

4.3  数据可视化及分析

4.3.1  影评数据词云可视化

4.3.2  近年来排行榜电影各类图

4.3.3  电影种类数量饼图

4.3.4  各国电影柱形图

4.3.5  作品数量前十导演

4.3.6  人气前二十的电影对比图

4.3.7  绘图代码

4.4  小结

总  结

致  谢

参考文献
















  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
基于Python的在线自主考试系 基于腾讯云的个人知识库管理系统 基于Android的酒店预定系统
基于matlab变频器控制交流电 基于微信小程序的家校联动平台管理 基于时频分析与自适应滤波技术的多
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!