摘要: 基于大数据技术的客户信息行为分析与预测正受到越来越多企业的关注。通过对京东购物网站的各个店铺页面进行分析,通过数据挖掘和数据分析,完成一个简单的后台基于Django web框架的简单后台后分发。分析结果连接并返回京东购物数据分析系统,分析结果显示在前端。通过这种方式,对京东门店的顾客评论进行分析,得出产品的质量,从而使用户可以快速获得很多关于产品的重要信息。
关键词:数据分析系统,python2.7,django,数据挖掘,数据分析
0 前言
随着大数据的发展和国家推进大数据落地的迫切需要,各行各业都必须加强两化的紧密结合,加快进入数字经济时代。如今,网上购物已经成为人们生活中不可分割的一部分,但在琳琅满目的商品面前,人们需要搜索和比较每家店铺的信息,如好评、差评、买家数量等。和其他繁琐的步骤。通过分析在线购物活动,收集每个商家的所有有用信息,并分析这些大数据,您可以将有用的信息直接、清晰地展示给客户。
本课题的目的是根据京东购物网站数据分析系统的实现,以京东购物网站为例,开发一个基于python2.7、scrapy爬虫框架、redis数据库的面向消费者的购物网站数据分析系统。没看到。以及Django web框架、pandas数据分析模块等技术,综合开发和实现以数据挖掘和分析为核心的京东商城数据分析系统。
1 系统核心技术研究
整个系统使用python2.7编程语言,开发平台使用pycharm作为开发平台,scrapy开源框架进行数据挖掘,redis作为数据库,数据分析使用pandas作为数据分析工具。使用Django web框架搭建一个简单的web后台。具体研究内容包括以下几个方面:
研究核心技术完成系统:scarpy+redis实现分布式爬虫,pandas实现数据分析,django实现网页展示。
通过分析Kyungdong Mall网页源代码抓取使用信息,对使用信息进行分析提炼,并以文字云和图表的形式展示。
使用Python编程语言实现数据挖掘、数据分析和前端展示三部分。
2 系统需求分析
2.1 一般要求
京东数据分析系统针对京东网购网站,其主要目的是获取特定店铺的URL,并通过系统分析直接呈现该店铺的产品信息和关键词进行产品评价。您可以直接回复消费者,让消费者一目了然了解产品信息,节省大量时间。
2.2 性能要求
系统开发的总体任务是实现京东商城的自动爬取和分析,以快速、全名、高层次、高对比度的方式获取和展示信息。
2.3 开发环境
Python2.7 + Pycharm5.7 + Redis4.0 + windows 10
3 设计京东数据分析系统
3.1 数据库设计
在数据挖掘中,在爬取数据时,单个进程会严重降低爬虫的效率,请求返回延迟会消耗大量时间,而分布式爬虫可以显着降低时间消耗。 Redis 数据库是开源的,用ANSI C 语言编写,网络就绪,可以是持久日志类型,基于内存的键值数据库,并支持多种语言的API。 Redis 是一个类似数据库的系统,但是由于它的队列特性,它是分布式开发的不错选择。该系统使用Redis 作为其分布式爬虫数据库。
本系统的数据库主要由收货记录表和货物分析结果表两部分组成。
产品收货记录(命令)。
产品评论分析结果表(结果)。
3.2 数据爬取模块设计
该模块负责系统中源数据的整合,采用分布式爬取,在短时间内快速获取尽可能多的商品评分,Chrome的抓包分析京东的评分请求URL,防止爬取动作等代码使用Scrapy框架获取京东商城商品评价信息并存入数据库进行备份。
具体步骤见如图1。
4 京东数据分析系统
搭建平台、采集数据、分析数据、实现项目的功能模块。
4.1 平台搭建
本项目使用python2.7作为开发语言,由于本项目主要使用Scrapy和Django框架搭建,所以需要在项目开发前搭建好环境。
构建scrapie 框架:
scrapy 是一个非常有用的爬虫框架。进入cmd命令窗口,进入jd_analysis-master目录,输入如下命令创建一个名为jd_spider的项目,即scrapy startproject jd_spiders,可以得到spider文件夹及其目录结构。
4.2 数据爬取模块的实现
获取的URL 的起始页将从用户输入的JD 存储库开始。毕业作品网站做毕业设计http://www.biyezuopin.cc
使用Python 爬虫爬取数据时,通常会出现一些针对标头中的用户代理的网站反爬虫措施。如果没有设置header,用户代理会声明自己是python脚本,通常有反爬思想的网站会拒绝这些连接,修改header会将爬虫脚本伪装成普通浏览器访问绕过这个机制即可。
4.3 数据分析模块的实现
该模块主要用于前端对爬取的数据进行分析、绘图和展示。以“百福地纯面4件套”产品为例,客户只需输入产品的网址即可开始分析。
不同颜色产品的采购量关系,图中“玫瑰金”、“黑”、“金”三个系列分别录得34.667%、21.333%和16.000%的最佳销量,而其他系列无法达到10% 的最佳销售额。
在分析购买渠道占比的图表中可以看出,92.8%的总购买是通过移动端进行的,7.2%的购买是通过网络端渠道进行的。
从购买用户排名分布来看,PLUS会员、银卡会员、金卡会员位居前三,占比分别为32.4%、23%、18%。
到目前为止,数据已经分析完毕,所有关于产品的有用信息都已显示给用户:产品评级、颜色销售、购买时间、购买渠道和用户评级。
5. 结论
数据是企业的核心无形竞争力,在这种环境下,更需要按行业提取有用信息,以实现行业特有的利益最大化。
本论文以电子商务平台为研究对象,只有通过数据挖掘对用户进行分析,才能更好地实现用户信息的数据化和编程,实现精准营销。而对于卖家来说,这个过程更容易控制用户偏好、吸引用户、培养用户习惯、提升行业服务、处理收益。因此,数据挖掘对于提高电商平台和电商平台的用户粘性非常重要,可以促进电商的发展。
参考:
[1] 钱程, 杨晓兰, 朱福喜, 基于Python的网络爬虫技术[J] 黑龙江科技信息, 2016(36): 273.
[2] 谢克武. 大数据环境下基于Python的网络爬虫技术[J]. 电子生产, 2017(9): 44-45.
[3]李浩,张敏,冯登国等.大数据访问控制研究[J]计算机学报,2017(1):72-91.毕业作品网站做毕业设计http://www.biyezuopin.vip
[4]胡毅,基于大数据的电子商务个性化信息推荐服务模式研究[D]吉林大学,2015.
[5] 蒲文强, 曹磊, 夏斌. 基于Django框架的关键词排名监测系统设计[J]. 微机与应用, 2017, 36(20).
[6] 朱伟恒, 陈健, 尹健, 电子商务中的数据挖掘应用[J] 计算机工程, 2002, 28(8): 73-74.