基于Scrapy的电商平台数据爬取与展示
摘要:随着大数据的发展和国家推进大数据落地的迫切需要,各行各业都必须加强两化的紧密结合,加快进入数字经济时代。如今,网购已经成为人们生活中不可分割的一部分,但面对琳琅满目的商品,人们可以直接在每家门店搜索、比较信息。例如,正面评论、负面评论和买家数量。网络爬虫的出现有效地解决了这个问题,它们可以根据人设计的规则快速获取和提取有价值的数据,并依靠计算机强大的处理能力。以更高的效率。通过分析您的在线购物活动,从每个商家那里收集所有有用的信息,并分析这些大数据,您可以直接、清晰地向您的客户展示有用的信息。
本文对电商平台上各店铺的网页进行分析,将抓取的数据与通过数据挖掘和数据分析分发的分析数据连接起来,并将分析结果返回给前台展示的京东购物数据分析系统。因此,通过分析客户对电商平台店铺的评价,获取商品的质量,帮助用户快速获取商品的大量重要信息。
关键词: Scrapy;爬虫系统 ;Python ;数据分析;爬取展示
Data crawling and display of the e-commerce platform based on Scrapy
Abstract: With the development of big data and the urgent need of the country to promote the implementation of big data, all walks of life must strengthen the close combination of the two industries to industrialization and accelerate the digital economy era.Nowadays, online shopping has become an integral part of people's life, but faced with a wide variety of goods, people can directly search and compare information in each store.For example, positive reviews, negative reviews, and the number of buyers.The emergence of web crawlers effectively solves this problem, they can quickly acquire and extract valuable data according to the rules designed by people, and rely on the powerful processing power of computers.With a higher efficiency.By analyzing your online shopping activities, gathering all the useful information from every merchant, and analyzing this big data, you can present useful information to your customers directly and clearly.
This paper analyzes the web pages of each store on the e-commerce platform, connects the captured data with the analysis data distributed through data mining and data analysis, and returns the analysis results to the JD shopping data analysis system displayed at the front desk.Therefore, by analyzing customers' evaluation of the e-commerce platform stores, the quality of goods is obtained, and users can quickly obtain a large amount of important information of goods.
Key words: Scrapy; crawler system; Python; data analysis; crawl display
目 录
1 绪论 1
1.1 选题背景 1
1.1.1 课题的国内外的研究现状 1
1.1.2 课题研究的必要性 3
1.2 课题研究的内容 3
2 开发软件平台介绍 4
2.1 软件平台 4
2.2 开发语言 5
2.3 运行环境和系统结构 6
3 基于Scrapy的电商平台数据爬取与展示系统总体方案 7
3.1 系统组成 7
3.2 robot协议对本设计的影响 8
3.3 爬虫 8
3.3.1 商品原理 8
3.3.2 商品流程 9
3.3.3 抓取策略 9
4 基于Scrapy的电商平台数据爬取与展示模块化设计 10
4.1 数据采集 10
4.1.1 确定待采集数据 10
4.1.2 确定采集对象及采集思路 10
4.1.3 采集准备 11
4.1.4开始采集数据 12
4.2 数据清洗与分析 17
4.2.1 清洗过程简述 17
4.2.2 可视化与分析 18
1.消费时段分析 18
2.月消费与会员等级分析 19
3.评论内容分析 20
4.3 设计过程中存在的问题和解决过程 21
4.3.1 问题1描述 21
4.3.2 解决办法 21
4.3.3 问题2描述 22
4.3.4 解决办法: 22
4.4 心得体会 24
5 结论与发展前景 25
5.1 基于Scrapy的电商平台数据爬取与展示系统主要实现代码 25
5.2 xlsx文件 26
参考文献 27
致 谢 29