智能商务的数据分析平台设计与实现
摘 要
在今天的互联网上,用户每时每刻的行为都会产生大量的数据,据统计,每秒会产生上百万次的查询,千万次的浏览。规模较大的电商企业都会采集用户的行为数据(比如用户访问、用户画像、搜索行为),但是这些企业都不知道采集用户的行为数据与商业数据(如销售额、订单转换)之间有什么联系,如何使这些纷繁复杂的数据产生价值。要想让这些数据真正成为一个公司的家当,及时从中发现实用的价值,那么通过数据分析技术对数据进行挖掘与分析则变得极其重要。
本系统利用大数据技术,针对已有的电商行为数据,对其进行分析和可视化,让数据有不同于传统展示方式的丰富呈现,给出更加直观简洁且高效及时的数据可视化结果。引导用户更加高效率的进行决策,对其下一步商业行为进行指导,将数据可视化融合到不同的实际应用场景中,从而做出有效且有用的可视化结果。
智能商务的数据分析平台采用SparkCore+SparkSQL+SparkStreaming的大数据分析技术,并用MySQL作为数据库存储数据。本平台主要包括数据生成、数据分析、数据存储和数据可视化四个模块。通过电商数据平台对海量数据的分析,筛选出具有商业价值的数据,并利用可视化网站直观地呈现数据,辅助企业调整战略和业务,促进企业的发展。
关键词:大数据;智能商务;电商;数据分析;可视化
Design and implementation of the data analysis platform of intelligent business
Abstract
On today's Internet, users produce a lot of data, according to statistics, millions of queries, millions of views per second.Larger e-commerce enterprises will collect users 'behavior data (such as user access, user portrait, search behavior), but these enterprises do not know the connection between collecting users' behavior data and business data (such as sales, order conversion), and how to make these complex data generate value.To make these data truly a company home and discover the practical value in time, then it is extremely important to mine and analyze the data through data analysis technology.
The system uses big data technology to analyze and visualize the existing e-commerce behavior data, so that the data is fully presented, different from the traditional display methods, and gives more intuitive, simple, efficient and timely data visualization results.Guide users to make decisions more efficiently, guide their next business behavior, and integrate data visualization into different practical application scenarios, so as to make effective and useful visualization results.
The data analysis platform of intelligent business adopts the big data analysis technology of SparkCore + SparkSQL + SparkStreaming, and uses MySQL as the database to store the data.The platform mainly includes four modules: data generation, data analysis, data storage and data visualization.Through the analysis of massive data by the e-commerce data platform, the data with commercial value is selected, and the visual website is used to visually present the data to assist enterprises to adjust their strategy and business and promote the development of enterprises.
Key words: big data; intelligent business; e-commerce; data analysis; visualization
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1项目背景和意义 1
1.2项目研究内容 1
1.3论文组织架构 2
第二章 相关技术介绍 3
2.1大数据技术介绍 3
2.1.1 Spark简介 3
2.1.2 弹性分布式数据集RDD 3
2.1.3数据处理模块SparkSQL 4
2.1.4实时数据处理SparkStreaming 4
2.1.5 Hive数据仓库 5
2.2 MySQL数据库介绍 5
2.3 Highchart简介 6
2.4 本章小结 6
第三章 智能商务的数据分析平台设计 7
3.1项目背景 7
3.2 系统架构设计 7
3.3 数据生成模块的设计 8
3.4数据存储模块的设计 8
3.5数据分析模块的设计 8
3.5.1 用户访问Session统计模块设计 8
3.5.2 页面单跳转化率统计模块的设计 8
3.5.3 地区热门商品统计模块设计 9
3.5.4广告流量实时统计模块的设计 9
3.6数据可视化模块设计 9
3.7 本章小结 9
第四章 智能商务的数据分析平台实现 10
4.1项目数据集描述 10
(1)user_action 10
(2)user_info 11
(3)product_info 11
4.2系统环境搭建 12
4.2.1 zookeeper与Kafka搭建 12
4.2.2 Spark环境搭建 13
4.2.3本地开发环境搭建 14
4.3数据生成模块实现 14
(1) 离线模拟数据 14
(2)实时模拟数据 14
4.4数据存储模块实现 14
4.5数据分析模块实现 18
4.5.1用户访问Session统计模块实现 18
4.5.2页面单跳转化率统计模块实现 22
4.5.3地区热门商品统计模块实现 23
4.5.4广告实时统计模块实现 24
4.6 本章小结 29
第五章 数据可视化模块 30
第六章 项目的测试与分析 41
6.1 Kafka与生成数据对接测试 41
6.2模块测试 42
6.3本章小结 44
第七章 总结与展望 45
参考文献 46
致 谢 48