摘 要
伴随着计算机的发展,计算机网络,WEB服务,分布式计算,云计算等相关技术取得了前所未有的发展成果。通过这些技术,使得网络变得无比的庞大,网络中拥有大量的各种信息,信息的形式和内容涵盖了人们生活的每一个方面。网络中蕴含着大量的信息,身处在这个庞大的网络世界中,及时掌握网络的动态信息就显得尤为重要。
为了能够更好的掌握这些美团店铺卖家数据,并且对这些店铺信息进行一定的分析,人们需要设计一个美团外卖店铺用户行为的分析系统。基于这一点,本文设计了一个重庆地区美团外卖店铺用户行为分析系统,该系统采用的底层技术是基于分布式计算的,由于需要对庞大的美团外卖进行分析,所以系统必须具有强大的处理能力和存储能力,为了解决这一问题,本文采用了分布式计算技术,通过多台计算机并行运算处理,将数据分布的存储在不同的计算机存储器上。
同时,为了能够对系统数据的海量并行处理,本系统的数据库采用的是当前最为先进的非关系型数据库,这种数据库具有适应分布式计算网络的特点,可以实现对海量数据的高效率存储和访问的问题。在这个系统中本人使用Hadoop进行大规模的自动检索,基于Numpy、Pands函数库使用统计学分析方法,分析并展示重庆地区美团外卖店铺外卖种类喜好分布、商家销量排名。以及时间和空间维度上的外卖销量数据。
关键词:外卖;美团;店铺;分析系统;Hadoop
ABSTRACT
Along with the development of computer, computer network, WEB service, distributed computing, cloud computing and other related technologies have achieved unprecedented development results. Through these technologies, the network becomes extremely large, the network has a large number of information, the form and content of information covers every aspect of people's lives. There is a lot of information in the network. In this huge network world, it is very important to grasp the dynamic information of the network in time.
In order to better grasp the Meituan store seller data and analyze the store information, people need to design an analysis system of take-out store data. Based on this, this paper designs a Meituan take-out store analysis system in Chongqing. The underlying technology used in this system is based on distributed computing. In order to solve this problem, the system must have powerful processing ability and storage ability.
At the same time, in order to process the massive parallel data of the system, the database of this system adopts the most advanced non-relational database, which is suitable for distributed computing network. It can realize the problem of high efficiency storage and access to massive data. This system uses the Hadoop to carry on the large-scale automatic retrieval, based on the Numpy、Pands function library uses the statistical analysis method, analyzes and displays the Chongqing area user take-out type preference distribution, the merchant sales volume ranking. And take-out sales data in time and space dimensions.
Keywords: takeout; Meituan; store; analysis system; Hadoop
目 录
摘 要
ABSTRACT
1 绪论
1.1选题背景及目的意义
1.1.1课题研究背景
1.1.2课题研究的目的和意义
1.2研究现状
1.2.1国内研究现状
1.2.2 国外研究现状
1.2.3发展趋势
1.3 研究主要内容
2 系统相关技术介绍
2.1 hadoop系统架构
2.2 数据导入导出工具sqoop和日志收集工具flume
3 需求分析
3.1 美团外卖店铺需求分析
3.1.1 功能性需求分析
3.1.2 非功能性需求分析
3.2 系统需求分析
4 系统设计
4.1 系统架构流程设计说明
4.2 日志收集模块设计
4.2.1 点击流概念
4.2.2 日志数据内容详述
4.3.原始数据存储模块
4.3.1数据存储模块简介
4.3.1 数据存储模块表结构
4.4 美团外卖店铺用户行为指标介绍
4.4.1 获取采集到的原始数据信息如下图
4.4.2 最后计算出来的数据指标设计
4.5 前端展示模块设计
4.5.1 前端展示模块设计说明
4.5.2 前端模块功能介绍
5 美团外卖店铺用户行为分析系统实现过程
5.1 日志收集模块的实现
5.2 数据存储模块实现
5.3 数据清洗模块设计实现
5.3.1 模块设计说明
5.3.2原始数据清洗出原始表数据核心数据值与计算逻辑
5.3.3 用weblogbean表计算出pageviews表的数据核心数据值与计算逻辑
5.3.4 用pageviews表计算出views表的数据核心数据值
5.4 前端模块功能以及实现流程
6 系统测试
6.1日志收集模块测试
6.2 数据存储模块测试以及数据的导入导出mysql测试
6.3 前端模块测试加上数据清洗模块测试
7 总结
参考文献
致 谢