摘 要
本文旨在综合分析用户行为模型的特点以实时系统解决方案的基础上,设计并研发一套基于Hadoop的电商实时用户行为分析系统,并在实际的电商网站中进行使用。对电商网站中的用户行为进行分析和研究;分析用户行为分析系统的应用场景并针对实际的应用场景设计一套基于Hadoop的实时用户行为分析系统;开发JAVAEE框架下的实时用户行为分析系统;将实时用户行为分析系统在电商网站中进行投入使用。
本次毕业设计的课题是基于Hadoop的电商用户用户行为的分析系统,那么研究的方向就是大数据中的Hadoop方向,在我的课题中我主要研究的方向是数据的采集来源,通过Flume埋点来采集日志信息,或者通过Nginx反向代理服务器来收集日志信息,来采集到我们需要的用户浏览网页的信息,然后就是研究的大数据的存储问题。
关键词:电商数据;用户行为;分析系统;Hadoop;Java
Abstract
This paper aims to comprehensively analyze the characteristics of user behavior model on the basis of real-time system solutions, design and develop a Hadoop-based real-time user behavior analysis system, and use it in actual e-commerce websites.Analyze and study user behavior in e-commerce websites; analyze the application scenarios of user behavior analysis system and design a real-time user behavior analysis system based on Hadoop; develop real-time user behavior analysis system under JAVAEE framework; and put real-time user behavior analysis system into use in e-commerce website.
The graduation design project is based on Hadoop electricity business user behavior analysis system, so the research direction is the Hadoop direction of big data, in my project my main research direction is the source of data collection, through Flume buried point to collect log information, or through Nginx reverse proxy server to collect log information, to collect our need users to browse the web information, and then is the study of big data storage problem.
Key words: e-commerce data; user behavior; analysis system; Hadoop; Java
目 录
摘 要 I
Abstract II
第1章 绪论 1
1.1 编写目的 1
1.2 背景及意义 1
1.3 开发及运行环境 1
第2章 系统相关技术介绍 3
2.1 hadoop系统架构 3
2.1.1 hadoop 生态架构和概况 3
2.2 HDFS(Hadoop分布式文件系统) 4
2.2.1 HDFS 设计说明 4
2.2.2 HDFS的存储机制和核心 4
2.3 Mapreduce(分布式计算框架) 7
2.3.1 mapreduce计算框架设计说明 7
2.3.2 Hadoop的Mapreduce计算开源框架的计算流程: 8
2.4 Yarn(资源管理框架) 9
2.4.1 yarn的架构 9
2.4.2 yarn的各个角色的职责 10
2.4.3 YARN 作业执行流程 11
2.5 系统中的数据库介绍和其他工具简介 12
2.5.1 hive是什么 12
2.5.2 hive的架构 13
2.5.3 hive的特点 13
2.5.4 hbase是什么 13
2.5.5 hbase的存储机制和表结构 14
2.5.7 数据导入导出工具sqoop和日志收集工具flume 15
第3章 需求分析 17
3.1 系统概述 17
3.2 系统功能需求 17
3.2.1 收集原始数据 17
3.2.2 计算物品相似度矩阵 18
3.2.3 计算用户购买向量 18
3.2.4 计算推荐向量并去重和排序 18
3.2.5 数据入库 18
3.2.6 作业控制 19
3.2.7商品推荐功能 19
3.3 系统非功能需求 19
第4章 概要设计 20
4.1系统架构设计 20
4.2系统层次架构设计 21
4.3系统功能模块设计 22
4.3.1 计算物品相似度矩阵 22
4.3.2推荐矩阵(相似度矩阵*向量) 23
4.3.3对推荐向量进行处理 23
4.3.4数据入库 23
4.4系统数据库设计 24
4.5推荐模块程序流程图 25
4.6系统架构图 25
4.7数据预处理层 26
4.8推荐结果生成层 26
4.9推荐系统流程图 27
第5章 系统实现 28
5.1计算用户购买商品的列表 28
5.2计算商品的共现关系 28
5.3计算用户的购买向量 28
5.4推荐结果 29
5.5数据去重 29
5.6推荐结果入库 30
5.7构建作业流对象 32
第6章 系统测试 33
6.1计算用户购买商品的列表 33
6.2计算商品的共现次数(共现矩阵) 33
6.3计算用户的购买向量 33
6.4推荐结果 33
6.5数据去重 34
6.6推荐结果入库 35
6.7 web系统推荐商品实现 35
总 结 36
参考文献 37
致 谢 39