1、目的及意义(含国内外的研究现状分析)
1.1目的:
当今社会有很多的电商网站,这就存在着一些竞争关系,为了更好的设计一个网站,让一个 电商网站浏览的人数更多,从而增加点击量和订阅量的,这样就需要我们对这个电商网站进 行分析和数据挖掘,我们可以根据每天浏览小红帽电商网站的pv人数和uv访客量来选择判断一个网站的好的地方与坏的地方和是否受到用户的欢迎,而且也可以根据页面的外链接的跳转率和访客的数量或会员所使用的浏览器等一些各种应用app的分析来,之后就可以进行准确的广告推销,我们也可以依据本地区网站的点击数量和访客数量或是会员访问的不同时间地点ip等等…的分析来进行有效合理的各种商品广告推广,精准的推荐等一系列的各种操作。同时每一个电商网站,可以根据这个网站的支付订 单数以及成功支付订单数来进行业务的分析,这些对于提高一个网站的点击量、浏览量、以 及成功支付订单量都是必不可少的。 就是指的是用户访问网站的时候的所有的访问和浏览和点击行为所产生出来的一些数据量。比如用户在页面中点击了哪一个跳转链接,在哪一个网页停留下来看内容的时间最多然后就是采用了哪些搜索的关键字,然后就是总共会话时间等一些数据。而这些所有信息都会保存在网站的日常产生的日志之中。然后通过分析了解清洗这些得到的数据,可以得到很多对网站运营开发维护等至关重要可参考的信息。采集的数据量越多越全面范围越大,自然分析出来的数据就能越精准。 总之,一个电商网站就应该设计出一款产品能让用户的体验好,能让用户精准的寻找想要购 买的商品,能提高用户的转化率,能提广告的转化率。
1.2意义:
有了这样的事件以后,就可以把用户行为连起来观察。用户首次进入网站后就是一个新用户,他可能要注册,那么注册行为就是一个事件。注册要填写个人信息,之后他可能开始搜索买东西,所有这些都是用户行为的事件。
2. 那么,我们又该如何去监测这些用户行为数据呢?
一种非常传统、非常普遍的方式就是通过写代码去定义这个事件。在网站需要监测用户行为数据的地方加载一段代码,比如说注册按钮、下单按钮等。加载了监测代码,我们才能知道用户是否点击了注册按钮、用户下了什么订单。
所有这些通过写代码来详细描述事件和属性的方式,国内都统称为“埋点”。这是一种非常耗费人力的工程,并且过程非常繁琐重复;但是大部分互联网公司仍然雇佣了大批埋点团队。
3为什么要做用户行为分析,意义在哪?
因为只有做了用户行为分析才能知道用户画像、才能知道用户在网站上个各种浏览、点击、购买背后的商业真相。
简单讲,分析的主要方式就是关注流失,尤其是对转化有要求的网站。我们希望用户不要流失,上来之后不要走。像很多 O2O 产品,用户一上来就有很多补贴;一旦钱烧完了,用户就都走了。这样的产品或者商业模式并不佳,我们希望用户真正找到平台的价值,不停的来,不要流失。
用户行为分析帮助分析用户怎么流失、为什么流失、在哪里流失。
比如最简单的一个搜索行为:某一个 ID 什么时间搜索了关键词、看了哪一页、哪几个结果,同时这个 ID 在哪个时间下单购买了,这个整个行为都非常重要的。如果中间他对搜索结果不满意,他肯定会再搜一次,把关键词换成别的,然后才能够搜索到结果。
2、基本内容和技术方案
2.1基本内容的实现流程分析:
本系统是分析用户的购物行为的一个分析系统,那么我们就需要大量的数据来支撑我们的数据行为分析,所以,我们需要大量的用户点击页面的操作信息,一些行为信息,这些信息有很多获取途径,我现在用的是网站服务器埋点收集,数据都是自己收集得到,当然我们也可以购买,这些数据来到了我们的系统,我们就会进行处理,和分析,经过我们的处理和分析后的数据存储到数据库中,然后通过我们前端的可视化界面来展现出用户的行为状态,我们通过可视化界面来分析用户行为,得到网站的界面做的合不合理,用户转化率高不高,PV,IP,UV,独立访客 都是多少,有没有增加,有没有减少,为什么减少,在哪个页面出现了大面积的用户离开网站等等一些信息…
2.1技术方案实现流程:
2.2.1.数据收集:是网站的 web 服务器软件(httpd、nginx)所记录的 web 访问日志access.log文件;
2.2.2.数据收集的内容:
58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wpincludes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketiochat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
2.2.3.数据清洗:
1、用于生成点击流的原始访问日志表
2、页面点击流模型 pageviews 表
3、点击流模型 visits 表(按 session 聚集的页面访问信息)
2.2.4.数据存储到hbase或hive进行数据查询展示:
存储到数据库的数据可以进行前端的数据展示,也可以进行二次数据分析用,用来实现流量的用户转换率,和用户分析:
基础分析
比如一些非常核心的指标:PV,IP,UV,独立访客
1、趋势分析:根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网 站访客的访问规律、网站发展状况提供参考。
2、对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发 现网站发展状况、发展规律、流量变化率等。
2.2.5.把分析出的结果进行展示
结合三大框架: Spring + Sturts2 + MyBatis ==> SSM
和Echarts工具等 把得来的数据进行清晰的大数据可视化的展示,可以结合展示的数据来分析用户行为,进而提高用户从看商品的游客到购买客户的转化率的提升。
数据收集层
数据收集层涉及到写数据埋点,数据埋点可分为两类:
A:前台数据埋点: 使用 JavaScript 去写
B:后台数据埋点: 使用 Java 去写 Flume:收集日志(如果实时的还需要 Kafka) MapReduce:对数据进行预处理
数据分析层
MapReduce
Hive
SparkSQL
SparkCore
azkaban/crontab
Hive + HBase(SQL)
HBase + Phoenix
数据展示层
Sqoop 导入到 MySQL 或是HBase
结合三大框架: Spring + Sturts2 + MyBatis ==> SSM
和Echarts工具等
3.进度安排:
2018.12.21-2018.12.28熟悉课题内容,开题论证;
2018.12.29-2019.1.11 查阅资料,选择设计方案,熟悉开发环境、开发方案,完成开题报告;
2019.1.12-2019.2.17进行系统架构(包括系统的软件、硬件等),写好阶段总结;
2019.2.18-2019.3.22 设计各个模块详细的程序流程图并编程;
2019.3.23-2019.4.7 接受期中检查,实现系统并进行测试,完成毕业论文初稿;
2019.4.8-2019.4.19 进一步地测试系统,修改并完成毕业论文;
2019.4.20-2019.5.3 整理材料,准备答辩,装订论文。
4、指导老师意见
指导教师签名: 年 月 日
|