1 引言
1.1 课题背景及意义
现电商网站,商家为了吸引更多客户,有进行刷单的现象。一般由刷单手,在商家店铺自己垫资拍下商品。商家接单后,将商品快递给刷单手。刷单手将商品寄回给商家。商家返还刷单手垫资购买商品本金,并支付回寄快递费及刷单酬劳。有时,为了降低刷单成本,使刷单效率更高,商家在接单后,会快递给刷单手极为廉价的商品,这样的商品无需再快递回给商家。
最近1~2年电商行业飞速发展,各种创业公司犹如雨后春笋大量涌现,商家通过各种活动形式的补贴来获取用户、培养用户的消费习惯。但任何一件事情都具有两面性,高额的补贴、优惠同时了也催生了“用户刷单行为”。“用户刷单行为”的行为距离欺诈只有一步之遥,他们的存在严重破环了活动的目的,侵占了活动的资源,使得正常的用户享受不到活动的直接好处。
这样的刷单行为,在电商平台上,看到的是一笔笔真实的交易,用传统的技术手段,很难甄别哪些是刷单行为。严重影响电商平台的运营及口碑。同时也给消费者,带来很大的误导,导致不好的购物体验。
近年来,随着互联网的普及,电子商务技术的迅速发展,淘宝、天猫、京东等一批电子商务平台崛起,以淘宝为例,其从一个小平台发展成拥有着 600 万卖家,上千万从业者的巨大经济实体。网络购物已经成为拉动社会消费、推动经济增长的重要方式。淘宝刷单问题也引起社会大众的关注。本文将对刷单行为的性质予以认定并给出对策。
1.2 研究现状
2017年越来越多的人进入跨境电商行业,亚马逊做为欧美市场的领导者,受到国内从业者的青睐。
流量来源成为新手卖家最大的问题,很多新手卖家选择通过刷单这种方式积累人气,提高转化率。
众所周知,亚马逊做为技术出身的电商公司,在用户数据管理,用户习惯分析等等方面都走在行业前列。
从2016以来,亚马逊加大了对于刷单行业的打击力度,力求从大数据层下面下对review刷单行业实现管控。
目前刷单行业一般分为自动和手动两种。
自动一般通过软件,使用国外IP+小号进行操作,目前可以说是风险较大,亚马逊新的算法下查处能力很强,一旦账号、资金冻结将带来不可折返的后果。
手动又分为虚拟交易和真实交易,虚拟交易通过小号跟卖+虚假单号,此类方式因为单号的原因容易被亚马逊检测,使用的人也越来越少。
越来越多的人选择通过真实交易实现评论数量的增长,比如FBA的用户通过真实赠送的产品来获取亚马逊买家的review。
不管怎么说,亚马逊评价对于提升listing排和关键词排名都是非常重要的,从而进一步直接提高销量。但同时也需要认识到所带来的危害,毕竟产品和服务才是第一位。
1.2.1用户刷单行为分工
他们内部有着明确的分工,形成了几大团伙,全国在20万人左右:
软件制作团伙:专门制作各种自动、半自动的黑产工具,比如注册自动机、刷单自动机等;他们主要靠出售各种黑产工具、提供升级服务等形式来获利。
短信代接平台:实现手机短信的自动收发,其实一些平台亦正亦邪,不但提供给正常的商家使用,一些黑产也会购买相关的服务。
账号出售团伙:他们主要是大量注册各种账号,通过转卖账号来获利;该团伙与刷单团伙往往属于同一团伙。
刷单团伙:到各种电商平台刷单,获取优惠,并且通过第三方的电商平台出售优惠,实现套现。
1.2.2“用户刷单行为”从业特点
这些黑产团队,有三个特点:
专业化:专业团队、人员、机器来做。
团伙化:黑产已经形成一定规模的团伙,而且分工明确;从刷单软件制作、短信代收发平台、电商刷单到变卖套现等环节,已经形成完整的刷单团伙。
地域化:黑产刷单团伙基本分布在沿海的一些经济发达城市,比如,北京、上海、广东等城市,这或许跟发达城市更加容易接触到新事物、新观念有关。
1.2.3对抗刷单的思路
对抗刷单,一般来讲主要从三个环节入手:
注册环节:识别虚假注册、减少“用户刷单行为”能够使用的账号量。在注册环节识别虚假注册的账号,并进行拦截和打击。
登录场景:提高虚假账号登录门槛,从而减少能够到达活动环节的虚假账号量。比如,登录环节通过验证码、短信验证码等手段来降低自动机的登录效率,从而达到减少虚假账号登录量、减轻活动现场安全压力的目的。
活动环节:这个是防刷单对抗的主战场,也是减少“用户刷单行为”获利的直接战场;这里的对抗措施,一般有两个方面:1)通过验证码(短信、语音)降低黑产刷单的效率。2)大幅度降低异常账号的优惠力度。
1.3 开发坏境
本文提出面向用户的电商平台刷单行为智能检测方法(SVM-NB)和构建刷单特征值方法,基于SVM 算法训练样本数据并进行分类,为用户提供判断刷单的商品特征项信息,直观的给出系统计算的刷单概率,本文通过 K 折交叉验证算法验证了 SVM-NB 算法应用的合理性和准确性。
2 研究内容
2.1设计大体框架
本次设计的主要内容是对电商平台用户购买行为真实度的检测方法及系统。该方法包括获取多个商品的原始数据,多个商品包括刷单商品和不刷单商品,根据原始数据计算特征率值,特征率值包括静默转化率、订单咨询率、流量转化率、成交转化率、订单支付率、收藏率、收货时间差、刷手占比、店铺停留时间;将特征率值进行归一化处理和转换成与支持向量机分类法相匹配的格式,获得特征值;采用支持向量机分类法处理刷单商品的特征值和不刷单商品的特征值,获得最优训练模型;计算目标数据的特征值,获取目标特征值;根据最优训练模型和目标特征值计算目标商品的刷单概率。通过计算特征率值获得最优训练模型,计算出目标商品的刷单概率,提供给用户直观的参考数据。
2.2可行性分析
运用大数据技术,进行大数据分析,准确定位刷单行为。
刷单手也是生活的现实社会里的人,他肯定也会产生消费。通过抓去其消费信息:线上的交易信息(这里面包含刷单行为),线下的交易中手机支付信息,来定位刷单手。比如:对同一物品、或同一类型物品的购买,严重超出正常需求;其交易支付行为,产生的消费额超出正常人的经济承受能力。等等。。。。系统通过大数据分析之后,得出结论,再人工进行核查,得出更为稳妥公正的结论,再做出处理,这样就万无一失。
对于电商平台的商家,通过抓取其经营信息:交易额是否在正常范围内,出货量是否在正常范围内(比如库存的合理性)等等。。。系统通过大数据分析,甄别商家是否有刷单行为。然后进行人工核查,做出处理。
2.3重点与难点分析
电商的用户购买行为真实度检测方法重点和难点在于:
获取多个商品的原始数据,所述多个商品包括刷单商品和不刷单商品,所述原始数据包括访客数、咨询数、付款数、订单数、收藏数、点击次数、买家ID、下单时间、确认收货时间、付款时间、店铺停留时间、交易时间、IP地址信息;
根据所述原始数据计算特征率值,所述特征率值包括静默转化率、订单咨询率、流量转化率、成交转化率、订单支付率、收藏率、收货时间差、刷手占比、店铺停留时间;
所述静默转化率为所述不经过咨询的订单数与所述访客数的商,所述订单咨询率为所述咨询数与所述访客数的商,所述流量转化率为所述付款数与所述点击量的商,所述成交转化率为所述付款数与所述访客数的商,所述订单支付率为所述付款数与所述订单数的商,所述收藏率为所述收藏数与所述访客数的商,所述收货时间差为所述确认收货时间与所述付款时间的差,所述刷手占比为IP重复率;
将所述特征率值进行归一化处理和转换成与支持向量机分类法相匹配的格式,获得特征值;
采用支持向量机分类法对所述刷单商品的特征值和所述不刷单商品的特征值进行训练,获得最优训练模型;获取目标商品的目标数据,计算所述目标数据的特征值,获取目标特征值;根据所述最优训练模型和所述目标特征值计算所述目标商品的刷单概率。
3 预期结果
当用户检测的商品在数据库中已经存在相关信息,则为静态检测,只需将数据库中的数据转化成测试样本输入 SVM-NB 算法中进行分析,得出刷单概率并存入数据库中,以便下次针对同一商品进行检测时可以节省时间。当用户检测的商品在数据库中不存在相关信息时,根据用户输入的网址首先利用爬虫技术进行动态爬取网页内容,获取用户选择时间段内的商品最新信息。
能够对刷单概率过高的店铺提出警告信息,不仅能够基于数据库中已有的店铺商品信息进行检测,而且能够实现动态更新,保证刷单概率检测结果的可用性和准确性;在给出最终的检测结果后,用户还能够查看所选商品的详细测试数据以及同行业数据,直观明了,增加结果的说服力。
用户能够同时对多个商品进行刷单概率的检测,最终系统会显示出所选择的多个商品的计算结果,以供用户进行同类商品刷单行为检测结果的对比,并且能够同时显示多个商品的数据信息。
4 时间进度安排
2019年1月~2019年2月 对所选课题进行调研,收集整理资料,撰写开题报告及文献综述。
2019年2月~2019年3月 上交开题报告,并进行开题答辩。
2019年3月~2019年4月 查阅相关资料,调研所选课题,规划设计方案,实现部分功能模块。
2019年4月~2019年5月 实现所有功能模块,测试系统运行,完善系统。撰写论文初稿。
2019年5月~2019年6月 测试系统运行,准备作品答辩,依据指导教师的意见,修改论文初稿。
2019年6月中旬 进行毕业论文修改,定稿成册,准备论文答辩。
5 参考文献
[1]韩志红,朱沛智.经济法新论[M].北京:法律出版社,2008.
[2]孙晔,张楚.美国电子商务法[M].北京:北京邮电大学出版社,2001.
[3]蒋志培.网络与电子商务法[M].北京:法律出版社,2001.
[4]阴建峰.网络刷单行为的刑法规制研究[J].知与行,2016.(8): 53-61.
[5]祁云波.刷单行为成因、危害及法律规制分析[M].中国工商报,2016.7.5(003).
[6]刘俊秀.网络购物中消费者知情权的保护[D].大连:大连海事大学,2014.
[7]马淑.网购评论操纵对消费行为的影响 [D].安徽:中国科学技术大学 ,2016.
[8] 315 曝光刷单超详细过程曝光淘宝刷单黑产业[DB/OL].[2016-03-16]
[9] 贺骏.电商刷单产业链屡禁不止京东利用大数据“捉妖”[DB/OL]. [2016-03-21]
[2016-03-22]. http://tech.hexun.com/2016-03-21/182861037.html)
[10] 新浪.详细解读淘宝稽查系统的主证与旁证系统[EB/OL].[2016-10-11].
[11] COUELLAN N, WANG W. Uncertainty-safe large scale support vector machines[J]. Computational Statistics and Data Analysis, 2017,109(C): 215-230.
[12] 高雷阜,王飞. 基于混沌更新策略的蜂群算法在 SVM 参数优化中的应用[J].计算机工程与科学,2017,39(1):199-205.
[13] Mokhtari A, Ribeiro A. A quasi-Newton method for large scale support vector machines[C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Italy:IEEE, 2014:8302-8306.
[14] CHANG C C, LIN C J. LIBSVM-a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology[J]. 2011, 2(3):1-27.
[15] 何东健.SVM 支持向量机算法的详细推导[EB/OL].[2016-05-10].
[16] 熊浩勇.基于 SVM 的中文文本分类算法研究与实现[D].武汉:武汉理工大学,2008.