目录
基于贝叶斯分类器的淘宝用户分类模型研究
1 选题的背景和意义
1.1 选题的背景
1.2 选题的意义
2国内外现状
3朴素贝叶斯分类的应用研究
基于贝叶斯分类器的淘宝用户分类模型研究
1 选题的背景和意义
1.1 选题的背景
2017年8月4日,中国互联网络信息中心(CNNIC)于北京发布了第40次《中国互联网络发展状况统计报告》。该报告的数据表明,截至2017年6月,在中国的网民数量已经超越7.51亿,占到了全球网民总数的五分之一。于此同时我国的互联网普及率也达到了54.3%,已经超出了全球平均水平的4.6个百分点。互联网的普及的同时也使得海量的数据在源源不断的生成,伴随而生的数据库技术也在高速发展着,相对应的数据库管理系统也在不断完善,被广泛实践运用,这些产生的海量数据信息不仅给人们带来便利也伴随着很多问题,比如这些大量积累的数据的真实性难以判断分辨、同时信息的安全性也难以得到保障和不同的信息形式造成我们在处理数据时的不便等一系列问题。本着迎难而上的态度去解决这些问题,所以我们就需要思考该如何从海量的数据信息中去提取有用的数据信息并提高这些数据信息的利用率,这样才不至于被信息的“大海”淹没,目前的数据库系统已经比较完善,已经可以实现一些基础信息的查询、信息的导入以及简单信息统计的功能,但是即便这样也还是无法去辨认筛选这些数据中的有价值的信息。就在这时数据挖掘技术也就应运而生了。数据挖掘与传统的数据分析的区别就在于能在没有确切假设条件的状态下去也能去挖掘信息,得到的信息不仅具有有效性和实用性,而且也可以体现了信息新颖特性,数据挖掘的主要目的是从已经存在的数据中提取数学模型、去探究这个模型的关联性,从而提升目前已有数据信息的内在价值,并把这些数据信息提炼构建成一个或者多个有价值的知识模式。例如:一家连锁店通过数据观察发现了购买小孩尿布的男士同时也会购买啤酒,从而把小孩尿布和啤酒放在一起,从而促进了啤酒的销量,得到了额外的利润。
上面说了那么多,很明显就能看出数据挖掘在现实中具有重大意义。在数据挖掘中,分类是一块非常重要的部分[1],同样在我们的现实生活中运用的最多最广。比如医生通过对病人验血单子中的各项指标对比来判断患上的疾病从而对症下药,再比如淘宝商家根据用户的购物行为分辨是否是正常客户,还是受人操纵的小号等等。这些常人称为经验的东西不断产生,那么新的问题来了,我们如何让这些东西能被我们高效便捷地管理、组织并保存起来加以利用,于此同时也要对这些东西或者称之为信息自动进行分类,能够精准、多方面地、迅速地,如同“大海捞针”一样从数据的“大海”中捞出那根我们所需要的“针”呢?这就需要我们去设计构建一个分类器去自动运行,帮助我们粗略的处理和过滤掉一些无用的信息,比如异常数据,缺失数据等。说到设计分类器,其实在我们的数学领域中就已经拥有许多方法,例如有名的贝叶斯分析方法(Bayesian Analysis)、人工神经网络(ANNs)、支持向量机(SVM)、K最近邻分类算法(KNN)等一系列的分类算法,其中贝叶斯分析方法的优势受到广泛的关注,例如其中的朴素贝叶斯法的特征条件独立性假设的分类方法,不仅使它能适合运用到处理多个属性的分类任务上,而且它在某些领域所展现的性能上远远超过其他分类算法。而且朴素贝叶斯分类器[2]历史悠久是古典数学理论,经过了长时间的认证,拥有坚实的数学基础和稳定的分类效率。
1.2 选题的意义
小方面:电子商务的日益壮大,其中淘宝在业界的影响力越来越大,在中国网民中几乎一半都是淘宝用户,这样的规模和流量,同时也受到许多“不法分子”和网络骗子的青睐,它们研发淘宝小号的注册器用来发送垃圾信息、垃圾邮件,信誉炒作,严重影响了消费者的购物体验。
大方面:数学从生活中来,所以也到到生活中去,换句话说就是研究数学的最终目的就是为了服务人类和服务社会。在电子商务高速发展的时代,大数据在人们生活中的各个领域都有较好的发展,