学生姓名
学号
专业班级
18数据科学与大数据技术
题 目
基于python爬取母婴用品评论的数据分析
题目性质
选题依据和目标(该研究的目的和意义、研究现状、主要参考文献)
研究目的和意义:
研究目的:
对于大量评论的热销母婴商品,消费者如果靠阅读评论得到某母婴商品全面性的分析,工作量极大,耗时长,获取的信息也有限。网络爬虫作为一个自动提取网页的程序,可以高效地从数据库的海量信息中挖掘出有效的信息,大量数据可以得到处理和分析。而爬虫系统可以不断抓取网页数据到本地,经过一系列的分析、过滤,从而得到高质量的数据。
研究意义:
近年来,随着人们生活品质的不断提高,消费观念亦在不断升级。自2016年国家开放二胎政策以来,母婴市场愈来愈繁荣,母婴商品种类也在不断地增多,人们在进行电商浏览母婴用品时,常常是通过店铺销量和已购买用户的评论进行选购的,面对如此繁多地商品以及网络购物中的不确定性,对大量的评论进行整合和处理,帮助消费者进行客观的判断从而选购到合适的母婴用品是十分有必要的
研究现状:
自2016至今母婴用品线下的零售和线上购物也相融合,我国的母婴用品市场逐步进入到成熟期,在电商交易的不断涌入及消费观念的不断升级下,使得线上购买母婴用品成为主流趋势。近日,2021年5月31日三胎政策的实施,新生儿的数量也有所增长,同时也带动着母婴用品数量和质量的发展与创新。
国外对爬虫的研究起步是90年代初期,最早的爬虫技术是以搜索引擎出现的。国内爬虫虽起步较晚,但是到目前为止爬虫技术日趋成熟。近年来随着各位学者的不断探索,动态网页爬取信息已经实现,爬虫的性能也逐步提高。网络爬虫技术自身的强大功能,能够在短时间内提取各种不同类型的信息数据,挖掘出更多有价值的数据,成为查询和分析数据必不可少的工具。
主要参考文献:
[1]冯艳茹.基于Python的网络爬虫系统的设计与实现[J].电脑与信息技术,2021,29(06):47-50.
[2]黄文波.电商平台用户评论的分析及应用[D].导师:陈琼;于英.华南理工大学,2020.
[3]邹思宇.基于网络爬虫的计量数据分析系统开发[D].导师:田地.吉林大学,2021.
[4]谢美英.基于Anaconda的婴儿用品数据爬取及可视化分析[J].现代信息科技,2021,5(14):90-93.
[5]谢婉红.母婴用品网店形象对网络顾客忠诚影响的实证研究[D].导师:傅慧.中山大学,2020.
[6]叶又佳.母婴用品消费者跨境网购行为分析[D].导师:余燕春.浙江大学,2018.
[7]秦成鑫,黄锎靓,康华,黄依婷,海龙菊.基于Python的基因表达数据网络爬虫研究与设计[J].信息与电脑(理论版),2020,32(10):143-145.
[8]Gopal Sakarkar. Machine Learning Algorithms Using Python Programming[M].Nova Science Publishers, Inc.:2021-04-20.
[9]Vijay Kumar Sharma,Vimal Kumar,Swati Sharma,Shashwat Pathak. Python Programming:A Practical Approach[M].CRC Press:2021-04-07.
[10]孙瑜.基于Scrapy框架的网络爬虫系统的设计与实现[D].导师:孔令波.北京交通大学,2019.
[11]池毓森.基于Python的网页爬虫技术研究[J].信息与电脑(理论版),2021,33(21):41-44.
[12]吴道君.大数据背景python在网络爬虫框架中的应用[J].科学技术创新,2021(21):97-99.
二、 研究方案(包括研究内容、研究的基本思路和基本方法、研究进度安排)
三、 研究内容:
四、 对某款热销型的母婴产品,爬虫采集其页面下的所有评论,通过对评论的处理和分析,提取出关键词,制作可视化词云图,最后从产品的质量、使用的感受、物流的速度、服务及售后态度四个方面对该款母婴用品进行整体性的评判,让购买者通过评论更好地了解该款母婴用品及其质量,做出更加客观的判断。
研究的基本思路和基本方法:
基本思路:
1、 母婴用品中的大量评论,用python进行网页爬取母婴用品下的评论
2、 2、使用Pandas、Numpy 等库对大量的评论进行数据预处理,提高数据质量。
3、 3、使用Matplotlib、Nltk、Jieba等库进行数据分析,去重复评论
4、 4、最后词频统计后制作柱状图及词云图来展示可视化数据结果。并对展示的结果进行可行性的分析。
5、 基本方法:
6、 通过参阅近几年的论文及期刊,学习相关数据分析的研究思路,从而全面准确地了解所要研究的内容。
研究进度安排:
三、 写作提纲
四、 (写到二级目录)
五、 1.绪论
六、 1.1 研究背景及研究意义
七、 1.2研究目的
八、 1.3研究内容
九、 2. 引用技术介绍
十、 2.1 python技术介绍
十一、 2.2 网络爬虫简介
十二、 2.3 抓取策略分析
十三、 3. 爬取母婴用品评语
十四、 3.1 URL链接与爬取页面
十五、 3.2 爬取的统计数据
十六、 4. 爬取算法设计与实现
十七、 4..1 首页加载以及页数获取
十八、 4.2 全部页面数据获取
十九、 4.3 保存到文件
二十、 5.母婴用品的数据分析及可视化
二十一、 5.1 Pandas、Numpy 等库进行数据预处理
二十二、 5.3 Matplotlib、Nltk、Jieba库进行数据分析
二十三、 5.4基于LDA模型的情感分析
二十四、 5.4 可视化展示结果
二十五、 6.总结
二十六、 6.1遇到困难及解决方法