提纲(开题报告3000字以上):
一、选题依据(研究的背景、目的和意义等)
1.1研究背景
互联网的高随发展随之带来的就是网络数据在数据规模与数据复杂度上的指数级别的增加。根据全球著名咨询公司IDC(国际数据公司)发布的研究报告,预计到2021年,世界上的数据总量将达到35ZB。17年举办的中国存储行业联盟大会上,《2015-2021全球IP网络流量报告》指出,数据以每年44%的增幅增长,预计2021年每月将产生6ZB数据。现阶段网络环境中,各种类型的数据交错其中,主要包括结构化数据、半结构化数据、非结构化数据,其中非结构化数据已经超过半数,随着传感器、万物互联等技术的发展,非结构化数据的占比将进一步提升。数据规模庞大,数据类型复杂,而数据又对人们的日常生活起着十分重要的作用,如何从这些动态生成、超高时效性的数据中快速准确的找到自己所需要的数据,并将其筛选清洗加以利用,似乎已经成为互联网时代的必修课。在数据的各种应用场景中,二手房是十分重要的一个方面。
时代在发展,技术在进步,互联网改变了全世界,各行各业都在这个互联网时代寻求自身的增长点,人们的日常生活也越来越离不开互联网。以二手房为例,线下二手房行业持续遭到冲击,越来越多的年轻人选择在互联网上挑选房源。然而网上信息混杂,数据来源众多,如何提升二手房用户体验就成了一个值得探讨的问题。
1.2目的及意义
电子商务研究中心发布的《2019年中国网络二手房调查报告》(后简称为报告)显示,在剔除来自乡村、县城、四线城市及以下的调查样本后,无论是一线城市还是二三线城市,选择二手房居住的用户均占据了绝大部分比例,其中北上广深的二手房用户超过了77%,省会及二三线城市的二手房用户达到了65%(该比例为参与网上调查的被调查者提供的问卷反馈结果,考虑到参与调查的被调查者的人数因素,结果存在一定偏差,但依然真实的反映了我国现在二手房用户群体的庞大)。
目前国内通过二手房来解决居住问题的人数已经超过一亿人,年销售额也已经超过1万亿元,互联网的发展给二手房市场注入了新的活力,据报告显示,通过网络寻找房源的比例已超半数,半数以上的房主也倾向于将自己的房源信息发布到网上,可以说互联网为二手房市场提供了发展的沃土。但是,网络中提供二手房信息的网站很多,用户寻找房源时往往由于使用习惯等原因主要在一个平台上寻找,若找不到心仪的房源,又将面临辗转各个二手房信息平台,为用户带来不便。
笔者认为,对生活有实际意义的软件系统才称得上是一个好系统,结合以上背景,本文将以python语言为基础,实现scrapy架构下二手房信息爬取与Django架构下的二手房数据展示系统,该系统能帮助到实际生活中寻找某城市的出二手房的租客,具有实际应用价值。
二、文献综述(在充分收集研究主题相关资料的基础上,分析国内外研究现状,提出问题,找到研究主题的切入点,附主要参考文献,不少于10篇)
2.1 国外的研究现状
目前,国外设计出了很多的网络爬虫系统,主要由Ubi Crawler,Mercator,Nutch和GoogIeCrawler率和准确率。这些网络爬虫系统都具有自己独特的一面,在数据采集方面都有着很高的效下面,将对以上几种网络爬虫系统做简单的介绍。
谷歌的搜索引擎网络爬虫使用的是分布式的网络爬虫系统,采用多台服务器并行访问网页,抓取数据,系统由多台并行的爬虫主机和一台中央主机组成。中央主机首先访问请求的Url,然后将请求得到的网页分发给下面并行的主机,来对网页数据进行定位和抓取。各个爬虫主机在完成网页数据的抓取之后,将抓取到的数据做成定义的规格,发送给索引进程使用。索引进程负责管理存储在数据库的网页Url和己经抓取到的网页数据,Url解释器进程负责解析网页Url。解释器进程是将刚刚抓取到的网页Url保存到本地,并且发送给中央主机,由中央主机读取。谷歌搜索引擎中的网络爬虫系统采用这种循环的方式,将中央主机和多台爬虫主机配合使用,不断的从互联网抓取需求的数据。
2.2 国内的研究现状
在国内,同样存在很多的研究单位和高校学者对分布式网络爬虫系统作了大量的研究,很多优良的网络爬虫系统也随之产生。
2017年,孙锐设计并实现了基于Hadoop的分布式网络爬虫系统,深入的阐述了网络爬虫技术的爬行任务部署、工作状态和系统架构设计,并且,阐述了基于Hadoop分布式平台技术,包括MapReduce分布式计算模型和HDFS分布式文件系统。最终设计并且实现了一个基于Hadoop分布式网络爬虫系统。
同样在2017年,马联帅设计的基于Scrapy数据采集框架的分布式网络新闻抓取系统,在深入分析网络新闻爬虫特点的基础上,根据需要抓取的新闻网站的数据排版特点,来设计抓取的字段关键字信息和爬虫的运行策略。当遇到动态网页时,使用Selenium技术来解决动态网页的字段关键字抓取问题,使用Redis数据库管理系统来管理主从结构的分布式网络爬虫系统。系统采用Scrapy网络爬虫框架,Scrapy自带下载中间件,可以有效的解决Ip地址被屏蔽的问题。
2019年,李文龙详细研究了ocker集群的编排管理工具,基于ocker集群的分布式爬虫系统,掌握编排管理工具的工作原理以及调度机制和管理并将它应用在分布式网络爬虫系统。随之,一个适合Docker集群的分布式网络爬虫模块被设计和实现出来,开发人员将这些系统模块根据需求组合起来,最终形成了高效便捷的分布式爬虫系统。这个基于Docker集群的分布式爬虫系统采用Kubernetes集群编排管理工具,使用此编排管理工具来对系统的各个功能模块进行统一的部署和管理,以最终运行在。ocker集群上为目标。
通过国内外关于网络爬虫系统及Scrapy框架的研究,我们不难看出,研究主要针对某一特定数据类型或特定网站,并没有对不同数据类型,不同网页布局类型进行研究,而我们设计的基于Scrapy框架的数据采集系统,是一个系统工程,在这个系统工程中,每个环节都是紧紧相扣,在一定程度上可以满足对不同网页类型和不同数据类型的采集和管理。
参考文献
[1]陈辉. 基于SCRAPY框架的网络爬虫封锁技术破解研究[J]. 科技视界, 2020, No.300(06):230-231.
[2]庄旭东, 王志坚. 基于R语言爬虫技术的网页信息抓取方法研究——以抓取二手房数据为例[J]. 科技风, 2019, No.374(06):60+62.
[3]王晋竹. 长春市二手房价格影响因素研究[D]. 2019.
[4]王晓娟. 重庆二手房价格影响因素研究[J]. 廊坊师范学院学报:自然科学版, 2019(3).
[5]方丹萍. 基于Hedonic模型的郑州市二手房价格影响因素研究[J]. 河南财政税务高等专科学校学报, 2019, 033(002):74-77.
[6]范鹏程, 涂嘉庆. 基于Scrapy框架爬取温州二手房信息的研究与实现[J]. 电脑知识与技术:学术版, 2019(6X):4-6.
[7]韩贝, 马明栋, 王得玉. 基于Scrapy框架的爬虫和反爬虫研究[J]. 计算机技术与发展, 2019, 29(02):145-148.
[8]秦亚红, 普措才仁. 基于Scrapy的新闻网页数据抓取设计[J]. 电子技术与软件工程, 2020, No.174(04):176-177.
[9]陈燕. 基于Scrapy爬虫框架的安居客二手房数据爬取[J]. 轻工科技, 2019.
[10]王海玲, 周志彬. 基于Scrapy框架的爬虫设计[J]. 软件导刊, 2020, 019(004):224-228.
[11]花丽娟. 多方机制下二手房市场价格影响因素与发展趋势研究——基于淮安市涟水县二手房市场交易数据[J]. 中国产经, 2020, No.251(19):102-103.
[12]祝瑾, 熊杨. 多方机制下二手房市场价格影响因素与发展趋势研究——基于成都市二手房市场交易数据[J]. 大众投资指南, 2020(1).
[13]陈燕. 基于Scrapy爬虫框架的安居客二手房数据爬取[J]. 轻工科技, 2019, v.35;No.250(09):79-80.
[14]丁志毅. 基于Scrapy和Hadoop平台的房屋价格数据爬取和存储系统[J]. 电子技术与软件工程, 2019, 000(017):P.166-167.
[15]朱园园, 邵雯娟, 黄志远. 基于Scrapy的二手房信息搜索系统设计与实现[J]. 电脑与电信, 2019(6).
[16]朱熙曈. 网络爬虫与KNN算法在房价分析中的应用[J]. 电脑编程技巧与维护, 2019, No.404(02):105-106+121.
[17]Qiu W , Huang X , Li X , et al. Investigating the impacts of street environment on pre-owned housing price in Shanghai using street-level images[C]// CARMA 2020 - 3rd International Conference on Advanced Research Methods and Analytics. 2020.
[18]Hu Y , Lyu P . Research on the Impact and Mechanism of Talent Introduction Policy on Urban Housing Price - An Empirical Analysis Based on Nanjing, Wuhan and Xi'an[J]. ERES, 2019.
[19]Kong J , Deng S , Zhang Y . Research on Influencing Factors of College Students’ Intention of Online Health Information Behavior Based on Social Cognitive Theory[J]. Journal of Physics: Conference Series, 2019.
[20]Ouyang Z . Research on Influencing Factors of National Tourism Development Based on Computer Technology[J]. Journal of Physics Conference Series, 2020, 1574:012108.
三、研究方案(主要研究内容、目标、研究方法等)
3.1研究主要内容
本文设计并实现一个基于python开源爬虫框架scrapy的无锡市二手房信息爬取系统,爬取互联网上多个含有此数据的网站。以城市为区分,将多个站点的数据存入非结构化数据库,再以数据库为连接,开发出一个以python开源web框架Django的基础的无锡市二手房数据展示系统。与此同时,对爬取到的无锡市二手房数据进行可视化处理。
3.2目标(初步提纲)
(1)首先说明该系统开发的可行性与现实应用意义,介绍爬虫技术及反爬虫技术的发展现状,介绍开发该系统所预期达到的目标及所需做的工作;
(2)再对系统中涉及到的相关技术进行了介绍,并说明相关技术在本系统中的作用。如Robot协议等,其中着重对爬虫架构scrapy、非结构化数据库MongoDB、开源网站框架Django进行介绍;
(3)其次为系统分析与设计,分析系统所要实现的功能,设计出总体架构,对其进行细分,分成各个模块,然后对各个模块进行介绍;
(4)再次为系统设计实现与成果展示,本章编写代码实现爬虫,对数据库进行设计,并完成数据展示模块。
(5)最后对系统测试,包括对测试环境的描述,对系统的功能性测试和非功能性测试。
3.2研究方法
首先通过python开源爬虫框架scrapy对目标二手房信息网站进行爬取,依据不同网页的不同特性选择不同的爬取策略,编写爬虫代码,过滤并抽取所需出二手房源信息,建立以城市为区分的房源信息数据库。数据库部分采用非结构化数据库MongoDB,避免网上信息的非结构性对数据存储的影响。然后采用python开源网站搭建框架Django完成对爬取到的二手房信息的web端展示。除此之外,本系统采用高德地图API提供的“坐标拾取器”功能完成位置信息与经纬度之间的转换,并将爬取到的数据可视化展示在地图上,一并展示于前端页面。在爬虫部分,除了对二手房信息的爬取外,还实现了对网上免费代理的爬取、存储、有效性验证与维护。
本系统还涉及到的技术有:MongoDB与scrapy框架的集成,MongoDB与Django框架的集成,semantic UI快速html5界面开发等。
四、进程计划(各环节的时间安排、实施进度、完成程度等)
1.选题:2020年11月15日前完成任务书;
2.开题报告:2020年12月15日前;
3.初稿(一稿二稿):2021年3月15日中期检查前完成一稿二稿;
4.论文修改:2021年3-4月;
5.定稿:2021年4月15日完成定稿审阅和检测;
6.答辩:2021年4月25日前完成答辩和成绩评定;
2021年5月25日前完成优秀毕业论文(设计)评选和推荐,2021年5月30日前完成材料归档工作。
格式要求:
1.标题:四号宋体、加粗,并留出上下间距为:段前、段后均为6磅;
2.正文:小四号宋体,首行缩进2字符,行间距固定22磅
|