设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>毕设资料 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于Django的租房数据展示系统设计与实现开题报告
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

论文题目

基于Django的租房数据展示系统设计与实现

指导教师职称

所学专业

研究专长

工作单位

电子邮箱

联系电话

选题目的和意义

互联网的高随发展随之带来的就是网络数据在数据规模与数据复杂度上的指数级别的增加。根据全球著名咨询公司IDC(国际数据公司)发布的研究报告,预计到2020年,世界上的数据总量将达到35ZB。[1]17年举办的中国存储行业联盟大会上,《2015-2020全球IP网络流量报告》指出,数据以每年44%的增幅增长,预计2020年每月将产生6ZB数据。

电子商务研究中心发布的《2015年中国网络租房调查报告》(后简称为报告)显示,在剔除来自乡村、县城、四线城市及以下的调查样本后,无论是一线城市还是二三线城市,选择租房居住的用户均占据了绝大部分比例,其中北上广深的租房用户超过了77%,省会及二三线城市的租房用户达到了65%[4](该比例为参与网上调查的被调查者提供的问卷反馈结果,考虑到参与调查的被调查者的人数因素,结果存在一定偏差,但依然真实的反映了我国现在租房用户群体的庞大)。目前国内通过租房来解决居住问题的人数已经超过一亿人,年租金也已经超过1万亿元,互联网的发展给房屋租赁市场注入了新的活力,据报告显示,通过网络寻找房源的比例已超半数,半数以上的房主也倾向于将自己的房源信息发布到网上,可以说互联网为房屋租赁市场提供了发展的沃土。[5; 6]但是,网络中提供房屋租赁信息的网站很多,用户寻找房源时往往由于使用习惯等原因主要在一个平台上寻找,若找不到心仪的房源,又将面临辗转各个房屋租赁信息平台,为用户带来不便。

笔者认为,对生活有实际意义的软件系统才称得上是一个好系统,结合以上背景,本文将以python语言为基础,实现scrapy架构下租房信息爬取与Django架构下的租房数据展示系统,该系统能帮助到实际生活中寻找某城市的出租房的租客,具有实际应用价值。

国内外研究现状述评

爬虫是指一段自动的向互联网上某些网页发出请求并接收响应,根据一定规则继续爬取链接或从响应中提取出有价值的信息的一段程序,即爬虫是一段完成特定功能的程序。从原理上讲,任何具有网络通信功能的高级程序设计语言均可设计实现爬虫程序。爬虫与浏览器访问网页,究其原理,都是通过网络协议去请求互联网中的某个特定数据(不一定特指网页数据,音频、图片等数据也是爬取的对象)。不同点在于,其一,爬虫一般只需要运行编写好的爬虫程序即可完成网页请求;其二,浏览器一般运行在客户端,这与爬虫不同。

自上世纪90年代起,爬虫技术就得到了不少计算机工作者的重视,随着技术的发展,爬虫技术已经逐步趋于成熟,并在很多领域发挥巨大作用,尤其是在搜索引擎领域。爬虫为搜索引擎从互联网上下载网页,是搜索引擎技术中十分重要的组成部分[7]。

一个传统的爬虫往往是从一批URL开始的,爬虫先请求这批URL的网页内容,得到正确的应答后,对页面内容进行解析,然后根据预先设计好的规则从网页中找到某些URL加入到请求队列中,或者从网页中定位到所需要的信息,并将信息进行封装保存。循环往复,不断从请求队列中提取URL进行请求,直至请求队列为空或某些其他情况导致爬虫程序终止为止。

python语言在爬虫设计与实现中具有独特的优势。首先,python有scrapy等一些其他的成熟爬虫框架,其中已经考虑到了cookie,并行爬取等众多令人头疼的问题,让程序员大可不必“造轮子”,而是直接可以站在巨人的肩膀上。其次,即便不使用框架,python依然提供了众多成熟的第三方库如request、Beautiful解析库等等,其中也集成了部分反爬取的高级功能,开发起来又快又好。虽然以上功能很多语言都可以完成,但均没有使用python来的简洁舒适,正如python的设计标语“Life is short,you need python”。最后,python对爬取到的数据进行处理十分方便。总之,各种优点造就了现在python在爬虫编写领域的地位,其已经是现在编写爬虫使用最广泛的语言。

在互联网时代,爬虫是一个较为普及的技术,很多人做项目、做调查,都离不开大量数据的支撑,编写爬虫似乎成了大家一致的选择。准入门槛低、网上现成的代码使得网络上爬虫横行。[8]然而,爬虫又面临着很多问题,比如爬虫是自动化的访问大量网页,访问速度快,频率高,占用了服务器大量的带宽,如若短时间访问量过于巨大,轻则造成对方服务器反映缓慢,影响到正常用户的访问,重则给予对方服务器类似于Dos攻击的效果,造成宕机。依据某知名企业在网络上举办的技术分享视频上的介绍,其某个页面一分钟的浏览量为1.2万,真实用户仅有500人左右,爬虫流量占比峰值曾达到了98%。其次,网络爬虫还面临着一定的法律风险。现如今,知识产权观念深入人心,网站上的内容作为其公司经济利益与知识产权的载体,理应收到一定的保护[9]。相关法律法规出台的滞后性、适用法律的模糊性以及技术手段的多样性都造成了如今使用爬虫可能面临一定的风险。某些网站本身商业利益来源就是其数据,这类网站会想方设法对爬虫行为进行限制。

原则上来讲,没有一种最完美反爬的技术可以阻挡爬虫的进攻,商业公司与爬虫编写人员之间的较量有时比拼的并不只是技术,而是代价。如果爬虫编写者应对某网站的反爬措施需要花比反爬者更大的价值,编写者一段时间后也将失去爬取的兴趣;如果反爬人员需要花费更大的时间精力来阻止一个精心设计的爬虫,如若该爬虫对网站的利益影响没有那么大,一般公司的技术人员会选择放弃与之较量,任其爬取。反爬虫是一场矛与盾的较量。对于爬虫编写者来说,如何能找到一些适合当前任务的抓取策略,既避免遭到网站的封禁,又能避免对该网站的稳定性与经济利益造成影响,是个值得继续研究的问题。

拟研究的主要内容及主要观点

研究的主要问题

本文设计并实现一个基于python开源爬虫框架scrapy的租房信息爬取系统,爬取互联网上多个含有此数据的网站。以城市为区分,将多个站点的数据存入非结构化数据库,再以数据库为连接,开发出一个以python开源web框架Django的基础的租房数据展示系统。与此同时,对爬取到的租房数据进行可视化处理。

重要观点

本系统采用高德地图API提供的“坐标拾取器”功能完成位置信息与经纬度之间的转换,并将爬取到的数据可视化展示在地图上,一并展示于前端页面。在爬虫部分,除了对房屋租赁信息的爬取外,还实现对网上免费代理的爬取、存储、有效性验证与维护。本系统还涉及到的技术有:MongoDB与scrapy框架的集成,MongoDB与Django框架的集成,semantic UI快速html5界面开发等。

研究方法、手段和途径

本系统实现一个房屋租赁信息爬取与数据展示系统。首先通过python开源爬虫框架scrapy对目标房屋租赁信息网站进行爬取,包括58同城、安居客、107间房、我爱我家网、房天下、列表网、58同城移动端等,依据不同网页的不同特性选择不同的爬取策略,编写爬虫代码,过滤并抽取所需出租房源信息,建立以城市为区分的房源信息数据库。数据库部分采用非结构化数据库MongoDB,避免网上信息的非结构性对数据存储的影响。然后采用python开源网站搭建框架Django完成对爬取到的租房信息的web端展示。

研究进度计划

1.对国内外网络爬虫技术与反爬虫技术研究现状、网络协议及协议运行相关技术等背景知识进行了解,对国内网租房市场进行调查了解;

2.研究学习scrapy爬虫架构及非结构化数据库相关技术;

3.分析目标用户人群对房屋租赁信息的业务需求,结合市面上房屋租赁信息平台的特点,设计整个系统的数据流动方式、设计多个框架之间相互协作的业务流程;

4.针对部分网页的反爬取策略,采用反反爬虫技术,完成对房屋租赁网站信息的获取;

5.结合房屋租赁信息的数据特点,对爬取到的房屋租赁数据进行合理的处理,并且利用非关系数据库MongoDB设计实现数据存储,为数据展示提供必要的数据支持;

6.研究学习web框架Django,完成网站搭建,学习semantic UI编写网页界面,使用列表形式或地图形式完成数据展示;

6.对该系统进行功能性与非功能性测试,验证系统的可用性;

7.总结所做的工作,对进一步的研究工作作出展望。

论文提纲

一、绪论

(一)研究背景及需求分析

(二)国内外研究现状

(三)研究目标及研究内容

(四)论文的整体结构

(五)本章小结

二、相关理论及技术

(一)robot协议对本设计的影响

(二)爬虫

(三)python发展现状

(四)XPath

(五)scrapy架构

(六)MongoDB数据库

(七)python web框架Django

(八)semantic UI开发框架

(九)高德地图API

(十)本章小结

三、系统分析与设计

(一)系统分析

(二)数据流

(三)系统总体逻辑层次

(四)本章小结

四、爬虫与数据存储、展示的具体实现

(一)爬虫模块

(二)数据库设计

(三)数据展示模块

(四)开启Django服务器

(五)成果展示

(六)本章小结

五、系统测试

(一)测试环境及工具

(二)系统功能性测试

(三)系统非功能性测试

(四)本章小结

总结与展望

开题报告主要参考文献

[1] 王元卓. 网络大数据_现状与展望[J], 计算机学报,2013,36(6):1125-1138

[2] 2015-2020全球IP网络流量报告[C].

[3] 金朗. 我国住房租赁市场的问题与发展对策[J],,宏观经济管理2018.3:80-85

[4] 2015年中国网络租房调查报告[EB/OL].http://www.199it.com/archives/379687.html

[5] 张浩. 基于Scrapy的房屋租赁信息搜索系统的设计与实现[D]. 西安电子科技大学, 2017.

[6] 梁文超. 网络租房法律规制研究[J], 法制与社会,2018.4(下):80-83

[7] 周立柱. 聚焦爬虫技术研究综述[J], 计算机应用,2005,25(9):1965-1969

[8] 网络爬虫_凶猛来袭[EB/OL].http://www.cnki.com.cn/Article/CJFDTotal-FAYN201

803032.htm

[9] 安子建. 基于Scrapy框架的网络爬虫实现与数据抓取分析[D]. 吉林大学, 2017.

[10] 陈利婷. 大数据时代的反爬虫技术[J], 电脑与信息技术,2016,24(6):60-61

[11] 刘石磊. 对反爬虫网站的应对策略[J], 电脑知识与技术,2017,13(15):19-23

[12] 张嘉琳. 由Robots协议引发的不正当竞争问题思考_以3百大战为视角[J], 法制与社会,2013.8(中):96-97

[13] 高祖瑞. 互联网竞争关系下的爬虫协议研究[J], 法制与社会,2018.3(上):85-87

[14] 管华. 对当今Python快速发展的研究与展望[J], 信息系统工程,2015.12.20:114-116

[15] Kong L-B. Querying Techniques for XML Data[J]. Journal of Software, 2007, 18(4).

开题报告审核意见

指导教师意见

指导教师(签名):

年    月    日

审核组长(签名):

审核小组成员(签名):1、              2、

3、              4、

年    月    日

  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
基于UmiJS的烘焙店在线售卖管 基于UmiJS的烘焙店在线售卖管 基于UmiJS的烘焙店在线售卖管
基于UmiJS的烘焙店在线售卖管 基于uni-app的计算机类面试 基于uni-app的计算机类面试
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!