设计 任务书 文档 开题 答辩 说明书 格式 模板 外文 翻译 范文 资料 作品 文献 课程 实习 指导 调研 下载 网络教育 计算机 网站 网页 小程序 商城 购物 订餐 电影 安卓 Android Html Html5 SSM SSH Python 爬虫 大数据 管理系统 图书 校园网 考试 选题 网络安全 推荐系统 机械 模具 夹具 自动化 数控 车床 汽车 故障 诊断 电机 建模 机械手 去壳机 千斤顶 变速器 减速器 图纸 电气 变电站 电子 Stm32 单片机 物联网 监控 密码锁 Plc 组态 控制 智能 Matlab 土木 建筑 结构 框架 教学楼 住宅楼 造价 施工 办公楼 给水 排水 桥梁 刚构桥 水利 重力坝 水库 采矿 环境 化工 固废 工厂 视觉传达 室内设计 产品设计 电子商务 物流 盈利 案例 分析 评估 报告 营销 报销 会计
 首 页 机械毕业设计 电子电气毕业设计 计算机毕业设计 土木工程毕业设计 视觉传达毕业设计 理工论文 文科论文 毕设资料 帮助中心 设计流程 
垫片
您现在所在的位置:首页 >>计算机毕业设计 >> 文章内容
                 
垫片
   我们提供全套毕业设计和毕业论文服务,联系微信号:biyezuopin QQ:2922748026   
基于Redis的分布式链家二手房房源数据爬虫系统 毕业设计论文
文章来源:www.biyezuopin.vip   发布者:毕业作品网站  

摘 要

随着社会经济的快速发展,城镇化的加速建设,房地产交易越来越火,尤其二手房交易市场居高不下,互联网涌现大批网上二手房交易网站,但是由于提供的房源质量参差不齐,对于个人用户的需求不够精确,无法做到房源精准投放,因此需要实现二手房房源推荐系统来解决用户需求,而房源推荐系统的实现首要就是需要获得足够多的房源信息,所以本毕设通过实现二手房数据爬取系统来爬取房源数据,为房源推荐系统提供数据支持。

本系统使用多线程多端爬虫的优势,设计一个基于Redis的分布式主题爬虫。本系统采用Scrapy爬虫框架来开发,使用Xpath网页提取技术对下载网页进行内容解析,使用Redis做分布式,使用MongoDB对提取的数据进行存储,使用Django开发可视化界面对爬取的结果进行友好展示,设计并实现了针对链家网二手房数据的分布式爬虫系统。

经过开发验证,本系统可以完成对链家二手房房源数据的分布式爬取,可以为房源推荐系统提供数据支持,也可以为数据分析师提供二手房数据分析的数据源。

关键词:二手房:分布式爬虫:Scrapy:可视化



Title:   Design and Implementation of Second-hand housing Data crawling system

Abstract

With the rapid development of social economy, the acceleration of urbanization construction, real estate transactions become more and more fire, especially second-hand housing market is high, the Internet emerged a large number of second-hand housing transactions online website, but due to provide housing quality is uneven, demand for individual users is not accurate, can't do properties accurately targeted, so you need to realize the secondary housing system to meet the needs of users, the implementation of the first housing recommended system is need to get enough housing information, so this project through the secondary data to crawl system housing data, recommend the system to provide data support for housing.

This system uses the advantages of multi-threaded multi-layer crawlers to design a distributed topic crawler based on Redis. This system is developed by Scrapy crawler framework. XPath webpage extraction technology is used to parse the downloaded webpage, use Redis to do distributed, use Mongo to store the extracted data, and use Django to develop visual interface to display the crawling result. And realized a distributed crawler system for the second-hand housing data of the chain home network.

After development and verification, this system can complete the distributed crawling of home linking second-hand housing source data, which can provide data support for the housing recommendation system and can also provide data sources for data analysts to analyze second-hand housing data.

Keywords: Second-hand housing:Distributed crawler:Scrapy:Visualization


目录

1 引言

1.1 设计背景及概括

1.2 国内外发展现状

1.3 设计目标及设计内容

1.4 说明书的章节布局

2 相关技术简介

2.1 Robot协议对本设计的影响

2.2 爬虫

2.3 Scrapy架构

3 系统分析

3.1 业务需求分析

3.2 功能性需求分析

3.3 可行性分析

4 系统概要设计

4.1 系统逻辑层次

4.2 系统分布式设计

4.3 系统功能设计

4.4 系统数据库设计

5 系统详细设计与实现

5.1 数据爬取模块

5.2 反反爬虫模块

5.3 数据存储模块

5.4 数据可视化模块

6 系统测试

6.1 测试环境及工具

6.2 系统功能测试

7 设计总结

致谢

参考文献









  全套毕业设计论文现成成品资料请咨询微信号:biyezuopin QQ:2922748026     返回首页 如转载请注明来源于www.biyezuopin.vip  

                 

打印本页 | 关闭窗口
本类最新文章
基于Python的在线自主考试系 基于腾讯云的个人知识库管理系统 基于Android的酒店预定系统
基于matlab变频器控制交流电 基于微信小程序的家校联动平台管理 基于时频分析与自适应滤波技术的多
| 关于我们 | 友情链接 | 毕业设计招聘 |

Email:biyeshejiba@163.com 微信号:biyezuopin QQ:2922748026  
本站毕业设计毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!