任务书包含以下内容:
一、设计主要内容
保障住房事关国计民生,而二手房市场又是改善全国人民生活居住的重要环节,因此二手房市场的服务范围也就愈来愈广,所以对二手房市场价格预测的探讨也就愈来愈重要。
本设计通过爬取链家广州市的二手房信息,对爬取的数据进行进一步清洗处理,分析各维度的数据,筛选对房价有显著影响的特征变量,分析广州市二手房整体情况、价格情况和价格的影响因素,建立房价预测模型,搭建广州市二手房数据可视化系统,帮助买方更好地了解市场状况,做出更加科学合理的购房决策。
本设计利用Python网络爬虫技术实现对链家广州市二手房数据进行爬取,使用数据库来进行数据的存储,使用ECharts进行数据可视化呈现。系统的实现主要分为五个部分:(1)采用爬虫技术对广州市所有数据进行爬取;(2)对爬取到的数据进行预处理操作并存储到数据库中;(3)对广州市二手房装修类别、热门户型房价、各区域二手房房价、各区域二手房数量所占比例等维度进行分析;(4)构建模型,使用机器学习算法对二手房价进行预测,通过ECharts技术进行图形展示;(5)基于Flask框架搭建房价数据可视化分析预测系统,帮助买方做出更加科学合理的房价预测。
Python爬虫技术:查看网页的开发者选项,然后发送请求去获取这些数据,查看数据所在位置,找到数据存放的规律,解析数据筛选出自己想要的数据,完成代码,最后将所需要的数据保存到Csv文件中。
筛选、处理数据:从爬取到的所有数据中进行筛选,主要字段包括小区名字、总价、户型、面积、单价、楼层、装修、区域,将筛选到的数据进行数据预处理,处理完成后上传到数据库中。
构建模型,使用机器学习算法对二手房价进行预测。在预测时,将符合分析条件的“户型”与“建筑面积”数据作为参考数据来进行房价预测。
ECharts数据可视化图形:将数据可视化为多种图形样式,例如:条形图、饼图,折线图。将各特征图形放入房价数据可视化分析预测系统中,对各个特性进行全方位分析,帮助买方做出更加科学合理的购房决策。
。