提纲(开题报告3000字以上):
一、选题依据
1.1 背景
美国健康效应研究所近日发布的《2019全球空气状况》报告(基于2017年数据)显示,2017年全球因长期暴露于室外和室内空气污染而死于中风、心脏病、肺癌、糖尿病和慢性肺病的人数达到近500万;而在中国,该数字是120万。在2020年,受全球极端天气的影响,在全球范围内爆发了大规模的灾难,澳洲山火灾持续五个月,非洲爆发约3600亿只蝗灾,印尼洪水,巴西罕见暴雨,菲律宾火山喷发,克什米尔雪崩,加拿大50年一遇特大雪风暴等等。因此空气质量问题吸引众多人的关注。
随着经济的高速发展,机动车数量快速增长,目前,我国已经成为了全球第一大汽车消费市场,城市中工业与交通污染交叉的复合型空气污染现象明显。我国的大气污染情况越来越严重,很多地方经常被雾霾笼罩,严重威胁着人们的身体健康。在中国,空气污染使人均预期寿命缩短23个月,其中,室外、室内空气污染分别减少人均预期寿命15个月和8个月。在非传染性疾病中,空气污染对肺癌发病的贡献率是26%,对心脏病、中风的贡献率分别是17%、12%。空气质量的好坏反映了空气污染程度,它是依据空气中污染物浓度的高低来判断的。污染物浓度由于受风向、风速、气温、湿度、污染源排放情况等多种因素的影响,使得空气质量问题具有很大的不确定性和一定的复杂性。神经网络作为一种描述和刻画非线性的强有力工具,具有较强的自学习、自组织、自适应能力等特点,特别适合于对具有多因素性、不确定性、随机性、非线性和随时间变化特性的对象进行研究。因此建立科学合理的空气质量监测模型,有效的预报,降低大气污染带来的危害,非常必要。
1.2 目的与意义
通过对泰州市2014年到2019年的是各个监测点PM2.5, PM10, SO2, NO2, O3, CO, AQI的指数变换情况的大数据分析,判断大气质量是否符合国家制定的大气质量标准,为有关人士编写大气环境质量状况评价状况提供数据。通过对各个监测点大气质量的大数据分析,基于Python语言对空气质量指标实现数据可视化图谱,方便泰州市民、相关政府部门对泰州近年来的空气质量状况查看,有助于加强市民的环保意识,警醒泰州市民对空气质量保护的重视。同时为政府部门执行有关环境法规,开启大气污染的预测预报工作提供依据。通过Python实现系统前端,有关人士只需登录我们的系统即可直观的发现泰州市近年来的空气质量变化情况,以及我们对泰州市空气指标进行的预测分析可视化谱图,非常直观方便。
本系统主要由数据清洗、数据存取、算法的设计与实现、系统前后端python实现、数据可视化及辅助决策组成。
二、文献综述
2.1 国内外研究现状
关于空气质量监测,美国环保局开始的都比其他国家相对较早,他们组建并运行了地方空气监测网络以和国家空气监测网络,主要用于监测环境空气中的指标污染物,评估环境空气质量是否已达到国家环境空气质量标准。至从20世纪80年代开始,美国环保局启动对PM10开展监测。1997年,美国环保局颁布了PM2.5的环境空气质量标准,并于1999年将PM2.5纳入了环境空气监测指标体系。我国环境空气质量标准首次发布于1982年,后于1996年、2000年根据发展的需求先后进行了修订。2008年,我国再次对现行空气污染指数提出了修改建议,发布《城市空气质量日报和预报技术规定》(征求意见稿)以进一步提升指标的代表性和规范性。2010年发布《环境空气质量标准》(征求意见稿),2011年发布《环境空气 PM10和PM2.5的测定 重量法》等三项国家环境保护标准的公告,2018年发布《环境空气臭氧监测一级校准技术规范》。在此期间,我国不断改进,提升监测技术,空气质量不断改善。环境空气污染的问题,不仅仅是某个国家和地区所面临,而是需要全球、全人类一起共同努力解决的一个重大难题。空气污染控制与防治关键在于有效的监 测与预判机制,有效的监测可以实时了解污染物浓度与工业排放情况,针对性进 行合理监管与防治,达到从源头解决空气污染问题。预判机制结合计算机技术从环境因素、气象因素等多种因素对今后以及未来一段时间空气污染情况和引起污 染的因素进行预测、判断、诊断和评估,防患于未然。早期由于科技技术的落后,监测与管理手段主要靠人工采样与实验分析。到上世纪 70 年代,随着计算机和 通信技术发展的兴起与成熟,为环境监测与管理手段提供了技术革新,使环境监 测逐渐趋向信息化与智能化。欧美等国先后创办了较为完备的防治与监测体系。国内的空气污染监测工作始于 80、90 年代,起初建立的监测站点有 113 个城市,共同组成我国最早的空气污染物实时监测体系网络。然而,113 个城市监测站 点并不能满足日益增长的需求。因此,至 2009 年已扩充到了 911 个地级市。相比之前系统数据更精确、信息量更庞大。
2003年王灿星,祁国伟等人在《 BP神经网络用于大气中颗粒物(TSP)预测的研究》 中提到过通过构建并选用合适的BP神经网络进行训练,结果表明BP神经网络英语大气污染的预测是可行的。2006年牛东晓,王海峰等人在《基于BP神经网络的河北省大气环境质量评价》中使用BP神经网络模型对河北省各市大气环境质量进行检测,得出BP神经网络模型具有便捷实用和准确的特点,在大样本训练的条件下,可以得到较好的效果,特别是能准确评价处于临界状态的样本,为复杂的大气环境质量评价提供了科学的方法。而在2018年,张静,郭晓燕等人在《基于BP神经网络的沈阳城区PM2.5浓度预测》中提到BP神经网络具有较高效率的学习能力和寻优能力,可以根据城市历史气象数据,建立气象预测模型,利用基于BP神经网络建立的PM2. 5浓度预测模型对沈阳城区内的PM2.5浓度进行预测,通过对气象预测模型的不断改进和学习后,可以通过该模型进一步提高传统天气预测的不足,提高气象预测精度。2015年林愿仪,林伟俊等人在《基于PSO-BP神经网络预测广州市日均PM_(10)浓度的研究》中发现PM10浓度存在自相关,前一目的PM10浓度对预测当日的PM10浓度有较强的影响。前一日的气象因素对于PM10有滞后影响,风速越大,越利于PM10的稀释与扩散;湿度高,利于PM10凝结沉淀;温度高,大气对流作用强,利于PM10稀释扩散;PM10浓度越高,能见度越低。所以我们在研究时要注意这一要点。
很长的一段时间以来,国内有关空气环境质量的研究基本上停留在经验分析和定性分析的基 础上,到 20 世纪 90 年代末,相关领域的学者才开始尝试将定量方法引入到空气污染指标的分析和 研究上。如徐卫国、田伟利等人用灰色关联分析 模型探讨了杭州经济技术区2003 年的空气环境质量,给出了因子之间的关联度。祝翠玲,蒋志 方,王强. 应用 B-P 神经网络模型,将污染源排放 数据作为输入因子,监测点监测数据作为输出因子,形成多组训练样本,进行学习训练,最后输出 预测监测值等。这些研究方法,都是基于一些成熟的数学模型或者描述统计思想进行研究,往往是基于小样本的预测,其理论基础就是统计的方法,只能从一个角度展开分析探讨,这是这些研究的局限。我们团队认为研究空气污染指标有效的方法不是局限某个固定的数学模型,而是各种统计方法、手段、模型的综合应用,从不同的角度探讨各个空气污染指标,才能得到与实际相符的,具有指导性意义的结论。
三、研究方案
3.1 研究内容和目标
主要的研究内容为泰州市的空气质量,利用BP神经网络监测泰州市空气质量,使用泰州市空气质量数据作为BP神经网络的主要原数据,得到数据模型对空气质量进行检测,从而改善泰州市的空气质量。从而为环境的开发以及利用规划和管理提供科学依据。
除此之外,我们还需要通过Python以及数据库设计出一个系统,通过这个系统我们可以清晰的看到泰州市各个监测点的空气质量状况,一旦空气质量下降,系统就会给出提示。系统分为首页,实时数据,工作动态,监测报告四大模块。在系统中可以看到各个监测点的首要污染物,等级,以及测量时间,然后再通过Echart进行数据可视化,方便研究。
3.2 研究方法
BP神经网络是一种前馈传递的网络模型,其特点是网络中的正常信号向前传播,误差信号向后传播。BP神经网络的计算过程由正向计算过程和反向计算过程组成。正向传播过程,输入模式从输入层经隐单元层逐层处理,并转向输出层,每~层神经元的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出,则转入反向传播,将误差信号沿原来的连接通路返回,通过修改各神经元的权值,使得误差信号最小。BP神经网络作为一种输入/输出的高度非线性映射应用于一个全新的领域—空气质量级别的评价,通过网络 的多次训练,抽取出输入与输出之间内在的非线性映射关系,进而建立 BP 网络模型,并将训练好的模型用于测试数据,评价准确度达到 95.83%。本模型的建立为空气质量评价部门提供了一种高效准确的评价方法,大大减少了评价时间,提高了评价效率。
简单的BP神经网络的使用方法:
(1)我们首先需要了解BP神经网络是一种多层前馈网络,可以进行学习和存储输入输出映射关系,不需要去建立数学方程式,是一种常用的神经网络模型,BP神经网络的构建主要分为生成BP 网络、网络训练、网络仿真。
(2)我们可以看一下在matlab中BP神经网络的训练函数,有梯度下降法traingd,弹性梯度下降法trainrp,自适应lr梯度下降法traingda等,
(3)下面我们首先在matlab中命令行窗口中定义输入P,输出T,通过“newff(minmax(P),[5,1],{'tansig','purelin'},'trainrp');”构建BP神经网络,“[net,tr]=train(net,P,T);”进行网络训练,“sim(net,P)”得到仿真预测值。
(4)在命令行窗口按回车键之后,可以看到出现结果弹窗,最上面的Neural Network下面依次代表的是“输入、隐含层、输出层、输出”,隐含层中有5个神经元,Progress下面的Epoch代表迭代次数,Gradient代表梯度,Vaildation Checks代表有效性检查,最后的绿色对勾代表性能目标达成。
(5)我们也可以看一下命令行窗口中的输出结果,X是BP神经网络仿真值,和输出值已经非常逼近了。
(6)我们将实际曲线和预测曲线绘制出来,可以看到使用BP神经网络预测的结果曲线基本和实际输出曲线一致。
3.3在系统设计过程中,工作技术上我们主要是采用的是Python+Django+Bootstrap +Mysql。
1、Python 是一种简单易学、功能强大的编程语言,它有高效率的高层数据结构,简单而有效地实现面向对象编程。Python 简洁的语法和对动态输入的支持,再加上解释性语言的本质,使得它在大多数平台上的许多领域都是一个理想的脚本语言,特别适用于快速的应用程序开发。它具有以下特点:
(1)易于学习:Python有相对较少的关键字,结构简单,和一个明确定义的语法,学习起来更加简单。
(2)易于阅读:Python代码定义的更清晰。
(3)易于维护:Python的成功在于它的源代码是相当容易维护的。
(4)一个广泛的标准库:Python的最大的优势之一是丰富的库,跨平台的,在UNIX,Windows和Macintosh兼容很好。
(5)互动模式:互动模式的支持,您可以从终端输入执行代码并获得结果的语言,互动的测试和调试代码片断。
(6)可移植:基于其开放源代码的特性,Python已经被移植(也就是使其工作)到许多平台。
(7)可扩展:如果你需要一段运行很快的关键代码,或者是想要编写一些不愿开放的算法,你可以使用C或C++完成那部分程序,然后从你的Python程序中调用。
(8)数据库:Python提供所有主要的商业数据库的接口。
(9)GUI编程:Python支持GUI可以创建和移植到许多系统调用。
2、Django是 Python的一个开源Web开发框架,相比于其他 Python Web框架,它安装简单且灵活多变,符合Python开箱即用的特点。
原理:
(1)MVT设计模式
M(Models):数据模型,直接映射到数据库
V(Views):功能视图,编写你的业务功能
T(Templates):页面模板,就是显示在浏览器的 HTML 文件
(2)服务流程
①:客户端输入 url ,向服务器发送一个 HTTP 请求
②:WSGI 是一个能响应请求的接口部件,它把 url 传给 URLs 路由
③:URLs 根据收到的 url,决定下一步程序跳转到哪个视图函数运行
④:Views 是核心:先从 Models 模块调用数据,再从Templates 调用模板;view既可以对数据库进行操作,也可以对界面进行操作;对数据库和界面进行一个分隔,起到了解耦的作用。(Views 是整个框架的核心,它不仅关联了 Models、Templates,还实现了业务功能)
⑤:Views 根据要实现的功能,把 HttpResponse 发送给负责响应的WSGI
⑥:WSGI 把响应的内容发给客户端(浏览器),用户就能看到想要的网页了
3、Bootstrap是基于jQuery框架开发的,它在jQuery框架的基础上进行了更为个性化和人性化的完善,形成一套自己独有的网站风格,并兼容大部分jQuery插件, Bootstrap中包含了丰富的Web组件,根据这些组件,可以快速的搭建一个漂亮、功能完备的网站。 4、例如使用Python进行数据分析时:
(1)生成数据表
导入泰州市2014年到2019年的是各个监测点PM2.5, PM10, SO2, NO2, O3, CO, AQI的指数变换情况的数据,因为Python支持从多种类型的数据导入。在开始使用Python进行数据导入前需要先导入pandas库,为了方便起见,我们也可以同时导入Numpy库。
(2)检查数据表
在Python中使用shape函数来查看数据表的维度,也就是行数和列数。使用info函数查看数据表的整体信息,使用dtypes函数来返回数据格式。Isnull是Python中检验空值的函数,可以对整个数据表进行检查,也可以单独对某一列进行空值检查,返回的结果是逻辑值,包含空值返回True,不包含则返回False。可以使用unique函数查看唯一值,也可以使用Values函数用来查看数据表中的数值。
(3)数据表清洗
在Python中使用Dropna函数用来删除数据表中包含空值的数据,或者使用fillna函数对空值进行填充。Python中dtype是查看数据格式的函数,使用astype函数,用来更改数据格式,Rename是更改列名称的函数,drop_duplicates函数删除重复值,replace函数实现数据替换。
(4)数据预处理
数据预处理是对清洗完的数据进行整理以便后期的统计和分析工作,主要包括数据表的合并、排序、数值分列、数据分组及标记等工作。在Python中可以使用merge函数对两个数据表进行合并,合并的方式为inner,此外还有left、right和outer方式。使用ort_values函数和sort_index函数完成排序,使用where函数完成数据分组,使用split函数实现分列。
(5)数据提取
主要是使用三个函数:loc、iloc和ix,其中loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。除了按标签和位置提起数据以外,还可以按具体的条件进行数据,或者将loc和isin两个函数配合使用,按指定条件对数据进行提取。
5、例如搭建数据库时:
MySQL 服务器正确安装以后,就已经完成了一个完整的 DBMS 的搭建,可以通过命令行管理工具或者图形化的管理工具对 MySQL 数据库进行操作。这种对数据库进行查询和修改操作的语言叫做 SQL(Structured Query Language,结构化查询语言)。SQL 语言是目前广泛使用的关系数据库标准语言,是各种数据库交互方式的基础。
SQL 是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。与其他程序设计语言(如 C语言、Java 等)不同的是,SQL 由很少的关键字组成,每个 SQL 语句通过一个或多个关键字构成。
SQL 具有如下优点。
一体化:SQL 集数据定义、数据操作和数据控制于一体,可以完成数据库中的全部工作。
使用方式灵活:SQL 具有两种使用方式,可以直接以命令方式交互使用;也可以嵌入使用,嵌入C、C++、Fortran、COBOL、Java 等语言中使用。
非过程化:只提操作要求,不必描述操作步骤,也不需要导航。使用时只需要告诉计算机“做什么”,而不需要告诉它“怎么做”,存储路径的选择和操作的执行由数据库管理系统自动完成。
6、数据可视化技术有如下特点跟意义:
(1)交互性。用户可以方便地以交互的方式管理和开发数据。
(2)多维性。对象或事件的数据具有多维变量或属性,而数据可以按其每一维的值分类、排序、组合和显示。
(3)可视性。数据可以用图像、曲线、二维图形、三维体和动画来显示,用户可对其模式和相互关系进行可视化分析。
(4)让数据分析更加便捷。实现数据的可视化,无非就是让人们在对数据进行处理的过程中,更加方便、快捷与精准。这样的数据分析不仅能更加贴近了人们的生活,还能满足人们的实际生活需要。
(5)让知识获取更加方便.现代背景下的数据收集,具有良好的精准性,采用新的软件技术及手段,不仅让人们更加容易的获得庞大的数据库,还能挖掘其隐藏的数据目标.在生活中, 常遇到的数据一般都是具有标识系统的,这种标识系统不仅仅是方向性的,还有文字性的.如街头上的指路标志,不仅让你更加直观的获取信息,还能为了解决实际的需要。数据可视化主要是借助于人眼快速的视觉感知和人脑的智能认知能力,可以起到清晰有效地传达、沟通并辅助数据分析的作用。当今流行的数据可视化技术综合运用计算机图|形学、图像处理、人机交互等技术给用户传递更多有价值的信息,能够提高生产效率,节约生产时间,能够对经济的进步做出推动。
(6)数据可视化主要是借助于人眼快速的视觉感知和人脑的智能认知能力,可以起到清晰有效地传达,沟通并辅助数据分析的作用.当今流行的数据可视化技术综合运用计算机图|形学,图像处理,人机交互等技术给用户传递更多有价值的信息,能够提高生产效率,节约生产时间,能够对经济的进步做出推动。
3.4 关键点和技术难点
(1)前端和后端连接:由于需要将数据存放在数据库中,需要将数据库和前端连接起来,数据库连接池负责分配、管理和释放数据库连接,它允许应用程序重复使用一个现有的数据库连接。
(2)使用Echart显示数据:为了让数据看起来不杂乱,我们此次采用了Echart,对数据进行可视化,让数据更加简洁,更加客观。
(3)监测点必须保证具有代表性,监测点必须足够多,数据量必须足够大,不然没有说服力,庞大的数据进行数据清晰,数据预处理时需要足够多的时间、精力去处理,不然可能会出现问题。
(4)空气质量预报主要是依靠环境空气质量自动监测系统连续不断地实时监测数据,并自动传输到控制室,经数据处理后得出当天的空气污染指数,再向社会公监测系统每4分钟就产生一组监测数据,连续不断地测量,然后计算出小时均值和日均值,一般来说,日均值是采用上一天中午12时到次日12时的数据。将BP神经网络应用到环境空气质量当中,利用 MATLAB的神经网络工具箱训练网络,建立起了环境空气质量检测模型。
3.5系统设计技术
1、系统设计目的
系统设计是根据系统分析的结果,运用系统科学的思想和方法,设计出能最大限度满足所要求的目标 (或目的) 的新系统的过程。进行系统设计时,必须把所要设计的对象系统和围绕该对象系统的环境共同考虑,前者称为内部系统,后者称为外部系统,它们之间存在着相互支持和相互制约的关系,内部系统和外部系统结合起来称作总体系统。因此,在系统设计时必须采用内部设计与外部设计相结合的思考原则,从总体系统的功能、输入、输出、环境、程序、人的因素、物的媒介各方面综合考虑,设计出整体最优的系统。进行系统设计应当采用分解、综合与反馈的工作方法。不论多大的复杂系统,首先要分解为若干子系统或要素,分解可从结构要素、功能要求、时间序列、空间配置等方面进行,并将其特征和性能标准化,综合成最优子系统,然后将最优子系统进行总体设计,从而得到最优系统。在这一过程中,从设计计划开始到设计出满意系统为止,都要进行分阶段及总体综合评价,并以此对各项工作进行修改和完善。整个设计阶段是一个综合性反馈过程。系统设计内容,包括确定系统功能、设计方针和方法,产生理想系统并作出草案,通过收集信息对草案作出修正产生可选设计方案,将系统分解为若干子系统,进行子系统和总系统的详细设计并进行评价,对系统方案进行论证并作出性能效果预测。
2、功能模块设计
(1)用户注册功能:用户需要在登录界面进行身份注册,注册完成才能进行登录。
(2)用户登录功能:用户通过登录界面输入用户名和密码,通过验证,系统登陆成功后可进行下一步操作。
(3)用户操作功能:用户分为普通用户和政务用户,普通用户可以登陆查看,政务用户可以通过系统对未来空气质量进行监测和分析数据。
3.6 研究内容
1.BP神经网络如何对空气质量进行监测?
2.如何建立BP神经网络监测模型?
3.进行监测时需要几个监测点?
4.监测模型建立后是否能精准的监测,并提高空气质量?
5.如何建立系统框架以及体系结构?
6.期间需要使用什么技术、用到什么语言实现我们的需求?
7、这么庞大的数据进行分析时,是否可以按时完成,是否具有代表性?
参考文献
[1] 林愿仪;林伟俊;尹安琪;欧春泉. 基于PSO-BP神经网络预测广州市日均PM_(10)浓度[A]. 中国统计教育学会.2015年(第四届)全国大学生统计建模大赛论文[C].中国统计教育学会:,2015:28.
[2] 王灿星;祁国伟;何曦;卓国祥;;BP神经网络用于大气中颗粒物(TSP)预测的研究[A];首届信息获取与处理学术会议论文集[C];2003年
[3] 郭豪;孙岩; 基于深度学习的空气质量预测方法研究[EB/OL]. 北京:中国科技论文在线 [2019-03-04].
[4] 谢崇波;基于循环神经网络的城市空气质量预测研究[D];西南科技大学;2019年
[5] 高帅;基于机器学习的空气质量评价与预测[D];中北大学;2019年
[6] 周永生;基于LSTM神经网络的PM2.5预测[D];湖南大学;2018年
[7] 王云中;基于神经网络的PM_(2.5)浓度预测研究与实现[D];西安电子科技大学;2018年
[8] 张静;郭晓燕;袁喆;;基于BP神经网络的沈阳城区PM2.5浓度预测[A];第35届中国气象学会年会 S12 大气成分与天气、气候变化与环境影响暨环境气象预报及影响评估[C];2018年
[9] 杨新平;罗兆丹;段国聪;;中小城市空气环境指标的多角度分析研究——以楚雄市为例[J];环境科学与管理;2014年07期
[10] 毛宁;李益禛;;基于主成分分析的全国主要城市空气质量评价[J];现代商贸工业;2014年10期
[11] 王丹;倪长健;;主成分分析法在大气环境质量评价中的应用[J];平顶山学院学报;2011年02期
[12] 普映娟;王琳邦;;环境空气质量综合指数评价方法探讨[J];环境科学导刊;2010年02期
[13] 周国亮;刘希玉;武鲁英;;BP神经网络模型在空气质量级别评价中的应用[J];计算机工程与设计;2009年02期
[14] 牛东晓;王海峰;成功;;基于BP神经网络的河北省大气环境质量评价[A];2006中国控制与决策学术年会论文集[C];2006年
[15] 储久良.Web前端开发技术——HTML5、CSS3、JavaScript(第三版)[M].北京:清华大学出版社,2018
[16] [美] 梁勇(Y.DanielLiang)著李娜译;Python语言程序设计(第二版)
[17] National air quality standards for automotive pollutants--a critical review.[J]. Heuss J M,Nebel G J,Colucci J M. Journal of the Air Pollution Control Association. 1971(9)
[18] Environmental effects of air pollution: Implications for air quality criteria, air quality standards and emission standards[J]. Munn R.E.,Phillips M.L.,Sanderson H.P.. . 1977(1)
四、进程计划
1.选题:2019年11月15日前完成任务书;
2.开题报告:2019年12月15日前;
3.初稿(一稿二稿):2020年3月15日中期检查前完成一稿二稿;
4.论文修改:2020年3-4月;
5.定稿:2020年4月15日完成定稿审阅和检测;
6.答辩:2020年4月25日前完成答辩和成绩评定;
2020年5月25日前完成优秀毕业论文(设计)评选和推荐,2020年5月30日前完成材料归档工作。
|