基于聚类分析对我国31个主要城市空气质量的研究_第1页
基于聚类分析对我国31个主要城市空气质量的研究_第2页
基于聚类分析对我国31个主要城市空气质量的研究_第3页
基于聚类分析对我国31个主要城市空气质量的研究_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、绪论(一)选题背景和意义近些年,随着经济的发展和社会的进步,人们的物质生活水平越来越高,但在生态环境和空气质量方面也付出了相当大的代价。在注重生态文明建设强调绿色低碳发展的大背景下,研究我国城市空气污染情况,空气质量检测数据的分类方法、类别特征、优劣排序等,挖掘空气质量数据隐含的重要信息,寻找改善空气质量的对策,具有重要的意义。(二)数据选取按照《环境空气质量标准(GB3095-2012)》,空气质量的六项主要监测污染物分别为二氧化硫(SO2)、二氧化氮(NO2)、可吸入颗粒物(PM10)、一氧化碳(CO)、臭氧(O3)和细颗粒物(PM2.5)。因此,本文考虑分析31个环保重点城市这7个具体监测指标,分别为SO2年平均浓度x1(μg/m3)、NO2年平均浓度x2(μg/m3)、PM10年平均浓度x3(μg/m3)、CO日均值第95百分位浓度x4(mg/m3)、O3日最大8小时第90百分位浓度x5(μg/m3)、PM2.5年平均浓度x6(μg/m3),再加上一年内空气质量达到及好于二级的天数x7(天),记作G-day。二、聚类分析(一)k-means聚类1.k-means聚类简介k-means聚类,又称快速聚类法,是一种按样本数据的相似程度将样本分类的方法.需要提前设定聚类个数。相似程度的度量一般按样本间的距离划分,两个样本间距离越小,样本的相似程度越高。2.k-means聚类结果仍然以上述2019年的空气质量数据为例,读入数据,并对数据画出散点图,从样本点的分布的集中程度以看出两个变量之间的线性相关性的强弱。从上图1可以看出,PM2.5与PM10的浓度呈正相关,而PM2.5和PM10的浓度均与一年内空气质量达到及好于二级天数(图中记为day)呈较强的负相关,PM2.5和PM10的浓度越高,好天气数越少,空气质量越差。在实际生活中,表现为雾霾严重,空气可见度低,容易引发呼吸系统疾病,危害人们的身体健康。同时可见,G-day与二氧化氮年平均浓度呈负相关。NO2的排放源于汽车尾气,日常生活中,汽车尾气排放的越多,空气质量越差。以下利用k-means函数对31个城市2019年的空气质量数据进行k-means聚类,令聚类数k由小到大逐渐增加,同时计算类间平方和与总平方和的比值。该比值越大,说明两个类间的差异越大,则类内部的差异越小,聚类的效果越理想。利用R程序可计算并构造类间平方和与总平方和的比值序列,当k=3之后,组间平方和占比的增幅就很小了,变化幅度不超过0.01。组间平方和占比趋近于1。作聚类分析时既要使组间平方和占比尽量大,又要让聚类数不能太大(否则太杂乱),权衡考虑后取k=3为最佳聚类数。利用聚类所得的3类城市的均值点的最后两列数据,将空气质量达到及好于二级的天数(即最后一列day)对三个聚类结果进行排序,如图2所示。(二)PAM聚类1.PAM聚类简介PAM聚类针对k-means聚类法的不足,用类中心点代替质心。PAM算法鉴于k均值算法的这一不足,选取一个类中位置最接近质心的数据点作为类中心点,来代替质心,其他数据点就根据距离被分到离数据中心点中最近的那一类。反复根据一类的数据点坐标来调整类中心点,解决了离群点对结果的影响。2.PAM聚类结果本文运用R软件对数据做PAM聚类,运用cluster程序包中的pam函数进行聚类。从各类中选取的距离质心位置最近的中心点列表如下表1。表1距离质心位置最近的中心点情况上面所得结果是各类的中心点坐标,分别为成都、济南、昆明。聚类中心点是各类城市的代表,从中心点就可以大致看出各类的空气质量。将城市空气质量由好到差排序,结果如下。优(第三类):福州、南宁、海口、贵阳、昆明、拉萨、西宁。良(第一类):北京、呼和浩特、沈阳、长春、哈尔滨、上海、南京、杭州、合肥、南昌、武汉、长沙、广州、重庆、成都、兰州、银川、乌鲁木齐。差(第二类):天津、石家庄、太原、济南、郑州、西安。(三)两种聚类分析结果比较对几种聚类结果观察可以发现,按照城市的空气质量好坏分类,几种聚类结果具有一致性,大致客观反映了全国31个环保重点城市空气质量状况的分类、空间分布和空气检测指标的实际情况。k-means聚类就不变作图,但k-means聚类能快速聚类,节省时间,给出每一类中的具体成员。PAM聚类是一种基于质心的划分型聚类算法,与K-Means聚类的主要不同在于:第一,距离测度采用绝对聚类。聚类目标是找到类内绝对距离之和最小下的类;第二,增加判断本次迭代类质心合理性的步骤。三、结束语本文对全国31个环保重点城市的空气质量数据通过R软件做了聚类分析。所做的两种聚类分析的结果大体一致。6种主要的空气污染物中,SO2与CO之间相关性相对较强,大致主要来源于燃煤的燃烧,NO2、PM10、O3与PM2.5之间的相关性较强,大致来源于汽车尾气及扬尘污染。从31个环保重点城市空气质量数据的双坐标图中能够看出每个城市

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论