SA  >> Vol. 8 No. 5 (October 2019)

    基于CART决定计划树和RBF神经搜集的山东省空气污染状况猜想评价
    Prediction and Assessment of Air Pollution in Shandong Province Based on CART Decision Tree and Radial Basis Function Neural Network

  • 全文下载: PDF(1008KB) HTML   XML   PP.725-733   DOI: 10.12677/SA.2019.85082  
  • 下载量: 64  浏览量: 110  

作者:  

赵亚男:中国陆地大年夜学数学迷信学院,山东 青岛

关键词:
AQICART树RBF搜集模型好坏比较 AQI CART Tree RBF Neural Network Model Pros and Cons

摘要:

为了更好地监测空气质量,作出照应的空气保护办法,本文应用CART树对山东省2018年的空气质量级别停止建模,并用2019年上半年的数据停止分类猜想,并将此办法与RBF搜集停止比较,实证分析注解CART树拟合后果更好,模型精确率更高。而此模型也能够应用到山东省空气污染情况的猜想管理上。

In order to better monitor air quality and make corresponding air protection measures, this paper uses CART tree to model the air quality level of Shandong Province in 2018, and the data from the first half of 2019 for classifying and predicting. Compared with RBF network, empirical analysis shows that the CART tree has a better fitting effect with higher model accuracy, and this model can also be applied to the forecasting and control of air pollution in Shandong Province.

1. 引言

空气质量指数(AQI),就是根据情况空气质量标准和各项污染物对人体安康、生态、情况的影响,将惯例监测的几种空气污染物浓度简化成为单一的概念性指数值情势,它将空气污染水平和空气质量状况分级表示,合适于表示城市的短期空气质量状况和变更趋势 [1] 。参与空气质量评价的重要污染物为细颗粒物、可吸入颗粒物、二氧化硫、二氧化氮、臭氧、一氧化碳等六项。

空气污染指数的取值范围定为0~500,个中0~50、51~100、101~200、201~300和大年夜于300,分别对应国度空气质量标准中日均值的I级、II级、III级、IV级和V级标准的污染物浓度限制命值,在实际应用中,又把III级和IV级分为III(1)级、III(2)级和IV(1)级、IV(2)级。I级,空气质量评价为优,对人体安康无影响;II级,空气质量评价为良,对人体安康无明显影响;III级,为轻度污染,安康人群出现安慰症状;IV级,中度污染,安康人群广泛出现安慰症状;V级,严重污染,安康人群出现严重安慰症状 [2] ,见表1

Table 1. AQI air quality classification

表1. AQI空气质量种别划分

本文获得了2018年山东省各市的空气质量状况数据(共5853条数据),基于R软件和SPSS软件应用CART分类树和径向基函数神经搜集模型停止了建模,用2019年上半年的数据(共2335条数据)停止模型验证,比较两种模型的好坏。

2. CART树道理

2.1. CART树

分类与回归树范型(Classification and Regression Tree,简写为CART)由Breiman等人在1984年提出,是应用广泛的决定计划树进修办法。CART假定决定计划树是二叉树,外部结点特点的取值为“是”和“否”,左分支为“是”,右分支为“否”,等价于递归的二分每个特点,将输入空间即特点空间划分为无限个单位,并在这些单位上肯定猜想的概率分布,也就是在输入给定的条件下输入的条件概率分布。分类树的输入是样本的种别,回归树的输入是一个实数 [3] 。

2.2. 分类树

2.2.1. Gini指数

1) 假定有K个类,样本点属于第K类的概率为 p k ,则概率分布的基尼指数定义为

Gini ( p ) = k = 1 K p k ( 1 p k ) (1)

2) 关于二类分类成绩,若样本点属于第1个类的概率为p,则概率分布的基尼指数为

Gini ( p ) = p ( 1 p ) (2)

3) 关于给定的样本集合D,其基尼指数为

G ini ( D ) = 1 k = 1 K ( | C k | | D | ) 2 (3)

个中, C k 是D中属于第k类的样簿子集,K是类的个数。

假设样本集合D根据特点A能否取某一能够值a被瓜分红 D 1 D 2 两部分,即

D 1 = { ( x , y ) D | A ( x ) = a } , D 2 = D D 1 (4)

则在特点A的条件下,集合D的基尼指数为

Gini ( D , A ) = | D 1 | | D | G ini ( D 1 ) + | D 2 | | D | Gini ( D 2 ) (5)

Gini ( D , A ) 表示经 A = a 瓜分后集合D的不肯定性,基尼指数值越大年夜,不肯定性越大年夜 [4] [5] 。

2.2.2. CART树算法

输入:练习数据集D,停止计算的条件;

输入:CART决定计划树。

1) 根据练习数据集D,从根结点开端,递归地对每个结点停止以下操作,构建二叉树:

2) 设结点的练习数据集为D,计算现有特点对该数据集的Gini系数。此时,对每个特点A,对其能够取的每个值a,根据样本点对A = a的测试为“是”或“否”将D瓜分红 D 1 D 2 两部分,计算A = a时的Gini系数。

3) 在一切能够的特点A和它们一切能够的切分点a中,选择Gini系数最小的特点及其对应的切分点作为最优特点与最优切分点。依最优特点与最优切分点,从现结点生成两个子结点,将练习数据集依特点分派到两个子结点中去。

4) 对两个子结点递归地调用步调l~2,直至满足停止条件。

5) 生成CART决定计划树。

2.3. 剪枝

输入:CART算法生成的决定计划树 T 0

输入:最优决定计划树 T α

1) 设 k = 0 , T = T 0 , α = +

2) 自上而下地对各外部结点t计算 C ( T t ) , | T t | g ( t ) = C ( T ) C ( T t ) | T t | 1 , α = min ( α , g ( t ) ) ;这里, T t 表示以t为根结点的子树, C ( T t ) 是对练习数据的猜想误差, | T t | T t 的叶节点个数;

3) 自上而下地拜访外部结点t,假设有个 g ( t ) = a ,停止剪枝,并对叶结点t以多半表决法决定其类,取得树T;

4) 设 k = k + 1 , α k = α , T k = T

5) 假设T不是由根节点伶仃构成的树,则回到步调(4);

6) 采取交叉验证法在子树序列 T 0 , T 1 , , T n 当选择最优子树 T α [6] - [11] 。

3. 径向基神经搜集

3.1. RBF神经搜集

径向基(Radial Basis Function)搜集是由Powell M.J.D.于1985年提出的,以函数切远亲近实际为基本构造的一类前向型搜集,具有自进修、自组织和自适应等特点,相较于BP神经搜集和灰色接洽关系度,RBF神经搜集具有进修速度快、精度高和建立搜集和练习搜集时间少等长处。径向基函数搜集是一个只要两层的搜集,在中心层,它以对部分照应的径向基函数代替传统的全局照应的激起函数。由于部分照应的特点,它对函数的切远亲近是最优的,并且练习过程很短,它具有简单的构造、快速的练习过程及与初始权值有关的优良特点。

RBF神经搜集的根本思维:用RBF作为隐单位的“基”构成隐蔽层空间,隐蔽层对输入矢量停止变换,将低维的形式输入数据变换到高维空间内,使得在低维空间内的线性弗成分红绩在高维空间外线性可分。就是用RBF的隐单位的“基”构成隐蔽层空间,如许便可以将输入矢量直接(不经过过程权连接)映照到隐空间。当RBF的中间点肯定今后,这类映照关系也就肯定了。

3.2. RBF算法

采取径向基函数(RBF)神经搜集,是具有单隐层的3层前向搜集。

1) 输入层X:由旌旗灯号源节点构成,仅起到数据信息的传递感化,对输入信息不作任何变换。

2) 隐蔽层H:节点数视须要而定. 隐含层神经元核函数(感化函数)是高斯函数,对输入信息停止空间映照的变换。

3) 输入层Y:对输入形式作出照应. 输入层神经元的感化函数为线性函数,对隐含层神经元输入的信息停止线性加权后输入,作为全部神经搜集的输入成果。

径向基神经搜集的数学模型为

y i = i = 1 n c w i g ( x c i / σ i ) + b (6)

式中:x为神经搜集输入的n维向量; w i 为输入层权重; g ( ) 为径向基函数; c i 为径向基函数中间; σ i 为宽度;b为输入层阈值; n c 为隐蔽层神经元数量; x c i 为向量 x c i 的范数,平日表示x与 c i 间的间隔。

平日选择高斯基函数为径向基函数,输入层阈值为0,该层神经元i的输入为

R i ( x ) = exp [ x c i 2 / ( 2 σ i 2 ) ] (7)

则隐蔽层与输入层的映照关系为

Y = f ( x ) = W R = i = 1 n c w i R i ( x ) (8)

式中:Y是输入向量, Y = [ y 1 , y 2 , , y q ] T ,个中,q是输入层的单位数,W为输入层的权值,R为隐蔽层神经元的输入值。

4. 描述性统计

起首对山东省2018年的空气质量数据停止了简单的描述性统计,得出2018年间各月份的空气污染状况。由图1可以看出,各月份空气质量种别为良的天数占的比重最大年夜,其次为轻度污染,解释山东省全体的空气质量较为优胜。各月份中出现空气质量种别为优的月份重要为七月、八月和九月,占比分别为25.2%、21.77%和12.29%,即山东省夏季的空气质量状况较好。各月份中出现严重污染的月份顺次为一月、十一月和四月,占比分别为2.42%、1.25%和0.21%,各月份中出现重度污染的月份顺次为一月、十一月、十二月等,占比分别为13.51%、9.17%和7.26%,即较为严重的空气污染重要集中在夏季和春季。

Figure 1. Air quality category for each month

图1. 各月份空气质量种别

5. 猜想模型

5.1. CART决定计划树

5.1.1. 模型建立

空气质量猜想模型的建立应用了空气质量等级作为终究的猜想变量,该变量为团圆型。拔取PM2.5、PM10、SO2、NO2、O3_8h、CO,一共6个自变量停止猜想模型的练习与测试,取得图2 CART树:

Figure 2. CART-tree model

图2. 决定计划树范型

可以看到,练习以后,采取了PM2.5、O3_8h和PM10三个目标作为分支节点来建立决定计划树,而忽视了很多与AQI相干性不高的的特点。

上述决定计划树的分支过程以下:

起首,将PM2.5作为节点的第一特点,分为左支D1 PM 2.5 < 76 ;右支D2 PM 2.5 76

关于D1,将O3_8h作为节点的第二特点,进一步分为左支C1 O 3 _ 8 h < 161 ;右支C2 O 3 _ 8 h 161 。关于D2,将PM2.5持续作为节点的第二特点,进一步划分为左支C1 PM 2.5 < 116 ;右支C2 PM 2.5 116

如此停止下去,取得终究的CART树。

由上述CART树可以得出以下结论:

1) PM2.5、PM10和O3_8h是影响空气质量级其他重要身分。

2) 当 PM 2.5 151 时空气质量级别直接划分为重度污染;

3) PM 2.5 < 151 161 O 3 _ 8 h < 215 .5 116 PM 2.5 < 156 时,空气质量级别划分为中度污染;

4) 76 PM 2.5 < 116 PM 2.5 < 76 161 O 3 _ 8 h < 216 PM 2.5 < 76 O 3 _ 8 h < 161 51 PM 10 < 151 时,空气质量级别划分为轻度污染;

5) 当 PM 2.5 < 76 O 3 _ 8 h < 161 PM 10 < 151 PM 2.5 < 76 O 3 _ 8 h < 161 O 3 _ 8 h 101 时,空气质量级别划分为良;

6) 当 PM 2.5 < 76 O 3 _ 8 h < 101 PM 10 < 51 时,空气质量级别划分为优。

5.1.2. 决定计划树的剪枝

剪枝是决定计划树进修算法处理模型“过拟合”的重要手段,在决定计划树进修中,为了尽能够精确分类练习样本,结合划分过程将赓续反复,有时会形成决定计划树分支过量,这时候就可以够因练习样本拟合的精确度很高,乃至于把练习集本身的一些特点算作所稀有据都具有的普通性质而招致过拟合。是以,可经过过程主动去掉落一些分支来降低过拟合的风险 [12] 。

建立树范型要衡量两方面成绩,一个是要拟合得使分组后的变异较小,另外一个是要防止过度拟合,而使模型的误差过大年夜,前者的参数是CP,后者的参数是Xerror。CP是参数复杂度(complexity parameter)作为控制树范围的处罚因子,简而言之,就是CP越大年夜,树决裂范围(nsplit)越小。输入参数(rel error)指导了以后分类模型树与空树之间的均匀误差比值。Xerror为交叉验证误差,Xstd为交叉验证误差的标准差 [13] 。所以要在Xerror最小的情况下,也使CP尽可能小。假设认为树范型过于复杂,我们须要对其停止修剪,下面列出了CP值与Xerror值。

Table 2. CART - tree complexity parameter table

表2. 决定计划树的复杂性参数表

表2可以看出,可以看到,当nsplit为8的时辰,即有四个叶子结点的树,要比nsplit为7,即八个叶子结点的树的交叉误差要小。而决定计划树剪枝的目标就是为了取得更小交叉误差(xerror)的树。由于本模型较为简单,所以不须要修剪。

5.1.3. 决定计划树的模型猜想

表3可以看出,模型的猜想精确率为(1163 + 637 + 0 + 148 + 218 + 141)/2335 = 92.46%。

Table 3. Confusion matrix

表3. 混淆矩阵

5.2. 径向基函数神经搜集

5.2.1. 模型建立

在本模型中,练习集采取5853个样本,占总样本量的64%,测试集采取2335个样本,占总样本量的36%。RBF神经搜集模型的输入参数和输入层的神经元数量根据实验身分肯定,输入参数和输入层的神经元数量根据评价目标肯定。在本文当中,输入参数为PM2.5、PM10、SO2、NO2、CO、O3_8h,输入层的神经元有6个,输入层的参数为优、良、轻度污染、中度污染、重度污染、严重污染,输入层的神经元有6个,隐蔽层的隐蔽函数为Softmax函数。建立以下图3

Figure 3. RBF neural network model

图3. RBF神经搜集模型

5.2.2. 模型评价

ROC曲线指受试者任务特点曲线(Receiver Operating Characteristic Curve),是反应敏理性和特异性持续变量的综合目标,是用构图法提醒敏理性和特异性的相互关系,它经过过程将持续变量设定出多个不合的临界值,从而计算出一系列敏理性和特异性,再以敏理性为纵坐标、特异性为横坐标绘制成曲线,曲线下面积越大年夜,诊断精确性越高。在ROC曲线上,最接近坐标图左上方的点为敏理性和特异性均较高的临界值。

Figure 4. ROC curve

图4. ROC曲线

由上述ROC曲线图4可知,径向基神经搜集模型对空气质量类其他拟合后果较好 [14] [15] [16] [17] [18] 。

表4表5可知,练习集的猜想精确率为83.5%,测试集的猜想精确率为84.2%,模型精确率相较于CART树范型的精确率不高。

Table 4. Confusion matrix of training set

表4. 练习集的混淆矩阵

Table 5. Confusion matrix of testing set

表5. 测试集的混淆矩阵

5.3. 模型好坏比较

CART树既可以做分类算法,也能够做回归。其长处为:1) 可以生成可以懂得的规矩。2) 计算量相对来讲不是很大年夜。3) 决定计划树可以清楚的显示哪些字段比较重要。缺点为:1) 当种别太多时,缺点能够就会增长的比较快。2) 普通的算法分类的时辰,只是根据一个字段来分类。

径向基神经搜集的长处是:1) 分类才能好,进修过程收敛速度快。2) 具有唯一最好切远亲近特点,且无部分极小成绩存在。缺点是:RBF神经搜集的非线性映照才能表如今隐层基函数上,而基函数的特点主如果由基函数的中间肯定的,从数据点中随便任性拔取中间构造出来的RBF神经搜集的性能明显不克不及令人满足。

在上述对2018年1月至2019年6月的山东省空气质量种别猜想的模型建立过程当中可以看到,CART树范型的猜想精确率为92.46%,而径向基函数神经搜集模型的猜想精确率为84.2%,明显,CART树范型的建立更有效。

文章援用:
赵亚男. 基于CART决定计划树和RBF神经搜集的山东省空气污染状况猜想评价[J]. 统计学与应用, 2019, 8(5): 725-733. https://doi.org/10.12677/SA.2019.85082

参考文献

[1] Kampa, M. and Castanas, E. (2008) Human Health Effects of Air Pollution. Environmental Pollution, 151, 362-367.
https://doi.org/10.1016/j.envpol.2007.06.012
[2] Zhan, D.S., Kwan, M.-P., Zhang, W.Z., et al. (2018) The Driving Factors of Air Quality Index in China. Journal of Cleaner Production, 197, 1342-1351.
https://doi.org/10.1016/j.jclepro.2018.06.108
[3] 张松林. CART分类与回归树办法简介[J]. 火山地质与矿产, 1997(1): 67-75.
[4] Kim, B. and Kim, J. (2016) Stochastic Ordering of Gini Indexes for Multivariate Elliptical Risks. Insurance Mathematics and Economics, 68, 84-91.
[5] 刘云翔, 吴浩. 基于改进CART决定计划树建立水华预警模型[J]. 中国乡村水利水电, 2018(1): 26-28.
[6] 蔡丽清. 基于CART算法的高校超市办事应用研究[J]. 电脑知识与技巧, 2016, 12(13): 261-263.
[7] 黄晓君. 基于变更检测CART决定计划树范式主动辨认戈壁化信息[J]. 灾害学, 2017, 32(1): 36-42.
[8] 孔颖. 基于CART算法的渣滓邮件过滤模型设计与完成[J]. 计算机应用, 2009, 29(2): 374-376.
[9] 钱揖丽. 基于分类回归树CART的汉语韵律短语界线辨认[J]. 计算机工程与应用, 2006, 44(6): 169-171.
[10] 刘玉茹. CART分析及其在毛病趋势猜想中的应用[J]. 计算机应用, 2017(S2): 57-59.
[11] 冯洁. CART算法在银行CRM中的应用研究[J]. 高效文科研究, 2011(26): 111-112.
[12] Shang, Z.G., Deng, T., He, J.Q. and Duan, X.H. (2019) A Novel Model for Hourly PM2.5 Concentration Prediction Based on CART and EELM. Sci-ence of the Total Environment, 651, 3043-3052.
https://doi.org/10.1016/j.scitotenv.2018.10.193
[13] Breiman, L., Friedman, J.H., Olshen, R.A. and Stone, C.J. (1984) Classification and Regression Trees, Wadsworth.
[14] Bai, Y., Li, Y., Wang, X.X., Xie, J.J., et al. (2016) Air Pollutants Concentrations Forecasting Using Back Propagation Neural Network Based on Wavelet Decomposition with Meteorological Conditions. Atmospheric Pollution Research, 7, 557-566.
https://doi.org/10.1016/j.apr.2016.01.004
[15] Zhu, S.L., Lian, X.Y., Liu, H.X., Hu, J.M., Wang, Y.Y. and Che, J.X. (2017) Daily Air Quality Index Forecasting with Hybrid Models: A Case in China. Environmental Pollution, 231, 1232-1244.
https://doi.org/10.1016/j.envpol.2017.08.069
[16] He, Q.F., Shahabi, H. and Shirzadi, A. (2019) Landslide Spatial Modelling Using Novel Bivariate Statistical Based Naïve Bayes, RBF Classifier, and RBF Network Machine Learning Algorithms. Science of the Total Environment, 663, 1-15.
https://doi.org/10.1016/j.scitotenv.2019.01.329
[17] Park, J. and Sandberg, I.W. (1993) Approximation and Radial-Basis-Function Networks. Neural Computation, 5, 305-316.
https://doi.org/10.1162/neco.1993.5.2.305
[18] Dong, J., Zhao, Y.X. and Liu, C. (2019) Orthogonal Least Squares Based Center Selection for Fault-Tolerant RBF Networks. Neurocomputing, 339, 217-231.
https://doi.org/10.1016/j.neucom.2019.02.039