论文样例

更新时间:2023-03-14 20:20:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

编号 2012030442 研究类型

应用研究

分类号 C81

学士学位论文(设计)

Bachelor’s Thesis

论文题目

各地区主要空气质量指标的统计分析

作者姓名 学

所在院系 学科专业名称 导师及职称 论文答辩时间

学士学位论文(设计)诚信承诺书

中文题目:各地区主要空气指标的统计分析 外文题目:Statistical analysis of regional air quality indicators 学生姓名 院系专业 詹英 数学与统计学院 统计学 学 号 班 级 2008111030442 0804 学 生 承 诺 我承诺在毕业论文(设计)活动中遵守学校有关规定,恪守学术规范,本人毕业论文(设计)内容除特别注明和引用外,均为本人观点,不存在剽窃、抄袭他人学术成果,伪造、篡改实验数据的情况。如有违规行为,我愿承担一切责任,接受学校的处理。 学生(签名): 2012年4月27日 指导教师承诺 我承诺在指导学生毕业论文(设计)活动中遵守学校有关规定,恪守学术规范,经过本人核查,该生毕业论文(设计)内容除特别注明和引用外,均为该生本人观点,不存在剽窃、抄袭他人学术成果,伪造、篡改实验数据的现象。 指导教师(签名): 2012年4月27日

各地区主要空气质量指标的统计分析

摘 要:根据我国31个地区二氧化硫、二氧化氮以及可吸入颗粒物等空气质量指标,运

用SAS 软件进行聚类分析、主成分分析和因子分析来研究各地空气污染物的一些内在联系,最终可得出三个结论。(1)31个城市可以分为六类,第一类:北京、武汉、天津、石家庄、重庆、哈尔滨、郑州、南京、西安、杭州、西宁、济南、合肥、成都;第二类:呼和浩特、贵阳、沈阳、南昌、银川、长春、长沙、上海、广州、昆明;第三类:太原;第四类:福州、南宁、海口、拉萨;第五类:兰州;第六类:乌鲁木齐。(2)在空气质量指标的五个因子中,可以提取两个因子。 因子1为空气污染程度因子,因子2为二氧化氮因子(3)第一主成分的贡献率为70.32%,第二个主成分的贡献率为14.35%。前两个主成分和的累计贡献率达到了84.67%>80.00%,所以保留这两个主成分, 它代表了各地区空气污染情况83.35%的信息。

关键字:空气质量指标;SAS软件;聚类分析;主成分分析;因子分析

中图分类号:C81

Statistical analysis of regional air quality indicators Abstract: According to sulfur dioxide, nitrogen dioxide and respirable particulate matter and

other air quality indicators of our country’s 31 regions ,using SAS software for cluster analysis, principal component analysis and factor analysis to study some of the air pollutants around the inner link,eventually to three conclusions: (1) 31 cities can be divided into six, the first category: Beijing, Wuhan, Shijiazhuang, Tianjin, Chongqing, Harbin, Zhengzhou, Nanjing, Xi’an, Hangzhou, Xining, Jinan, Hefei, Chengdu; The second category:Hohhot, Guiyang, Shenyang, Nanchang, Yinchuan, Changchun, Changsha, Shanghai, Guangzhou, Kunming; The third category: Taiyuan; The fourth category: Fuzhou, Nanning, Haikou, Lhasa;The fifth category: Lanzhou; The sixth category: Urumqi. (2) The air quality index of the five factors, two factors can be extracted. The factor 1 is factor of level of air pollution. The factor 2 is nitrogen dioxide factor. The first principal component’s contribution rate is 70.32%, the second principal component’s contribution rate is 14.35%. The sum of first two principal components is 84.67%>80.00%. So keep these two principal components, it represents 83.35% of various regions’ air pollution information.

Keywords: Air quality indicators; SAS software; cluster analysis; principal component

analysis; factor analysis

目录

1. 前言 ................................................................... 1 2.统计理论知识 ............................................................ 1 2.1 聚类分析 ........................................................... 1 2.2主成分分析 .......................................................... 3 2.3因子分析 ............................................................ 5 3. 实证分析 ............................................................... 6 3.1聚类分析 ............................................................ 6 3.2主成分分析 .......................................................... 8 3.3因子分析 ........................................................... 11 4.小结 ................................................................... 15 4.1 论文结论 .......................................................... 15 4.2.现实意义及改进 .................................................... 16 5.参考文献 ............................................................... 18 6.致谢 ................................................................... 19 7、附录 .................................................................. 20 附录一 ................................................................ 20 附录二 ................................................................ 21 附录三 ................................................................ 23 附录四 ................................................................ 24

各地区主要空气质量指标的统计分析

1. 前言

空气污染是一个比较复杂的现象,污染物在空气中占的比例的多少,决定了空气质量的高低,也决定着空气对人类健康的影响。我们可以通过对空气污染物的研究来控制其在空气中的比重,寻找空气污染物来源,进而采取合理有效的措施,改善空气质量,确保人类健康。

由于某些城市的企业一味追求工业发达,却对污染物的影响不够了解,没有采取完善的预防措施,造成现在的环境污染严重,对生态系统和人类的正常的生存和发展产生了恶劣的影响。我们通过对空气质量指标中二氧化硫、二氧化氮以及可吸入颗粒物等污染物和空气质量污染指数进行分析。只有了解空气污染物,我们才能够找到能够合理处理环境与经济发展关系的可持续发展道路。

2.统计理论知识 2.1 聚类分析

依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。 各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。 各指标之间具有一定的相关关系。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计

分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy) 直接聚类法是根据距离矩阵的结构一次并类得到结果。 2.1.1系统聚类方法的基本思想

1

首先定义样品间的距离和类与类之间的距离。初始将n样品看成n类(每个样品包含一类)。这时类间的距离与样品间的距离是等价的,然后将距离最近的两类合并成新类。并计算新类与其他类间的距离,再按最小距离准则分类。这样每次缩小一类,直到所有的样品都并成一类为止。这个并类过程可以用谱系聚类图形象的表达出来。 系统聚类的基本步骤:

(1)数据变换:便于比较和计算;

(2)计算n个样品两两间的距离,得样品间的距离矩阵D(0)。

,n),此时类间的距

(3)初始n样品自成一类,类的个数k?n,第t类G(t)?{x(t)}(t?1,2,离就是样品间的距离,即D(0)?D(1),然后对步骤i?2,,n执行并类过程的步骤(4)、(5)。

(4)对步骤i得到的距离矩阵D(i?1),合并类间最短距离的两类为一新类,此时累的总

个数减少1类,即k?n?i?1。

(5)计算新类与其他类间的距离,得新的距离矩阵D(i),若合并后的类个数k仍大于1,

重复步骤(4)、(5),直到类的个数为1是转到(6)。

(6)画谱系聚类图。

(7)决定分类的个数及各类的成员。

2.1.2系统聚类法的种类

聚类法原则决定于样品间的距离及类间距离的定义。类间距离的不同定义就产生了不同的系统聚类方法。当Gp于Gq类合并成Gp类时,Gr类与其他类Gk类之间的距离有如下的多种定义方法;

最短距离法:Drk?min(Dpk,Dqk); 最长距离法:Drk?max(Dpk,Dqk);

2?重心法:Drknpnr2Dpk?nqnr2Dqk?npnqnrnr2Dpq;

2?类平均法:Drknpnr2Dpk?nqnr2Dqk(k?p,q);

2?(1??)[可变类平均法:Drknpnr2Dpk?nqnr22Dqk]??Dpq;

2

2222中间距离法:Drk; ?(Dpk?Dqk)??Dpq122?离差平方和法:Drknk?npnr?nk2Dpk?nk?nqnr?nk2Dqk?nk2Dpq; nr?nk2.1.3聚类分析基本步骤

(1)把各个分类对象单独视为一类;

(2)根据距离最小的原则,依次选出一对分类对象,并成新类 ;

(3)如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象

正好属于已归的两类,则把这两类并为一类;每一次归并,都划去该对象所在的列与列序相同的行;

(4)那么,经过m?1次就可以把全部分类对象归为一类,这样就可以根据归并的先

后顺序做出聚类谱系图;

(5)输出结果;

(6)进行结果分析和解释。(程序见附表二)

2.2主成分分析

2.2.1主成分分析的基本思想

主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法。在实际问题中,研究多指标的问题是经常遇到的问题。多元统计分析处理的是多变量(多指标)问题。由于变量个数太多,并且彼此之间存在着一定的相关性,因而使得所观测到的数据在一定程度上反映的信息有所重叠。而且当变量较多时,在高维空间中研究样本的分布规律比较复杂,势必增加分析问题的复杂性。人们自然希望用较少的综合变量来代替原来较多的变量;而这几个综合变量又能够尽可能多地反映原来变量的信息,并且彼此之间互不相关。利用这种降维的思想,产生了主分量分析、因子分析、典型相关分析、偏最小二乘回归等统计方法。主分量分析又称主成分分析或主轴分析。 2.2.2 PRINCOMP 过程的功能

该过程可完成以下几方面计算:

(1)完成主分量分析:计算相关阵或协差阵的特征值和特征向量,当特征值按从大

3

到小次序排列时,由相应特征向量可得出第一主分量、第二主分量等等。用少数几个主分量代替原始变量,并计算主分量得分。由得分数据作主分量得分的散布图,进一步地还可用于主分量回归和聚类分析。

(2)主分量的个数用户可以自己确定;主分量的名字用户可自己规定;主分量得分是否标准化也可以由用户根据实际需要来确定。

(3)输入数据集可以是原始数据集,也可以是相关阵,协差阵或离差阵(SSCP)。输入原始数据时,用户还可以规定从协差阵出发或从相关阵出发进行分析。由协差阵出发进行分析时表示方差大的变量在主分量分析中起的作用大。

(4)PRINCOMP过程可输出许多计算结果。包括简单统计量(均值和标准差);相关阵或协差阵;从大到小排序的特征值和相应特征向量,每个主分量解释的方差比例,累计比例等。该过程还生成二个输出数据集:一个包含原始数据集;另一个是包含有关统计量的类型为TYPE=CORR(或COV)的输出集,它也可作为其他过程的输入SAS集。

(5)PRINVOMP过程还可用来揭示变量间的共线关系。若存在某个特征值约等于零,即表示这组变量间近似存在共线性。

(6)该过程也可以进行基于偏相关阵地主分量分析。 2.2.3 语句说明

1.PROC PRINCOMP 语句

在PRINCOMP过程语句中常用的选项为:

(1)DATA=SAS-data-set----给出被分析的SAS数据集的名字。这个数据集可以是原始SAS数据集或者TYPE=CORR,COV或SSCP的数据集。

(2)OUT=SAS-data-set----命名一个存放原始数据以及主分量得分数据的输出数据集。

(3)OUTSTAT=SAS-data-set----命名一个存放均值、标准差、观测个数、相关阵或协差阵、特征值和特征向量的输出SAS数据集。如果规定选项COV,则数据集的类型为TYPE=COV,而且包含协差阵;否则,数据集的类型为TYPE=CORR,而且包含相关阵。

(1)COVARIANCE|COV----要求从协差阵出发计算主分量。如果没有规定此选项,则从相关阵出发进行分析。

(2)N=n----规定被计算的主分量个数。缺省值为变量个数。 (3)NOPRINT----不输出计算结果。

4

(4)PREFIX=name(名字)----对主分量的名字规定前缀。缺省时的名字为PRIN1,PRIN2,…,PRINp。如果规定PREFIX=Z,则主分量名字为Z1,Z2,Z3等等。

(5) STANDARD|STD----要求在OUT=的数据集里把主分量得分标准化为单位方差。如果没有规定此选项,主分量得分的方差等于相应的特征值。

(6)VARDEF=divisor(除数)----规定用于计算方差和协方差的除数。Divisor的可能值为N,DF,WEIGHT或WGT和WDF。 2.VAR语句

VAR语句列出用于进行主分量分析的变量。如果省略VAR语句,则SAS系统使用DATA=规定的数据集中所有数值变量进行主分量分析。(程序见表三)

2.3因子分析

因子分析是通过研究众多变量之间的依赖关系,探究观测数据中的基本结构,利用少数几个因子来表示基本结构。这些因子能反映原来众多的观测变量所代表的主要信息,并解释这些观测变量之间的相互依存关系。在因子载荷矩阵中,各行元素的平方和即共同度,表示每个指标数各个因素所解释的变异数的总和。而各列元素的平方和则表示每个因子对方差的解释能力,即方差贡献率。方差贡献率大,则表示因子所含的信息多。因子分析的基本概念:

1.一种简化数据的技术。

2.探索性因子分析和证实性因子分析

3.因子分析就是要找到具有本质意义的少量因子。 4.用一定的结构/模型,去表达或解释大量可观测的变量。

5.用相对少量的几个因子解释原来许多相互关联的变量之间的关系。 6.描述的变量是可观测的——显在变量。 7.相关性较高,联系比较紧密的变量放在一类。 8.每一类变量隐含一个因子——潜在变量。 9.不同类的变量之间相关性较弱。

10.各个因子之间不相关。 具体步骤如下:

(1)将原始变量标准化,得出一个变量指标标准化矩阵;

5

(2)求标准化的相关矩阵:

(3)求解相关矩阵的特征值及方差贡献率; (4)确定公因字数;

(5)求解初始因子载荷矩阵,并进行旋转。(程序见表四)

3. 实证分析

3.1样本数据的聚类分析

3.1.1聚类分析输出结果

城市空气质量等级是据城市空气环境质量标准和各项污染物的生态环境效应及其对人体健康的影响,所确定的污染指数分级以及相应的污染物浓度限值。它主要由空气中烟尘、总悬浮颗粒物、可吸入悬浮颗粒物(浮尘)、二氧化氮、二氧化硫、一氧化碳、臭氧、挥发性有机化合物含量决定。笔者引用我国主要城市空气质量指标,将31个主要城市的空气质量指标分为四个部分,即二氧化硫、二氧化氮以及可吸入颗粒物等污染物和空气质量污染指数(见附表一)

The SAS System 16:50 Monday, June 14, 1993 2

The CLUSTER Procedure Average Linkage Cluster Analysis Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative

1 3.51621888 2.79891516 0.7032 0.7032 2 0.71730373 0.08002893 0.1435 0.8467 3 0.63727480 0.50807658 0.1275 0.9742 4 0.12919822 0.12919384 0.0258 1.0000 5 0.00000438 0.0000 1.0000

The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation = 1

Root-Mean-Square Distance Between Observations = 3.162278

6

谱系聚类图:

R2越大说明NCL在SAS中R2统计量用于评价每次合并成NCL个类时的聚类效果。

个类越分开,故聚类的效果好。R2平方值总在0到1之间,而且R2的值总是随着分类个数的减少而减少,如果希望通过分析R2值来确定n个样品分为几类比较合适,应该看

7

R2值的变化。半偏R2值是上一个R2与该步R2的差值,故某步的半偏R2值越大,说明

上一步合并的效果好。伪F统计量用于评价分为NCL个类的聚类效果,伪F统计量值越大表示这些观测样品可显著的分为NCL个类。伪t2统计量用以评价此步合并的效果又该统计量的定义知道伪t2统计量值大表示上一次合并的两个类是很分开的,也即上一次聚类的效果好。从历史聚类结果中可以看到聚成六类最合适。 3.1.2结果分析

第一类:北京、武汉、天津、石家庄、重庆、哈尔滨、郑州、南京、西安、杭州、西宁、济南、合肥、成都;第二类:呼和浩特、贵阳、沈阳、南昌、银川、长春、长沙、上海、广州、昆明;第三类:太原;第四类:福州、南宁、海口、拉萨;第五类:兰州;第六类:乌鲁木齐。根据实际情况分析为:乌鲁木齐是中国西部最重要的制造业基地之一,且煤电煤化工等传统产业一直对是乌鲁木齐主要经济支柱,所以空气污染程度较高。北京、天津和杭州等城市,都是以大力发展可持续经济为其主要任务,所以空气污染程度较低。从谱系聚类图可知,一些在地理上比较靠近的地区,例如贵阳和昆明,郑州和石家庄等,被分在了同一类,表明这些地区由于相互之间的影响和联系,空气质量水平很相似。

3.2样本数据的主成分分析

3.2.1主成分分析的输出结果

The SAS System 18:22 Monday, June 14, 1993 1

The PRINCOMP Procedure

Observations 31

Variables 5

8

Simple Statistics

X1 X2 X3 X4 X5

Mean 0.0954193548 0.0408709677 0.0403225806 321.1935484 88.00322581 StD 0.0249503162 0.0174752052 0.0125628741 30.6892156

Correlation Matrix

X1 X2 X3 X4 X5

X1 1.0000 0.5140 0.4604 -.9017 -.9018 X2 0.5140 1.0000 0.3320 -.5185 -.5184 X3 0.4604 0.3320 1.0000 -.4474 -.4474 X4 -.9017 -.5185 -.4474 1.0000 1.0000 X5 -.9018 -.5184 -.4474 1.0000 1.0000

Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative

1 3.51621888 2.79891516 0.7032 0.7032 2 0.71730373 0.08002893 0.1435 0.8467 3 0.63727480 0.50807658 0.1275 0.9742 4 0.12919822 0.12919384 0.0258 1.0000 5 0.00000438 0.0000 1.0000

9

8.40600912

3.2.2 主成分分析的结果分析

从上述SAS结果可以看出,第一个主成分的贡献率为70.32%,前两个主成分和的累计贡献率达到了84.67%>80.00%,所以保留这两个主成分, 它代表了各地区空气污染情况83.35%的信息。第一主成分的前三个分量值为正值,后两个分量值为负值,它反映的是空气的污染程度,污染程度高的城市,可吸入颗粒物、二氧化硫、二氧化氮含量都比较大,好于二级天数及其比例较小。第二主成分的第三个分量值为92.6440%,其它分量值较小,它反映的是二氧化氮含量,我们称第一主分量为空气污染程度因子,第二主分量为二氧化氮因子,从而解释这5个指标,

根据主成分计算公式可以得到前两个主成分与原五项指标的线性组合如下: Z1=0.497857 X1+0.354801 X2+0.319922 X3-0.511815 X4-0.511810 X5

10

Z2=-0.174569 X1+0.073334 X2+0.926440 X3+0.230042 X4+0.230082 X5 不难发现:北京、天津、南京的空气污染程度是较低的,海口、拉萨、福州的空气污染程度是较高的。通过主成分分析得到的结果基本上是符合现在我国主要城市实际情况的。

3.3样本数据的因子分析

3.3.1 因子分析输出结果

11

因子分析的主旨是利用少数几个公共因子来解释较多变量存在的复杂关系,利用主成分分析法选择公共因子时,一般要求因子的;累计贡献率即方差贡献率大于或等于80%,由分析结果可以看出,前2个因子的累计贡献率已经达84.67%,因此可以选择前两

个作为公共因子。

从以上结果可以看出,因子1对指标可吸入颗粒物、二氧化硫、好于2级天数及其比重的因子载荷较大,因子2对指标二氧化氮的因子载荷最大。通过这几个指标的内容分可以看出,因子1可以解释为空气污染程度因子,因子2可以解释为二氧化氮因子,从而解释了这5个指标。

12

以上为经方差最大发旋转后的因子值系数。因子值系数乘以对应量的标准化值就得

13

到因子值,并以旋转后的每个因子的方差贡献率为权数。分数分别为-0.91526和09.1526。

14

3.3.2 因子分析的结果分析

从以上结果可以看出,因子1对指标可吸入颗粒物、二氧化硫、好于2级天数及其比重的因子载荷较大,因子2对指标二氧化氮的因子载荷最大。通过这几个指标的内容分可以看出,因子1可以解释为空气污染程度因子,因子2可以解释为二氧化氮因子,从而解释了这5个指标。

F1=-0.3260396 X1-0.1382956 X2+0.28452097 X3+0.3592389 X4+0.35925605 X5 F2=-0.0816925 X1+0.15547509 X2+1.06990996 X3+0.13864187 X4+0.13868672 X5

4.小结 4.1 论文结论

(1)第一类:北京、武汉、天津、石家庄、重庆、哈尔滨、郑州、南京、西安、杭州、西宁、济南、合肥、成都;第二类:呼和浩特、贵阳、沈阳、南昌、银川、长春、长沙、上海、广州、昆明;第三类:太原;第四类:福州、南宁、海口、拉萨;第五类:兰州;第六类:乌鲁木齐。根据实际情况分析为:乌鲁木齐是中国西部最重要的制造业基地之一,且煤电煤化工等传统产业一直对是乌鲁木齐主要经济支柱,所以空气污染程度较高。北京、天津和杭州等城市,都是以大力发展可持续经济为其主要任务,所以空气污染程度较低。从谱系聚类图可知,一些在地理上比较靠近的地区,例如贵阳和昆明,

15

郑州和石家庄等,被分在了同一类,表明这些地区由于相互之间的影响和联系,空气质量水平很相似。

(2)第一个主成分的贡献率为70.32%,前两个主成分和的累计贡献率达到了84.67%>80.00%,所以保留这两个主成分, 它代表了各地区空气污染情况83.35%的信息。第一主成分的前三个分量值为正值,后两个分量值为负值,它反映的是空气的污染程度,污染程度高的城市,可吸入颗粒物、二氧化硫、二氧化氮含量都比较大,好于二级天数及其比例较小。第二主成分的第三个分量值为92.6440%,其它分量值较小,它反映的是二氧化氮含量,我们称第一主分量为空气污染程度因子,第二主分量为二氧化氮因子,从而解释这5个指标,

根据主成分计算公式可以得到前两个主成分与原五项指标的线性组合如下: Z1=0.497857 X1+0.354801 X2+0.319922 X3-0.511815 X4-0.511810 X5 Z2=-0.174569 X1+0.073334 X2+0.926440 X3+0.230042 X4+0.230082 X5 不难发现:北京、天津、南京的空气污染程度是较低的,海口、拉萨、福州的空气污染程度是较高的。通过主成分分析得到的结果基本上是符合现在我国主要城市实际情况的。

(3)因子1对指标可吸入颗粒物、二氧化硫、好于2级天数及其比重的因子载荷较大,因子2对指标二氧化氮的因子载荷最大。通过这几个指标的内容分可以看出,因子1可以解释为空气污染程度因子,因子2可以解释为二氧化氮因子,从而解释了这5个指标。

F1=-0.3260396X1-0.1382956X2+0.28452097X3+0.3592389X4+0.35925605 X5 F2=-0.0816925 X1+0.15547509 X2+1.06990996 X3+0.13864187 X4+0.13868672 X5

4.2.现实意义及改进

通过分析可知,发达的地区空气污染较轻,欠发达的地区污染较严重,我们不可以走先污染后治理的道路,要用发展的眼光来看待经济和环境问题。我们通过SAS程序分析空气质量指标,了解空气污染物,从而可以有针对性地制定改善环境质量的计划和方

16

案。对于大量的数据及复杂的变量,我们如何找我们需要的数据集,如何应用数学模型对实际生活的现实意义进行解释和提出解决方案,这时不仅需要我们需要对数据有较强的分析能力,还需要有相关课题方面专业的知识,技能。根据经验选择我们需要的变量,结合实际的经验对所得结果能找出问题的症结及提出与实际吻合的解决方案。

我现在所做的关于空气质量指标的统计分析只是浅显的分析数据的特征及明显的解释,对于影响空气指标的这五个因素来说,由于知识的有限,我并没有更深层次的进而去挖掘影响这五个因素的又有哪些因素。也就是说各地空气指标的统计分析的具体方案有待进一步讨论,这是第一个改进的地方。我个人认为我这篇文章在数据的初期处理中并没有自己去挖掘数据,即在实际生活中,这些数据不是现成的,是进行数据挖掘后综合处理才有如文章中经处理的数据表。这是第二个有待改进的地方。由于本人对数据挖掘基本是不了解的,而且数据挖掘是一个相当专业的技术,故本人只是借鉴别人的数据进行整理分析。

17

5.参考文献

[1] 高惠旋.应用多元统计分析[M] .第一版.北京.北京大学出版社,2005年 [2] 蔡建平,朱秀萍,阮桂海.SAS社会统计学实用教程[M]. 北京.清华大学出版社 [3] 邵建利,任琳.SAS应用统计实验[M].上海.上海财经大学出版社 [4] 王宝进.多变量分析统计软件与数据分析[M].北京大学出版社

[5] 高惠旋.使用统计方法与SAS系统[M]. 第一版.北京.北京大学出版社,2009年 [6] 胡平,崔文田,徐青川.应用统计分析教学实践案例集[M].西安.清华大学出版

社,2007年

[7] 王松桂,陈敏,陈立萍.线性统计模型[M].第一版.北京.高等教育出版社,2009年 [8] 董逢谷,朱荣明 .统计学案例集[M] .上海:上海财经大学出版社,2002年 [9] 孙允午.统计学:数据的搜集、整理分析.上海:上海财经大学出版社,2006年 [10] 何晓群.多元统计分析.北京:中国人名大学出版社,2004年

18

6.致谢

首先,大学四年的时间,感谢数学与统计学院老师兢兢业业,为我们传授知识,特别是胡宏昌和江秉华老师,为我们提供大量关于毕业论文的素材和相关方面的课题。

其次,本论文的顺利完成主要得益于陈琴老师的辛勤指导和帮助,感谢指导老师在百忙中抽空阅读我的文章。本论文从选题到完成,每一步都是在陈琴老师的指导下完成的,倾注了陈琴老师大量的心血。在此,谨向陈琴老师表示崇高的敬意和衷心的感谢!

在此向尊敬的答辩委员会的各位老师致以我诚挚的感谢,感谢各位耐心的审阅我的论文,感谢各位老师给我的指导与帮助。

19

7、附录 附录一

空气质量达到二

可吸入颗粒物

二氧化硫

二氧化氮

空气质量达到及

二级以上

城 市

(PM10)

北 京 天 津 石 家 庄 太 原 呼和浩特 沈 阳 长 春 哈 尔 滨 上 海 南 京 杭 州 合 肥 福 州 南 昌 济 南 郑 州

0.121 0.096 0.098 0.089 0.068 0.101 0.089 0.101 0.079 0.114 0.098 0.115 0.073 0.087 0.117 0.111

(SO2) 0.032 0.054 0.054 0.068 0.046 0.058 0.030 0.045 0.029 0.036 0.034 0.020 0.009 0.055 0.045 0.053

(NO2) 0.057 0.045 0.041 0.020 0.034 0.035 0.044 0.048 0.050 0.046 0.056 0.030 0.032 0.042 0.027 0.046

好于二级的天数

(%)

(天)

286 308 319 304 349 329 341 313 336 302 314 310 351 343 308 318

78.4 84.4 87.4 83.3 95.6 90.1 93.4 85.8 92.1 82.7 86.0 84.9 96.2 94.0 84.4 87.1

天数占全年比重

20

武 汉 0.108 0.041 0.057 长 沙 0.083 0.040 0.046 广 州 0.069 0.033 0.053 南 宁 0.069 0.028 0.030 海 口 0.040 0.007 0.015 重 庆 0.102 0.048 0.039 成 都 0.104 0.031 0.051 贵 阳 0.075 0.057 0.027 昆 明 0.072 0.040 0.046 拉 萨 0.048 0.007 0.021 西 安 0.126 0.043 0.045 兰 州 0.155 0.057 0.048 西 宁 0.124 0.039 0.026 银 川 0.093 0.039 0.026 乌鲁木齐

0.133

0.089

0.067

附录二

data E35;

input group $ x1-x5 ; cards;

北京 0.121 0.032 0.057 286 78.4 天津 0.096 0.054 0.045 308 84.4 石家庄 0.098

0.054 0.041 319 87.4

太原 0.089 0.068 0.020 304 83.3 呼和浩特 0.068 0.046 0.034 349 95.6

21

284 77.8 338 92.6 357 97.8 349 95.6 365 100.0 311 85.2 316 86.6 343 94.0 365 100.0 361 98.9 304 83.3 223 61.1 312 85.5 332 91.0 266

72.9

沈阳 0.101 0.058 0.035 329 90.1 长春 0.089 0.030 0.044 341 93.4 哈尔滨 0.101

0.045 0.048 313 85.8

上海 0.079 0.029 0.050 336 92.1 南京 0.114 0.036 0.046 302 82.7 杭州 0.098 0.034 0.056 314 86.0 合肥 0.115 0.020 0.030 310 84.9 福州 0.073 0.009 0.032 351 96.2 南昌 0.087 0.055 0.042 343 94.0 济南 0.117 0.045 0.027 308 84.4 郑州 0.111 0.053 0.046 318 87.1 武汉 0.108 0.041 0.057 284 77.8 长沙 0.083 0.040 0.046 338 92.6 广州 0.069 0.033 0.053 357 97.8 南宁 0.069 0.028 0.030 349 95.6 海口 0.040 0.007 0.015 365 100.0 重庆 0.102 0.048 0.039 311 85.2 成都 0.104 0.031 0.051 316 86.6 贵阳 0.075 0.057 0.027 343 94.0 昆明 0.072 0.040 0.046 365 100.0 拉萨 0.048 0.007 0.021 361 98.9 西安 0.126 0.043 0.045 304 83.3 兰州 0.155 0.057 0.048 223 61.1 西宁 0.124 0.039 0.026 312 85.5 银川 0.093 0.039 0.026 332 91.0 乌鲁木齐 0.133 0.089 0.067 266 72.9 ;

proc print data =E35; run;

proc cluster data =E35 method= ave std pseudo ccc outtree= D35;

22

var x1-x5; id group;

proc tree data= D35 horizontal graphics ; title'ê1ó?àà???ù·¨μ??×?μ??ààí?'; run;

附录三

data D831;

input number X1-X5@@; cards; 1 0.121 0.032 0.057 286 78.4 2 0.096 0.054 0.045 308 84.4 3 0.098 0.054 0.041 319 87.4 4 0.089 0.068 0.020 304 83.3 5 0.068 0.046 0.034 349 95.6 6 0.101 0.058 0.035 329 90.1 7 0.089 0.030 0.044 341 93.4 8 0.101 0.045 0.048 313 85.8 9 0.079

0.029 0.050 336 92.1

10 0.114 0.036 0.046 302 82.7 11 0.098 0.034 0.056 314 86.0 12 0.115 0.020 0.030 310 84.9 13 0.073 0.009 0.032 351 96.2 14 0.087 0.055 0.042 343 94.0 15 0.117 0.045 0.027 308 84.4 16 0.111 0.053 0.046 318 87.1 17 0.108 0.041 0.057 284 77.8 18 0.083 0.040 0.046 338 92.6 19 0.069 0.033 0.053 357 97.8

23

20 0.069 0.028 0.030 349 95.6 21 0.040 0.007 0.015 365 100.0 22 0.102 0.048 0.039 311 85.2 23 0.104 0.031 0.051 316 86.6 24 0.075 0.057 0.027 343 94.0 25 0.072 0.040 0.046 365 100.0 26 0.048 0.007 0.021 361 98.9 27 0.126 0.043 0.045 304 83.3 28 0.155 0.057 0.048 223 61.1 29 0.124 0.039 0.026 312 85.5 30 0.093 0.039 0.026 332 91.0 31 0.133 0.089 0.067 266 72.9 ;

proc princomp data =D831 prefix=Z out=O831; var X1-X5; proc plot data=O831;

plot Z2*Z1 $ number='*'; proc sort data=O831; by Z1;

proc print data=O831; var number Z1 Z2 X1-X5; run;

附录四

data kqzl;

input province$ x1-x5@@; cards;

0.121 0.032 0.057 286 78.4 0.096 0.054 0.045 308 84.4 0.098 0.054 0.041 319 87.4

24

0.089 0.068 0.020 304 83.3 0.068 0.046 0.034 349 95.6 0.101 0.058 0.035 329 90.1 0.089 0.030 0.044 341 93.4 0.101 0.045 0.048 313 85.8 0.079 0.029 0.050 336 92.1 0.114 0.036 0.046 302 82.7 0.098 0.034 0.056 314 86.0 0.115 0.020 0.030 310 84.9 0.073 0.009 0.032 351 96.2 0.087 0.055 0.042 343 94.0 0.117 0.045 0.027 308 84.4 0.111 0.053 0.046 318 87.1 0.108 0.041 0.057 284 77.8 0.083 0.040 0.046 338 92.6 0.069 0.033 0.053 357 97.8 0.069 0.028 0.030 349 95.6 0.040 0.007 0.015 365 100.0 0.102 0.048 0.039 311 85.2 0.104 0.031 0.051 316 86.6 0.075 0.057 0.027 343 94.0 0.072 0.040 0.046 365 100.0 0.048 0.007 0.021 361 98.9 0.126 0.043 0.045 304 83.3 0.155 0.057 0.048 223 61.1 0.124 0.039 0.026 312 85.5 0.093 0.039 0.026 332 91.0 0.133 0.089 0.067 266 72.9 ; run;

25

proc factor metho=principal n=2 rotate=varimax scree all out=output; var x1-x5; run;

26

本文来源:https://www.bwwdw.com/article/9atx.html

Top