第十章实用多元统计分析_第1页
第十章实用多元统计分析_第2页
第十章实用多元统计分析_第3页
第十章实用多元统计分析_第4页
第十章实用多元统计分析_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应应 用用 统计统计 学学 精品精品 课课 程程第十章第十章 实实 用多元用多元 统计统计 分析分析Unit ten practical multi-dimensionalstatistical analysis西安理工大 学 工程管理系 马 斌 余梁蜀Project Management Department of XIAn University of TechnologyMa Bing Yu Liangshu 应应 用用 统计统计 学学 精品精品 课课 程程聚聚 类类 分析分析Cluster analysis10.110.210.310.4判判 别别 分析分析Distinction analysis主成分分析主成分分析Principal components analysis因子分析因子分析Factor components analysis 应应 用用 统计统计 学学 精品精品 课课 程程10.1 聚聚 类类 分析分析 Cluster analysis10.1.1 数据的处理数据的处理10.1.2 聚类分析中的统计量聚类分析中的统计量10.1.3 分类的形成分类的形成 应应 用用 统计统计 学学 精品精品 课课 程程聚类分析Q 型 R 型样品的分类 指标(变量)的分类 应应 用用 统计统计 学学 精品精品 课课 程程10.1.1 数据的处理数据的处理在工程项目中,假定对在工程项目中,假定对 n个样品测定其个样品测定其 m个指标,得到以下数据矩阵个指标,得到以下数据矩阵其中,其中, Xij是第是第 i个样品个样品 j个指标(变量)的观测值。个指标(变量)的观测值。如果各个指标的测量单位如果各个指标的测量单位 、 测量结果的数量级及数值变动范围存在测量结果的数量级及数值变动范围存在很大的差异,我们就有必要在分类之前对数锯进行很大的差异,我们就有必要在分类之前对数锯进行 标准化标准化 或或 正规划正规划 。1)数据的标准化)数据的标准化令令 ( i=1,2,; j=1,2, ,m) 其中,其中,通过上述变换的变量通过上述变换的变量 Yij是标准化变量,这时,它的均值为是标准化变量,这时,它的均值为 0,标准差为,标准差为 1。2)数据的正规化)数据的正规化令令 应应 用用 统计统计 学学 精品精品 课课 程程其中,其中, 是数据第是数据第 j列数据中的最小值;列数据中的最小值; 是数据阵第是数据阵第 j列数据列数据中的最大值;中的最大值; 是第是第 j列数据的级差。通过正规化变换后的数据列数据的级差。通过正规化变换后的数据阵中的每一列出现阵中的每一列出现 0与与 1各至少各至少 1个,其余则介于个,其余则介于 0与与 1之间。之间。10.1.2聚类分析中的统计量聚类分析中的统计量1)样品或指标间相似程度的类型)样品或指标间相似程度的类型两个样品或指标对应的的两行(列)对应的元素比较接近两个样品或指标对应的的两行(列)对应的元素比较接近 ,具有成具有成 比例比例关系关系 或或 互相消长互相消长 的关系。的关系。 应应 用用 统计统计 学学 精品精品 课课 程程2)衡量样品或指标间相似性的统计量的类型( 1)距离系数在实际应用中,常用下式表达作为距离系数显然,对于正规化的数据,有 (,) d(,)越小。第 i个变量与第 j个变量就越相似;反之,相似性就越小。 应应 用用 统计统计 学学 精品精品 课课 程程()相似系数显然, cos ij cos ij绝对值越大,第 i个变量的与第j个变量就越相似,反之相反。 应应 用用 统计统计 学学 精品精品 课课 程程()相关系数显然 , R( i,j) R( i,j)的绝对值越大,第个变量与第个变量之间的关系就越密切;反之,就越不密切。 应应 用用 统计统计 学学 精品精品 课课 程程10.1.3分类的形成原则:()若选出的一对变量未曾连接过,就连结为一组。()若选出的变量对中,有一个已同别的连结成组,则把另一个变量 与这个组连接。()若对选出的变量分别在已连结好的两组内,则把这两个组连结。 应应 用用 统计统计 学学 精品精品 课课 程程 应应 用用 统计统计 学学 精品精品 课课 程程10.2 判判 别别 分析分析 Distinction analysis10.2.1基本思想基本思想10.2.2线性判别函数线性判别函数10.2.3判别指标与判别法则判别指标与判别法则 应应 用用 统计统计 学学 精品精品 课课 程程多组判别多组判别组数为组数为 2组数大于组数大于 2两组判别两组判别多组判别多组判别 应应 用用 统计统计 学学 精品精品 课课 程程10.2.1 基本思想基本思想判别函数,记作判别函数,记作Z=Z(Y1,Y P) 均值均值同样,对于总体同样,对于总体 X2有均值有均值通过判别分析的方法,可以构造出一个介于通过判别分析的方法,可以构造出一个介于 和和 之间的指标之间的指标 ZC, 设设 Z为某个待定判别的判别值。为某个待定判别的判别值。 应应 用用 统计统计 学学 精品精品 课课 程程10.2.2线性判别函数线性判别函数判别函数判别函数 其中,其中, C1,C P是待定系数。通过下是待定系数。通过下式可以确定式可以确定 C1,C P。 应应 用用 统计统计 学学 精品精品 课课 程程10.2.3判别指标与判别法则判别指标与判别法则根据判别函数可求得根据判别函数可求得 和和 ,通常可以用它们的,通常可以用它们的加权平均作为判别指标,即有加权平均作为判别指标,即有 应应 用用 统计统计 学学 精品精品 课课 程程这样我们有以下判别法则:设为某一判别样品的判别值,则这样我们有以下判别法则:设为某一判别样品的判别值,则 应应 用用 统计统计 学学 精品精品 课课 程程10.2.4 判别函数的评价判别函数的评价对于判别函数对于判别函数 其有效性需要进行检验。其有效性需要进行检验。在统计学中,常采用马哈拉诺比斯在统计学中,常采用马哈拉诺比斯 D2统计量统计量D2可直观地设想为总体可直观地设想为总体 X1和和 X2之间的距离(称为综合距离系数函数)之间的距离(称为综合距离系数函数)。可以证明统计量可以证明统计量服从第一自由度为服从第一自由度为 P,第二自由度为,第二自由度为 n1+n2-p-1的的 F分布。这样可以查分布。这样可以查 F分布进行检验并评价判别函数。分布进行检验并评价判别函数。 应应 用用 统计统计 学学 精品精品 课课 程程实际中,先求出实际中,先求出 再求出各判别变量再求出各判别变量 Yt(t=1,p) 的的 贡献系数贡献系数对对 “ 贡献贡献 ” 小的判别变量可根据实际情况筛选掉。小的判别变量可根据实际情况筛选掉。 应应 用用 统计统计 学学 精品精品 课课 程程 统计统计 学学 精品精品 课课 程程10.3 主成分分析主成分分析 Principal components analysis10.3.1 主成份分析主成份分析10.3.2 主成份的导出主成份的导出10.3.3 主成份的定义主成份的定义10.3.4主成份的性质主成份的性质10.3.5应用实例应用实例主成分分析法主成分分析法 是多元统计分析中的一种,是一种简化数据结构的方是多元统计分析中的一种,是一种简化数据结构的方法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换法。它用于将多个变量变换为少数几个综合变量,这几个综合变量变换为少数几个综合变量,这几个综合变量可以反映原来多个变量的大部分为少数几个综合变量,这几个综合变量可以反映原来多个变量的大部分信息,而它们相互之间又是无关的。信息,而它们相互之间又是无关的。 统计统计 学学 精品精品 课课 程程10.3.1主成分的概念主成分的概念在项目管理中,假定对在项目管理中,假定对 n个样品测定其个样品测定其 m个指标(变量)个指标(变量) X1, X m得以下数据矩阵得以下数据矩阵以后我们将原指标记为以后我们将原指标记为 X1, X m,将它们的主成分记为将它们的主成分记为 Y1,Y m.当当 m=2时,原指标记为时,原指标记为 X1和和 X2,其关系见下页图其关系见下页图 应应 用用 统计统计 学学 精品精品 课课 程程容易看出容易看出 Y1将将 X1和和 X2,的主要信的主要信息都反映了。那么用息都反映了。那么用 Y1来表达来表达 X1和和X2,还是不错的。还是不错的。如果取椭圆的短轴作为第二主如果取椭圆的短轴作为第二主成分成分 Y2,那么,图,那么,图 10.2上的点,对上的点,对原指标原指标 X1, X2,的值记为的值记为 X1t和和 Xt2(t=1,n), 对主成分对主成分 Y2的值记为的值记为 Y1t,Yt2(t=1,n), 则有则有 应应 用用 统计统计 学学 精品精品 课课 程程所谓所谓 Y1反映的信息,就是反映的信息,就是 在整个平方和中所占的比例越在整个平方和中所占的比例越大越好,即大越好,即 Y1的平方和(或方差)越大越好。的平方和(或方差)越大越好。10.3.2主成分的导出主成分的导出在标准化的情况下,样本的相关系数即为样本协方差,即在标准化的情况下,样本的相关系数即为样本协方差,即 应应 用用 统计统计 学学 精品精品 课课 程程对于数据矩阵(对于数据矩阵( 10.1),其样本相关矩阵),其样本相关矩阵 R和样本协方差矩阵和样本协方差矩阵 S相相同,即同,即为了导出主成分,只须求为了导出主成分,只须求 R或或 S阵的特征根和特征向量即可。阵的特征根和特征向量即可。 应应 用用 统计统计 学学 精品精品 课课 程程10.3.3主成分的定义主成分的定义设设 为为 X1, X m是是 m个变量,可以抽得其个变量,可以抽得其 n个样品,它的第个样品,它的第 i( i=1,m) 个个主成分为主成分为其中,其中, 应应 用用 统计统计 学学 精品精品 课课 程程并且满足:并且满足:( 1)第一主成分)第一主成分 Y1是一切形如是一切形如 使使 Y的方差达到极大者。的方差达到极大者。( 2)第二主成分)第二主成分 Y2是一切形如是一切形如并与并与 Y1无关,使无关,使 Y的方差达到极大者;的方差达到极大者;( 3)第)第 k个主成分个主成分 Yk是一切形如是一切形如并与并与 Y1Y K-1不相关,使不相关,使 Y的方差达到极大者。的方差达到极大者。 应应 用用 统计统计 学学 精品精品 课课 程程10.3.4主成分的性质主成分的性质设对于变量设对于变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论