多元统计分析因子分析.ppt_第1页
多元统计分析因子分析.ppt_第2页
多元统计分析因子分析.ppt_第3页
多元统计分析因子分析.ppt_第4页
多元统计分析因子分析.ppt_第5页
已阅读5页,还剩127页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第八章 因子分析,2,第一节 什么是因子分析及基本思想,因子分析是主成分分析的推广,它也是一种把多个变量化为少数几个综合变量的多元统计分析方法。 目前因子分析在 心理学、社会学、经济学、人口学、地质学、生理学、化学、物理学中 都取得了成功的应用,3,例如考虑人的五个生理指标: X1:收缩压,X2:舒张压,X3:心跳间隔, X4:呼吸间隔,X5:舌下温度 从生理学的知识知道,这五个指标是受植物神经支配的,植物神经分为交感神经与副交感神经,因此至少有两个公共的因素对它们有影响。 如果用F1 、F2分别表示交感神经与副交感神经,称为公因子,那么可以设想X1、X2、X3、X4、X5是F1 、F2的

2、线性函数,即 i=1,2,5,4,即 用矩阵表示 或 X=AF+,5,这里 是其它对 有影响的因子,通常是指公共因子以外的因子称为特殊因子。 只对 有影响。通常假定,注意这里X是已知的,F是未知的。与回归模型是不同的。,或 X=AF+,6,因子分析就是要估计出A,求出因子模型, 因子分析有R型因子分析和Q型因子分析。 R型因子分析是对变量作因子分析; Q型因子分析是对样品作因子分析 这里以R型因子分析为例。Q型类似。,X=AF+,7,第二节 因子分析的数学模型,1、数学模型(也称正交因子模型 ),一般地R型因子分析的数学模型: 用矩阵表示:,8,简记为,满足此假定的因子模型称为正交因子模型。,

3、且满足:,9,这里 是原始变量, 是公共因子, 也就是说F对每个Xi都起作用, 称为特殊因子, i只对 起作用。 A称为因子载荷矩阵,其中元素 称为因子载荷, 是原变量 在公因子 上的负荷。,或,10,由E(F)=0,E()=0,知E(X)=0 假定X的每一个分量的方差都是1,Var(Xi)=1, 即Xi为标准化变量,X=AF+,11,(1) 因子载荷aij的统计意义,2、因子载荷矩阵的统计意义,12,即 是原变量 与公共因子 的相关系数,即 依赖 的程度(比重), 因此用统计学的术语叫“权”,心理学家叫它“载荷”,表示第i个变量在第j个公共因子上的负荷。,13,(2) 变量共同度的统计意义

4、将下式两边求方差,即 记 称为变量共同度,是因子载荷矩阵A中第i行元素的平方和,是所有公共因子对 的方差贡献 每一个 表示相应 对 的方差贡献。 反映了特殊因子对 的方差贡献, 叫特殊因子方差。则,14,说明变量 的方差由两部分组成:第一部分 为变量共同度,它反映了全部公因子对变量 的总方差所作的贡献,第二部分 为特殊因子方差。 若 则说明变量 的几乎全部信息都被所选取的公因子说明了。 若 则说明 几乎全部信息都由特殊因子解释公因子对 起的作用很小。 由此可见, 反映了变量 对公因子F的依赖程度,15,(3)公因子 的方差贡献的统计意义 考虑指定的一个公因子 , 对各变量 的影响,由A 中第j

5、列的元素平方和来描述。 令 j=1,2,p 称 为公因子 对X的贡献。表示公因子 对每一个 变量 所提供的方差贡献总和。 很明显, 的值越大,反映了 对X的影响越大,所以 是衡量公因子重要性的一个尺度,一个指标。,16,总结上述讨论,我们得到矩阵A中元素的统计意 义如下: (1) 是原变量 与公因子 的相关系数 (2) = 是公因子F对 的方差贡献,也是 变量 对公因子F的依赖程度 (3) 是公因子 对X的方差贡献, 是衡量公因子重要性的一个指标。,17,(1)每一个 是原变量 与公共因子 的相关系数 (2)每一行元素的平方和 = 是所有公因子 对 的方差总贡献 (3)每一列元素的平方和 是公

6、因子 对 的方差总贡献,18,第三节 因子载荷矩阵的估计方法,因子分析就是根据已知的数据,寻求因子载荷矩阵A,得到X的因子结构模型。X=AF, 是未知的(把它略掉)。怎样求出因子载荷矩阵A呢? 我们不可能真正求出A,只能用样本数据求出A的估计值。 对A的估计方法很多,有主成分法,主轴因子法,极大似然法等。我们这里仅介绍主成分法。,19,设随机向量 的协方差矩阵为X 12p0为X的特征根, e1, e2, ,ep 为对应的标准正交特征向量 , U=(e1, e2, ,ep), 由主成分分析中我们知道 所以,20,X (1) 注意这时X=AF 又由于 X=D(X)=D(AF)=AD(F)A=AA

7、(2) 比较(1)(2)可得A=( ),因子载荷矩阵A的第j列是 ,它是主成分分析中第j个主成分的系数 , 故称为主成分法。,21,实际当最后p-m个特征根较小时,略去最后p-m个公因子。这样损失比例小,(也即同主成分分析一样考虑累积贡献率达85%以上。) 这时可得因子载荷阵,一般X是未知的,这时用样本协方差阵S去代替,并且同主成分分析一样要经过标准化处理,这时S与R相同。因此实际应用中可直接从R出发求A。,22,步骤如下: 一、原始数据矩阵X标准化。 二、计算协方差矩阵即相关系数矩阵R的特征根 及对应的标准正交特征向量 令 ,23,则 即为因子载荷矩阵 这时公因子个数等于变量个数,特殊因子为

8、0。 若有 则取前 个公因子,而后 个公因子作用 小,可略掉。 这时可得因子载荷阵,24,例1 将上一章例子对全国30个省市自治区的经济发 展八项指标作因子分析。 首先对原始数据标准化,以消除量纲的影响; 第二步 建立指标间的相关系数阵R。,25,第三步 求R的特征值和特征向量。,由于前三个特正值的累计贡献率已达89.564%。所以可取前三个特征值所对应的特征向量如下:,26,27,第四步 建立因子载荷阵。,28,第四节 因子旋转 进行因子分析,不仅要找出公共因子,建立因子结构模型,达到对变量降维,更重要是要知道每个公因子的实际意义,以便对实际问题进行分析。 用上述方法求出的公因子的典型代表变

9、量通常不很突出,容易使公因子的意义含糊不清,因此在求因子载荷阵时应附加一个条件,那就是求出的公因子“易于解释”。,29,设 是正交阵,即 X=AF+=ATTF+= 而 也是公因子, 也是因子载荷阵。说明因子载荷阵不唯一,我们可以选择因子载荷阵以达到“易于解释”的目的。这样就要求出多个因子载荷阵。,=0,30,因为 是正交变换 由线性代数知道:一个正交变换对应于坐标系的一次旋转。 对因子变量的正交变换称为因子旋转,通过旋转可以不断求出因子载荷阵,使因子载荷阵的结构不断简化,便于对公因子进行解释。 其原理很象调节显微镜的焦距,以便看清观察物的细微之处。 旋转的方法有正交旋转,斜交旋转。 我们只介绍

10、方差最大正交旋转法。,31,先考虑只有两个公因子的正交旋转。即m=2的情况。 设 将每一行的元素除以该行的共同度 以消除由于各个变量Xi的共同度之间的差异所造成的不平衡,也就是消除由于各个变量Xi对公因子依赖程度不同的影响,把这种处理称为规格化处理,为方便,把规格化处理后的距阵仍记为A,其元素记为 。,32,设 记B=AT= = 这样做的目的是希望所得结果能使载荷阵的每一列元素按其平方值向0和1两极分化,表现为列的离散度拉大,也既方差变大,每列的方差都大,即 大。,33,为消除 符号不同的影响,用 , 即要求 的方差尽可能地大, 同样 的方差尽可能地大。 则V= 要使V达到最大,根据求极值原理

11、,将V对 求导数,34,经过较复杂的推导得,其中 由此求出转角 ,从而求出T距阵。,35,如果公因子数多于2个,可以逐次对每2个进行上述的旋转, ,当全部配对旋转完毕后,第一轮旋转完毕,这时 其中 是第k列与第j列配对旋转 并没有达到目的时,可再重新配对旋转,于是每经过一轮旋转,A距阵就发生变化,,36,相应的总方差 经过若干次旋转后,它的总方差的改变不大时,就停止旋转。这时的 比A要好,根据 这个旋转后的因子载荷阵,得到因子模型 X= F,37,上例建立因子载荷阵。,38,第五步 对因子载荷阵实行方差最大旋转,旋转后的矩阵如下: 正交因子表,39,从上表可见,每个因子只有少数几个指标的因子载

12、荷较大,因此可根据上表进行分类,将8个指标按高载荷分成三类,列于下表:,第一个因子在指标X1、X3、X8有较大的载荷,这些是从GDP、固定资产投资、工业总产值三个方面反映经济发展状况的,因此命名为总量因子。第二个因子在指标X2、X4、X5有较大的载荷,这些是从居民消费水平、职工平均工资、货物周转量这三方面反映经济发展状况的,因此命名为消费因子。第三个因子在指标X6、X7有较大的载荷,因此命名为价格因子。,40,第五节 因子得分 因子分析是将变量表示为公因子的线性组合。由于公因子能充分反映原变量的信息,并且公因子间不相关,用公因子代表原变量时,更有利于描述研究对象的特征。因此,往往反过来将公因子

13、表示为原变量的线性组合(如同主成分分析一样),即 称上式为因子得分函数,用它计算每个公因子的得分。,41,由于上式中方程的个数少于变量的个数,因此,只能按回归法在最小二乘意义下求得回归方程,由于变量和公因子都是标准化的,所以有: 因为,即 j=1,2,m,42,写成距阵 即 j=1,2,m 则 从而,43,注: 因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义; 主成分分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。 主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:潜在的假想变量和随机影响变量的线性

14、组合表示原始变量。,44,因子分析与主成分分析都是多元分析中用于降维的方法。两者在求解过程中都是从协方差阵(或相关系数阵)出发,但两者有很大的不同。 1)主成分分析的数学模型实质上是一种变量替换,而因子分析的数学模型才是一种反应数学关系的模型。 2)主成分分析中的系数是唯一确定的,而因子分析中的因子载荷是不唯一的,即因子载荷阵不唯一。 3)主成分分析是将主成分表示为原变量的线性组合,而因子分析是将原变量表示为新因子的线性组合,即为新因子的综合指标,所以因子分析是主成分分析的发展,45,例2 利用1995年的数据对我国社会发展状况进行综合考察。,第一步 将数据标准化 第二步 建立指标间相关系数阵

15、R如下:,46,第三步 求R的特征值和累计贡献率。,47,第四步 建立因子载荷阵。 由于前三个特征值的累计贡献率已达93.46%,故取前三个特征值建立因子载荷阵如下:,48,第五步 将因子载荷阵实行方差最大正交旋转,得正交因子表如下:,49,第六步 将六个指标按高载荷分成三类,并结合专业知识对各因子给引命名如下:,50,(二)主因子法,主因子方法是对主成分方法的修正,假定我们首先对变量进行标准化变换。则 R=AA+D R*=AA=R-D 称R*为约相关矩阵, R*对角线上的元素是 , 而不是1。,51,直接求R*的前p个特征根和对应的正交特征向量。 得如下的矩阵:,52,例 假定某地固定资产投

16、资率 ,通货膨胀率 ,失业率 ,相关系数矩阵为 试用主成分分析法求因子分析模型。,53,特征根为:,54,可取前两个因子F1和F2为公共因子, 第一公因子F1物价就业因子,对X的贡献为1.55 第二公因子F2为投资因子,对X的贡献为0.85。 共同度分别为1,0.706,0.706。,55,假定某地固定资产投资率 ,通货膨胀率 ,失业率 ,相关系数矩阵为 试用主因子分析法求因子分析模型。假定用代替初始的。 。,56,特征根为:,对应的非零特征向量为:,57,58,百米跑成绩 跳远成绩 铅球成绩 跳高成绩 400米跑成绩 百米跨栏 铁饼成绩 撑杆跳远成绩 标枪成绩 1500米跑成绩,奥运会十项全

17、能运动项目得分数据的因子分析,59,60,因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表,61,62,通过旋转,因子有了较为明确的含义。 百米跑, 跳远和 400米跑,需要爆发力的项目在 有较大的载荷, 可以称为短跑速度因子; 铅球, 铁饼和 标枪在 上有较大的载荷, 可以称为爆发性臂力因子; 百米跨栏, 撑杆跳远, 跳远和 跳高在 上有较大的载荷, 爆发腿力因子; 长跑耐力因子。,63,国民生活质量的因素分析 国家发展的最终目标,是为了

18、全面提高全体国民的生活质量,满足广大国民日益增长的物质和文化的合理需求。在可持续发展消费的统一理念下,增加社会财富,创自更多的物质文明和精神文明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,达到完整的代际公平和区际公平(即时间过程的最大合理性与空间分布的最大合理化)。,64,从1990年开始,联合国开发计划署(UYNP)首次采用“人文发展系数”指标对于国民生活质量进行测度。人文发展系数利用三类内涵丰富的指标组合,即人的健康状况(使用出生时的人均预期寿命表达)、人的智力程度(使用组合的教育成就表达)、人的福利水平(使用人均国民收入或人均GDP表达),并且特别

19、强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况以及国民生活质量的总水平。,65,在这个指标体系中有如下的指标: X1预期寿命 X2成人识字率 X3综合入学率 X4人均GDP(美圆) X5预期寿命指数 X6教育成就指数 X7人均GDP指数,66,旋转后的因子结构 Rotated Factor Pattern FACTOR1 FACTOR2 FACTOR3 X1 0.38129 0.41765 0.81714 X2 0.12166 0.84828 0.45981 X3 0.64803 0.61822 0.22398 X4 0.90410 0.20531 0.34100 X5

20、 0.38854 0.43295 0.80848 X6 0.28207 0.85325 0.43289 X7 0.90091 0.20612 0.35052 FACTOR1为经济发展因子 FACTOR2为教育成就因子 FACTOR3为健康水平因子,67,被每个因子解释的方差和共同度 Variance explained by each factor FACTOR1 FACTOR2 FACTOR3 2.439700 2.276317 2.009490 Final Communality Estimates: Total = 6.725507 X1 X2 X3 X4 X5 0.987530 0.9

21、45796 0.852306 0.975830 0.992050 X6 X7 0.994995 0.976999,68,Standardized Scoring Coefficients标准化得分系数 FACTOR1 FACTOR2 FACTOR3 X1 -0.18875 -0.34397 0.85077 X2 -0.24109 0.60335 -0.10234 X3 0.35462 0.50232 -0.59895 X4 0.53990 -0.17336 -0.10355 X5 -0.17918 -0.31604 0.81490 X6 -0.09230 0.62258 -0.24876,69

22、,生育率的影响因素分析,生育率受社会、经济、文化、计划生育政策等很多因素影响,但这些因素对生育率的影响并不是完全独立的,而是交织在一起,如果直接用选定的变量对生育率进行多元回归分析,最终结果往往只能保留两三个变量,其他变量的信息就损失了。因此,考虑用因子分析的方法,找出变量间的数据结构,在信息损失最少的情况下用新生成的因子对生育率进行分析。 选择的变量有:多子率、综合节育率、初中以上文化 程度比例、城镇人口比例、人均国民收入。 下表是1990年中国30个省、自治区、直辖市的数据。,70,71,特征根与各因子的贡献,72,没有旋转的因子结构,73,74,在这个例子中我们得到了两个因子,第一个因子

23、是 社会经济发展水平因子,第二个是计划生育因子。有了 因子得分值后,则可以利用因子得分为变量,进行其他 的统计分析。,方差最大旋转后的因子结构,标准化得分函数,75, 6 因子分析的步骤、展望和建议,计算所选原始变量的相关系数矩阵 相关系数矩阵描述了原始变量之间的相关关系。可以 帮助判断原始变量之间是否存在相关关系,这对因子分析 是非常重要的,因为如果所选变量之间无关系,做因子分 析是不恰当的。并且相关系数矩阵是估计因子结构的基础。,选择分析的变量 用定性分析和定量分析的方法选择变量,因子分析的前 提条件是观测变量间有较强的相关性,因为如果变量之间 无相关性或相关性较小的话,他们不会有共享因子

24、,所以 原始变量间应该有较强的相关性。,一、 因子分析通常包括以下五个步骤,76,提取公共因子 这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到60才能符合要求; 因子旋转 通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。,77,计算因子得分 求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因

25、子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。,78,因子分析是十分主观的,在许多出版的资料中,因子分析模型都用少数可阐述因子提供了合理解释。实际上,绝大多数因子分析并没有产生如此明确的结果。不幸的是,评价因子分析质量的法则尚未很好量化,质量问题只好依赖一个 “哇!”准则,如果在仔细检查因子分析的时候,研究人员能够喊出“哇,我明白这些因子”的时候,就可看着是成功运用了因子分析方法。,79,2、变量重新归类 两个(或两个以上的)之中的一个类被选中,照第一步的方法再分裂为二。这个被选中的类通常拥有最大的第二特征根,或者是拥有最小的可被类向量解释的变异数百分比。 3、第一步和第二步不

26、停的交互进行, 直至类内变量之间的第二特征根或可被类向量解释的变异数百分比达到预设定的标准为止。,80,第七章 主成分分析,81,第一节 什么是主成分分析及基本思想,主成分分析(Principal Components Analysis) 也称主分量分析 是将多项指标,化为少数几个不相关的 综合指标的一种统计方法。,82,在经济问题研究中,为了全面、系统地分析问题,我们必须考虑众多对某经济过程有影响的因素,这些因素也叫指标,在多元统计分析中也称为变量。,83,每个指标都在不同程度上反映了所研究问题的某些信息。但是 1、指标之间彼此有一定的相关性,使得相应的统计数据在一定程度上反映的信息有重叠。

27、 主成分分析可将相关的指标化成一些不相关的指标,避免了信息重叠带来的虚假性。 2、在用统计方法研究多变量问题时,变量太多会增大计算量和增加分析问题的复杂性,人们自然希望在进行定量分析的过程中所涉及的变量要少,而得到的信息量又要多。 主成分分析是解决这些问题的理想工具。,84,在综合评价工业企业的经济效益中,考核指标有: 1每百元固定资产原值实现产值、 2每百元固定资产原值实现利税、 3每百元资金实现利税、 4每百元工业总产值实现利税、 5每百元销售收入实现利税、 6每吨标准煤实现工业产值、 7每千瓦电力实现工业产值、 8全员劳动生产率、 9每百元流动资金实现的产值 指标间信息有重叠,指标数量又

28、多。 经过主成分分析计算,最后确定选择了2个主成分作为综合评价工业企业经济效益的依据,变量数由9个减少到2个,这两个主成分代表的信息达91.6%,使所研究的问题简化。,85,所谓主成分就是原指标的线性组合。 主成分可以有很多个, 反应原指标信息最多的称为第一主成分, 其次是第二主成分, 等等。 所谓反应原指标的信息多就是其方差大,方差越大,它反应的信息就越多,因此选方差最大的作为第一主成分,。,86,一项十分著名的工作是 美国的统计学家斯通(stone)在1947年关于国民经济的研究。 选择17个反映国民收入与支出的变量因素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外

29、贸平衡等等,他利用美国1929一1938年各年的数据。,87,在进行主成分分析后,竟以97.4的精度,用3个新变量取代了原17个变量。 根据经济学知识,斯通给这3个新变量分别命名为 总收入F1、 总收入变化率F2 经济发展或衰退的趋势F3,88,第二节 主成分分析的 数学模型与几何解释,89,X1,X2,一、几何解释(几何意义):为了直观,先在二维空间中讨论主成分的几何意义。 设对每个样品观测两个变量X1和X2的数据如下,样品点完全在同一条直线上,这条直线的方程是: X2=2X1,X1,X2,其散点图如下,90,X1,F2,X2,F1,因为样品点都在F1轴上,F1方向有离散性,F2方向无离散性

30、,也就无区别。可以用F1来描述这些样品点,,因此在新坐标系中只需用F1一个变量就可以描述原来需用两个变量X1和X2描述的样品。那么F1包含了原来变量X1和X2的100%的信息。,在实际问题中,这样的情况是很少见的。,91,一般情况下,例如有n个样品,每个样品有两个变量值X1和X2,则n个样品的散点图如带状.,由图可见这n个样品点无论是沿着X1轴方向或X2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量X1的方差和X2的方差定量地表示。,X1,X1,92,X2,F2,F1,X1,同样我们将X1轴和X2轴同时按逆时针方向旋转角度,得到新坐标轴F1和F2 。 F1和F2是两个新变量。根据解析

31、几何中的坐标旋转变换公式:,93,新变量Fl和F2是原变量X1和X2的线性组合,用矩阵表示为:,其中,94,由线性代数我们知道: U是正交矩阵 U的列向量都是单位向量且两两正交。 U的列向量都是单位向量 两两正交 说明Fl与F2不相关。相关系数为零。,95,旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。 变量Fl代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。 经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。,Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质

32、,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。,96,二维平面上的样品点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。由于n个样品点在Fl轴上的方差最大,因而将二维空间的点的描述用Fl这个综合变量来代替,所损失的信息最小,由此称Fl为第一主成分,F2为第二主成分。 那么在经济问题研究中我们可以只考虑F1方向上的信息,忽略F2方向上的信息,损失信息很少。这样二维空间可以降为一维空间了。只取综合变量F1,简化了系统结构,抓住了主要矛盾。,97,二、数学模型: 假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为

33、 X1,X2,Xp 主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,98,主成分分析通常的做法是,寻求原指标的线性组合Fi。,用矩阵表示,99,用矩阵表示,并且满足: (i=1,2, P) *,F=,100,其中aij由下列原则来确定: 1、不相关性,Fi与Fj不相关。即 (a1i,a2i, api)与(a1j,a2j, apj)正交, 也即ai与aj正交, 2、方差极大条件, Fl是Xl,X2,,Xp的一切线性组合(系数满足*式) 中方差最大者; F2是与Fl不相关的Xl,X2,Xp的一切线性组合 (系数满足*式)中方差最大者; Fp是与Fl, F2, Fp-1都不相

34、关的Xl,X2,Xp的一切线性组合(系数满足*式)中方差最大者。,101,如此决定的综合变量Fl, F2, Fp分别称为原变量的第一主成分,第二主成分,第P主成分。其中Fl在总方差中占的比重最大,其余F2, Fp的方差依次递减。,102,主成分分析通常的做法是,寻求原指标的线性组合Fi。,并且满足: 1 (i=1,2, P) *,2 不相关性,Fi与Fj不相关。 即ai与aj正交, 3 方差极大条件,,103,第三节 主成分的推导及性质,定理1 若A是p阶实对称阵,则一定可以找到正交阵U,使,其中 是A的特征根。,104,定理2、若上述矩阵A的特征根所对应的单位特征向量为,则实对称阵 属于不同

35、特征根所对应的特征向量是正交的,即有,令,105,1 主成分的推导,设 F= 为正交矩阵 由协方差阵的性质,有D(AX)=AD(X)A 这里D(F)=D( )=UD(X)U 或 (1) 又因为 是实对称矩阵,则存在正交矩阵U使 (2) 因此可知U可由实对称矩阵 的单位特征向量构成,即 U可由| -I|=0及( -I)Y=0求出。,106,这样求出的F是否满足条件? 前两条已满足,因U是标准正交特征向量, 下面看第三条是否满足 由(1)(2)可知 而 主对角线上的元素为Var(Fi),Var(Fi)=i 因为,所以,107,在实际问题中 的协方差阵 通常未知, 需要通过样本协方差阵来估计。设有n

36、个样品,每个样 品测得p个指标,于是得到原始资料矩阵 是样本协方差阵,作为总体协方差阵 的无偏估计,则由 的单位特征向量构成U, 即由| -I|=0 求出 然后代入( -I)Y=0 求出单位特征向量,构成U,108,主成分,(i=1,2, P),F=,109,是 的特征根构成的对角阵,ai是 的特征根i对应的标准正交特征向量,110,变量的标准化: 由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响, 例如: X1表年收入,从万元到百万元变化, X2表净收入与总资产之比,从0.01到0.60变化, 那么X1的方差的

37、绝对量将远远大于X2的方差, 这样主成分会过于照顾方差大的变量,为使主成分能均等地对待每一个原变量,应将原变量作标准化处理.,111,标准化公式: (i=1,2, P) 这时有 = 因此求U时可用 的特征向量。 还可以证明 = 所以 = =,112,在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用P个主成分,而是根据如下方法选取前K个主成分。 定义 为第i主成分Fi的方差贡献率。 这个值越大,说明这个主成分Fi综合原指标信息的能力越强。,113,定义 ( KP) 为主成分Fl, F2,Fk的累积方差贡献率。 当前K个主成分的累积方差贡献率达到85%以上时,就取K个主成分。这样K

38、个主成分基本反映了原指标的信息,指标数目由P个减少到K个。,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。,114,2、主成分的性质 性质1:F的协方差阵 为对角阵 性质2: 性质3: (i=1,2, P) 对于标准化后的变量,则,原始变量与主成分之间的相关系数,115,主成分得分: 当选取了n个主成分后,把样本数据代入各主成分表达式可得样本的主成分得分。 若主成分是由原始数据协方差阵计算的,则计算主成分得分时,代原始数据。 若主成分是由标准化数据计算,即由R计算,则计算主成分得分时,一定要代标准化数据,否则会出现错误。,116,主成分的综合得分 利用主成分Fl,F2, Fk

39、作线性组合,并以每个主成分Fi的方差贡献率作为权数构造一个综合函数: F= 根据计算出的F值大小进行排序。,117,第四节 主成分的计算步骤及实例,主成分的计算步骤:,原始数据矩阵 1、原始数据标准化 2、计算样本协差阵或相关系数矩阵R 3、求R的非零特征根及对应的标准正交特征向量 4、 求出主成分 (i=1,2, P) 根据累计方差贡献率大于等于80%,85%,90%等,确定选取主成分个数。,118,例 设 的协方差矩阵为,解得特征根为 , ,,第一个主成分的贡献率为 5.83/(5.83+2.00+0.17)=72.875%, 尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个

40、原始变量的信息,所以应该取两个主成分。,119,120,如果一个主成分仅仅对某一个原始变量有作用,则称为特殊成分。 如果一个主成分所有的原始变量都起作用,称为公共成分。,121,例一 应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的5C方法,5C的目的是说明顾客违约的可能性。,122,1、品格(用X1表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。 2、能力(用X2表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。顾客的流动资产越多,其转化为现金支付款项的能力越强。同时,还应注意顾客流动

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论