何晓群版多元统计课后作业答案_第1页
何晓群版多元统计课后作业答案_第2页
何晓群版多元统计课后作业答案_第3页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章多元正态分布1. 在数据处理时,为什么通常要进行标准化处理?数据的标准化( normalization)是将数据按比例缩放,使之落入一个小的特 定区间。在某些比较和评价的指标处理中经常会用到, 去除数据的单位限制, 将 其转化为无量纲的纯数值, 便于不同单位或量级的指标能够进行比较和加权。 其 中最典型的就是 0-1 标准化和 Z 标准化。( 1) 0-1标准化(0-1 normalization) 也叫离差标准化,是对原始数据的线性变换,使结果落到 0,1 区间,转换函 数如下:其中 max为样本数据的最大值, min 为样本数据的最小值。这种方法有一个 缺陷就是当有新数据加入时,可能

2、导致 max和min 的变化,需要重新定义。( 2) Z-score 标准化(zero-mean normalization) 也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为 0,标准 差为 1,也是 SPSS中最为常用的标准化方法,其转化函数为 :其中为所有样本数据的均值, 为所有样本数据的标准差。2、欧氏距离与马氏距离的优缺点是什么?欧氏距离( Euclidean distance)也称欧几里得度量、欧几里得度量,是一个 通常采用的距离定义,它是在 m 维空间中两个点之间的真实距离。在二维和三 维空间中的欧氏距离的就是两点之间的距离。 缺点:就大部分统计问题而言,欧氏距离是不能

3、令人满意的。 (每个坐标对欧氏 距离的贡献是同等的。 当坐标表示测量值时,它们往往带有大小不等的随机波动, 在这种情况下, 合理的方法是对坐标加权, 使变化较大的坐标比变化较小的坐标 有较小的权系数, 这就产生了各种距离。 当各个分量为不同性质的量时, “距离” 的大小与指标的单位有关。 它将样品的不同属性 (即各指标或各变量) 之间的差 别等同看待, 这一点有时不能满足实际要求。 没有考虑到总体变异对距离远近的 影响。马氏距离 (Mahalanobis distance)是由印度统计学家马哈拉诺比斯提出的,表 示数据的协方差距离。 为两个服从同一分布并且其协方差矩阵为 的随机变量与 的差异程

4、度 :如果协方差矩阵为单位矩阵 ,那么马氏距离就简化为欧氏距离 ,如果 协方差矩阵为对角阵 ,则其也可称为正规化的欧氏距离。它是一种有效的计算两 个未知样本集的相似度的方法。 对于一个均值为 ,协方差矩阵为 的多变量向 量,样本与总体的马氏距离为 (dm)2=(x-)'(-1)(x- )。 在绝大多数情况下, 马氏距离是可以顺利计算的, 但是马氏距离的计算是不稳定 的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。 优点:它不受量纲的影响, 两点之间的马氏距离与原始数据的测量单位无关。 (它 考虑到各种特性之间的联系 (例如:一条关于身高的信息会带来一条关于体重的

5、信息,因为两者是有关联的)并且是尺度无关的 (scale-invariant),即独立于测量 尺度);由标准化数据和中心化数据 (即原始数据与均值之差)计算出的二点之间 的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。 缺点:夸大了变化微小的变量的作用。 受协方差矩阵不稳定的影响, 马氏距离并 不总是能顺利计算出。3、当变量 X1 和 X2 方向上的变差相等,且与互相独立时,采用欧氏距离与统计 距离是否一致?统计距离区别于欧式距离, 此距离要依赖样本的方差和协方差, 能够体现各 变量在变差大小上的不同, 以及优势存在的相关性, 还要求距离与各变量所用的 单位无关。如果各变量之间相互独

6、立 ,即观测变量的协方差矩阵是对角矩阵 , 则马 氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。第二章均值向量和协方差阵的检验3、多元均值检验 ,从题意知道,容量为 9 的样本 ,总体协方差未知 假设 H0:0 , H1 :0 (n=9 p=5)检验统计量/(n-1)T2 n(X 0)S1(X 0)服从 P,n-1的T 2分布统计量 T2 实际上是样本均值与已知总体均值之间的马氏距离再乘以n*(n-1)这个值越大,相等的可能性越小,备择假设成立时,T 2有变大的趋势,所以拒绝域选择 T 2值较大的右侧部分,也可以转变为 F 统计量零假设的拒绝区域 (n-p)/(n-1)*p

7、* T2 >Fp,n p( )21/10* T 2 >F5,4(5)0=( 6212.01 32.87 2972 9.5 15.78)'样本均值( 4208.78 35.12 1965.89 12.21 27.79)'(样本均值 - 0) '=(-2003.23 2.25 -1006.11 2.71 12.01)协方差矩阵 (降维因子分析抽取 )Inter-Item Covariance Matrix人均GDP( 元)三产比重( % )人均消费 (元)人口增长 (%)文盲半文盲( %)人均GDP( 元)1020190.840582.460331693.531

8、-599.784-6356.325三产比重( % )582.46019.480-105.4646.62543.697人均消费 (元)331693.531-105.464125364.321-213.634-3130.038人口增长 (%)-599.7846.625-213.6346.09925.410协方差的逆矩阵1.88034E-05 -0.00044037 -6.0978E-05 0.002799208 -0.00062589-0.0004403680.207023949-0.000210374-0.023704352-0.06044981-6.09781E-05-0.0002103740

9、.00022733-0.0105018810.0030474740.00279921-0.0237044-0.01050190.85288927-0.1813998-0.000625893-0.060449810.003047474-0.181399810.07014880443.697-3130.03825.410196.884计算: 边远及少数民族聚居区社会经济发展水平的指标数据 .xlsT2=9* (-2003.23 2.25 -1006.11 2.71 12.01)*s-1* (-2003.23 2.25 -1006.11 2.71 12.01)'=9*50.11793817=

10、451,06144353F 统计量 =45.2>6.2 拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与 全国平均水平有显著差异。第三章聚类分析1. 聚类分析的基本思想和功能是什么? 研究的样品或指标之间存着程度不同的相似性, 于是根据一批样品的多个观测指 标,具体找出一些能够度量样品或指标之间的相似程度的统计量, 以这些统计量 作为划分类型的依据, 把一些相似程度较大的样品聚合为一类, 把另外一些彼此 之间相似程度较大的样品又聚合为另外一类, 直到把所有的样品聚合完毕, 形成 一个有小到大的分类系统, 最后再把整个分类系统画成一张分群图, 用它把所有 样品间的亲疏关系表示出来。作用

11、是把相似的研究对象归类。2. 试述系统聚类法的原理和具体步骤。首先将 n 个样品看成 n类(一类包含一个样品 ),然后将性质最接近的两类合并成 一个新类,得到 n-1类,再从中找出最接近的两类加以合并变成 n-2 类,如此下 去,最后所有的样品均在一类,将上述并类过程画成一张图便可决定分多少类, 每类各有哪些样品。3. 试述 K- 均值聚类的方法原理 K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心(均值)类中,它 是把样品聚集成 K 个类的集合,类的个数 k 可以预先给定或者在聚类过程中确 定,该方法应用于比系统聚类法大得多的数据组。把样品分为 K 个初始类,进 行修改,逐个分派样品

12、到期最近均值的类中 (通常采用标准化数据或非标准化数 据计算欧氏距离) 重新计算接受新样品的类和失去样品的类的形心。 重复这一步 直到各类无元素进出。第四章 判别分析1. 应用判别分析应该具备什么样的条件 被解释变量是属性变量而解释变量是度量变量,判别分析最基本的要求是, 分组类型在两组以上, 每组案例的规模必须至少在一个以上, 解释变量必须是可 测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。 假设之一是:每一个判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息, 更重要的是在这种情况 下无法估计判别函数。 不仅如此,有时一个判

13、别变量与另外的判别变量高度相关, 或与另外的判别变量的线性组合高度相关, 虽然能求解, 但是参数估计的标准误 差很大,以至于参数估计统计上不显著,这就是常说的,多重共线性问题。 假设之二: 各组变量的协方差矩阵相等, 判别分析最简单和最常用的的形式是采 用现行判别函数, 他们是判别变量的简单线性组合, 在各组协方差矩阵相等的假 设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。 假设之三: 各判别变量之间具有多元正态分布, 即每个变量对于所有其他变量的 固定值有正态分布,在这种条件下可以精确计算显著性检验值和分组归属的概 率,党委被该假设时,计算的概率将非常不准确。2. 试述贝叶斯

14、判别法的思路贝叶斯判别法的思路是先假定对研究的对象已有一定的认识, 常用先验概率 分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识, (先 验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。 将贝叶斯判别方法用于判别分析得到贝叶斯判别。( 1)最大后验概率准则设有总体 i (i=1,2,k),具有概率密度函数 fi(X) ,并且知道根据以往的统计分析,知道 i 出现的概率为 Pi。当样本 x0发生时,求属于某类的概率,由贝叶斯公式计算后验概率P( i x0)=Pi* fi(X)/ Pi* fi(X),i=1,2, ,kx l,p( l x) maxp( i

15、x)X最大后验概率准则采用的判别规则是:( 2)最小误判代价准则设有 K个总体 1, 2 ,., k分别具有 p维密度函数, p1 ( x ), p2 (x),., pk (x) ,已知出现这 k 个总体的先验概率分布为 q1,q2,.qk k用 D1, D2,., Dk表示样本 Rp的一个划分, D1, D2,., Dk 互不相交,且Di Rp,i1 如果这个划分取得适当, 正好对应于 k 个总体,这时判别规则可以采用如下方法 x i,x落入Di,i 1,2,3.k 用c(j i)表示来自样本 i而被误判为 j的损失,这一误判的 概率为 p( j i)Dj pi (x)dx 由以上判别规则带

16、来的平均损失 ECMkkECM(D1,D2,.,Dk)qi c(j i)p(j i) 定义c(ii) 0 ,目的是求 D1,D2,.,Dk,i 1 j 1使得 ECM 最小3. 试述费歇判别法的思想将k组 P维数据投影到某一方向, 使得它们的投影组与组之间尽可能地分开 K 个总体分别取得 k 组 P 维观察值G1 : x1(1) ,., x(1) n1n n1 n2 . nk( k) (k)Gk :x1 ,., x nk令 a 为Rp中的任一向量, u(x) a' x(n11)为 x向以 a为法线方向的投影,这时,上述数据的投影为G1 :a' x1(1),.,a ' x

17、(1) n1Gk :a' x1(k) ,.,a 'x(k) nkk组间平方和 SSG a' ni(X(i) X)(X(i) X)'a a'Ba X(i)为第i 组均值 X 为总 i1体均值向量kk组内平方和 SSE a'(X j(i) X (i) )( X j(i) X (i)'a a'Eai 1 j 1如果 K 组均值有显著差异,则SSG/ (k 1) n k a'Baa'BaF ' 应该充分地大 ,或者 (a) ' 应充分大SSE/(n k) k 1 a'Eaa'Ea(.)的极大

18、值为 1,它是 B E 0的最大特征根, l1,l2,.,lr为相应的特征向量,当a l1时,可使 (.)达到最大值,由于 (a) 的大小可以衡量 u(x) a'x判别的效果,所以称 (a) 为判别效率。得到以下定理:费歇准则下的线性判别函数 u(x) a'x的解 a为方程 B E 0的最大特征根 1所对应的特征向量 l1 ,且相应的判别效率为 (l1) 14. 什么是逐步判别分析如果在某个判别问题中, 将起最重要的变量忽略了, 相应的判别函数的效果一定 不好。而另一方面,如果判别变量的个数太多,计算量必然大,会影响估计的精 度,特别当引入了一些判别能力不强的变量时, 还会严重

19、影响到判别的效果。 变 量的选择关系到判别函数的效果, 适当筛选变量是一个很重要的问题。 凡是具有 筛选变量能力的判别方法统称为逐步判别法。(1)在 x1, x2 ,.xm中选出一个自变量,它使维尔克斯统计量i(i 1,2,.m) 达到最小,假定挑选的变量次序按照自然的次序,第一步选中x1,第 r 步选中 xr ,1 min i ,考察 1 是否落入接受域,如果不显著则表明一个变量也不选1 i m 中,不能用判别分析,如显著则进入下一步。(2)在未选中的变量中,计算它们与已选中变量 x1 配合的 值,选择使1imin i 最小的作为第二个变量,依此,如选中r 个变量,设 x1,x2,.xr ,

20、计算 1,2,.,r,l (r l m) ,使其最小的为第 r 1个变量,检验第 r 1个变量能否提 供附加信息,如果能则进入第四部,不能进入第三步。( 3)在已选入的 r 个变量中,要考虑较早选中的变量中重要性有没有较大的变 化,应及时把不能提供附加信息的变量剔除出去, 剔除的原则等同于引进的原则。例如在已进入的 r个变量中要考察 xl(1 l r )是否应剔除,就是计算l.1,.l 1,l 1,.r选择达到极小 (大)的,看是否显著,如不显著将该变量剔除,回到第三步,继续 对于下的变量进行考察是否需要剔除,如果显著则回到第二步。(4)这时既不能选进新变量,又不能剔除已选进的变量,将已选中的

21、变量简历 判别函数。5. 简要叙述判别分析的步骤及流程(1)研究问题:选择对象,评估一个多元问题各组的差异,将观测(个体 )归类,确定组与组之间的判别函数(2)设计要点:选择解释变量,样本的考虑,建立分析样本的保留样本(3)假定:解释变量的整体性,线性关系,解释变量间不存在多重共线性,协方 差相等(4)估计判别函数:联立估计或者逐步估计,判别函数的显著性(5)使用分类矩阵评估预测的精度:确定最优临界得分,确定准则来评估判对 比率,预测精确的统计显著性(6)判别函数的解释,需要多个函数,评价单个函数主要从判别权重、判别载 荷、偏 F 值几个方面,(评价两个以上的判别函数也需要,并且还要评价合并的

22、 函数,函数的旋转、能力指数,各组重心的图示、判别载荷的图示, )(7)判别结果的验证:分开样本或者交叉验证,刻画组间的差异。6. 为研究某地区人口死亡状况,已按某种方法将 15 个一直样品分为三类,指标及原始数据见下表,试建立判别函数,并判定另外四个带判样品属于哪类Analysis Case Processing SummaryUnweighted CasesNPercentValid1578.9ExcludedMissing or out-of-range group codes0.0At least one missing discriminating variable0.0Both m

23、issing or out-of-range group codes and at least one421.1missing discriminating variableTotal421.1Total19100.0Group StatisticsyMeanStd. DeviationValid N (listwise)UnweightedWeighted1X138.74206.8843455.000X211.90006.7852855.000X31.5000.7593155.000X412.24606.9758555.000X5100.05807.4774055.000X667.46002

24、.6968555.0002X139.53648.3720655.000X211.49608.4491155.000X32.93802.1253055.000X427.83006.1197155.000X5151.224017.6221955.000X666.05001.9072255.0003X138.500010.5680155.000X210.11809.8193055.000X3.6840.9079055.000X410.33209.6736055.000X593.946012.2527655.000X667.42003.0507455.000TotalX138.92618.104731

25、515.000X211.17137.856361515.000X31.70731.618971515.000X416.802710.823061515.000X5115.076029.227931515.000X666.97672.497351515.000Wilks' LambdaFdf1df2Sig.X1.997.019212.981X2.990.061212.941X3.6453.301212.072X4.4387.690212.007X5.17328.728212.000X6.926.478212.631对各组均值是否相等的检验,在 0.01 的显著性水平上, X4 、 X5

26、在三组的均值 有显著差异反映协方差矩阵的秩和行列式的对数值, 后者对各种体协方差阵是否相等的统 计检验,由 F 值及其显著水平,我们在 0.05 的显著性水平下接受原假设(原假 设假定各总体协方差阵相等)EigenvaluesFunctionEigenvalue% of VarianceCumulative %Canonical Correlation160.267 a98.998.9.9922a.6781.1100.0.636a. First 2 canonical discriminant functions were used in the analysis.第一判别函数解释了 98.9

27、%的方差,第二判别函数解释了 1.1%的方差Wilks' LambdaTest of Function(s)Wilks' LambdaChi-squaredfSig.1 through 2.01044.01412.0002.5964.9195.426第一判别函数在 0.05的显著性水平上是显著的标准化的判别函数Standardized CanonicalDiscriminant FunctionCoefficientsFunction12X1-17.048-7.685X214.7109.793X3-1.301-.513X46.403-.566X51.344.657X64.311

28、1.813Canonical Discriminant FunctionCoefficientsFunction12X1-1.951-.879X21.7421.160X3-.927-.366X4.827-.073X5.102.050X61.661.698(Constant)-78.860-29.413Unstandardized coefficients非标准化的判别函数Y1=-78.860+-1.951 X1+1.742 X2+-0.927 X3+0.827 X4+0.102 X5+1.661 X6 根据这个判别函数计算每个观测的判别 Z 得分 后者是判别函数在各组的重心 各组的先验概率Pr

29、ior Probabilities for GroupsFunctions at Group CentroidsCases Used in AnalysisFunctionyPriorUnweightedWeightedy121.33355.0001-2.6851.0022.33355.00029.523-.2543.33355.0003-6.838-.748Total1.0001515.000Unstandardized canonical discriminant functions evaluated at group meansClassification Function Coeff

30、icientsy123X1-158.299-181.006-148.660X2166.206186.018156.942X3-97.779-108.631-93.291X459.02669.21755.718X511.52212.71011.009X6201.552220.946193.435(Constant)-5586.484-6553.476-5227.094Fisher's linear discriminant functions每组的费歇线性判别函数Y=1 这组F1= -5586.484+-158.299 X1+166.206 X2+-97.779 X3+59.026 X4

31、+11.522 X5+201.552 X6Y=2 这组F2=-6553.476+-181.006 X1+186.018 X2+-108.631 X3+69.217 X4+12.710+ X5220.946 X6Y=3 这组F3=-5227.094 +-148.660X1+156.942 X2+-93.291 X3+55.718 X4+11.009 X5+193.435 X6将观测分到较大的函数值中带判样品 f1f2 f3分别如下3902.3613612.1173997.6615563.0035478.9575556.3037015.1927149.3516931.5745013.9214877

32、.5445030.7341 号待判 判为第三组2 号待判 判为第一组3 号待判 判为第二组4 号待判 判为第三组Classification ResultsyPredicted Group MembershipTotal123OriginalCount150052050530055%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0Cross-validated bCount150052140532035%1100.0.0.0100.0220.080.0.0100.0340.0.060.0100.0a. 100.0% of original groupe

33、d cases correctly classified.b. Cross validation is done only for those cases in the analysis. Incross validation, eachcase is classified by the functions derived from all cases other than that case.c. 80.0% of cross-validated grouped cases correctly classified.Predicted Group Membership 表示预设的所属组关系O

34、riginal 表示原始数据的所属组关系Cross-validated 表示交叉验证的所属组关系第五章 主成分分析1. 主成分的基本思想是什么? 在对某一事物进行实证研究时,为更全面、准确地反映事物的特征及其发 展规律,往往考虑与其有关的多个指标, 在多元统计中也称为变量。 一方避免遗 漏重要信息而考虑尽可能多的指标, 另一方面考虑指标的增多, 又难以避免信息 重叠。希望涉及的变量少,而得到的信息量有较多。主成分的基本思想是研究如何通过原来变量的少数几个线性组合来解释原 来变量绝大多数信息的一种多元统计方法。 研究某一问题涉及的众多变量之间有 一定的相关性, 必然存在着起支配作用的共同因素。

35、通过对原始变量相关矩阵或 协方差矩阵内部结构关系的研究, 利用原始变量的线性组合形成几个互相无关的 综合指标(主成分)来代替原来的指标。 通常数学上的处理就是将原来 P个指标 作线性组合,作为新的综合指标。最经典的做法就是用 F1(选取的第一个线性 组合,即第一个综合指标)的方差来表达,即 Var(F1)越大,表示 F1 包含的信息 越多。因此在所有的线性组合中选取的 F1 应该是方差最大的,故称 F1 为第一 主成分。如果第一主成分不足以代表原来 P个指标的信息,再考虑选取 F2 即选 第二个线性组合,为了有效地反映原来信息, F1 已有的信息就不需要再出现在 F2 中,用数学语言表达就是要

36、求 Cov(F1, F2)=0,则称 F2 为第二主成分,依此 类推可以构造出第三、第四, ,第 P 个主成分。2. 主成分在应用中的主要作用是什么?作用:利用原始变量的线性组合形成几个综合指标(主成分) ,在保留原始 变量主要信息的前提下起到降维与简化问题的作用, 使得在研究复杂问题时更容 易抓住主要矛盾。 通过主成分分析, 可以从事物之间错综复杂的关系中找出一些 主要成分, 从而能有效利用大量统计数据进行定量分析, 解释变量之间的内在关 系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。 主成分分析能降低所研究的数据空间的维数,有时可通过因子负荷 aij 的结论, 弄清

37、 X 变量间的某些关系,多维数据的一种图形表示方法,用主成分分析筛选 变量,可以用较少的计算量来选择,获得选择最佳变量子集合的效果。3. 由协方差阵出发和由相关阵出发求主成分有什么不同?由协方差阵出发设随即向量 X=(X1,X2,X3, Xp)'的协方差矩阵为 , 1 2 p为的特征值,1,2,p为矩阵 A 各特征值对应的标准正交特 征向量,则第 i 个主成分为 Yi= 1i*X1+ 2i*X2+ +pi*Xp,i=1,2, ,p 此时 VAR (Yi)= i ,(,), 我们把 X1,X2,X3, Xp 的协方差矩阵 的非零特征根 1 2 p> 0向量对应的标准化特征向量 1,

38、2,p 分别作为系数向量, Y1=1'*X, Y2=2'*X, , Yp=p'*X 分别称为随即向量 X 的第一主成分,第二主成 分第 p主成分。 Y 的分量 Y1,Y2, Yp依次是 X的第一主成分、第 二主成分第 p主成分的充分必要条件是: (1)Y=P'*X ,即P为 p阶正交阵, (2)Y的分量之间互不相关,即 D(Y)=diag( 1, 2, p),(3)Y 的 p个分 量是按方差由大到小排列,即 1 2 p。 由相关阵出发对原始变量 X 进行标准化, Z=( 1/2)-1*(X- ) cov(Z)=R 原始变量的相关矩阵实际上就是对原始变量标准化后的

39、协方差矩阵, 因此,有相 关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发 求主成分的过程与主成分个数的确定准则相一致的。 ,ii 分别表示相关阵 R 的特 征根值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为: Yi= i '*Z= i '* (1/2)-1*(X- )在实际研究中 ,有时单个指标的方差对研究目的起关键作用 ,为了达到研究 目的,此时用协方差矩阵进行主成分分析恰到好处。 有些数据涉及到指标的不同 度量尺度使指标方差之间不具有可比性 ,对于这类数据用协方差矩阵进行主成分 分析也有不妥。 相关系数矩阵计算主成分其优势效应仅体现

40、在相关性大、 相关指 标数多的一类指标上。 避免单个指标方差对主成分分析产生的负面影响, 自然会 想到把单个指标的方差从协方差矩阵中剥离,而相关系数矩阵恰好能达到此目 的。第六章因子分析1.因子分析与主成分分析有什么本质不同? ()因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的 一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成, 因此,我 们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子, 以及 公共因子和特殊因子的线性组合, 主成分分析则简单一些, 它只是从空间生成的 角度寻找能解释诸多变量绝大部分变异扥机组彼此不相关的新变量 ()因子分析中, 把

41、变量表示成各因子的线性组合, 而主成分分析中, 把主成分表示成各变量的线性组合()主成分分析中不需要有一些专门架设, 因子分析则需要一些假设, 因子分 析的假设包括, 各个因子之间不相关, 特殊因袭之间不相关, 公共因子和特殊因 子之间不相关()提取主因子的方法不仅有主成分法还有极大似然法等, 基于这些不同算法 得到的结果一般也不同,而主成分只能用主成分法提取()主成分分析中, 当给定的协方差矩阵或者相关矩阵的特征值唯一时, 主成 分一般是固定,而因子分析中,因子不是固定的,可以旋转得到不同的因子。 ()在因子分析中, 因子个数需要分析者指定, 结果随指定的因子数不同而不 同,主成分分析中,主

42、成分的数量是一定的,一般有几个变量就有几个主成分。 ()与主成分分析相比, 由于因子分析可以使用旋转技术帮助解释因子, 在解 释方面更加有优势, 而如果想把现有的变量变成少数几个新的变量来进行后续的 分析,则可以使用主成分分析。2.因子载荷 aij 的统计定义是什么?它在实际问题分析中的作用是什么? 因子载荷 aij 的统计定义,是原始变量 Xi 与公共因子 F j的协方差, Xi与 Fj都是 均值为 0,方差为 1 的变量,因此aij 同时也是 Xi 与的 Fj相关系数。 g2j a12j a22j . a2pj ( j 1,2,.,m),则g2j表示的是公共因子 Fj对于 X的每一分量 所

43、提供的方差的总和,称为公共因子 Fj 对原始变量向量 X 的方差贡献,是衡量 公共因子相对重要性的指标,计算出因子载荷矩阵 A 的所有 g j2,并按照大小排 序,提出影响力大的公共因子。第八章典型相关分析.试述典型相关分析的统计思想及该方法在研究实际问题中的作用 典型相关分析研究两组变量之间整体的线性相关关系, 它是将每一组变量作为一 个整体来分析研究而不是分析每一组变量内部的各个变量, 所研究的两组变量可 以是一组变量为自变量, 一组变量为因变量的情况, 两组变量也可以处于同等地 位,但典型相关分析要求两组变量都至少是间隔尺度的。 借助主成分分析的思想, 对每一组变量分别寻找线性组合, 使

44、生成的新的综合变量能代表原始变量大部分 的信息,同时与由另一组变量生成的新的综合变量的相关程度最大, 这样一组新 的综合变量称为第一对典型相关变量,同样的方法找到第二对,第三对 使 各队典型相关变量之间互不相关, 典型相关变量之间的简单相关系数称为典型相 关系数。.典型相关分析中的冗余度有什么作用 在进行典型相关分析的时候, 需要了解典型变量的解释比例, 从而定量测度典型 变量所包含的原始信息量的大小,此时就需要典型变量的冗余分析。冗余度 (Redundancy)分析结果,它列出各典型相关系数所能解释原变量变异的比例,可 以用来辅助判断需要保留多少个典型相关系数。.典型变量的解释有什么具体方法

45、,实际意义是什么 主要使用以下三种方法 (1)典型权重 (标准化系数),(2)典型载荷 (结构系数)(3)典型交叉载荷平均解释量是某一個典型因素与各观察变量之典型因素结构系数的平方和, 再除 以观察变量的个数。 (结构系数平方和 /个数)若 X、Y 变量的数目不同,則典型因 素对各自观察变量的累积解释量也会不同。结构系数大于等于 0.3就可以认为有意义;大于等于 0.5 就属于高度相关,可以 依此来判定有意义的结构。交叉结构系数是指 X 变量与另一个典型因素 之间的相关系数,或各 Y 变量与 另一側典型因素 間的相关系数。附表a16*a24(D)0.022763650.769521116-0.0989089865.03901603-1.59763332550.1179381750.1179381750.1179381750.117938250.11793817-2003.232.25-1006.112.7112.011. 边远及少数民族聚居区社会经济发展水平的指标数据 .xls青海436740.9204714.4842.92样本均值4208.7835.121965.8912.2127.79全国平均水平6212.0132.8729729.515.78样本均值 -全国平均 (A)-20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论