(环境科学专业论文)地表水水质理化监测指标与生物监测指标的典型相关分析.pdf_第1页
(环境科学专业论文)地表水水质理化监测指标与生物监测指标的典型相关分析.pdf_第2页
(环境科学专业论文)地表水水质理化监测指标与生物监测指标的典型相关分析.pdf_第3页
(环境科学专业论文)地表水水质理化监测指标与生物监测指标的典型相关分析.pdf_第4页
(环境科学专业论文)地表水水质理化监测指标与生物监测指标的典型相关分析.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

四川大学硕士论文分析在研究地表水水质理化指标和生物指标这种多变量相关分析时是有效的。典型性相关分析与综合污染指数的结合使对水质理化指标与生物指标的判断更具有相关性。为两种水质监测方式的结合提供了一个很有效的途径。关键词:理化指标;生物指标;典型性相关分析;典型变量四川大学硬士论文t h ec a n o n i c a lc o r r e l a t i o na n a l y s i sb e t w e e np h y s i c a lc h e m i c a li n d e x e sw i t hb i o l o g i c a li n d e x e so fs u r f a c e 肠参e rg r a d u a t es t u d e n t :j i n gs us u p e r v i s o r :p r o f s a n g l a nd i n ga l o n gw i t hg o i n gd e e pi n t ot h ew a t e re n v i r o n m e n t a lq u a l i t ym o n i t o r i n gf i e l dr e s e a r c h ,w ed i s c o v e r e dt h a ti th a dc o m p l i c a t e dr e l a t i o n s h i pb e t w e e np h y s i c a l - c h e m i c a li n d e x e sa n db i o l o g i c a li n d e x e s t h i sp a p e rd i dr e s e a r c ho nt h er e l a t i o n s h i pb e t w e e nt h et w ot h r o u g hc a n o n i c a lc o r r e l a t i o na n a l y s i s ,a n db a s e do nt h er e s u l to ft h ec a n o n i c a lc o r r e l a t i o na n a l y s i st oc o m p a r et h ea s s e s s m e n to fw a t e re n v i r o n m e n t a lq u a l i t yb yu s i n gs y n t h e s i sp o h u f i o ni n d e x e sm e t h o dt oa n a l y z et h ep h y s i c a l - c h e m i c a li n d e x e sa n dt h ea s s e s s m e n to f w a t e re n v i r o n m e n t a lq u a l i t yf r o mb i o l o g i c a li n d e x e s t h i sp a p e rw o u l dc o m b i n et h ep h y s i c a l - c h e m i c a li n d e x e sa n dt h eb i o l o g i c a li n d e x e st ot o k e nt h ep o u u f i o ns i t u a t i o no f w a t e re n v k o n m e n t a lq u a l i t y w ea n a l y z e dt h ec o r r e l a t i o nb e t w e e nt h ep h y s i c a l - c h e m i c a li l l d e x e s ( p c i ) a n db i o l o g i c a li n d e x e s ( b i ) t h ep h y s i c a l - c h e m i c a li n d e x e si n c l u d ew a l e l t e m p e r a t u r e p r l ,s u s p e n d e ds u b s t a n c e , t o t a lr i g i d i t y , d i s s o l v e do x y g e n ,c h e m i c a lo x y g e nd e m a n d( c o d m ) b i o c h e m i c a lo x y g e nd e m a n da f t e r5d a y s o d s ) 。n o n - i o n - a m m o n i a ,n i t r i t e ,n i t r a t e t h eb i o l o g i c a li n d e x e si n c l u d et h el e t h a lc o n c e n t r a t i o no fb i gf l e a ,m c n ,pi n d e x e s a l g ac a t e g o r y , p e l a g i a np l a n tu n i lw ee n a c tp h y s i c a l - c h e m i c a li n d e x e sa 8i n d e p e n d e n tv a r i a b l e , a n db i o l o g i c a li n d e x e s 硒v a r i a b l e t h e nw ea n a l y z et h eg r e a tm o n i t o r i n gd a t at h r o u g ht h em e t h o do fc c ab ys a s ( s t a t i s t i c a la n a l y s i ss y s t e m ) , i nw h i c hw a yw ef o u n dt h em a j o rv a r i a b l e sw h i c ht a k et h er e l a t i v e l yh i g hp l a c eo fe f f e c tt oc a n o n i c a lc o m p r e h e n s i v ev a r i a b l e i nt h i sw a yw ef o u n dt h et y p i c a li n d e x e sw h i c hc a ne v a l u a t et h ew a t e rq u a l i t ym o s t l y a st h er e s u l t , s u s p e n d e dm四川大学硕士论文s u b s t a n c e 。c o d ,b o d , w h i c hi n c l u d e di np h y s i c a l - c h e m i c a li n d e x e s t y p i c a lv a r i a b l ea r ct h et y p i c a li n d e x e sw h i c hh a v et h eb i g g e s tc o r r e l a t i o nc o e f f i c i e n t a n dpi n d e x e s ,a l g ac a t e g o r y , p e l a g i a np l a n tu n i ta r et h et y p i c a li n d e x e sw h i c hh a v et h eb i g g e s tc o r r e l a t i o nc o e f f i c i e n tw i t hb i o l o g i c a li n d e x e s t y p i c a lv a r i a b l ea n da l s ot a k et h em o s th j 曲p l a c et oe x p l a i nt h ec o r r e l a t i o nb e t w e e nt h ec a n o n i c a lc o m p r e h e n s i v ev a r i a b l e w ea l s oa n a l y z et h ed a t ao f9d i f f e r e n ts i t eb yc c a a n dw eu s e dt h em e t h o do fm p it oa n a l y z et h e9d i f f e r e n tr e s u l t sf r o mc c a i nt h i sw a y , w er e a c h e dad e f i n i t ee v a l u a t i o nr e s u l to nt h eb a s i so fs y n t h e s i z i n ga l lk i n d so fe v a l u a t i o nr e s u l t so fb i o l o g i c a li n d e x e sa n dw i t hp h y s i c a l - c h e m i c a li n d e x e s a sar e s u l tw ec a ne v a l u a t ew a t e rq u a l i t yw i t hc o m p r e h e n s i v eb i o l o g i c a li n d e x e si nf i xq u a n t i t yl i k ep h y s i c a l - c h e m i c a li n d e x e s 。w et r yt of i n dt h em o s te f f i c a c i o u so u t p u tt oa n a l y z et h ec a n o n i c a lc o r r e l a t i o nd u r i n gt h ep r o c e s so ft h ec c a se x p l a n a t i o n s w ea l s oi n a k et h ec o n f i r m a t i o n o ft h ee f f i c i e n c yo fu s i n gc c at oa n a l y z et h ec o r r e l a t i o nb e t w e e np c ia n db lt h e nc o n t r a s tt h er e s u l t so fd i f f e r e n tm e t h o d st op r o v et h ea d v a n t a g eo fc c ai nt h er e a l mo fm u l t i p l e - v a r i a b l es t a t i s t i c sa n a l y s i s a sar e s u l to ft h ee x p e r i m e n tw ec a l le n s l l l _ et h a tc c ac a l lf m dt h em o s te s s e n t i a la n dm o s tt y p i c a li n f o r m a t i o nf r o mt h eg r e a td a t a , i nw h i c hw a ya v o i d i n gt h er e p e a t e dd a t a se f f e c ta n da l s ot h ee f f e c to fd a t a so m i t t i n g c c ai st h ep o w e r f u lw a yt oa n a l y z em u l f i p l e - v a r i a b l e a n dt h ec o m b i n a t i o no fc c aa n dm p is u p p l ya ne f f i c i e n tw a yt or e a c had e f i n i t ee v a l u a t i o nr e s u l to nt h eb a s i so fs y n t h e s i z i n ga l lk i n d so fe v a l u a t i o nr e s u l t so fb i o l o g i c a li n d e x e sa n dp h y s i c a l - c h e m i c a li n d e x e s ,i nw h i c hw a y , w ec a l lr e s o l v et h eq u e s t i o no fh o wt oe v a l u a t ew a t e rq u a t i t yb yb i o l o g i c a li n d e x e si nf i xq u a n t i t y k e yw o r d s :p h y s i c a l - c h e m i c a li n d e x e s ,b i o l o g i c a li n d e x e s ,c a n o n i c a lc o r r e l a t i o na n a l y s i s ,c a n o n i c a lc o m p r e h e n s i v ev a r i a b l e i v四川大学硕士论文l 绪论1 1 本文研究背景,1 1 生物监测的意义日前,世界各国普遍采用的对水环境进行监测和评价的方法大致分为两大类;一类是理化分析方法,即采用各种仪器,通过定量或定性的分析方法,能够直接分析测定水环境内有害物质或它们的浓度。这一类监测方法能够有针对性、比较快速、灵敏的监测到水环境内确定的危险化学物质种类的的含量,实现原位( i n - s i t u ) 或在线( 0 n 。l i n e ) 的量化监测。但是,理化方法分析测定需要一定的时间。另外,虽然有一些在线的监测仪器可以快速的分析出预定化学品的含量,但结果并不能够直接反映水环境内化学物质对水生生物的影响,尤其是当几种化学物质对水生生物的联合作用,以及环境因子( 如温度、p h ,溶解氧、酸碱度、硬度等 对化学物质毒性的影响,这在水环境内就对各种化学品混合后所可能出现的毒性放大现象不能够实施有效监测,同时对需要及时监测的突发性事故不能实现实时监测( p , e a t - e m em o n i t o r i n g ) ,根本不能达到水质实时在线预警的目的。另一类是生物学方法,是通过把生物监测技术与环境科学相结合的一种方法,包括生态学方法、毒理学方法等【l 】作为水生生态毒理学( a q u a t i ce c o t o x i c i t y ) 的一个重要组成部分,利用水生生物对水环境质量进行的生物监测( b i o l o g i c a lm o n i t o r i n g 或b i o - m o n i t o r i n g ) 不仅可以用来测定和评价单一化学物质对水环境内水生生物的影响,而且还能直接用来测定工业废水的毒性和几种化学物质混合后的联合毒性,并为研究化学物质的致毒机理积累资料i ”生物监测可及时反映污染物的综合毒性效应及可能对环境产生的潜在威胁,掌握水环境质量,发现一般监铡和理化监测所发现不了的环境问题。过去十分强调物理监钡4 和化学监测,对生物监测不够重视。殊不知理化k 监测的方法即使技术先进,所设计的精密仪器也只能测出毒物的浓度,它无法测出它的毒性强度。毒性的强弱只能通过生物监测的方法才能获得。但是生物监测不能鉴别是哪种特殊毒物所引起的反应,而只能指示有害物质的出现。因此必需和理化监测结合起来,才能互相取长补短,真正达到保护环境的日的。四川大学硕士论文1 1 2 水质监测指标的关系研究水质指标中的各项指标有许多复杂的关系,为此人们从统计学上作了的研究如:张乃英从统计学角度分析了2 0 0 3 年太子河鞍山段三个监测断面的c o d m 、氨氮、总磷、石油类等主要污染物通量相互间的相关性。结果表明,各断面c 0 d 与b o d 5 、b o d e 与石油类、氨氮与l a s 、c o d m 与总磷等污染物通量间均呈显著性相关,为寻找各污染物间的内在规律提供一种途径。结果表明:c o d 、生化需氧量、氨氮、总磷、石油类、高锰酸盐指数、阴离子表面活性剂均为衡量地表水有机污染程度的指标【3 】。左一鸣等人在对太子河水质理化指标的相关关系分析中引入多元统计中的类离差平方和系统聚类法,对太湖焦山站的高锰酸盐指数、生化需氧量、溶解氧、氨氮、亚硝酸盐氮、硝酸盐氮、总磷、总氮等8 个水质指标进行了聚类分析计算,探索其相关关系。结果表明,硝酸盐氮与总氮、氨氮与亚硝酸盐氮、高锰酸盐指数与总磷可以聚为一类,而5 d 生化需氧量与溶解氧各成为一类( 4 1 。由于生物指示物对环境变化的明显的反映,尤其是用于短期试验( 急性试验) 的生物的影响是很明显的。如在毒性试验中,测试大型蚤死亡率和利用紫露草的微核技术等。如何在大量的监测数据中找到两种指标之间的复杂关系,这个问题的解决能对两者之间的关系做出量化解释寻找到有效途径。为寻找生物指标与理化指标的关系,很多人做出了努力。陈宇炜等人利用逐步回归分析方法寻找太湖梅梁湾藻类及相关环境因子的相关程度结果显示,水温和总磷为梅梁湾藻类总生物量的显著相关因子水温、硝态氮和总氮为微囊藻生物量的显著相关因子嘲。王宏镔等人利用紫露草微核技术监测滇池水质污染,研究微核率污染指数和化学监测污染指数间的相关分析,得出两者相关系数为0 8 9 3 7 ,且在a - - 0 0 1水平上显著,说明两种不同的监测手段所得出的结论是基本一致的 6 1 。吴卿饮等人研究影响饮用水中细菌总数测定的实验条件及理化指标方法,结果表明余氯与细菌总数有较好的负相关关系:浊度与细菌总数之间存在较好的正相关关系1 7 1 。李秀珍等人在研究地表水的常规理化监测指标如何反映水质的生物学效应中,利用回归方程选择影响因子。指出酚、c r 6 + ,a s 3 + 三个指标反映水质的生物指标大型蚤死亡率,可以反映水质的生物学毒性。三个水质指标的毒性。与人2四川大学硕士论文们的判断基本吻合。微生物监测微核指数法用于地表水水质监测时,若地表水中的致畸物含量较低时,微核指数反映的是水中有机物含量及水的p h 值偏离情况,不能反映水中的重金属。地表水中的各种有机物在p h 值偏离中性的环境下,通过相互作用,具有致畸致变效应( s 1 李再培通过水质生物监测中的生物学指标的讨论,较准确的反映被监测水体的水质状况,进而对水体有机污染程度做出客观地评价删还有相关文献傲了这方面生物指标之间的p e m s o n 相关分析,生物指标与理化指标之间s p e a r m a n相关分析i 坷。看来在监测指标的筛选这一方面还需要大量的工作。1 2 本文研究意义在水质条件相对较为复杂的情况下,影响水质的因素很多,不能用单一指标代表,要综合考虑各种因素。从前面对生物指标及理化指标的描述可以看出,在水质监测的各项指标里,无论是生物指标之间,理化指标之间,还是生物指标与理化指标之间都存在联系。在评价水质时,我们需要监测大量的监测指标,在具体监测过程中又常常出现重复测试和无效测试,造成大量的浪费而生物学指标就是在水生生物监测中探讨某些生物类群甚至整个群落在种类、数量上如何对水体污染条件做出反应,从而在定性和定量角度上提出某些指数,以评价水体的污染情况。采用多个生物指数评价水质的目的是从不同角度综合反映水体质量,但在具体过程中对候选生物指数进行筛选,以筛除重复信息量的一组生物指数中点多个指数,获得一组较合理的生物指数用来共同评价水质,可直接用于水质生物评价。若能在理化监测指标和生物监测指标中找到能够反映彼此综合关系的几项指标来进行评价水质污染状况,则会大大提高监铡效率。从前人的研究得知,生物指标有许多是能够综合反应好几项理化指标的。长期以来,水生态系统中生物的结构组成以及它们在种类、数量及丰度上随水污染程度而变化这一现象受到人们的极大关注,生态学家一直致力于使这种变化数量化并与水体质量建立联系,从而有效地评价和监测水污染状况。由此产生了3 种生物学指数n 1 1 ;多样性指数( d i v e r s i t yi n & x e s ) 、相似性指数( s i m i l a r i t yi n d e x e s ) 和生物指数( b i o t i ci n d e x e s ) 。前两种指数是利用群落的结构和功能参数为基础建立的。生物指数是利用筛选的指示生物( i n d i c a t o ro r g a u i s m ) 或生物类群与水体质量的相关性,特别是考虑它们与污染物之间的关系,从而划四川大学硕士论文分不同污染程度的水体。与多样性指数和相似性指数有所不同,生物指数的重点是放在具体指示种类上,传统意义上的指示生物是那些对污染耐受范围较窄的种类,随着资料的不断积累人们发现,这种概念有明显的缺陷,因为即使以前认为最耐污染的种类,也常常在较清洁水体中出现。因此,生物指数在完善过程中综合了多样性指数的优点,逐渐由单纯用指示生物确定水污染程度向更多地考虑群落结构参数的方向发展。目前生物指数的研究有b e c k 指数、b e a k指数、w o o d i w i s s 指数、c h a n d l e r 分数系统、污生系统等,所有这些生物指数不是直接建立在水质化学分析结果的基础之上的【l “7 1 。为了解决这一方法上的不足,有人以原生动物作为对象,以化学数据为基础处理生物数据,提出了种类污染值( s p v ) 和群落污染值( c p v ) 的概念。利用化学综合污染指数这一普遍接受的水质化学评价方法,将原生动物对污染的反映属性直接建立在化学参数的基础之上而得以数量化获得种类s p v ,使依赖于s p v 的生物指数c p v 能更客观地反映水质状况。经过几个水系的反复和互相验证。说明c p v 能较客观地反映水质状况【1 s - 2 0 l 。本论文就是以化学数据为基础来研究生物数据,试图寻找理化指标与生物指标之间的相关关系,从而为在水质化学分析基础之上建立一种与理化指标相关性更强的生物指数提供途径。在参考众多监测项目来评价水质时,面对历年的大量监测数据,工作量很大,在众多的项监测项目中如果可以尝试提取最重要的信息,则既能进行水质分析,又大大减少了工作量。为了要做到这一点,本论文在总结了前人所运用的统计方法基础上,尝试用一种有力的多元统计方法典型相关分析法来对生物指标和监测指标之间的关系进行比较系统地分析,并结合综合污染指数评价法进行污染判断,将判断结果与直接用生物指标来评价水质污染类型的判断结果进行对比。4四川大学硕士论文2 典型性相关分析2 1 典型相关分析的基本思想在对某一事物进行实证研究时,为了更全面、准确地反映出事物的特征及其发展规律,往往主要考虑与其有关系的多个指标,这些指标在多元统计中称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可髋多的指标,而另一方面随着考虑指标的增多而增加了问题的复杂性,同时由于经常会出现好几项指标是反映同一类事物的情况,不可避免地造成信息的大量重叠,这种信息的重叠有时候甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多【2 n 。当研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构的研究,利用原始变量的线性组合形成几个综合指标,在保留原是变量主要信息的前提下起到降维与简约同题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般的说来利用典型相关分析得到的典型变量与原始变量之间有如下的关系:( 1 ) 新获得的输入输出典型相关变量之间具有最大的相关性,输入项或输出项间的相关性最小。( 2 ) 典型相关变量保留了原始变量的绝大部分信息。通过典型相关分析,可以从事物之间错综复杂的关系中找出一些主要的成分,从而有可能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入典型相关分析( c a n o n i c a lc o r r e l a t i o na n a l y s i s 简称c c a ) 由霍特林( h o t e l l i n g )于1 9 3 6 年提出的【翻,是研究两组变量之间相关关系的多元统计方法。典型相关分析主要借用主成分分析的降维思想,分别对两组变量提取主成分,且使从两组变量之间的相关程度达到最大,而从同一组内部提取的各主成分之问互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系嘲。四川大学硕士论文2 2 典型相关分析的基本原理要解释典型性相关分析的原理阱弼,首先设爿趣挖,一物y ,y2 ( y l ,y 2 ,y q ) 7 是两个相互关联的随机向量利用主成分的思想,分别在两组变量中选取若干有代表性的综合变量“, ,每一综合变量都是原变量的一个线性组合,即r,铲剐m 相f 2 娩扣一+ 唧i ? 工( 2 - 1 )lv i = b i l y l + b i 2 y 2 + + y q = 6 y7可以只考虑方差为1 的j ,y 的线性函数a x 与b y ,求使它们的相关系数达到最大的一组,如果存在口。b 使1 1 p ( a :x ,易:y ) = m a x ( a x ,的)( 2 2 )v a t ( a x ) = l( 2 3 )v a r ( b y 1 = l ( 2 - 4 )则称口:工,ey 是工,y 的第一对典型相关变量。求出第一对典型相关变量后,还可以去求第二对,第三对,使得各对之间是互不相关的,这些典型相关变量反映了石与y 之间的相关情况。也可以按照相关系数绝对值大小来排列对典型相关变量的先后次序,第一对相关系数绝对值最大,第二对次之,。更重要的是检验各对典型相关变量的相关系数绝对值是否显著的大于0 ,如果是,这一对典型相关变量就是具有代表性,否则,就不具有代表性,不具有代表性的变量就可以忽略。这样可以通过对少数典型相关变量的研究,代替原来两组变量之间相关关系的研究,从而容易抓住问题的本质。2 3 典型相关分析的计算方法2 3 1 样本典型相关的计算方法随机向量j ;g ,恐而) ,y :( y l ,y :,y 。) ,的协方差矩阵为:6四川大学硕士论文c o v 睁= 巨乏( 2 5 )为了研究两组变量工与y 的相关关系,可以考虑它们的线性组合:“1 2 口。江咀l 吼+ q 2 屹+ + ,a p x p( 2 6 )1v = b y = b ll y l + b 1 2 y 2 + + 吻”式中:武1 1 ,q p y ,b = ( b 1 1 ,b 1 2 ,q p ) ,为任意非零常数向量希望在工,y 及给定的条件下,选取口,易,使“l 与v 1 之间的相关系数p 达到最大。户:c o v ( 。l ,1 ) 州。1 ) 州v 1 ) 1 ( 2 7 )由于hj ,1 ,j 乘以任意常数不改变它们之间的相关系数,所以取标准化的”j 及j 即规定“j 及9j 的方差均为1 ,即( 2 - 8 )p = l i i ( 如劬= c o y ( x , y ) b = 嘎6 ( 2 - 9 )于是问题变成了在( 2 - 8 ) 的约束条件下,求4 r9 ,占仨露。,使得式( 2 - 9 ) 达到最大,利用拉格朗日乘数法,构造g = g z = b 一2 1 2 ( a y , l i a - 1 ) 一# 2 ( b 1 2 1 l b 1 )( 2 - 1 0 )式( 2 - 1 0 ) 中:旯,为拉格朗日乘数因子,将g 对珥易求偏导,令其等7ll=口6l2l2笼t口易=) ),工,y口6,i、,i、rraavy=、,、,li“p,i、,l、rraavvrl、卉j日比四川大学硕士论文于0 ,最终可得:陋- a 2 2 1 一蛳 = 。式( 2 1 1 ) 有非零解的充要条件是:除e 2 1 一乏l :。( 2 - 1 1 )( 2 1 2 )此时,取最大的a l ,“j 与y l 有最大的相关系数令口1 b l 为正规化的解,则“l = 口:工,l = 易:y 分别为石与y 的正规化线性组合,且具有最大的相关系数1 接下来还可以继续求得第二对,第三对,典型相关变量,各对之间均互不相关,另外还可以求得第二对,第三对,典型相关变量对应的相关系数p 2 ,p 3 ,在实际问题的研究中,总体协方差矩阵常常是未知的,必须通过获得的s = 臣乏协s 1 1 。( z ( n ) f 瓴一i - 孑) ( 2 - 1 4 )+$222 叭,l 叫】i 豸( 婀胁歹) ( 2 - 1 5 )四川大学硕士论文ns j 22 【j ( 撑1 蓦“- z x y f 一歹)n7s 2 j _ 【( n 叫】j 邑( 咒。歹。i ),li :1 n 刀f _ j 咒歹= 1 n 咒l = 1( 2 1 6 )( 2 - 1 7 )( 2 - 1 8 )( 2 - 1 9 )s 可以作为的估计当n p4 - q 时,一般情况f ,s 是正定矩阵,放一般可以认为5 j j 一,5 2 2 。1 存在5j j - 1 5 252 2 - 1 5 2 j 和52 2 52 j 5 j j 一5j 2 可分别作为2 l l - 1 2 1 2 2 2 - 1 z2 1 和z2 2 22 l z l l 2 1 2 的估计;它们的非零特征值2 r m ( m - - r a n k s ) 可用来估计 2 如屯。相应的特征向量岛,龟,包作为码,a 2 ,的估计,t ,龟,瓦作为岛,玩。,吒的估计。因此,r t , r 2 ,r 称y oi 样本的典型相关系数;( a 0 ,反y ) ,( a 2 x ,0 ) ,) 叫做样本典型相关变量,接下来的求法跟总体典型的求解方法相同。2 3 2 典型相关系数的显著性检验在计算出典型相关系数后必须要验证其是否具有显著性,以确定该对典型变量间的相关关系是否具有代表性。典型相关系数采用大样本的工2 检验法,检验过程如下: = o ( 2 - 2 0 )喝:a 0 ( 2 - 2 1 )求出z l l - 1 2 1 2 z2 2 - 1 z2 l 的p 个特征根,并按大小顺序进行排列,9四川大学硕士论文砰巧刀,做乘积a 1 = ( 1 一砰) ( 1 一) ( 1 一乃) = 1 i o 一符) ( 2 2 2 )对于大的n ,计算统计量q = 一i 一l l ,2 ( p + q + 1 ) l l n ,q 近似服从自由度f = p q 的,分布( p q ) 。因此在检验瑾水平下,求出统计量的临界值,。( p q ) a 如果q x 2 a ( p 吁) 则拒绝原假设峨,接受备择假设凰。然后再去掉第一个典型相关系数后,继续检验余下的p 1 个典型相关系数的显著性。一般情况下,当检验第,个典型相关系数的显著性时,应计算= ( 1 一番) ( 1 一臻) ( 1 一霉) = n ( 1 一智)( 2 - 2 3 )并计算统计量岛= 一 一j l 2 ( p + q + 1 ) l n a ,则g 服从自由度,= ( p 一,+ 1 ) ( 鼋一j + 1 ) 的,分布,( p - j + 1 ) ( q - j + 1 ) 。在检验口水平下,求出统计量的临界值矿。( p - j + 1 ) ( q - j + 1 ) ,判断准则与蜴相同。2 4 典型相关分析的步骤典型相关分析的步骤有以下6 步d 1 蜘:( 1 ) 确定典型相关分析的目标;( 2 )设计典型相关分析;( 3 ) 检验典型相关分析的基本假设;( 4 ) 估计典型模型,评价模型拟合情况;( 5 ) 解释典型变量。( 6 ) 稳定性检验。2 4 1 确定典型相关分析的目标典型相关分析所适用的数据是两组变量。假定每组变量都能赋予一定的理论意义,通常一组可以定义为自变量,另一组可以定义为因变量典型相关分析可以达到以下耳标:( 1 ) 确定两组变量相互独立,或者相反,确定两组变量间存在关系的大小。( 2 ) 为每组变量推导出一组权重,使得每组变量的线性组合达到最大程度关。最大化余下的相关关系的其他的线性函数是与前面的线性函数独立的。( 3 ) 解释自变量与因变量组中存在的相关关系,通常是通过测量每个变量对典型函数的相对贡献来衡量。1 0四川大学硕士论文2 4 2 设计典型相关分析典型相关分析作为一种多元分析方法,与其他的多元分析技术有共同的基本要求。其他方法( 尤其是多元回归、判别分析和方差分析) 所讨论的测量误差的影响、变量类型及变换也与典型相关分析有很大关系。样本大小的影响和每个变量需要足够的观测都是典型相关分析经常遇到的。研究者容易使自变量组和因变量组包含很多的变量,而没有认识到样本量的含义。小的样本不能很好地代表相关关系,这样掩盖了有意义的相关关系。建议研究者至少保持每个变量1 0 个观测,以避免数据的“过度拟合”2 4 3 典型相关分析的基本假定线性假定影响典型相关分析的两个方面。首先,任意两个变量间的相关系数是基于线性关系的。如果这个关系不是线性的,一个或者两个变量需要变换。其次,典型相关是变量间的相关。如果关系不是线性的,典型相关分析将不能测量到这种关系。可从变量组中提取的典型变量( 函数) 的最大数目等于最小数据组中的变量数目。比如,一个研究问题包含5 个自变量和3 个因变量、可提取的典型函数的最大数日是3 。2 4 3 1 推导典型函数典型相关程度是通过相关系数( o m ( v m ,瞄= ) 的大小来衡量的。典型相关系数的平方( ) 表示一个典型变量通过另外一个典型变量所解释的方差比例,也可称作两个典型变量间共同方差的比例。典型相关系数的平方值与典型根或者特征值( e i g e n v a l u c ) 的关系是:特征值:,( 1 ) 。2 4 3 2 典型函数的解释一般来讲,实际提取的典型函数都是典型相关系数在某个水平( 比如0 0 5 )上显著的函数。对显著的典型变量的解释是基于这样的假设,即认为相关的函数中,每组中的变量都对共同方差有较大贡献。海尔( i i a i r ,1 9 8 4 ) 等人推荐三个准则结合使用来解释典型函数。这三个准则是:( 1 ) 函数的统计显著性水平;( 2 )典型相关的大小;( 3 ) 两个数据集中方差解释的冗余测量。通常认为一个有统计显著性的相关系数可接受显著性水平是0 0 5 ( 也有0 0 1四川大学硕士论文的水平) 。统计软件所提供的最常见的检验是基于r a o 近似的f 统计量。除了对每个典型函数分别进行检验以外,全部典型根的多元检验也可以用来评价典型根的显著性。许多评价判别函数显著性的测量,包括w i l k s l a m a d a 、h o t e l l i n g迹、p i l l a i 迹和r o y sg c r 。计算冗余指数分三步:( 1 ) 共享方差的比例。在典型相关分析中,我们关心因变量组的典型变量与每个出变量的相关关系。这可以从典型载荷中获得,表示每个输入变量与它的典型变量间的相关系数。通过平方每个因变量的载荷,可以得到每个因变量通过因变量组的典型变量解释的方差比例。为了计算典型变量所解释的共同方差的比例,将典型载荷的平方值进行简单平均。( 2 ) 解释的方差比例。第二步是要计算通过自变量典型变量能够解释的因变量典型变量的方差比例。这也就是自变量典型变量与因变量典型变量间相关系数的平方,也就是典型相关系数的平方。( 3 ) x 余指数。一个典型变量的冗余指数就是这个变量的共同方差比例乘以平方典型相关系数,可以得到每个典型函数可以解释的共同方差部分。要得到较高的冗余指数,必须有较高的典型相关系数和由因变量典型变量解释的较高的共同方差比例。研究者应注意虽然在典型函数中两个典型变量的典型相关系数是相同的,但是两个典型变量的冗余指数却有可能差异很大,因为每个都有不同的共同方差比例。已有人提出关于冗余指数的检验,但还没有得到广泛应用。2 4 4 解释典型变量即使典型相关系数在统计上是显著的,典型根和冗余系数大小也是可接受的,研究者仍需对结果做大量的解释。这些解释包括研究典型函数中原始变量的相对重要性主要使用以下三种方法:( 1 ) 典型权重( 标准相关系数) ;( 2 ) 典型载荷( 结构系数) ;( 3 ) 典型交叉载荷( 交叉结构系数) 。2 4 4 1 典型权重传统的解释典型函数的方法包括观察每个原始变量在它的典型变量中的典型权重,即标准化相关系数s t a n 删c a n o n i c a lc o e f f i c i e n t s ) 的符号和大小有较大的典型权重,则说明原始变量对它的典型变量贡献较大,反之则相反。原始变量的典型权重有相反的符号说明变量之间存在一种反面关系,反之则有四川大学硕士论文正面关系。但是这种解释遭到了很多批评。这些问题说明在解释典型相关的时候应慎用典型权重。2 4 4 2 典型载荷由于典型权重的缺陷,典型载荷逐步成为解释典型相关分析结果的基础。典型载荷分析,即典型结构分析( c a n o n i c a ls u - u c t u r e a n a l y s i s ) ,是原始变量( 自变量或者因变量) 与它的典型变量间的简单线性相关系数。典型载荷反映原始变量与典型变量的共同方差,它的解释类似于因子载荷,就是每个原始变量对典型函数的相对贡献。2 4 4 3 典型交又裁荷它的提出是作为典型载荷的替代,也属于典型结构分析。计算典型交叉载荷包括使每个原始因变量与自变量典型变量直接相关,反之亦然。交叉载荷提供了一个更直接地测量因变量组与自变量组之间的关系的指标。2 5 其他多变量相关分析方法对比2 5 1 典型相关分析的特点在统计学中描述变量问相关关系的方法很多,例如,回归分析可以考虑若干个自变量与某一个变量和某些变量之间的联系,其优点是因变量与自变量之间的关系明确,缺点是整体性不够;还有主成分分析法、因子分析法和对应分析法都可以用来研究变量间的互相依赖关系。大量的实际问题需要扩展到两组随机变量,两个随机向量之间的互动关系,典型相关分析是研究此关系的有力工具 3 6 1 对于双向有序数据。可用等级相关分析,如两变量的相关系数有统计学意义,可认为变量间存在趋势关系,由相关系数的符号来判断趋势的走向等级相关只适用于分析两变量间的相关,则既可对两变量作等级相关,也可对多变量作等级相关分析但因为这两种相关分析给有序变量的等级赋值过于简单,因此不能最大限度地获得两有序变量之间的相关信息。典型相关分析是在使两有序变量的相关达到极大的前提下,给有序变量的各等级赋值,从而进行相关分析。典型相关分析类似主成因分析,考虑到每组变量的线性组合,从这2 组四川大学硕士论文线性组合中找到最相关的组合变量,通过少数几个综合变量来反映两组变量间的相关关系,这是典型相关分析的基本思想。典型相关的功能在于分析两组变量间的关系,这两组变量的数目可以不只一个当两组都只含一个变量时,就是两变量的简单相关分析;当一组含一个变量,另一组含多个变量,就是一个因变量与多个自变量的多元相关分析;当2 组都含多个变量时,就是典型相关分析【3 7 1 。当输入项变量( 或输出项变量) 之间存在高度的内在相关性,这将会造成变量之间的线性重合问题,例如,输入项变量x 2 与x 3 的相关系数达0 9 8 7 9 ,使得其中一个变量对新的综合变量的贡献降低,这势必会严重影响分析结果。在多输入项、多输出项的例子中,必须以典型相关分析法来产生大量相关的输入输出项综合变量。简单地说,典型相关分析法,在于找到原始输入项与输出项两变量间的线性组合,使得两个线性组合相关程度达到最大,组间的相关系数为最小,全新的变量集合来取代原是变量的集合。使用典型相关分析可以使输入( v ) 与输出项变量( w ) 之间有最大的相关性,即v a r ( v ) 和w l t h ( w ) 而且可以使得输入项变量与输出项变量的组内( 即v l 和v 2 或w l 和w 2 ) 相关性达到最小,避免变量之间的线性重合现象2 5 2 其它相关分析方法2 5 2 1 主成分分析主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ) ,也称主分量分析,是由霍特林( h o t t e l i n g ) 【3 8 】于1 9 3 3 年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多样统计方法。通常把转化生成综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不会损失太多信息,从而抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部1 4四川大学硕士论文分变量的相关系数都小于0 3 时、运用主成分分析不会取得很好的效果。很多研究工作者在运用主成分分析方法时,都或多或少存在着对主成分分析去除原始变量重叠信息的期望,这样,在实际工作之初就可以把与某一研究问题相关而可能得到的变量( 指标) 都纳入分析过程,再用少数几个主成分浓缩这些有用信息( 假定已剔除了重叠信息) ,然后对主成分进行深入分析在对待重叠信息方面,生成的新的综合变量( 主成分) 是有效剔除了原始变量中的重要信息,还是仅仅按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,这一点还值得讨论 3 1 1 2 5 2 2 筒单的相关分析统计学中,相关分析是以分析变量问的线性关系为主,是研究它们之间线性相关密切程度的一种统计方法。反映两个变量之间密切程度的指针称为相关系数,样本的相关系数用f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论