研究生课件(课程)统计 相关与回归_第1页
研究生课件(课程)统计 相关与回归_第2页
研究生课件(课程)统计 相关与回归_第3页
研究生课件(课程)统计 相关与回归_第4页
研究生课件(课程)统计 相关与回归_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

直线相关与回归xjli@流行病与卫生统计学系统计室山东大学公共卫生学院本章内容直线相关分析的基本概念直线相关分析步骤相关分析注意事项Spearman秩相关直线回归分析的基本概念直线回归分析步骤回归分析注意事项直线相关与回归的区别与联系相关关系与确定性关系的比较两变量间的相关分析——直线相关分析直线相关分析的基本概念相关分析是研究变量或变量集合之间数量协同变化关系密切程度和方向的统计方法。两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positivecorrelation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negativecorrelation)。——相关的方向两变量间的相关分析——直线相关分析两个相关关系的图示(散点图)yx两变量间的相关分析——直线相关分析r=0(h)r=0(f)r=-1(d)r=1(b)0<r<1(a)-1<r<0(c)r0(e)r

0(g)零相关正相关负相关完全正相关完全负相关零相关零相关零相关直线相关分析的资料要求(双变量X,Y正态分布)(单变量X量正态分布)xf(x)f(x,y)两变量间的相关分析——直线相关分析相关系数(CorrelationCoefficient

)用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlationcoefficient),又称为积矩相关系数(coefficientofproduct-momentcorrelation),Pearson相关系数。两变量间的相关分析——直线相关分析两变量间的相关分析——直线相关分析相关系数(CorrelationCoefficient

)相关系数没有量纲,且-1r1。当r>0,且(ρ=0)被拒绝时,认为两变量之间呈正相关关系;当r<0,且(ρ=0)被拒绝时,认为两变量之间呈负相关关系。当r值接近于零,且(ρ=0)被接受时,认为两变量之间不呈直线关系,但不能排除两变量之间可能存在某种曲线关系。两变量间的相关分析——直线相关分析相关系数(CorrelationCoefficient

)两变量间的相关分析——直线相关分析相关系数(CorrelationCoefficient

)相关分析的步骤例题1:某克山病区10名健康儿童头发与全血中的硒含量1000ppm(百万分之一)如下:问发硒与血硒之间有无直线相关关系?两变量间的相关分析——直线相关分析相关分析的步骤(1)绘制散点图:在直角坐标系内绘制x,y散点图。①若散点图呈直线趋势时,计算相关系数;②若散点图呈曲线趋势,进行曲线拟合;③若散点图显示无任何趋势,则不必进行分析。本例散点图为:两变量间的相关分析——直线相关分析相关分析的步骤(2)计算相关系数:r=0.872两变量间的相关分析——直线相关分析相关分析的步骤(3)相关系数的假设检验:也就是说,根据样本计算出的相关系数r,是总体相关系数ρ的估计值。从ρ=0(无直线相关)的总体中抽取样本,其r不一定为0。因此,得到r≠0后,由于存在抽样误差,则有必要检验r是否来自ρ=0的总体,以判定两变量间是否有直线相关关系。两变量间的相关分析——直线相关分析相关分析的步骤(3)相关系数的假设检验:1)

建立假设,确定检验水准2)

计算统计量本例:两变量间的相关分析——直线相关分析相关分析的步骤(3)相关系数的假设检验:3)

确定P值,做出推断结论本例,r=0.872,发硒与血硒高度相关。两变量间的相关分析——直线相关分析两变量间的相关分析——直线相关分析(4)总体相关系数ρ的可信区间估计:1.点值估计:=r2.区间估计:若0,则r呈偏态分布,估计的可信区间时应进行变量变换变换后的变量z近似服从正态分布,其100(1-)%可信区间为:然后将z的可信区间的下、上限分别进行逆变换,即得的可信区间:或相关系数的抽样分布

(||=0.8,n=100,1000次抽样)-0.8-0.6-0.4-0.20.00100200300-1.0

00.20.40.60.81.00100200300

=-0.8

=0.8R.A.Fisher(1921)的提出的z变换

z近似服从均数为,标准差为的正态分布。

相关系数的z变换值的抽样分布(=-0.8)00.51.01.52.0050100150200-0.8-0.6-0.4-0.20.00100200300-1.0变换前变换后

01234050100150200

00.20.40.60.81.00100200300相关系数的z变换值的抽样分布(=0.8)变换前变换后相关系数的可信区间估计1.将r变换为z。2.根据z服从正态分布,估计z的可信区间。3.再将z变换回r。求得8名健康成人血清总胆固醇与低密度脂蛋白胆固醇含量间的r=0.974,试求总体相关系数ρ的95%可信区间。z的95%可信区间:

总体相关系数ρ的95%可信区间:

(0.85870.9954)直线相关分析中的注意事项两变量间的相关分析——直线相关分析

(1)在进行相关分析(Pearson相关)前,需作散点图,从散点图的趋势判断是否可以作线性相关分析;

(2)样本相关系数与总体相关系数间存在抽样误差,所以求得样本相关系数后应进行假设检验。

(3)相关关系是一种共变关系,不一定是因果关系;有无因果关系还需结合专业知识进一步研究。

(4)在实际工作中要区别相关的统计学意义与相关强度。相关有统计学意义指该样本相关系数r来自ρ=0的总体概率很小,而相关强度表示两变量间相互关系的密切程度,用r值的大小来反映。直线相关分析中的注意事项两变量间的相关分析——直线相关分析

(5)作相关分析时,必须剔除异常点。异常点就是一些特大或特小的离群值,相关系数的数值受这些点的影响较大,有此点时两变量相关,无此点时可能就不相关了。所以,应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。

直线相关分析中的注意事项两变量间的相关分析——直线相关分析(6)分层资料不宜盲目合并进行相关分析。若将分层资料合并进行分析,可能会出现各层内均不相关而合并后出现相关的假象,也可能本来各层内两变量均有相关而合并后掩盖了其真实的相关性。因此,进行相关分析时,如果不能确定各层研究对象具有同质基础,不宜盲目合并。等级相关分析的基本概念两变量间的相关分析——等级相关分析

前述的直线相关分析要求两变量来自双变量正态分布资料,当不能满足此条件时,需用等级相关又称秩相关(rankcorrelation)来分析两变量间的关系。等级相关属于非参数统计方法,常用的方法有Spearman秩相关。它是用等级相关系数(rankcorrelationcoefficient)来反映两变量间相关关系的密切程度和方向的。等级相关系数计算公式:两变量间的相关分析——等级相关分析等级相关分析的基本概念两变量间的相关分析——等级相关分析数值变量资料的等级相关分析例题2:在肝癌病因研究中,调查了某地10个乡的肝癌死亡率(1/10万)与玉米中黄曲霉毒素相对含量,资料见下表。试作相关分析。两变量间的相关分析——等级相关分析该资料不服从双变量正态分布,用等级相关分析。数值变量资料的等级相关分析(1)求等级相关系数两变量间的相关分析——等级相关分析数值变量资料的等级相关分析(2)对等级相关系数做假设检验1)建立假设,确定检验水准2)计算检验统计量3)确定p值,得出结论。两变量间的相关分析——等级相关分析双向有序R×C表资料的等级相关分析例题3观察依沙酰胺治疗皮肤真菌感染效果的临床试验结果见表3,试分析该病的疗效是否与病程有关?两变量间的相关分析——等级相关分析双向有序R×C表资料的等级相关分析Spearman等级相关:Ho:总体等级相关系数等于0H1:总体等级相关系数不等于0α=0.05(双侧)对子数n=435

差值平方和=8894802,Tx=972115,Ty=1421112.5

等级相关系数rs=0.3516,P=0.0000

等级相关系数rs′=0.2148,P=0.0000

结论:经检验,按α=0.05水准拒绝Ho…..两变量间的回归分析——直线回归分析“回归”一词的由来及其生物学意义

“回归”一词最早由Golton(戈尔顿)在一项有关父亲与儿子身高的关系的研究中提出。儿子身高(Y)与父亲身高(X)自然是相关的,他发现身材高大的父亲所生儿子的身高有不少要比父亲矮,而身材矮小的父亲所生儿子的身高有不少要比父亲高。进一步研究表明:虽然高个子的父亲常生高个子的儿子,但儿子身高超过父亲的概率要小于比父亲矮的概率;同样,虽然矮个子的父亲常生矮个子的儿子,但儿子身高比父亲更矮的概率要小于比父亲高的概率。也就是说不可能无限制的一代比一代高,或一代比一代矮。后代的高度有向人群中个体的平均高度“回归”的趋势;离开均值越远,所受到回归的压力也越大。两变量间的回归分析——直线回归分析无论是身材高还是身材矮的父亲所生儿子的身高都有向人群的平均身高“回归”的趋势,这就是回归的生物学含义。后来人们借用“回归”这个词来描述通过自变量(independentvariable)的数值预测因变量(dependentvariable)的平均水平。即通过可测或易测的变量对未知或难测或不可测变量的状态进行估计叫做回归分析(regressionanalysis)。“回归”一词的由来及其生物学意义两变量间的回归分析——直线回归分析

这项研究由

F·Galton(1822——1911年)和他的学生、现代统计学的奠基者之一K·Pearson(1857——1936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为:“回归”一词的由来及其生物学意义Galton数据散点图(英寸)FrancisGaltonFrancisGalton爵士(英,1822~1911)是达尔文(CharlesDarwin)的表弟。他对统计学的主要贡献是提出“相关”与“回归”的概念,用统计方法对进化论中的变异进行研究,开创了生物统计学。两变量间的回归分析——直线回归分析KarlPearsonKarlPearson(英,1857~1936)是FrancisGalton的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。两变量间的回归分析——直线回归分析40

目前“回归”已成为表示变量之间数量依存关系的统计术语,并且衍生出“回归方程”、“回归系数”等统计学概念。两变量间的回归分析——直线回归分析回归分析的种类一元回归(简单回归)多元回归(复回归)线性回归非线性回归一元线性回归按自变量的个数分⒈按回归曲线的形态分⒉直线回归分析的基本概念两变量间的回归分析——直线回归分析如果某一个变量随着另一个变量的变化而变化,并且它们的变化趋势呈现直线趋势,就可以用一个直线方程来定量地描述它们之间的线性数量依存关系,这就是直线回归分析(linearregressionanalysis)。直线回归分析中两个变量的地位不同,其中一个变量是依赖于另一个变量而变化的,因此分别称为因变量(dependentvariable)和自变量(independentvariable),习惯上分别用Y和X表示。

Y因变量,响应变量

(dependentvariable,responsevariable)X自变量,解释变量

(independentvariable,explanatoryvariable)b回归系数

(regressioncoefficient,slope)a截距

(intercept,constant)样本线性回归模型的几个概念两变量间的回归分析——直线回归分析总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数截距a表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。两变量间的回归分析——直线回归分析总体与样本一元线性回归模型残差(Residual):e两变量间的回归分析——直线回归分析几何意义a>0:回归线与纵轴交点在原点上方。a<0:回归线与纵轴交点在原点下方。a=0:回归线通过原点。统计学意义a表示自变量X取值为0时相应Y条件均数的估计值。a的单位与Y值相同当X可能取0时,a才有实际意义。线性回归模型中参数的几何意义截距a:两变量间的回归分析——直线相关分析XY回归系数:线性回归模型中参数的几何意义两变量间的回归分析——直线回归分析b表示自变量X变化一个单位时应变量Y的平均改变量。|b|越大,表示Y随X变化越快,直线越陡峭线性LINEARITY:

因变量均数与X间呈直线关系独立

INDEPENDENCE

每一观察值之间彼此独立(在给定自变量x的条件下,残差的条件期望值为零,本假设又称零均值假设);该条件实际上隐含着:各随机误差项互不相关;随机误差项与相应的自变量x不相关。给定X时,Y正态分布(Normal):对于任何给定的X,Y服从正态分布,均数为Y|X,标准差为Y|X,该条件实际隐含着误差项服从正态分布(随机误差,即残差服从均值为零,方差为2的正态分布)。等方差(Equalvariance)或标准差相等:对于任何X值,随机变量Y的标准差Y|X相等;隐含着不论x取何值,y都具有相同的方差(对于所有的自变量x,残差的条件方差为2,且为常数)。线性回归模型的建模假设(LINE)两变量间的回归分析——直线回归分析XY直线回归分析的步骤例题1:某克山病区10名健康儿童头发与全血中的硒含量1000ppm(百万分之一)如下,试建立发硒(x)与血硒(y)之间的回归模型?两变量间的回归分析——直线回归分析直线回归分析的步骤两变量间的回归分析——直线回归分析1绘制散点图:同相关分析,即在直角坐标系内绘制散点图。①若散点图呈直线趋势时,建立直线回归方程;②若散点图呈曲线趋势,进行曲线拟合;③若散点图显示无任何趋势,则不必进行分析。直线回归分析的步骤两变量间的回归分析——直线回归分析2建立直线回归方程实际上是求出回归方程中的回归系数b和截距a:求回归系数b和截距a的方法有最小二乘法、高斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。这里重点给大家介绍最小二乘法。从上图得知,要使能够最好地代表y和x在数量上的互变关系,必须使yx0xiyi(yi-)实际观察值与估计值之差两变量间的回归分析——直线回归分析直线回归分析的步骤2建立直线回归方程最小二乘法的基本原理:分别对上式的a和b求偏导:两变量间的回归分析——直线回归分析直线回归分析的步骤2建立直线回归方程用最小二乘法求回归方程:解方程组,得到回归系数b和截距a:直线回归分析的步骤两变量间的回归分析——直线回归分析2建立直线回归方程直线回归分析的步骤两变量间的回归分析——直线回归分析3绘制回归线

总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数对于直线回归分析,回归系数的假设检验,也是直线回归方程的假设检验。由于抽样误差的存在,回归系数b往往不等于总体回归系数,要判断是否来自=0的总体,也必须进行假设检验。常用的回归系数的假设检验有方差分析和t检验。两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验

两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法

Y总变异的分解(1)建立假设,确定H0:=0,即两变量无直线关系H1:0,即两变量有直线关系=0.05(2)求统计量F剩余(误差)平方和回归平方和总离差平方和两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法

(2)求统计量F两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法

(2)求统计量F两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法

(2)求统计量F两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法

(3)确定P值,做出结论两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——t检验法

(2)求统计量t两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——t检验法

(2)求统计量t(3)确定P值,做出结论查t界值表,得到P<0.05……两种方法的等价性:两变量间的回归分析——直线回归分析直线回归分析的步骤5直线回归方程拟合效果评价本例:R2=0.7595亦称为回归模型的拟合优度检验。检验回归模型对样本数据的拟合程度。1)决定系数(determinationcoefficient)(Rsquare)2)校正的决定系数(adjustedRsquare)两变量间的回归分析——直线回归分析直线回归分析的步骤6直线回归方程的区间估计两变量间的回归分析——直线回归分析直线回归分析的步骤6直线回归方程的区间估计(1)总体回归系数的可信区间估计本例总体回归系数的95%的可信区间为(0.1276,0.3440)

为回归系数的标准误,n-2为自由度。两变量间的回归分析——直线回归分析直线回归分析的步骤6直线回归方程的区间估计(2)总体均数的可信区间估计

两变量间的回归分析——直线回归分析直线回归分析的步骤6直线回归方程的区间估计(3)个体Y值的预测区间

两变量间的回归分析——直线回归分析直线回归分析的步骤6直线回归方程的区间估计在固定x处,总体均数的可信区间估计

与个体Y值的预测区间

含义不同:

前者表示在固定x处,反复抽样100次,可算出100个相应的y的总体均数的置信区间,有100(1-)个置信区间包含总体均数;而后者表示预测值的取值范围,即在固定x处,随机抽取100个个体,平均将有100(1-)个个体值在求出的范围内。两变量间的回归分析——直线回归分析直线回归分析的步骤6直线回归方程的区间估计反映了用估计的回归方程去预测而引起的误差。

可用于确定有关误差项的假定是否成立。用于检测有影响的观测值。两变量间的回归分析——直线回归分析7残差分析因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示.e0两变量间的回归分析——直线回归分析0000eeee两变量间的回归分析——直线回归分析两变量间的回归分析——直线回归分析8直线回归分析的应用两变量间的回归分析——直线回归分析直线回归分析的注意事项1.做回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律。2.直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值。3.进行直线回归分析时,应先绘制散点图(scatterplot)。散点图提示有直线趋势存在时,才可作直线回归分析。4.绘制散点图后,若出现一些特大或特小的离群值(异常点,outlier),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。否则,异常点的存在会对回归方程的参数估计产生较大影响。5.应注意回归方程的适用范围,回归直线不宜外延。两变量间的回归分析——直线回归分析直线相关与直线回归的区别与联系区别1.资料要求不同。相关要求两个变量呈双变量正态分布;回归要求应变量服从正态分布,自变量是能精确测量和严格控制的变量。2.统计意义不同。相关反映两变量间的伴随关系,这种关系是相互的,对等的,不一定有因果关系;回归则反映两变量间的依存关系,有自变量与因变量之分,一般将“因”或较易测定、变异较小者定为自变量。这种依存关系可能是因果关系或从属关系。3.分析目的不同。相关分析的目的是描述两变量间的相互关系,并用一个定量的指标来反映这种关系的方向和密切程度;回归分析的目的则是描述因变量与自变量间的数量依存关系,从而可以进行统计预测和统计控制。两变量间的回归分析——直线回归分析联系1.对同一资料,r与b的符号一致,都能说明两变量间关系的方向。

2.相关系数与回归系数的假设检验是等价的,对同一样本,。因此实际应用中同一组资料进行相关和回归分析时,只检验其中之一即可。3.相关与回归可以相互解释。相关系数的平方等于回归平方和占总平方和的比例,即反映应变量的总变异中归因于自变量的部分。又称决定系数(coefficientofdetermination),可以用来衡量回归效果的优劣。两变量间相关关系越密切,越接近1,说明回归平方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论