第六章回归分析_第1页
第六章回归分析_第2页
第六章回归分析_第3页
第六章回归分析_第4页
第六章回归分析_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第六章 回归分析引 言一、变量间的关系1.确定关系(函数关系)如正方形的面积 与边长 的关系、做匀速直线运动的质yx点的位移 与时间 的关系等等。St2.非确定关系(相关关系)例 1作物的单位面积产量 与施肥量 的关系。例 2人的体重 与身高 的关系。例 3人的血压 与年龄 的关系。yx例 4某种商品(如糖果)的消费量 与居民(按y人口计算)的平均收入 的关系。共同点变量间虽然存在着密切的关系,但从一个变量的每一确定值,不能求出另一变量的确定的值。可是在大量的试验中,这种不确定的联系,具有统计规律性,表现为的一个确定的概率分布yx|定义. 设有两个随机变量,对其中某一个变量的每一个可能的值,另一个变量有一个确定的概率分布与之对应。则称这两个随机变量间存在着相关关系。二、回归分析1.回归关系设 与 之间存在着某种相关关系。其中 是可以控制或可yxx以精确观察的变量(如年龄、试验的温度等等),即,可以随意指定 的 个值 。因此视 为普通变量。此时称变nnx,21量 对 具有回归关系。问题如何表达变量 对 的回归关系?y2回归分析是研究相关(回归)关系的一种数学工具,它能帮助我们从一个变量的取值去估计另外一个变量所取得的值.在各个学科领域得到广泛应用。2.回归分析要解决的一些问题设通过试验或抽样调查得到了 和 的一组观察值xy),(),(),(21nyx利用这些数据研究 与 之间的关系,需解决如下几个问题x(1)如何判断 与 间是否存在相关关系(或者回归关系)?利用样本数据做 与 的散点图,由散点图的yx趋势初步判断两者是否有线性关系(2)如何确定 与 之间的定量关系式(即回归函数)? yx用最小二乘法(3)如何对所确定的关系(回归模型)的可信程度作统计检验?t 分布检验法、相关系数 r 检验法(4)如何利用所得到 与 的定量关系式(回归模型)来解决实际问题?对变量进行预测和控制。下面,将围绕这四个问题展开讨论6.1 一元线性回归3设通过试验或抽样调查得到了 和 的一组观察值xy),(),(),(21nyx利用这些数据研究 与 之间的关系。x一、散点图利用 和 的一组观察值在直角坐标系上描点,得到),(),(),(21nyyx散点图,根据散点图的趋势,来观察 和 是否想直线关系。如x果是,可以考虑建立线性回归模型。例如,下列散点图中,上面两个象直线关系,可考虑对变量 和 建立线性回归模型。xy例 1为研究全国人均国民收入 x(元)与人均消费金额 y(元)之间的关系,收集到 19811990 年 10 年的样本数据如下表10,2),(iyxi年 份 1981 1982 1983 1984 1985人均国民收入 393 419 461 544 668人均消费金额 249 267 289 329 406年 份 1986 1987 1988 1989 19904人均国民收入 738 860 1069 1169 1251人均消费金额 451 513 643 699 71320 40 60 80 10 120X204060Y0回归分析解法后面将介绍:( 10, 757.2, 909739.6, 455.9,nxxnSy4559, 288428.9, 3963622,iy12ynii1 ,5623.06.90734925)(211 xniniiSb56.9410y经验线性回归方程为 ) xy二、模型(1)xy10其中, 、 为常数, 为普通变量, 、 为随机变量,01 y满足 ,即 。),(2N),(2N5自变量, 因变量, 随机波动项(误差)xy于是样本 满足,),(),(21nyxx,( ) (2)ii10 ,2假设 相互独立,从而 满足独立、正态、n,21 ,1等方差的前提条件。“确定 与 之间的定量关系式(即回归函数)” 的问题归结yx为“如何在上述假定下确定 、 和 ”的问题。01注 1当 、 和 已知时,由 可得 01),(210xNy01()| |yxPU对可靠性 , %9596.于是, 的点估计为 ,xy10误差限为 , 的置信区 6.间为 .,1100 x虚线为 的 95%的置信区间控制线 y注 2两类误差 实际问题中 、0和 未知的,要通过观测数据1进行估计。这样用 来预测 时,),(),(),(2nyxyx xy就面临两类误差(i) 所代表的误差随机误差,由 与 的关系的紧密程度决定,与数据 ( )无关。),i,1(ii)利用样本 ( )对 、 和 的估计所产生yx 01的误差,与数据及数据量的大小有关。6三、最小二乘估计线性回归模型: xy10设 , ,则 的估计值为0b1i,ib),2(n残差 ,)10iiie残差平方和 ni iiniinie xbyyS12101212 )(它描述了用线性函数 来近似表示 产生的误差程度。0bx最小二乘原则选取 和 使 达到最小。按照这种方法确定1eS的 和 叫做 和 的最小二乘估计,这种方法也0b10叫做最小二乘法。 和 的最小二乘估计确定关于 和 二元函数 的极值在二阶偏导书为 0 的点取得: 01eS0)1(20ni iiexbybS1i iii7正规方程niinini ii yxbxb112011)()(方程两边同除以 得niini yxbxbxy1120)(其解为 nini iiiiniiiii xyyxxyb 12121210 )()( 和 的最小二乘估计0称: 为 对 经验线性回归方程。y0y四、 的无偏估计2(1) 2)(nSEe(2) (重要!)记 , - 对 的回归剩)/(nSexy yx余方差 ,显然 ,即 为 的无偏估计。22.E2yxS- 对 的回归剩余标准差)/(exy注:简化最小二乘估计的计算步骤8记 ,niixS122)(niiyyS12)(注意: , ,表示样本二阶中心矩。221()nxiix 21()nyii不是样本方差,要注意区分。则 xbybnSxbiii 102111 ,)( ni iiiinie yyS121112 )()(, /( nSexy222xynSbna.将 输入计算器,求出 和 ,1 2xb.将 输入计算器,求出 、 和 n2 iy1yc.将 输入计算器,求出yxyx,1 niid.计算 xbynSbxiii 10211,)(e.写出经验线性回归方程 f.计算 , 1xye )2/( nSexy注:实际上,利用具有回归功能的计算器,输入相关数据后,就9可以直接把回归系数求出来,非常方便.要掌握计算器的这个功能。例 2某林场内随机抽取 6 块 0.08ha 大小的样地,测定样地的平均树高 与每公顷平均断面积 为xy样 地 号 1 2 3 4 5 6平均树高 ( )im20 22 24 26 28 30断面积( )iyha/224.3 26.5 28.7 30.5 31.7 32.9求: 对 的一元线性回归方程及回归剩余标准差。x解 6, 25, 70, 29.1,n2xnSy174.6, 53.12, 4425.4,i1yii1 ,8629.07425.4)(211 xniniiSb.65.910y经验线性回归方程为 xy890.3.3222xyenS 46)/(.)/(exy10五、 和 的最小二乘估计的性质01xbyb10niiiiixy121)(1. 和 的期望:010Eb可知: 和 分别为 和 的无偏估计12. 和 的方差b 02 22 2201 1()()yxbn ni ii ixxD S 记 为 122 2211 1()()yxyxbn ni ii i Sb nxx 记 为六.回归方程的显著性检验问题: 对 的线性回归关系是否显著,即回归关系y11是否成立。xy10假设检验类型为: 对 的线性回归关系不显著( 与 无关) 0Hyx: 对 的线性回归关系显著( 与 有关)1其等价的假设为: :011H0(一) 检验法:t可证明: 。其中1(2)bTtnS1 yxbSSn为真时,0H1对于给定的显著水平 ,有估计式: )2(|ntTP所以, 的拒绝域为0 )2(|ntT例 3以显著水平 =0.05,判断例 2 中 对 的线性回归关系是yx否显著。解 6, 25, 70, 29.1, 174.6, nx2xnSni153.12, 4425.4, , 2ySiiy1 496.0xyS, ,82.70254.)(21 xniniiSb1205971.46.70121 xybSn假设 : 对 的线性回归关系不显著0H=0.05, ,.2)()(5.tt检验统计量为 : 108691.(2).76.7bTtnS所以拒绝 ,即认为 对 的线性回归关系显著。0yx(二)样本相关系数检验法(常用的方法)设有样本niyxi ,2),(由最小二乘法得经验回归方程: xb10其中 , 以下用讨论用相关系数法对与 的相关性进行检验。yx残差平方和 :ni iiniie xbyyS121012)()(它描述了用经验线性回归方程 来近似表示 所产01y生的误差程度。1.平方和分解将 的离差平方和 分解yyS ni iinii yS1212)()()(13niiniiyy1212)()(回Se其中 niinii xb1221)()(回剩余平方和, 回归平方和。eS回 回Sey当 在 中占主要部分时,剩余平方和 在 中占次要回 yS eSy地位,这时候,说明数据都围绕在回归直线附近。即 与 的相x关程度是很高的。为此,很自然的想到用 在 所占的比例来回 y刻画 与 的相关程度。x2.样本相关系数 的定义r定义 记 yeS回12称 为 对 的样本(或经验)相关系数。ryx因 yer回2所以 ,10r时,所有点 均在回归直线上.1r niyxi ,2),(越接近于 1,说明 对 的相关关系越紧密。|3.样本相关系数 的计算公式r141 11122211()() ()()()n nnii i ii i i xnn yxyi ii ixyxyySr bnSxy 4. 和 的关系r1b(1) niiiiyxyxS121)(2) 与 符号相同r1b,则 ,回归直线斜0率为正,称 对 是正相关的。yx,则 ,回归直线斜r1率为负,称 对 是负相关的(3) 与 均表示 对 的线性byx关系的强弱,但 与 和 所取1的单位有关,而 与 和 的单r位无关。5. 利用样本相关系数 作回归方程的显著性检验15统计假设为: : :0H110检验用统计量: ,其中)2(1ntSbT1 yxbSSn对于给定的显著水平 ,有估计式: )2(|tTP的拒绝域为: (前面面已讨论)0 )(|t与 的关系: 。Tr2nr,所以 T 是 的单调增加函数。0T的 导 数如果 满足 ,记此 为 ,为相r1)(2rt)2(nr关系数 的临界值。 对于给定显著水平 ,估计式 等价形式为:)2(|ntTP)2(|nrP所以若用相关系数 来检验 ,那么 的拒绝域为:0H0)(r其中, 为相关系数临界值(查表(附表 17,P273) 。2n例 4 求例 2 中 对 的样本相关系数 ,并以显著水平yxr=0.05 判断 对 的线性回归关系是否显著。16解 6, 25, 70, 29.1, 174.6, nx2xnSyniy153.12, 4425.4, , , 2ySiiy15286.70b29.0b51.1.34.4)(21 yxniniiSr检验假设 : 对 的线性回归关系不显著。0H=0.05, 查表, 8.0)()(5.0rnr因为 4951.r所以拒绝 ,认为 对 的线性回归关系显著。0yx进一步,因 ,所以, 关于 是正相关的。例 5 为检验一次数学考试中,学生在某小题上的得分与学生的总分之间是否存在线性相关关系,随机抽取 10 名同学,将他们的得分情况记录如下表小题 X8.00 8.00 13.00 7.00 13.00总分 Y33.00 29.00 89.00 52.00 86.00小题 9.00 10.00 13.00 13.00 8.00总分 60.00 78.00 86.00 78.00 60.00试以显著水平 =0.05 判断学生在该小题上的得分 与学生的X总分 之间是否存在线性相关关系?解设 、 之间总体相关系数为 ,Xr则检验的原假设为 : 。0H117, =0.05,10n6319.0)8()2(5.0rnr由原始数据计算得 10.2, 57.6, xxS65.1, 651, 4334.9, 7067,yiy1yniiy1854.09.436.5720)(2yxniniiSr12 0.8690.13.12ynsrb或因 )(54.所以,拒绝 ,学生在该小题上的得分与学生的总分之间存在0H线性相关关系。注:(1) 检验、 检验两种方法者等价。tr(2) 检验的优势:用经验回归系数 来检验的 、 相r 1byx关程度的话,因为 是有量刚的,所以仅仅在 、 的量刚不变1b的情况下, 的大小能说明 对 相关的程度。而用相关系数1 yx来检验的相关程度的好处在于: 没有量刚,它的值不受 、r r的量刚改变的影响,它的大小说明了 对 相关的程度。x练习随机调查 10 名同学的身高和体重,依此判断人的身高和体重之间是否存在线性相关关系。七、预测对任一给定的 ,由回归方程得回归值:0x18,010xby其中 和 是 和 的最小二乘估计。0b1用 作为 的估计。yx预测:对给定的可靠性 ,找 ,使,00yP或 1|可以证明: )(, 2100 niixN于是, ),)(120xnyUii另外可以证明: ,及 与 独立。2SeeS0y由此, )(2nTe= (教材 P177(6.40) ))2()(1200ntxnSyniie19对给定的可靠性 ,由 ,11)2(|ntTP得 作为 的估计,其绝对误差限为(教材 P178(6.42) ):0y2 20 021() ()(2) (2)1e yxn xiiSxtn tnSnS 的可靠性为 置信区间为: .0y1,0其中 0xb注:当 时, 。随着 远离 , 逐渐增大。置信0min0x区间控制线形成以 为中心的喇叭口形(P178 图 6.6) 。当 时, 。随x0i着 远离 , 逐渐增大。置信区间控制线形成以 为中心的喇叭口形。 例 6 根据例 2 中的数据,求 时对应的 的估计值、可靠性为 95%的绝对误差限5.40x0y20和置信区间。解 6, 25, 70, 29.1, 174.6, nx2xnSyniy153.12, 4425.4, , , 2ySiiy15286.70b29.0b, ,496.0x 5.r经验回归方程为: 。x9.2867时, 740 5=0.95, 0.05, 2.7761)()

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论