《多元回归分析》PPT课件.ppt_第1页
《多元回归分析》PPT课件.ppt_第2页
《多元回归分析》PPT课件.ppt_第3页
《多元回归分析》PPT课件.ppt_第4页
《多元回归分析》PPT课件.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七讲 多元回归分析,(主讲人:许雪剑 唐桂庆),在许多经济问题中,一元线性回归只不过是回归分析中的一种特例,它通常是对影响某种经济现象的许多因素进行了简化考虑的结果。 若某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣传费x1,还有个人可支配收入x2,价格x3,研究与发展费用x4,各种投资x5,销售费用x6. 因此我们需要进一步讨论多元回归问题。,第一节 多元线性回归 第二节 可化为多元线性回归的问题 第三节 自变量的选择与逐步回归,第一节 多元线性回归,多元线性回归模型一般形式 其中, ,是p+1个未知参数,为回归常数,为回归系数。y称为被解释变量, ,, 是p个可以精确测量并可以控制的一般变量,称为解释变量,对一实际问题,若得到n组观测数据( , , ; ),i=1,2,n,则线性模型可表示为:,写成矩阵形式 y1 1 x11 x21 x1p Y= y2 x= 1 x12 x22 x2p yn 1 x1n x2n xnp 1 2 e= n 则 Y=X+e,一、多元线性回归模型的基本假定 解释变量x1,x2,xp是确定性变量,不是随机变量,而且rk(X)=P+1n,表明矩阵X中的自变量列间无多重共线性 随机误差项具有零均值和同方差 E( i)=0 var( i)=E( i -E( i)2=E( i)2=2 随机误差项在不同样本点之间是相互独立的,不存在序列相关 cov( i, j)=0 ij i,j=1,2,n cov( i, j)=E( i -E( i)( j -E( j) =E( i )E( j) =0,随机误差项与解释变量之间不相关 cov(xi, i)=0 随机误差项的正态分布假定条件为,二、回归参数的估计 设 令 即,以上是通过使用最小二乘法(OLSE)对回归参数进行的估计,得到的回归参数的最小二乘估计为 在正态假定下,回归参数 的最大似然估计(MLE)与最小二乘法(OLSE)是完全相同的,三、回归方程的效果的检验 方程显著性检验 回归系数显著性检验 拟合优度 链接,1.方程显著性检验(F检验) F检验是以方差分析为基础,对回归总体线性关系是否显著的一种假设检验,是解释模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著的方法 利用F统计量进行总体线性显著性检验的步骤如下: (1)提出关于P个总体参数的假设 H0:b1=b2=bp=0 (2)构造统计量 (3)检验 给定显著性水平,查F分布表 若FF,拒绝H0,表明回归总体有显著性关系. 若FF ,接受原假设,表明不存在线性关系,2.回归系数显著性检验 回归系数显著性检验,是对每个解释变量进行检验. 如果解释变量对被解释变量的影响不显著,应从模型中删除,如果解释变量对被解释变量的影响显著,应保留在模型中. 利用t统计量进行参数显著性检验的步骤如下: (1)对总体参数提出假设:H0:bi=0 (2)构造统计量: (回归标准差) (3)检验 对给定,若tt /2,说明拒绝原假设 若tt /2,则接受原假设.,当有多个自变量对因变量y无显著影响时,可以剔除多余变量,但由于自变量间的交互作用,不能一次剔除所有不显著变量。一般是将t值(绝对值)最小的变量删除掉,每次只剔除1个变量 ,再对求得的新的回归方程进行检验,直到保留的变量都对y有显著影响为止。 返回,3.拟合优度 拟合优度用于检验回归方程对样本观测值的拟合程度。 样本决定系数 的取值在(0,1)区间内, 越接近1,回归拟合的效果越好; 越接近0,回归拟合的效果越差。,四、复相关系数和偏相关系数 复相关系数R是由SSR和SST构造的统计量,用来表示回归方程对原有数据拟合程度的好坏,衡量作为一个整体的x1,x2,xp与y的线性关系的大小。,复相关系数表示的是因变量与全体自变量之间的线性关系,它的符号不能由某一自变量的回归系数的符号来确定,因而复相关系数都取正号。,其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系数称为偏相关系数。,简单相关系数只是一种数量表面上的相关系数,而并非本质的东西。在多元回归分析中,偏相关系数才真正反映因变量y与自变量 以及自变量 与 的相关性的数量。 返回,五、预测 所谓预测就是给定解释变量一组值 通过建立的多元回归模型,估计出对应的 1、y0的点预测: 2、y0以概率(1-)落在某区间的区间预测: 其中 为随机误差项的标准差,第二节 可化为多元线性回归的问题,在自然科学中,y关于x 的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。,多项式函数 Y=0+ 1x + 2x2+ + pxp 设i=xi 则多项式化为: Y= 0+ 1 1 + 2 2 + + p p 多元幂函数 y=x1 1 x2 2 xp p lny=ln + 1ln x1+ pln xp 令z= lny, 0= ln ,i= ln xi z= 0 + 1 1 + 2 2+ + p p,指数函数 y=ae ixi y=a+ 1x1 + 2x2+ + pxp z= y, 0= a,则 z= 0 + 1x1 + 2x2+ + pxp 多元对数函数 y=a+ 1x1 + 2x2+ pxp 设i= xi, 则 y=a+ 1 1 + 2 2 + p p,指数函数与幂函数的积 y=aexp ixi xibi y=a+ 1x1 + 2x2+ + pxp +b1x1 +b2x2+ +bpxp 令z= y, 0= a,i= xi z= 0 + 1x1 + 2x2+ + pxp +b1 1 +b2 2+ +bp p,如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数 如果是三次差分大致相同,则可配合三次多项式函数,第三节 自变量选择与逐步回归,在建立一个实际问题的回归模型,我们应该如何确定回归自变量。 如果遗漏了某些重要的变量,回归方程的效果肯定不好。 如果考虑过多的变量,在这些变量中有些自变量对问题研究可能不重要,有些变量可能与其它变量有很大程度的重叠。如果模型把这些变量也引入的话,不仅计算量增大,而且得到的回归方程的稳定性也很差,直接影响了回归方程的应用。,在实际应用中,希望拟合这样一个模型,它既能较好的反映问题的本质,又包含尽可能少的自变量。这两个方面的一个适当折中就是回归方程的选取问题,其基本思想是在一定的准则下选取对因变量影响较为显著的自变量,建立一个既合理又简单实用的回归模型。,在前面,我们认为残差平方和 最小和复相关系数 来衡量回归拟合的好坏。 因为当引入的自变量的个数增大时,残差平方和随之减少,而复相关系数也随之增大。因此如果按上述原则来选择自变量,不论什么变量多取就行。但是由于变量之间的多重共显性,给自变量的估计值带来了不稳定性,加上变量的抽样误差积累将是y值得估计值误差增大。,一 穷举法,所谓穷举法就是从 所有可能的回归方程中按一定的准则选取最优的一个或几个。 设在一个实际问题的回归模型中,如果有m个可供选择的变量,由于每个变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有 个,这其中包括只包含常数项的这种情况。 下面给出几种选取准则:,1 从拟合的角度考虑的准则,准则1自由度调整复决定系数达到最大。 当给模型增加自变量时,复相关系数的增大是以残差自由度的减少为代价的。随着自由度的减少,模型估计和预测的可靠性也在降低。 调整复决定系数 其中, 为样本容量, 为自变量的个数。,显然有 , 随着自变量的增加并不一定增大。因为 随着变量的增加而减少,但由于其前面的系数起折扣作用,使得 随着自变量的增加并不一定增加。当所增加的自变量对y不产生影响时, 反而可能减少。 在一个实际问题的回归建模中,自由度调整复决定系数越大,所对应的回归方程越好。,准则2 平均残差平方和达到最小。 平均残差平方和是指对应于模型中 的估计 ,其中 为自变量的个数。 在此无偏估计式中加入了惩罚因子 ,它体现了对自变量个数的增加所施加的惩罚。,一开始自变量个数开始增加时,虽然因子 增大了,但此时 减少很多,故总起来说 还是减少的。 当自变量增加到一定程度,重要的自变量基本上都已选上了,这时再增加自变量, 减少不多,以至于抵消不了 的增加,最终导致了 的增加。 随着自变量个数的增加,平均残差平方和是先减小后增大的趋势。,用平均残差平方和 来衡量回归方程的拟合优度,应该用 最小者所对应的回归子集为最优方程。 在自由度调整的复相关系数中,由于 。由于分母并不随p的变化而变化,因而使 达到最小的准则和使调整的复相关系数达到最大是等价的。,2 从极大似然估计方法考虑的准则,准则3 赤池信息量AIC达到最小。 AIC既可以用于时间序列分析中的自回归模型的定阶上,也可以用来作回归方程自变量的选择。 AIC= ,其中 是与自变量个数 无关的常数。,在回归分析的建模过程中,对每一个回归子集计算AIC,其中最小者所对应的模型是“最优”回归模型。 由于在正态假定下,参数的OLSE与MLE是一致的,因此, AIC准则在OLSE的情况下也是适用的。,3 从预测的角度考虑的准则,准则4 统计量达到最小。 马勒斯从预测的角度提出的。 统计量为 ,其中 ,为考虑到所有因素的全模型中 的无偏估计。 选择最小 最小的自变量子集,这个子集对应的回归方程就是最优回归方程。,理论上,从所有可能的回归方程中选择应该是最好的方法。但是,穷举法所要拟合的回归方程数随自变量数目的增加而成倍增加,因此当自变量的数目较大时,计算量很大以至于难以实现。 在这种情况下,逐步回归是一种可行的选择最优回归方程的方法。,二 逐步回归,一、“最优”回归方程的选择 1.回归方程中包含尽量多的信息 2.回归方程中包含尽量少的变量 方法: 逐步剔除的回归分析方法 逐步引入的回归分析方法 “有进有出”的回归分析方法(逐步回归分析方法),逐步剔除法(backward),1、用全部m个变量建立一个回归方程 2、对每个变量的回归系数进行F检验,选m个系数中F值最小者记为 。如果有 ,则考虑把 剔除。 3、对剩余的m-1自变量重新建立回归方程,再检验 4、直至回归方程中的变量的F检验值都大于 ,没有可剔除的变量为止。这时候的得到的回归方程就是最重确定的方程。,逐步剔出法有明显的不足。一开始把全部自变量引入回归方程,计算量很大。如果有些自变量不太重要,一开始就不引入,可减少一些计算量。再就是一旦某个自变量被剔出,它再也没有机会重新进入回归方程。,逐步引入法(forward),1、将所有自变量分别与因变量建立一元线性回归方程,并分别计算这m个回归方程的m个回归系数的F检验值,选其中最大的记为 ,若 ,则首先将 进入回归方程。为方便,设 就是 。 2、再分别将剩余变量与因变量y、及已引入的变量 建立二元线性回归方程,再比较m-1个回归方程中 的回归系数 进行F检验,计算F值,记最大的为 。若 ,则将 引入方程 3、直至所有未被引入的自变量的F值均小于 时为止。这时得到的回归方程就是最终确定的方程。,“逐步引入”法也有明显的不足之处。 可能存在这样的问题,即不能反映引入新的自变量后的变化情况。一旦引入其他自变量后它变得并不显著时,却没机会将其剔出。,逐步回归法(stepwise),基本思想:有进有出 具体做法:经变量一个一个引入,引入变量的条件是其偏回归平方和经检验时显著的,每因引进一个自变量后,对已选入的变量进行逐个检验。对某些由于其他变量引入而变得不显著的变量,要将其剔出。引入或剔出变量,为逐步回归的一步,都要进行F检验,以确保每次引入变量之前回归方程中只包含显著的变量。反复如此直到既无显著的变量引入,也无不显著的变量从方程中剔出为此。这样就得到了回归子集是“最优”回归子集,也就得到了最优的回归方程。,谢 谢,在本节的讨论中,无论是从回归方程中剔出某个自变量,还是增加某个自变量,都要利用 检验。通常要求引入变量的显著性水平 小于剔出变量的显著性水平 ,否则可能产生“死循环”。一般令 , 。我们把引入变量的 检验的临界值记为 ,把剔出变量的 检验的临界值即为 。一般取 这里的 有很大的人为性。如果希望回归方程中多包含一些变量,可以都取的小一点。,设 是p个自变量x1,x2,xp所引起的回归平方和, 是p-1个变量 x1,x2, x i-1,x i+1,xp所引起的回归平方和,那么它们的差 = 称为自变量xi的偏回归平方和。 = ,其中 是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论