线性回归模型介绍课件_第1页
线性回归模型介绍课件_第2页
线性回归模型介绍课件_第3页
线性回归模型介绍课件_第4页
线性回归模型介绍课件_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、线性回归模型介绍第一节 简介第二节 一元线性回归模型第三节 多元线性回归模型第四节 非线性回归模型线性化一、计量经济学的定义计量经济学是一门利用经济学、数学、统计学从数量上研究宏观和微观经济行为关系的综合性经济学学科。计量经济学英文 “Econometrics” 一词最早是由挪威经济学家 R. Frisch 于 1926 年仿照 “Biometrics”(“生物计量学” )提出来的,也可以翻译为经济计量学。例:问题:如何农产品波动难以平抑?理论假说:农产品供给受国民生产总值影响,当经济繁荣时,生产要素流向非农部门;相反,流向农业部门。这导致了农业的波动,只有考虑到了这一点才可减少波动。找数据:

2、粮食产量与GDP建立、计算计量方程:协整检验ECM(误差修正模型),计算参数检验计算结果解释应用粮食产量波动与国民经济波动有何关系?计量结果与检验长期方程:lngrain = -0.28 lntindu +1.28 lngrain (-1)-0.28 lngrain (-2)+ 0.16 lntindu (-1) 调整后R2=0.98,DW=1.79,AIC=-2.68误差修正模型lngrain=-0.24lntindu+1.33lngrain (-1) -0.52lngrain (-2) +0.36lntindu (-1) -0.94e(-1)解释:短期弹性为-0.24表明当二、三产业产值增

3、加1%时会使粮食产量下降-0.24%。二、三产业的发展可能引起粮食产量(甚至所有农产品产量)的下降;我国粮食周期与整体经济周期存在必然的联系,在经济总体波动无法消除的情况下,粮食波动也难以消除,但可以根据经济总体波动情况主动调控粮食波动。对策:在经济繁荣时要更加注意对农业的保护,加大补贴力度。二、计量经济学的产生与发展1926年挪威经济学家弗里希 (R.Frisch) 提出了“Econometrics”。1930年12月,弗里希与荷兰经济学家丁伯根(J.Tinbergen)等人在美国克里夫兰发起成立了国际计量经济学会,并于1933年创刊会刊Econometrica。从30年代到今天,尤其是二次

4、大战以后,计量经济学在西方各国的影响迅速扩大。计量经济学的发展3040年代微观计量经济学舒尔茨对消费理论和市场行为方面的研究道格拉斯对边际生产力的研究弗里希对需求弹性、边际生产力的研究4070年代宏观计量经济学40年代,经济理论的模型化和数学化50年代,泰尔发表二阶段最小二乘法60年代,发表分布滞后的新处理方法70年代以后经济计量学进入了一个新的阶段我国经济计量学的发展7080年代开始介绍计量经济学的学科内容和国外发展情况8090年代1995年计量经济学的教学大纲正式发表;全国许多高校相继开设计量经济学课程。1998年将计量经济学列入经济类各专业八门公共核心课程之一。三、中级计量经济学框架经典

5、线性回归模型:单方程一元回归:最简单,是其他模型基础;多元回归:应用面最广的模型;非线性转化;多重共性、异方差、自相关、虚拟变量;单方程拓展:二元选择模型多元选择模型数据拓展:时间序列联立方程:因变量与自变量相互影响。例:消费与收入实际上是互相影响的。四、数据类型时间序列:以时间为顺序进行排列的数据; 横截面数据:在某个时间点上从不同样本获取的调查数据;混合数据:时间序列与横截面数据混合而成的数据。虚拟变量数据:只取0与1的数据,代表无法定量化表达的自然与社会现象,如:政策、天气、性别。面板数据:每个时间点与横向截数据都完整的混合数据。第二节 一元线性回归模型回归;一元线性模型表达; 假设条件

6、一、回归指随机变量向期望值靠拢的客观自然与社会现象,它是计量有意义的基础。160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定父亲身高儿子身高纬度与身高关系模型建立.20度40度E(Y|X) = b0 + b1XYf(Y|X)二、一元线性回归模型表达Y = bo + b1 X + 1. 客观现象的随机性质2. 模型中省略的变量3. 测量与归并误差4. 数学模型形式设定造成的误差三、线性回归模型的基本假定1.零均值假定:随机扰动项可正可负,有相互抵消的趋势 E(ui)=02.同方差假定:各次观察值中ui具有相同的方差

7、Var(ui)=2 高斯马尔柯夫假定3.无序列相关假定:随机扰动项相互独立 Cov(ui,uj)=0 高斯马尔柯夫假定4.随机扰动项服从正态分布5.解释变量与随机扰动项不相关假定: Cov(ui,Xi)=06.解释变量之间不存在线性相关假定异方差情况.X X1X2Yf(Y|X)X3.E(Y|X) = b0 + b1X经典回归其他假设参数与变量是线性关系(自变量与因变量?);X具有确定性和变异性和方差稳定性,且观察次数大于参数个数;正确设定回归模型。四、普通最小二乘法(OLS) 一元线性回归模型:只有一个解释变量 i=1,2,nY为被解释变量,X为解释变量,0与1为待估参数, 为随机干扰项普通最

8、小二乘法是一种参数估计方法,确定估计参数的准则是使全部观察值的残差平方和最小,即 ei2 min, 由此得出选择回归参数 b0 , b1 的最小二乘估计式。YXX1X2X3X4X5X6e1e2e3e4e5e6残差平方和使偏导数为零得正规方程 Yi = nbo + b1 Xi XiYi = bo Xi + b1 Xi2 解得记 X,Y的平均数(请同学们自己推导并记忆)。另外,如果我们设置自变量均值为零,结果如何?也请自己推导则得简化公式2:如果自变量累加是零?作业:练习简洁版公式推导已知某产品销售与时间成正比关系:请预测八月份的产品销售额。单位万元。一月二月三月四月五月六月七月-3-2-1012

9、3506271798390103答案:109.4五、 参数估计的最大似然法(ML) 最大似然法(Maximum Likelihood,简称ML),也称最大似然法,是不同于最小二乘法的另一种参数估计方法,是从最大或然原理出发发展起来的其它估计方法的基础。 基本原理:对于已经发生的事件,最佳的参数应该是使其概率最大的参数。当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。或然函数(likelihood function)应该是?在满足基本假设条件下,对一元线性回归模型: 随机抽取n组样本观测值(Xi, Yi)(i=1,2,n)。 那么Yi服从如

10、下的正态分布:于是,Y的概率函数为(i=1,2,n) 假如模型的参数估计量已经求得,为因为Yi是相互独立的,所以的所有样本观测值的联合概率,也即或然函数(likelihood function)为: 将该或然函数极大化,即可求得到模型参数的极大或然估计量。 由于或然函数的极大化与或然函数的对数的极大化是等价的,所以,取对数或然函数如下:解得模型的参数估计量为: 可见,在满足一系列基本假设的情况下,模型结构参数的最大或然估计量与普通最小二乘估计量是相同的。六、 最小二乘估计量的统计性质线性性 线性特性是指估计式 bo 和 b1 是Yi 的线性函数。 无偏性 无偏性指估计量 bo 和 b1 的均值

11、等于总体回归参数bo 和 b1 E(b1 ) = b1 P48页推导E(bo) = bo 为什么非要参数与因变量是线性关系?有效性(最小方差性) 最小方差性是指估计量 bo 和 b1 具有最小方差的性质,又叫有效性。 高斯马尔可夫定理 最小二乘估计量与用其他方法求得的所有线性无偏估计量相比,具有最小的方差。 在小样本情况下,一个估计量如果它是线性的,同时又是有效的(即无偏的,又具有最小方差)那它就是最佳线性无偏估计量 BLUE: Best Linear Unbiased Property of an Estimator 其中,ci=ki+di,di为不全为零的常数则容易证明现有b的方差最小。含

12、义:大样本、变异性一致性(大样本)一致性(Consistency):随着样本的增大,估计参数收敛于真实参数。的概率密度 的概率密度 的概率密度 的概率密度 (a) 无偏性(b) 有效性(c) 一致性(d) 最小平均偏差方差无偏估计有偏估计有效估计非有效估计大样本小样本中等样本有偏但有效的估计无偏但非有效的估计七、 样本决定系数及回归直线拟合优度的检验(一)总离差平方和分解 回归直线 = + X = 被解释了的部分 Yi = ei 未被解释的部分 Yi = (Yi ) + ( ) 越大,ei 越小说明回归直线与样本点拟合得好。YYiiYY O Xi Xie=来自残差(YiY)=总离差 来自回归(

13、Yi - Y)2 = (Yi - Yi) + (Yi - Y)2 = (Yi - Yi)2 + (Yi - Y)2 + 2 (Yi - Yi) (Yi - Y) yi2 = ei2 + yi2 TSS = RSS + ESSTotal sum of squares explained sum of squares residual sum of squares (二)样本决定系数= 0.977353R2 = 回归平方和总离差平方和样本决定系数(判定系数)(三)随机扰动项方差 2 的估计由于随机项 u 不可观测,只能用残差 e 估计ei2 = (Yi-i )2= 42792.53残差平方和样本方

14、差b1 的样本标准差b0 的样本标准差(四)假设检验某一给定的观测或发现是否与某一声称的假设(stated hypothesis )相符?此处用“相符”一词表示观测的值与假设的值“足够相近”,因而我们不拒绝所声称的假设。原假设 (Null hypothesis ):一种信以为真的、意在维护的或理论上的假设,并用 H0 表示,其成立的概率大。备择假设(alternative hypothesis):为与之对立的假设,记为 H1(是研究者拟验证的假设),往往是小概率。 如,原假设 Ho: b1 = 0 备择假设H1: b1 0第一类错误:拒绝真实;第二类错误:接受错误。模型中样本值可以自由变动的个

15、数,称为自由度,即:自由度 = 样本个数 样本数据受约束条件(方程)的个数了。但对于一个方程因变量来说,其自由度是自变量个数。自由度:(五)参数显著性检验( t 检验)H0:b1 = 0;H1: b1 0;)2(/22-=ntxS(b1)Tisb1所以有,asaa-=-1)/Pr (2222txti从而,22aatt+ -检验的估计值是否在此区间,b1b1b1b1b1S(b1),S(b1)b1如果在则接受原假设,否则拒绝原假设。比较|T | 与 ta的大小2|T | ta 拒绝 H02对 bo 的显著性 t 检验Ho: bo = 0; H1: bo 0对 b1 的显著性 t 检验Ho: b1

16、= 0; H1: b1 0给定显著性水平 a = 0.05, 查自由度 n - 2 = 8 的 t 分布表,得 ta = 2.3062T1 2.306 拒绝原假设, 接受备择假设(六)回归方程的显著性检验( F 检验)H0:b0= b1 = 0;H1: bi 不全为 0;离差名称平方和自由度均方差回归平方和剩余平方和总体平方和kn k-1n - 1方 差 分 析 表对方程的显著性 F 检验H0:b0= b1 = 0;H1: bi 不全为 0;F 5.32 拒绝原假设, 接受备择假设九、作业寻找问题; 形成理论假说;查找数据;建立模型;检验解释结果;可以通过建立小组方式进行学习,但每人要有题目。

17、软件演示认识软件 文件建立数据输入模型计算结果解读预测结果表达本节作业:找到感兴趣问题 ,并准确描述(可以结合导师课题);阅读文献,形成理论假说,确定变量;查找相关数据,建立一元线性回归模型,并用计量方法检验模型结果。如果模型不是一元的,可以先建立一元模型,以后再完善。对模型结果进行检验。对模型结果进行解读并根据结果提出建议。内容回顾什么是回归?什么是计量模型?什么是自变量、因变量?如何估计参数?有哪些基本方法?各自原理是什么?估计出来的参数具有哪些基本性质?如何对其进行检验?如何判断模型估计的总体效果?如何运用模型进行预测?如何进行区间预测?如何创建WF?如何录入数据?如何估计?其他问题是否

18、完成相关课题选择与试验性模型建立与计算?软件操作是否成功?是否需要助教进行帮助?是否需要单独指导时间?第三节 多元线性回归模型内容:矩阵表达多元线性回归的条件计算过程参数特征重点:矩阵推演 一、多元线性回归模型 多元线性回归模型:表现在线性回归模型中的解释变量有多个。 一般表现形式:i=1,2,n其中:k为解释变量的数目,j称为回归参数(regression coefficient)。是因变量对自变量偏导数。 习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样: 模型中解释变量的数目为(k+1) 取 n 个观察值,i = 1,2, , n,得 n 个方程 方程表示:各变量

19、X值固定时Y的平均响应。 j也被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化; 或者说j给出了Xj的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。总体回归模型n个随机方程的矩阵表达式为 其中样本回归函数:用来估计总体回归函数其随机表示式: ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的近似替代。 样本回归函数的矩阵表达: 其中:二、多元线性回归模型的基本假定 假设1,解释变量是非随机的或固定的,且各X之间互不相关(无多重共线性)。 假设2,随机误差项具有零均值、同方差及不序列相关性 假设3,解释变量

20、与随机项不相关 假设4,随机项满足正态分布 维恩图12345上述假设的矩阵符号表示 式: 假设1,n(k+1)矩阵X是非随机的,且X的秩=k+1,即X满秩。 假设2, 假设3,E(X)=0,即 三、多元线性模型估计之普通最小二乘估计对于随机抽取的n组观测值如果样本函数的参数估计值已经得到,则有: i=1,2n根据最小二乘原理,参数估计值应该是下列方程组的解 其中普通最小二乘估计于是得到关于待估参数估计值的正规方程组: 正规方程组的矩阵形式即由于XX满秩,故有 对上述方程两边同乘观察值距阵 X 的转置距阵注:关注教材P73页推导过程.是否可以直接乘以X的逆阵? *最大似然估计 对于多元线性回归模

21、型易知 Y的随机抽取的n组样本观测值的联合概率即为变量Y的或然函数 对数或然函数为对对数或然函数求极大值,也就是对 求极小值。 因此,参数的最大或然估计为结果与参数的普通最小二乘估计相同*矩估计(Moment Method, MM) OLS估计是通过得到一个关于参数估计值的正规方程组并对它进行求解而完成的。 该正规方程组 可以从另外一种思路来导: 求期望 :称为原总体回归方程的一组矩条件,表明了原总体回归方程所具有的内在特征。 矩即E(X-E(X)k由此得到正规方程组 解此正规方程组即得参数的MM估计量。 易知MM估计量与OLS、ML估计量等价。矩方法是工具变量方法(Instrumental

22、Variables,IV)和广义矩估计方法(Generalized Moment Method, GMM)的基础 在矩方法中关键是利用了 E(X)=0 如果某个解释变量与随机项相关,只要能找到1个工具变量,仍然可以构成一组矩条件。这就是IV(工具变量在这里可以理解为替代变量)。 如果存在k+1个变量与随机项不相关,可以构成一组包含k+1方程的矩条件。这就是GMM。例:某公司的企业管理费主要取决于两种重点产品的产量,试估计企业管理费线性回归模型。可求得 :于是 回归模型为:四、参数估计量的性质 在满足基本假设的情况下,其结构参数的普通最小二乘估计、最大或然估计及矩估计仍具有: 线性性、无偏性、有

23、效性。 同时,随着样本容量增加,参数估计量具有: 渐近无偏性、渐近有效性、一致性。 1、线性性 其中,C=(XX)-1 X 为一仅与固定的X有关的行向量 2、无偏性 这里利用了假设: E(X)=0 3、有效性(最小方差性) 其中利用了 和 五、样本容量问题 所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。 最小样本容量 样本最小容量必须不少于模型中解释变量的数目(包括常数项),即 n k+1因为,无多重共线性要求:秩(X)=k+1 2、满足基本要求的样本容量 从统计检验的角度: n30 时,Z检验才能应用(大样本使用); n-

24、k8时, t分布较为稳定 一般经验认为: 当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。 模型的良好性质只有在大样本下才能得到理论上的证明 六、多元线性回归模型的参数估计实例 例 前章已建立了中国居民人均消费一元线性模型。这里我们再考虑建立多元线性模型。解释变量:人均GDP:GDPP 前期消费:CONSP(-1)估计区间:19792000年Eviews软件估计结果 七、拟合优度检验 TSS = (Yi - Y)2 = (Yi2 - 2 Y Yi + Y 2 ) = Yi2 - nY 2 = YY - nY 2 ESS = (Yi - Y)2 - e2 = (YY - nY 2

25、 ) - (YY - BXY) = BXY - n Y 2R2校正样本决定系数:?R2 = 1 - ( 1 - R2 ) (n - 1)(n - k -1) 可决系数该统计量越接近于1,模型的拟合优度越高。 问题: 在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大(Why?) 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。 调整的可决系数(adjusted coefficient of determination) 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的

26、思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。k越大,RSS越小,n-k-1越小。 *赤池信息准则和施瓦茨准则 为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有: 赤池信息准则(Akaike information criterion, AIC)施瓦茨准则(Schwarz criterion,SC) 这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模型中增加该解释变量。 总体回归方程的显著性检验(F检验)H0:b0= b1 = = bk= 0;H1:

27、 bi 不全为 0;离差名称平方和自由度回归平方和剩余平方和总体平方和kn - k -1n -1k - 自变量的个数n - 样本个数F统计量与R2的关系估计参数的显著性检验(t 检验) t 检验是检验自变量 Xi 对因变量 Y 线性作用是否显著的一种统计检验。H0:bi = 0;H1: bi 0;=t ( n - k -1 )S(bi)Tbi比较|T | 与 ta的大小2|T | ta 拒绝 H02对多个回归系数联合检验过程:对模型做无约束与约束的回归,得到相应的残差平方和与R平方;利用上述结果设计统计量F;对F进行检验:原假设,系数都是零;备择假设,系数不为零。最后看F值及其概率。注:对模型

28、总体检验的F检验是这里F统计量的特例EVIEWS实现模型估计;在结果中点View/Coefficient Tests/Wald-coefficient Restrictions进行参数约束设定(虚假设);点击OK,出现结果,根据F值与其概率进行判断。作业:完成多元线性模型完成多元线性模型设计; 比较R2与调整后R2;分析t检验结果;分析F检验结果,并比较其与R2关系。第四节 非线性方程线性化 一、主要曲线类型 (一)双曲线方程(倒数模型)Yt = bo + b1 + ut 1Xtbo 0, b1 0bo 0, b1 0a 0b 0 b3 00Y = bo + b1 X + b2 X 2 + b

29、3 X 3多项式函数图象YX0Y = bo + b1 X + b2 X 2总成本曲线图形Y = bo + b1 X + b2 X 2 + b3 X 3(五)逻辑曲线产品生长周期:产品生产量随着时间变化的过程,开始阶段发展较慢,接着是急剧增长,然后是平稳发展的周期,最后达到饱和状态,其轨迹形成一条“S”型曲线。YX0KK2 K1+a二、 曲线方程的线性化(一)直接代换法 直接代换法适用于变量之间的关系虽然是非线性的,但因变量与参数之间的关系却是线性的非线性模型。 = bo + b1 + ut 1Yt 1Xt令 Y * = ,X * = 1Xt 1YtYt* = bo + b1 X t* + ut得双曲线方程Y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论