第06章 虚拟变量回归模型.ppt_第1页
第06章 虚拟变量回归模型.ppt_第2页
第06章 虚拟变量回归模型.ppt_第3页
第06章 虚拟变量回归模型.ppt_第4页
第06章 虚拟变量回归模型.ppt_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、虚拟变量回归模型,程建华 2020年7月19日,安徽大学经济学院,计量经济学讲义,6.1 虚拟变量回归模型引入,男女食品消费支出差异分析例1(支出、收入单位为美元),问题:难以用性别作为解释变量,不易描述问题。,6.1 虚拟变量回归模型引入,男女食品消费支出差异分析:,以性别作为解释变量具有特殊性,即只取1或0两个值。在实际生活中我们会遇到更多的虚拟变量。,6.1 虚拟变量回归模型引入,(6.1),回归结果显示:男性平均食品支出大约为3177美元,女性平均食品支出大约为31775032674美元。从数值上看两者差别为503美元,差异比较明显。但是估计的Di不是统计显著的,因为t值仅为1.526

2、7,由此对应的p值为15%。这意味着男女食品支出的数值存在差异,但差异并不显著。这一结果有意义吗?,6.1 虚拟变量回归模型引入,考虑一般虚拟变量的回归方程:,其中,Y年食品支出(美元),Di1,女性;Di0,男性。 男性食品支出的期望:,女性食品支出的期望:,(6.2),(6.3),截距B1表示男性食品平均支出,“斜率”系数B2表示女性与男性食品支出差异,B1B2表示女性食品支出。B2不再称之为斜率,而是称为差别截距系数。,(6.4),其中,Y年食品支出(美元),X收入(美元),D1,女性;D0,男性。,6.2 一个定量变量一个定性变量模型,食品支出差异只与性别决定的吗?显然不是!考虑下列模

3、型:,(6.5),(6.6),回归模型结果分析: (1)在方程(6.1)中,虚拟变量系数是统计不显著的,而这里显著; (2)方程(6.6)是一多元回归模型,当收入为常数时,男性平均食品支出为1506美元;女性元,且两个均值显著不同; (3)如果不考虑性别差异,则收入系数为0.0589,表示无论男女收入增加一美元,食品支出增加6美分,即边际食品消费倾向为6美分。,6.2 一个定量变量一个定性变量模型,女性平均食品消费支出:,6.2 一个定量变量一个定性变量模型,男性平均食品消费支出:,上述两个回归方程只是截距不同,斜率相同。,6.2 一个定量变量一个定性变量模型,问题:

4、如果不考虑性别的影响,食品消费边际倾向为6美分,那么考虑性别情况,男女的边际食品消费倾向之间有差异吗?换句话说,方程(6.5)的斜率系数B3会显著不同吗?如果证明了显著不同,则由方程(6.5)和根据它得到的回归结果就值得怀疑了,这个问题稍后继续讨论。,6.3 包含一个定量变量一个多分定性变量模型,实际生活中定性变量的概念并不陌生,例如“男与女”,“是与否”,“好与坏”等等,这些都是二分定性变量。“定性”的含义只是表示变量的性质,不反映变量的程度。 除二分定性变量外,还有多分定性变量,也称之为多分类变量,例如“中、东、西”、“高、中、低”、“富裕、小康、温饱、贫困”等。,6.3 包含一个定量变量

5、一个多分定性变量模型,上表给出的是美国51个不同州(外加哥伦比亚特区)公立学校教师的平均工资水平和每个学生平均支出的状况。现在的问题是:将不同州分成“中东北、南部和西部”三个不同地区,分析不同州教师的工资是否存在显著差异?,6.3 包含一个定量变量一个多分定性变量模型,现考虑下列模型: AASi = B1 + B2*D2i + B3*D3i + ui 其中,AAS公立教师平均工资 D21,中东北;0,其它地区 D31,南部地区;0,其它地区 由于定性变量“地区”是三分类,所以需要两个虚拟变量,西部作为基准类。,(6.7),6.3 包含一个定量变量一个多分定性变量模型,中东北部公立学校教师平均工

6、资:,(6.8),E(AASi|D2i=0, D3i=1)= B1 + B3,E(AASi|D2i=0,D3i=0) = B1,E(AASi|D2i=1, D3i=0)= B1 + B2,南部地区公立学校教师平均工资:,西部地区公立学校教师平均工资:,(6.9),(6.10),共同截距B1表示虚拟变量赋值为0的地区平均ASS。差别斜率B2和B3表示不同地区AAS均值差异。既然西部地区是基准类,因此所有工资比较都与西部有关。,6.3 包含一个定量变量一个多分定性变量模型,*表示在5的水平下统计显著;*表示在5的水平下不是统计显著的。 回归结果表明:西部平均ASS约为26159美元。D2i的差别截

7、距系数不是统计显著的,即中东北部平均ASS比西部是统计无差异的。D3i的差别截距系数是统计显著的,即南部地区平均ASS比西部低3265美元。 虚拟变量仅仅指出了差异的存在,但并未表明导致差异性的原因。,(6.11),6.3 包含一个定量变量一个多分定性变量模型,比较回归结果(6.11)和(6.12)得到两个相反的结论:如果PPS不变,则中东北地区与西部地区ASS均值存在显著差异,西部高出1674美元;而西部与南部地区ASS没有显著差异。 斜率系数3.29表示,每个学生的公共教育支出每增加1美元,则公立学校教师平均工资提高约3.29美元。,(6.12),将学生的公共教育支出PPS引入模型,得到以

8、下回归模型:,6.3 包含一个定量变量一个多分定性变量模型,(6.12),问题:哪个模型更好些?,(6.11),6.4 包含一个定量变量和多个定性变量的回归模型,多个不同属性的定性变量作为解释变量引入回归模型:,(6.13),回归结果解释:(1)基准类是白种和男性/或西班牙男性;(2)如果教育水平和种族为常量,则女性小时收入比男性大约少2.36美元;如果教育水平和性别为常量,则非白种人/非西班牙人小时收入平均比基准类大约少1.73美元;(3)如果不考虑性别和种族影响,则受教育年限每增加一年,平均工资提高约0.8美元。,(6.14),从容量为528个的数据得到估计的回归模型:,6.4 包含一个定

9、量变量和多个定性变量的回归模型,多个不同属性的定性变量作为解释变量引入回归模型:,(6.13),(6.15),非白种人/非西班牙女性比非白种人/非西班牙男性工资低。即定性变量D2和D3之间存在交互影响,它们对Y的影响不像方程(6.13)那样简单,而是倍增的。,6.5 多个定性变量的交互影响,虚拟变量的乘积称为交互影响虚拟变量,它给出了两个定性变量的联合影响。,(6.16),方程(6.16)表示非白种人/非西班牙女性的平均小时工资函数。其中, B2女性的差别效应 B3非白种人/非西班牙人的差别效应 B4非白种人/非西班牙人女性的差别效应 还可以对方程(6.16)进行统计检验,看统计检验是否显著。

10、,6.5 多个定性变量的交互影响,对含有一个定量与一个二分定性变量模型:,(6.17),在方程(6.17)中增加了交叉变量DiXi。,6.6 定量与定性变量交互影响的模型,(6.5),上述模型的修正模型为:,男性(Di0)平均食品支出函数:,(6.17),B4称为差别斜率系数(或斜率漂移),它表示了不同性别或两种分类下收入变量系数的差异有多大。,6.6 定量与定性变量交互影响的模型,(6.5),女性(Di1)平均食品支出函数:,根据差别截距系数B2和差别斜率系数B4的统计显著性,可以区分女性与男性食品支出函数是截距不同还是斜率不同,或是都不同。,6.6 定量与定性变量交互影响的模型,B20 B

11、40,B20 B40,a)一致回归,b)平行回归,6.6 定量与定性变量交互影响的模型,B20 B40,B20 B40,c)并发回归,d)相异回归,6.6 定量与定性变量交互影响的模型,(6.17),利用(6.17)模型得到如下回归结果:,6.7 虚拟变量在季节调整中的应用,当使用含有季节因素的经济数据进行回归分析时,可以对数据进行季节调整消除原数据带有的季节性影响,也可以使用虚拟变量描述季节因素,进而可以同时计算出各个不同季度对经济变量的不同影响。如果用虚拟变量,这时包含了4个季度的4种分类,需要建立3个虚拟变量。用Qi表示第i个季度取值为1,其他季度取值为0的季节虚拟变量,显然Q1 + Q

12、2 + Q3 + Q4 = 1 ,如果模型中包含常数项,则只能加入Q1,Q2,Q3 ,否则模型将因为解释变量的线性相关而无法估计,即导致虚拟变量陷阱问题。当使用月度数据时,方法与上述类似,但需要有11个虚拟变量。,6.7 虚拟变量在季节调整中的应用,6.7 虚拟变量在季节调整中的应用,6.7 虚拟变量在季节调整中的应用,可以看出包含虚拟变量的方程明显地改进了拟合能力。这种季节调整方法是以季节变动要素不变并且服从于加法模型为前提,否则应该首先运用X-12或其他方法对数据进行季节调整。,不含虚拟变量的拟合结果,含虚拟变量的拟合结果,6.8 线性概率模型(LPM)因变量为虚拟变量,在以前的模型中因变

13、量皆为定量变量,虚拟变量都是作为解释变量引入方程的。 但有时我们需要根据实际情况判断“是”与“否”。例如根据年收入是否能贷到房款。,6.8 线性概率模型(LPM)因变量为虚拟变量,Y=1,表示得到房贷,否则为0;X表示年家庭收入。考虑下列模型: Yi = B1 + B2*Xi + ui (6.20) 模型(6.20)不是普通的线性回归方程,由于Y只能取0与1,所以不能把斜率系数B2解释为单位X变动引起Y的变动率。形如式(6.20)的模型称之为LPM模型。 E(Yi|Xi)可以解释为给定Xi下,事件发生的概率,即E(Yi1|Xi),此条件概率依X线性变化。本例E(Yi|Xi)表示不同收入水平下申

14、请到房贷的概率。,6.8 线性概率模型(LPM)因变量为虚拟变量,斜率系数B2解释为X单位变动引起的Y1概率的变化。根据(6.20)得到的Yi的估计值就是预测Y1的概率,b2是B2的估计值。 Yi = B1 + B2*Xi + ui (6.20) 当Y是二分变量时,如果按照上述理解来解释回归方程(6.20),那么能否认为OLS估计合适呢?我们必须回答四个必须回答的问题。,6.8 线性概率模型(LPM)因变量为虚拟变量,(1)虽然Y取值为1或0,但无法保证Y的估计值介于0,1之间,实际上Yi可能为负或大于1; (2)由于Y是一个二分变量,所以误差项也是一个二分变量。也即是ui服从正态分布的假定不

15、成立,而是服从二项概率分布; (3)可以证明误差项是异方差,而古典线性回归模型一直假定误差项是同方差的; (4)由于Y仅仅取值0 和1,所以R2无实际意义。,6.8 线性概率模型(LPM)因变量为虚拟变量,回答上述四个问题: (1)Y的估计值Yi可能为负或大于1,实践中,如果Y的估计值为负,则取0;如果Y的估计值大于1,则取1; (2)如果样本容量足够大,二项分布收敛于正态分布。即ui服从正态分布的假定在大容量下可认为是成立的; (3)关于误差项是异方差的情形,以后讨论; (4)由于Y仅仅取值0 和1,所以R2无实际意义。本身无意义的东西不去讨论。,6.8 线性概率模型(LPM)因变量为虚拟变

16、量,回过头来需要仔细讨论LPM模型: Yi = B1 + B2*Xi + ui (6.20) 其主要问题是: 它假设了概率随X值线性变化,即X始终保持恒定的递增效应。因此,如果Y表示房屋所有权,X表示收入,则LPM假设了无论X1000或X10000,随着X的增加,Y的概率都线性增加。事实上,预期Y1的概率随X是非线性增加的。 在收入水平较低时,一个家庭不可能拥有自己的房子,但对于收入水平相对较高的家庭,他们已经拥有住房。收入超过了这个水平,再增加收入对拥有住房的概率没太大影响。,6.8 线性概率模型(LPM)因变量为虚拟变量,应用例1的数据建立了一个LPM模型,反映房贷于收入的关系: Yi0.

17、94560.0255Xi t (-7.6984) (12.5153) R2=0.8047 回归模型解释如下:收入每增加1美元,获得房贷的概率大约0.0255。截距值没有实际意义。需要特别注意的是LPM模型的R2。本例中R2值较高,但并不表示有重要的意义。因为如果观察值比较集中地聚集在0或1附件,就会得到一个较高的R2值。 显然获得房贷的概率随收入水平以固定增速0.0255线性增加,解释不妥。,虚拟变量回归模型类型 二分定性变量回归模型 定性变量定量变量回归模型 多分定性变量回归模型 多个定性变量的交互模型 定性变量与定量变量的交互模型 因变量为定性变量回归模型,6.9 总结,6.9 总结,注意虚拟变量适用条件: 回归模型包含了一个常数项,那么虚拟变量的个数必须比每个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论