线性回归的问题和分析方法扩展.ppt_第1页
线性回归的问题和分析方法扩展.ppt_第2页
线性回归的问题和分析方法扩展.ppt_第3页
线性回归的问题和分析方法扩展.ppt_第4页
线性回归的问题和分析方法扩展.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第五章 线性回归的问题和分析方法扩展(下),第一节 多重共线性 第二节 随机解释变量 第三节 误差项非正态分布 第四节 最大似然估计,2,第一节 多重共线性,一、问题的性质和种类 二、多重共线性的危害 三、发现和检验 四、多重共线性的克服和处理,3,一、问题的性质和种类,1、严格多重共线性 模型设定问题 识别问题 2、近似多重共线性 主要是数据问题,也有模型设定问题,4,二、 (近似)多重共线性的危害,*随着多重共线性程度的提高,参数方差会急剧上升到很大的水平,理论上使最小二乘法估计的有效性、可靠性和价值都受到影响,实践中参数估计的稳定性和可靠程度下降。 *证明:把 矩阵分为 根据分块矩阵的运算法则有,5,其逆矩阵 左上角的首项为 其中 因此参数 的最小二乘估计 的方差为,6,三、发现和检验,(一)方差扩大因子检验 (二)状态数检验,7,(一)方差扩大因子检验,分析已知 记 为 , 为 。,8,当 时, 当 时, 方差扩大因子,记作 常以方差扩大因子是否大于10来判断第 个解释变量是否存在较强的、必须加以处理 的多重共线性。,9,(二)状态数检验,1、 状态指数 将 矩阵的每一列 用其模 相除以实现标准化,然后再求 矩阵的特征值,取其中最大的除以最小的后再求平方根,得到该矩阵的“状态数”,记为: 通常当 大于20或30时,认为存在较明显的多重共线性。,10,确定哪些解释变量的系数受到多重共线性的影响: 先计算各个特征值的“状态指数” 这些状态指数的水平在1到 之间,很可能有好几个超过20-30的“危险”水平。,11,2、回归系数方差分解:如果V是对角化 的(K+1) (K+1)对角矩阵:即 其中 是 的特征值构成的对角矩阵。 从而 两种理解:如果特征值之和反映对被解释变量解释程度,倒数之和反映引起估计量方差的比重。,12,四、多重共线性的克服和处理,(一)增加样本容量 (二)差分方程 (三)模型修正 (四)分步估计参数 (五)岭回归方法,13,(一)增加样本容量,原理:样本容量越大,变量相关性越小,相关越难。 注意局限,且不一定解决问题。,14,(二)差分方程,线性回归模型为 且已知 和 之间存在多重共线性问题。 作如下变换: 改用差分方程 进行回归,受多重共线性的影响比较小。,15,(三)模型修正,1、删减解释变量(利用检验结论、经验等) 2、整合解释变量(利用原模型回归信息、经验等) 3、先验信息参数约束,16,先验信息参数约束 例:生产函数 ,经对数变换为: 如果预先知道所研究的经济有规模报酬不变的性质,即函数中的参数满足 就可以克服多重共线性。,17,(四)分步估计参数,例:研究需求规律的模型 可以先求出模型中参数 的估计值(用截面数据等)。 前一个模型变为 整理这个模型可以得到 从而估计出 和 的估计值 和 , 得到克服了多重共线性的回归直线,18,(五)岭回归方法,设一个多元线性回归模型为 普通最小二乘估计的公式为 当解释变量间存在严重的多重共线性时, 矩阵接近于奇异。 用 代替 代入最小二乘估计的公式,得到: 其中 称为“岭回归参数”,一般 , 是用 矩阵对角线上元素 和 构成的对角线矩阵 。,19,(五)岭回归方法,估计量的数学期望为:,20,第二节 随机解释变量,一、解释变量的随机性 二、随机解释变量和参数估计的性质 三、工具变量法估计 四、参数估计量的分布性质和统计推断,21,一、解释变量的随机性和问题,解释变量有随机性是普遍的问题。 随机解释变量有不同的情况,关键是与误差项的相关性。 不同情况对回归分析的影响不同,处理也不同。,22,二、随机解释变量和参数估计的性质,设模型为 其中误差项符合古典线性回归模型的各个假设。 参数二乘估计的参数为: 把 代入 ,得到,23,如果 是随机变量,但与误差项不相关,那么: 以 为条件的 的条件方差 是最小方差,从而 的方差 也是 最小方差。,24,如果 是随机变量,与误差项小样本不独立,但大样本渐进不相关,即 那么因为 因此 是 的一致估计。虽然不是无偏估计。,25,三、工具变量法估计,设模型为 其中 不仅是随机变量,而且与 有强相关性。 对模型作离差变换得 两边乘 并求和得 然后两边除以 ,有,26,的“工具变量法估计”为 ,即 的估计可以利用 的估计得到,27,多元回归工具变量法估计 引进、选择多个关键变量。 向量、矩阵表示。 工具变量的选择问题: 与替代解释变量相关性强 与误差相相关性小 避免引起共线性问题,28,四、参数估计量分布问题和统计推断,问题:分布未知 两变量线性回归模型参数估计量 多元回归模型参数的最小二乘估计 影响:t、F检验等仍基本有效。 统计量 渐近t分布。 F统计量类似。,29,存在随机解释变量时相关统计推断受到一定的影响,30,第三节 误差项非正态分布,一、问题的提出 二、误差项正态性的检验,31,一、问题的提出,误差项正态分布假设也不一定成立。 误差项不服从正态分布时,称“非正态误差项” 影响:统计推断、假设检验的有效性等,相关统计推断、检验结论的可靠性降低。,32,二、误差项正态性的检验,(一)直方图检验 类似“高尔顿板”,33,(二)偏斜度和峰度检验 “偏斜系数” : 用 代替 ,用 代替 。 “峰度”指标: 其中 用 代替。,,,34,第四节 最大似然估计,一、最大似然估计的原理 二、两变量线性回归模型参数的最大似然估计 三、多元线性回归模型参数的最大似然估计 四、随机解释变量模型的最大似然估计 五、最大似然估计的性质,35,一、最大似然估计的原理,根据事物出现的概率(几率、可能性)的大小,推断事物的真相,包括定性的和定量的(参数水平)真相。 例1:一个老战士和一个军训学生各射击一次,但只有一枪中靶。问可能是谁打中的。,36,例2:观测到一个服从未知参数的泊松分布的随机变量的10个数据的样本,这些数据分别为5、0、1、2、3、2、3、4、1、1,要求估计出该泊松分布的未知分布参数 。 根据泊松分布的概率公式,该随机变量的数值为 的概率为 10个数据出现的联合分布概率为,37,这个联合分布概率就是生成上述10个数据的似然函数,记作 ,即 它的对数似然函数是(对数函数的单调性) 求导可得 的最大似然估计 必须满足 所以 。,38,二、两变量线性回归模型参数的最大似然估计,设模型为 根据误差项服从正态分布的假设,有 因此这个模型参数的似然函数是,39,对数似然函数为 最大化的一阶条件为,40,解一阶条件方程组可以得到最大似然估计为,41,三、多元线性回归模型参数的最大似然估计,模型为 其中 似然函数为 对数似然函数为,42,求导可得 解这个方程组可得,43,四、随机解释变量模型的最大似然估计,只讨论解释变量的分布满足下面两个条件的模型 (1)随机解释变量的多元密度函数 的参数中,不包含需要估计的模型参数 、 或前者的部分。 (2)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论