伍德里奇计量经济学导论1概率论知识_第1页
伍德里奇计量经济学导论1概率论知识_第2页
伍德里奇计量经济学导论1概率论知识_第3页
伍德里奇计量经济学导论1概率论知识_第4页
伍德里奇计量经济学导论1概率论知识_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1SchoolofFinance,SUIBE高级计量经济学I第一章概率论、统计学知识复习整个计量经济学中,有三种类型的统计方法被普遍使用:估计方法、假设检验方法和置信区间方法。SchoolofFinance,SUIBE3本章大纲随机变量与概率分布期望值、均值及方差二元随机变量正态分布、卡方分布、F分布和学生t分布随机抽样及样本均值抽样分布的大样本逼近总体均值的估计利用数据对因果效应的均值差进行估计随机变量的期望1.概率、样本空间和随机变量1.1随机变量与概率分布结果(outcomes):随机过程中相互排斥的可能后果被称为结果。结果的概率(Probability):是指这个结果长期发生次数的比率。样本空间(SampleSpace):所有可能结果的集合称为样本空间。事件(Event):是样本空间的一个子集,即事件是一个或多个结果的集合。随机变量(RandomVariable,r.v.):随机变量是一个随机结果的一系列数值表示。离散随机变量(DiscreteRandomVariable)连续离散随机变量(ContinuousRandomVariable)只能取离散数值,如:0,1,2,…如,0,1,2,…可能取值的连续空间。2.离散型随机变量的概率分布概率分布(ProbabilityDistribution):变量所有的可能值和每个值发生的概率的列表。这些概率之和为1。如,用M表示你在写学期论文时电脑死机的次数。事件概率(EventProbability):累积概率分布(CumulativeProbabilityDistribution):是随机变量小于或等于某个特定值的概率。

累积概率分布也常称为累积概率分布(CumulativeProbabilityFunction,c.d.f.)。贝努利分布(BernoulliDistribution):贝努利随机变量(BernoulliRandomVariable)贝努利分布:

设G是高级计量经济I的最终成绩,其中,G=0表示non-pass,G=1表示pass。G的结果和对应的概率为其中,p表示pass的概率。公式(*)中的概率分布就是贝努利分布。3.连续型随机变量的概率分布概率累积分布:是连续型随机变量小于或等于某个特定值的概率。概率密度函数(ProbabilityDensityFunction,p.d.f.)例子:一个从家开车到学校的老师,他的通勤时间可以取某值的一个连续区间,由于通勤时间依赖于诸如天气和交通状况等随机因素,自然应该是连续型随机变量。1.随机变量的期望1.2随机变量的期望期望(ExpectedValue):随机变量Y的期望值是多次重复试验或发生过程中随机变量Y的长期平均值,表示为E[Y]。

假设Y为随机变量。变量Y的期望值也被称为Y的期望(Expected),或Y的均值(mean),表示为。重要概念一:

期望和均值假设随机变量Y取k个可能的值,,其中表示第一个值,表示第二个值,以此类推。Y取的概率为,Y取的概率为,以此类推。用E[Y]表示Y的期望值,它是:其中,算式“”意味着“i取值从1到k时的和”。Y期望值也被称为Y的均值或Y的期望,通常用表示。贝努利随机变量的期望值:2.标准差和方差标准差(StandardDeviation或方差(Variance):它们测度一个概率分布的离散程度或分散度。一个随机变量的方差是Y对其均值的离差平方的期望,表示为var(Y),即一个随机变量的标准差就是方差的平方根,表示为。重要概念二:方差和标准差假设随机变量Y的方差是用表示,计算公式为:

Y的标准差是,即方差的平方根。标准差的单位与Y的单位相同。贝努利方差:因而,贝努利标准差为。3.随机变量线性函数的均值和方差例子:考虑一个所得税方案,在这个方案下,个人的收入以20%的税率被征收,然后给$2000美元的补助金(免税的)。请问在这个税收方案下如何将税后收入Y和税前收入X联系起来?在这个方案下,税后收入Y和税前收入X可以由以下方程联系起来:假设一位女士明年的税前收入是个均值为、方差为的随机变量。请问在这个方案下她的税后收入的均值和方差为多少?在这个方案下,她税后收入Y的期望值为:税后收入Y的方差为:Y的标准差为:将以上分析推广,假设Y以截距a(代替$2000)和斜率b(代替0.8)依赖于X,因此,Y与X的联系:Y的期望、方差和标准差分别为:4.分布形态的其他测度指标:均值和标准差测量一个分布的两个重要指标:中心水平(均值)和离散程度(标准差)。我们将讨论一个分布的另外两个测量指标:偏度和峰度。注意:均值、方差、偏度和峰度都是以分布的矩为基础的。k阶矩(kthmoment):其中,X的均值(mean)或期望值,即,

。期望(或均值)也就是随机变量X的一阶矩,它是度量分布的中心位置k阶中心矩(kthcenteredmoment):偏度(skewness):S(x)=0,该随机变量分布对称;S(x)>0,高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;S(x)<0,高峰向右偏移,长尾向左延伸则成为负偏态分布,也称左偏态分布。峰左移,右偏,正偏峰右移,左偏,负偏峰度(kurtosis):K(x)-3叫作超额峰度(excesskurtosis)。若超额峰度为正,则分布具有后尾,即称为尖峰,反之,则称为低峰。5.ConvergenceAlmostsureconvergenceConvergenceindistributionConvergenceinprobability1.联合分布与边缘分布1.3二元随机变量

经济学中很多有趣的问题都涉及两个或两个以上的变量。譬如,教育与就业问题,收入与性别的问题,等等。联合分布(JointDistribution):两个离散随机变量(比如说X和Y)的联合概率分布(JointProbabilityDistribution)是这两个随机变量同时去确定的值(比如说x和y)的概率。所有可能的(x,y)组合的概率之和等于1。联合概率分布可被写成函数的形式,即。边缘分布概率(MarginalProbabilityDistribution):如果X有k个不同的值,那么Y取特定只y的边缘概率是:2.条件分布条件分布(ConditionalDistribution):随机变量Y的分布如果要以另一个随机变量X取特定的值为条件,则被称为X条件下Y的条件分布(ConditionalDistributionofYgivenX)。当X取值为x时,Y取值为y的条件概率记为条件期望:给定X条件下Y的期望(ConditionalexpectationofYgivenX),又称给定X条件下Y的条件分布均值(ConditionalmeanofYGivenX),是指如果Y取k个值,那么给定X=x,Y的条件均值是:累期望法则(TheLawofIteratedExpectations):如果X取m个不同的值,那么,换句话说,Y的期望就是给定X时Y的条件期望的期望,即条件方差:以X为条件的Y的方差(VarianceofYConditionalonX)是指给定X条件下Y的条件方差,即,3.独立性:独立性:如果一个变量的值不会提供有关另一个变量的任何信息,那么两个随机变量X和Y就是独立分布的(independentlydistributed)或者说是独立的(independent)。数学表达式:如果给定X条件下Y的条件分布等于Y的边缘分布,那么X和Y就是独立的,即,对于所有x和y值,

或者说,

也就是说,两个独立随机变量的联合分布是它们的边缘分布的乘积。4.协方差和相关系数:协方差(Covariance):测量两个随机变量共同变化程度的一个指标是它们的协方差。X和Y之间的协方差就是期望值其中,是X的均值,是Y的均值。协方差用

,或相关系数(Correlation):相关系数是随机变量X和Y之间相关程度的另一个测度。具体地说,X和Y之间的相关系数是和Y的协方差除以它们各自的标准差。相关系数是无单位的。如果,那么随机变量X和Y是不相关的(uncorrelated)。相关系数的值总是在-1和1之间。(相关系数的不等式)相关系数与条件均值:如果Y的条件均值不依赖于X,那么Y和X是不相关的,即,如果,那么且

。5.随机变量和的均值和方差两个随机变量X与Y的和的均值等于它们均值的和,即,重要概念:随机变量和的均值、方差和协方差

设X、Y和V为随机变量,设和为X的均值和方差,为X和Y的协方差(其他变量亦如此),并设a,b和c为常数。根据均值、方差以及协方差的定义,可以得到如下公式1.4正态分布、卡方分布、分布和学生t分布

计量经济学中最常用的概率分布是正态分布、卡方分布、学生t分布以及F分布。1.正态分布(NormalDistribution)一个连续变量如果服从正态分布,则具有类似钟形的概率密度。

正态分布及其衍生分布是统计学和计量经济学中最广泛使用的分布。

其中,标准正态分布:正态分布的特殊形式是均值为0和方差为1。若随机变量Z服从Normal(0,1),则Z服从标准正态分布。标准正态分布的pdf记为,即,标准正态分布的cdf记为,重要概念三:正态随机变量概率计算

假设Y是一个均值为、方差为的正态分布,即。用Y减去其均值并除以其标准差,对其进行标准化,即,计算。

设c1和c2代表两个数,且,又设,。那么,多元正态分布(Multivariatenormaldistribution):正态分布可用来描述一组随机变量的联合分布,这种分布被称为多元正态分布。如果只考虑两个变量,那么就称其为二元正态分布(Bivariatenormaldistribution)。多元正态分布具有三个重要性质:如果X和Y服从协方差为的二元正态分布,且a和b为常数,那么aX+bY也服从正态分布,即:(X、Y为二元正态分布)

或者说,如果n个随机变量都服从多元正态分布,那么这些变量的任何线性组合也都服从正态分布。如果一组变量都服从正态分布,那么每个变量的边缘分布也都是正态的。如果服从多元正态分布的变量间的协方差为0,那么这些变量就是独立的。分布(可以直接从独立标准正态随机变量推导出来)。令为n个独立随机变量,且都服从标准正态分布。定义一个新随机变量为的一个平方和:

则,其中n为自由度(df)。2.卡方分布:

在统计学和计量经济学中,当我们检验某类假设是,经常会用到卡方分布。卡方分布(Chi-squaredistribution):是m个独立标准正态分布的平方和的分布。这个分布依赖于m,m为卡方分布的自由度。例子:令是独立的标准正态随机变量,那么3.学生t分布学生t分布(Studenttdistribution),是两个因素之比的比率分布,其自由度为m。其中,分子是一个标准正态分布,分母是一个自由度为m的独立卡方分布的随机变量除以m之后的平方根。数学表达式:比如,设Z是个标准正态随机变量,W是个服从自由度为m的卡方分布的随机变量,并设Z和W是独立分布的,那么,注意:学生t分布的形状与正态分布的钟形密度曲线相似,但当m较小时(20或更小),它的尾巴的概率较大。也就是说,它是个比正态分布“更肥尾”的钟形分布。4.F分布:统计学和计量经济学中的另一个重要分布。F分布(Fdistribution),一般用表示,它等于两个随机变量的比率的分布,其分子是一个自由度为m的卡方分布的随机变量除以m,其分母是一个自由度为n的独立的卡方分布的随机变量除以n。数学表达式:比如,W代表一个服从卡方分布的随机变量,其自由度为m,令V代表一个自由度为n的卡方分布的随机变量,其中W和V是相互独立的,那么,即,分子的自由度为m,分母的自由度为n。注意:在统计学和计量经济学上分布两个重要的特例:当分母自由度足够大是,分布逼近分布。在这个特例中,分母随机变量V是无数多卡方分布随机变量的均值,且均值为1。因为一个标准正态分布随机变量平方的均值还是1。1.5随机抽样几样本均值1.随机抽样简单随机抽样(SimpleRandomVariable):从总体(Population)中随机选择n个个体,并且总体中的每个个体等可能的包含在样本中。

由于包含在样本中的个体是随机选择的,因此观测值本身也是随机的。独立同分布抽样独立同分布(IndependentlyIdenticallyDistribution,i.i.d.):当取自一个同一个分布并且是独立的,则称它们为独立同分布或i.i.d.。同分布(IdenticallyDistribution):由于是从同一个总体中随机抽取的,因此对每个

而言,的边缘分布都是相同的,那么称是同分布的。独立分布(IndependentlyDistribution):

在简单随机抽样下,的值并不能提供关于的信息,那么称与

是独立分布。重要概念四:简单随机抽样和i.i.d.随机变量

在一个简单的随机样本中,从总体中随机抽取n个个体,并且每个个体等可能的被抽到。对于第i个被随机抽到的个体而言,用表示随机变量Y的。由于每个对象等可能的被抽取,并且对于所有的i而言,的分布是相同的,因此随机变量

是独立同分布的(i.i.d.)。也就是说,对于所有而言,的分布是相同的,并且是独立于,其他结论以此类推。2.样本均值的抽样分布样本均值:n个观测值的样本平均数的计算公式如下:样本均值的均值、方差和标准差为1.6抽样分布的大样本逼近1.大数定律与一致性大数定律(LawofLargeNumber):在一般条件下,当n很大是,

将会以非常高的概率接近于。大数定律有时又被称为“均值定律”,当大量均值相同的随机变量放在一起取平均数时,大的数值平衡了小的数值,而且它们的样本均值接近于它们的共同均值。例子:假设股票上涨为还是不上涨,如果第i个随机选择的股票上涨那么令,否则。由于这儿使用的是贝努利分布,因此是独立同分布的。一致性(consistency):随着n的增大,一不断增大的概率接近于,这一性质被称为依概率收敛与(convergenceinProbability),或更精确地称为一致性(consistency)重要概念五:依概率收敛、一致性和大数定律

对任意的尝试c>0,随着n的增大,如果位于区域内的概率任意地接近于1,那么我们就说样本均值依概率收敛与(或等价地,与是一致的),记为

大数定律指出:如果

是独立同分布的,且

,,那么。2.中心极限定理中心极限定理(CentralLimitTheorem,CLM):在一般条件下,当n足够大时,的分布可充分地逼近正态分布。问题:n必须多大?

答案是“依情况而定”。正态近似的质量好坏依赖于构成均值对基本元素的分布。如果本身服从正态分布,那么对于所有的n来说,精确地服从正态分布;相反,如果本身服从一个与正态分布相差甚远的分布,那么这种近似可能要求n=30或更大。

例子重要概念六:中心极限定理

假设是独立同分布,且,,其中,。当时,(其中,)的分布会被标准正态分布很好地近似替代。1.估计量及其性质1.7总体均值的估计重要概念:估计量和估计值估计量(Estimator)是从一个总体中随机抽取出来的样本数据的函数。

注意:由于样本选择的随机性,估计量是随机变量,而估计值是非随机的数值。估计值(Estimate)是利用特定样本数据实际计算出来的估计量的数值。估计量:用样本平均数来估计是一种很常用的方法。但它不是唯一的方法。例如,可以简单地用第一个观测值来估计。问题:怎样判定一个估计量“好”于另一个估计量呢?

答案:估计量三个特定的理想性质:无偏性(缺少偏差)、一致性和有效性。无偏性:估计量的一个理想性质就是它的抽样分布的均值等于,如果这样,就称估计量是无偏的。用数学表达,假设表示的某个估计量,如。如果,那么估计量是无偏的。其中,的抽样分布的均值,否则,是有偏的。一致性:当样本容量很大时,由样本的随机变化所引起的值的不确定性很小。或者说,当样本量增大时,它在真值附近很小区间内的概率接近于1,即是一致的。方差与有效性:假如有两个备选的估计量,而且它们都是无偏的,那么请问如何在它们之间做出选择?方差与有效性:选择抽样分布最密集的估计量,即,在之间选择方差最小的那个估计量。如果,的方差比小,那么称更有效。

设的估计量,那么:重要概念七:偏差、一致性和有效性的偏差(bias)为;如果,那么的无偏估计量(unbiasedestimator);如果,那么的一致估计量(consistentestimator);如果的另一个估计量,并假设都是无偏的。如果,那么更有效(efficient)。2.的性质问题:单用偏差、一致性和有效性这三个标准进行判断时,作为的估计量表现如何?偏差和一致性:由于,以及由大数定律可得,因此,是无偏一致估计量。有效性:需要设定与相比较的一个或几个估计量。譬如,,其,并且最佳线性无偏估计(BestlinearUnbiasedEstimator,BLUE)

是的加权平均计算出来的无偏估计中最有效的估计量,即为BLUE。也就是说,它是所有与呈线性函数且又是无偏的估计量中最有效(最佳)的估计量。重要概念八:的有效性:是最佳线性无偏估计量假设的一个估计量,是的加权平均值,即其中,是非随机变量。如果是无偏的,那么除非。这样就是最佳线性无偏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论