《调查研究方法》第十五章统计推断方法_第1页
《调查研究方法》第十五章统计推断方法_第2页
《调查研究方法》第十五章统计推断方法_第3页
《调查研究方法》第十五章统计推断方法_第4页
《调查研究方法》第十五章统计推断方法_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第15章统计推断方法第一节

参数估计的一般问题

第二节

一个总体参数的区间估计

第三节

两个总体参数的区间估计

第四节

假设检验第五节方差分析思考题第一节参数估计的一般问题描述统计主要反映样本数据的基本情况,统计推断则是利用样本数据来推断总体结论。统计推断的结果通常是“或然”的,不能说是“必然”的。统计推断主要包括两个方面:参数估计和假设检验。参数估计和假设检验在逻辑上有所不同:参数估计是先看样本情况,然后再对总体进行推断;假设检验是先对总体情况做出假设,然后再以一个随机样本的统计值来检验这个假设是否正确。参数估计是用样本统计量去估计总体参数。例如,用样本均值去估计总体均值μ,用样本方差S2去估计总体方差σ2,用样本比例p去估计总体比例P。如果将总体参数笼统地用一个符号θ来表示,用来估计总体参数的样本统计量也称作估计量,可用符号来表示。样本均值、样本方差、样本比例等都是估计量,根据样本数据计算出来的估计量的具体数值被称作估计值。参数估计分为两类:点估计和区间估计。点估计是用样本估计量的值直接作为总体参数θ的估计值。点估计的结果是一个点值。点估计一般是用样本均值作为总体均值的点估计值,用样本方差作为总体方差的点估计值,用样本标准差作为总体标准差的点估计值。点估计的方法主要有矩估计法、顺序统计量法、最大似然法、最小二乘法等。区间估计是在点估计的基础上,给出总体参数θ估计的一个范围。估计结果是一个区间范围。对于总体被估计参数θ,找出样本的两个估计量和(假定<),使总体被估计的参数落在区间(,)内的概率为1-α,其中显著性水平α是介于0~1之间的数,则有:第二节一个总体参数的区间估计研究一个总体时所关心的参数主要有总体均值μ、总体比例P和总体方差σ2。一、总体均值的区间估计(一)假设条件:总体服从正态分布且σ2已知;或者总体不服从正态分布但是大样本。样本均值的抽样分布均为正态分布,样本均值的数学期望等于总体均值μ,样本均值方差为。大样本是指n≥30。样本均值经过标准化处理后的随机变量z服从标准正态分布,则:根据正态分布的性质,对于给定的置信水平1-α,查正态分布双侧临界值表可得相应的临界值zα/2,使得:利用不等式变形可得:得出总体均值μ在置信水平1-α下的置信区间为:也可表示为:(二)假设条件:总体服从正态分布且σ2未知。总体方差σ2可用样本方差s2代替,样本均值方差为s2/n。这时总体均值μ在置信水平1-α下的置信区间为:(三)假设条件:总体服从正态分布且σ2未知,样本为小样本。可用样本方差s2代替总体方差σ2,样本均值经过标准化处理后服从自由度为n-1的t分布。小样本是指n<30。根据t分布建立的总体均值μ在1-α置信水平下的置信区间为:其中,tα/2为自由度是n-1、t分布中上侧面积为α/2时的t值。该值可通过查t分布表获得。二、总体比例的区间估计在大样本情况下,根据正态分布的性质,对于给定的置信水平1-α,查正态分布双侧临界值表可得相应的临界值zα/2,由此可得总体比例的区间估计为:总体比例估计的置信区间的下限值和上限值都是由两部分组成,一部分是点估计值p,另一部分是允许误差。三、总体方差的区间估计假设总体方差服从正态分布。样本方差则服从自由度为n-1的分布。构建统计量为:总体方差σ2在1-α置信水平下的置信区间为:进一步简化为:综上来看,总体参数不同、假设条件不同,采用的总体参数区间估计方法也不同。第三节两个总体参数的区间估计市场调研经常需要比较两个样本的数据,为有效开展市场经营管理决策提供参考。研究者主要会关注两个总体的均值之差μ1-μ2,两个总体的比例之差p1-p2、两个总体的方差比等总体参数。一、

两个总体均值之差的区间估计:独立大样本假设两个总体的均值分别为μ1和μ2,从两个总体中分别抽取规模为n1和n2的两个随机样本,样本均值则分别为。两个总体的均值之差μ1-μ2的样本估计量是两个样本的均值之差。独立样本是指两个样本是从两个总体中独立抽取的,那么一个样本中的元素与另一个样本中的元素是相互独立的。独立大样本是指n1≥30,n2≥30。如果两个总体都服从正态分布,或两个总体不服从正态分布但两个样本均为大样本,那么两个样本均值之差的抽样分布服从期望值为μ1-μ2、方差为的正态分布。两个样本均值之差经过标准化后服从标准正态分布,则:(1)当两个总体的方差都已知时,两个总体均值之差μ1-μ2在1-α置信水平下的置信区间为:(2)当两个总体的方差都未知时,可用两个样本方差来代替,此时两个总体均值之差μ1-μ2在1-α置信水平下的置信区间为:二、

两个总体均值之差的估计:独立小样本独立小样本是指n1<30,n2<30。(1)如果两个总体都服从正态分布,两个总体的方差已知,那么用两个独立小样本均值之差推断的两个总体均值之差μ1-μ2在1-α置信水平下的置信区间为:(2)如果两个总体都服从正态分布,两个总体的方差那1=σ22,那么用两个独立小样本的方差这时将两个独立小样本的数据组合在一起,得到一个新的样本。同时假设存在一个新总体的方差为σ2。由于且未知,则可以设定,σ2也是未知的。为了估计σ2,构建新总体方差的合并样本估计量,该联合利用了两个独立小样本中的方差信息,表达式为:此时,两个总体均值之差μ1-μ2的标准误差由转化为:此时两个样本均值之差经过标准化后服从自由度为n1+n2-2的t分布,则:由此,推断出两个总体均值之差μ1-μ2在1-α置信水平下的置信区间为:(3)如果两个总体都服从正态分布,两个总体的方差,两个独立小样本的规模相等,即n1=n2,那么,两个总体均值之差μ1-μ2在1-α置信水平下的置信区间为:(4)如果两个总体都服从正态分布,两个总体的方差,两个小样本的规模不相等,即n1≠n2,此时,两个独立小样本均值之差经过标准化后不再服从自由度为n1+n2-2的t分布,而是近似服从自由度为f的t分布,自由度f的计算公式为:那么,两个总体均值之差μ1-μ2在1-α置信水平下的置信区间为:三、两个总体均值之差的估计:匹配大样本匹配样本是指一个样本中的数据与另一个样本中的数据相对应。匹配样本的目的是消除样本确定不合理所造成的误差。假设两个总体均值之差为μd=μ1-μ2。当使用匹配大样本数据进行估计时,两个总体均值之差在1-α置信水平下的置信区间为:如果总体的σd未知,则可用样本配对数据差值的标准差sd来代替。计算公式为:四、两个总体均值之差的估计:匹配小样本当使用匹配小样本数据进行估计时,假定两个总体各个观测值的配对差服从正态分布,那么两个总体均值之差μd=μ1-μ2在1-α置信水平下的置信区间为:五、

两个总体比例之差的区间估计从两个二项总体中抽出两个独立的大样本n1和n2。两个总体的比例分别是P1和P2,两个样本比例之差p1-p2的抽样分布服从正态分布。当两个总体比例P1和P2未知时,可用样本比例p1-p2来代替。因此,两个总体比例之差P1-P2在1-α置信水平下的置信区间为:六、两个总体方差比的区间估计由于两个样本方差比的抽样分布服从分布,所以可以构建F分布统计量来估计两个总体方差比的置信区间,使F满足:当两个总体均为正态分布时,构建统计量并知:于是有,综上来看,两个总体参数的区间估计因为假设条件不同而采用的估计方法也不同。总结如下表。第四节假说检验假说检验通常分为5个基本步骤:第1步:提出原假说H0和备择假说H1;第2步:选择适当的检验统计量;第3步:规定显著性水平α;第4步:计算检验统计量的值;第5步:总结检验结果。一、一个总体均值的假说检验一个总体均值的假说检验有3种形式。案例分析:假定某城市平均家庭年总收入的普查数据为200000元。总体方差σ2未知。用样本方差s2代替总体方差。为了验证这一数据是否正确,调研人员在某城市抽取了一个样本对普查数据进行检验。该样本数据仍以消费者新能源汽车购买意愿的调查数据中的“家庭年总收入”数据为例。样本规模n=238人,家庭年总收入的样本均值元,样本方差s=97017(元)。假说检验过程如下:(1)提出研究假说。(2)构建z检验统计量。(3)确定显著性水平。当H0正确时,研究者希望错误地拒绝它的概率仅为5%(α=0.05)。本次检验的显著性水平为0.05。查表可得临界值为:(4)计算检验统计量的值。计算样本中关于家庭年总收入变量的样本z统计量的值:(5)检验结果。因为计算出的z值-1.10落在接受域(-1.96,1.96)(见下图),所以假说检验结果是接受H0,拒绝H1。这意味着抽样获得的样本数据的家庭年总收入均值与城市普查数据没有显著差别,接受调查数据为200000元的结果。上面关于总体平均数的推断使用的样本是大样本,因此采取的是z检验的方法。如果使用的样本是小样本,那么通常采用的是自由度为n-1(n为样本数)的t检验。二、两个总体均值之差的假说检验两个总体均值之差的假说检验也有3种形式。案例分析:根据经验,我们认为城市中男性和女性的受教育程度是一样的。受教育程度用受教育年限来测量。总体方差σ2未知。为了验证这一论断,在某城市抽取男性人、女性人进行调查。计算可得:男性受教育年限的均值(年),方差为女性受教育年限的均值(年),方差为。假说检验过程如下:(1)提出研究假说。(2)构建z检验统计量。(3)确定显著性水平。确定检验的显著性水平为0.05。临界值zα/2=±1.96。(4)计算z检验统计量的值。(5)检验结果。因为z>zα/2,所以计算出的z值2.52落在拒绝域,假设检验结果是拒绝H0,接受H1。这意味着抽样获得的样本数据说明男性和女性的受教育程度有显著差异。三、一个总体比例的假说检验总体比例的假说检验与总体均值的假说检验基本上是相同的。总体比例的假说检验有3种形式。不同之处在于总体参数和检验统计量不同。构建总体比例P的检验统计量为:案例分析:一种汽车杂志认为消费者中愿意购买新能源汽车的男性消费者占比超过50%。为验证这一说法是否属实,某市场营销机构随机抽取了一个由238人组成的样本,发现有购买意愿的男性消费者为87人。在显著性水平α=0.05下,检验消费者中愿意购买新能源汽车的男性占比(P)是否超过50%(P0)。检验过程如下:(1)提出研究假说。(2)构建检验统计量。在P未知的情况下,用样本p代替P。(3)确定显著性水平α=0.05。(4)计算z检验统计量。(5)检验结果。根据给定的显著性水平α=0.05,查标准正态分布表可得zα=z0.05=1.645。由于这是一个左侧检验的问题,所以-zα=-1.645,此时z<-zα,结果是拒绝H0,接受H1。结果说明消费者中愿意购买新能源汽车的男性消费者占比低于50%。四、两个总体比例之差的假说检验在市场调研中,研究人员有时候对不同细分市场中具有某种行为或特征的人所占比例的差别比较感兴趣。假设两个总体服从二项分布,这两个总体中具有某种特征的单位数的比例分别为P1和P2,但两个总体的比例P1和P2未知,可用两个样本的比例p1和p2代替。两个总体比例之差假说检验的3种形式如下:构建两个总体比例之差的假说检验统计量:其中,p1和p2分别为两个样本的比例;n1和n2分别为两个样本的规模;p为两个样本合并之后的比例。案例分析:在新能源汽车的购买意愿上,基于经验,我们认为男性消费者中有购买意愿的比例与女性消费者中有购买意愿的比例是一致的。为此,我们分别选取了女性消费者和男性消费者两个独立样本进行调查,利用数据对假设进行检验。男性nm=200人、女性nf=200人。调查数据显示,在男性样本中,有购买意愿的消费者为98人;在女性样本中,有购买意愿的消费者为105人。(1)提出研究假说。(2)构建假设检验统计量。因为男性和女性两个总体中人们购买新能源汽车的比例是未知的,所以用男性和女性两个样本中的消费者购买意愿的比例来构建统计量如下:根据案例资料,男性消费者中有购买新能源汽车意愿的人数占比为:两个样本的合并比例p为:(3)确定显著性水平。确定检验的显著性水平为0.05。临界值zα/2=±1.96。(4)计算z检验统计量。(5)检验结果。因为z=-0.7>zα/2=-1.96,z值落在接受域,检验结果是接受H0,拒绝H1。这意味着我们有95%的把握认为男性消费者中有购买新能源汽车意愿的比例与女性消费者中有购买新能源汽车意愿的比例没有显著差别。第五节方差分析方差分析是适用于对多个总体均值μ1,μ2,…,μr是否相等这一假设进行检验的方法。方差分析的因素被称作变量,是方差分析研究的对象;因素中的内容被称作水平。当方差分析只针对一个因素时,称作单因素方差分析;当方差分析的是多个因素时,称作多因素方差分析。观察值之间差异产生的主要原因有:一方面是因素中的不同水平造成的差异,称作水平间方差(组间方差),产生这种方差的原因包括系统性原因和随机性原因;另一方面是同一水平内部的方差(组内方差),产生这种方差的原因主要是随机性原因。方差分析的逻辑是:如果因素的不同水平对结果没有影响,那么水平间方差不受系统性因素影响,只受随机因素的影响,此时水平间方差与水平内方差就比较接近,两个方差之比就接近于1;如果因素的不同水平对结果产生影响,那么水平间方差就受到了系统性原因和随机性原因的影响,水平间方差就大于水平内方差,两个方差的比值就会大于1。当这两个方差的比值达到某一程度时,我们就可以推断:不同因素水平之间存在统计上的显著性差异。方差分析就是通过不同方差之间的比较,做出是否接受原假说的判断。因此,方差分析构建的检验统计量是“水平间方差与水平内方差之比”,称作F统计量。在市场调研中,我们经常需要对多个细分市场的指标进行调查和比较分析,方差分析就是比较有效的方法。一、单因素方差分析单因素方差分析的步骤是:(1)提出假说。(2)计算均值。单因素方差分析的数据结构如表12.3所示。①因素X的各个水平的样本均值。其中,nj为因素的第j个水平下的样本观察值个数。各个水平下的样本观察值个数可以是相等的,也可以是不等的。②因素X的总均值。(3)计算误差平方和。①总误差平方和(SST)。它是全部观察值与总平均值的差值的平方和,反映全部观察值的离散程度。②组间离差平方和(SSA)。它是因素各水平下观察值的平均值与总平均值的差值的平方和,反映各水平下样本均值之间的差异程度。③组内离差平方和(SSE)。它是因素各水平下的样本数据与其所在水平组的平均值的差值平方和,它反映的是各水平下样本观察值的离散程度。上述三个平方和的关系是:SST=SSA+SSE(4)计算统计量。统计量表达为:其中,MSA为组间均方,计算公式为:MSE为组内均方,计算公式为:(5)做出决策统计。在给定显著性水平α下,在F分布表中查找分子自由度为r-1、分母自由度为n-r的相应临界值Fα。如果F>Fα,则拒绝原假设H0;如果F<Fα,则接受原假设H0。案例分析:某休闲食品的营销团队打算评估三种促销活动对促销食品销售的影响是否存在差异。营销团队分别在三个城市的15家门店进行了实验(每个城市选择了5家店),三种促销活动分别是:买三件赠一件、买三件打八折、买二件打九折。在三种促销方式下同时都采用了食品可试吃的方式。实验期间其他服务和宣传等方面维持不变。实验时间为10天。不同促销方式下的销售数据见下表。问题:不同促销方式对食品销售量的影响是否有显著差异?检验过程如下:(1)提出假说。(2)计算每一种促销方式下的销售量均值。三种促销方式下销售量的总均值为:(3)计算误差平方和。总误差平方和:SST=877.3333

组间离差平方和:SSA=722.5333

组内离差平方和:SSE=154.8(4)计算统计量。计算组间均方:计算组内均方:计算F统计量:(5)做出决策统计。在给定显著性水平0.05的条件下,在F分布表中查找分子自由度为2、分母自由度为12的相应临界值F0.05(2,12)=3.89。因为F=28.0052>F0.05=3.89,所以拒绝原假设H0。这说明不同的促销方式对食品销售量有显著影响。方差分析的结果通常以表格形式展示出来:二、双因素方差分析在实际的市场调查中,我们经常会发现不止一个因素会对因变量产生影响,可能还存在另一个因素也会对因变量产生影响。双因素方差分析就是检验究竟是一个因素对因变量产生影响,还是两个因素都对因变量产生影响,或是两个因素都对因变量没有影响。双因素方差分析的数据结构如表12.6所示。在双因素方差分析中,离差平方和(SST)可以分解为三部分:因素A的组间差异(SSA)、因素B的组间差异(SSB)和随机误差(SSE)。它们的计算公式为:由离差平方和与自由度可以计算出均方,对于因素A,对于因素B,对于随机误差项:计算F统计量的表达式为:可编制出的双因素方差分析表。案例分析:某种食品有三种包装,在三个地区的月销售额数据如表所示。问题:包装方式和销售地区对销售额是否有显著性影响?检验步骤如下:(1)提出假说。对因素A:对因素B:(2)计算均值。(3)计算误差平方和。(4)计算统计量。计算因素A组间均方:计算因素B组间均方:计算随机误差:计算F统计量:(5)做出决策统计。在给定显著性水平0.05的条件下,在F分布表中查找分子自由度为2、分母自由度为4的相应临界值F0.05(2,4)=6.94。因为FA=24.26>F0.05=6.94,所以拒绝原假设H0A,这说明不同的包装对产品销

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论