统计基础知识及实验报告(ppt 70页).ppt_第1页
统计基础知识及实验报告(ppt 70页).ppt_第2页
统计基础知识及实验报告(ppt 70页).ppt_第3页
统计基础知识及实验报告(ppt 70页).ppt_第4页
统计基础知识及实验报告(ppt 70页).ppt_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、对比实验 联想集团有限公司,欢迎光临6sigma世界,统计基础知识 参数估计 假设检验 对比实验报告编写和练习,课程进程,为什么要学习对比实验,许多的问题需要就某些参数作出接受或拒绝的决定,这说明是一个假设。它代表把一个实务的问题演绎成统计学上的问题。而这个决策过程便称为:Hypothesis Testing 我们把实现假设检验的过程成为对比实验。 统计学上的测试能为我们就问题作出客观解说,相比较以前,我们只能作出主观的解说。这是后续学习内容的基础。,统计基础知识,第一单元,总体(Population):在统计问题中,我们把研究对象的全体成为总体 个体:构成总体的每个成员称为个体 样本(Sam

2、ple):从总体中抽取部分个体所组成的集合称为样本 样品:样本中的个体称为样品 样本容量:样品的个数称为样本容量,常用n表示,1.1总体和样本,样本,随机样本(Random sample):能够被推广应用于更大的总体的样本。总体的每个个体有一个已知的(有时是相等的)机会被包含在该样本中。 简单随机样本(Simple random sample): 1、同一性:样本与总体有同样的分布 2、独立性: 如果给定第一个事件,无论它的结果是什么,第二个事件的机会都一样。,1.2统计量和抽样分布,统计量:不含未知参数的样本函数称为统计量。 抽样分布:统计量的分布称为抽样分布。 有序样本: 是从总体X中随机

3、抽取的容量为n的样本,将它们的观测值从小到大排序,这便是有序样本。,统计推断过程,统计学的主要任务: 1、研究总体是什么分布? 2、这个总体(即分布)的均值、方差是多少?,样本统计量 例如:样本均值、方差,总体均值、方差,抽样,1.2常用统计量,描述中心位置的统计量: 1、众数(mode):一个变量的众数是指出现次数最多的值,不过它不一定唯一。 2、中位数: 3、均值(mean):,1.2常用统计量,描述数据分散程度的统计量: 1、极差(range): 2、方差(variance) 3、标准差(standard deviation): 4、标准误差(standard error ):是很多不同

4、样本的均值的标准差。 5、变异系数:,1.3正态分布,正态分布:,1.3正态分布,标准正态分布: 它是特殊的正态分布,服从标准的正态分布的随机变量记为z,概率密度函数记为(z),1.3正态分布,标准正态分布的变换:,1.3正态分布,标准正态分布的分位数: 0.975是随机变量z不超过1.96的概率 1.96是标准正态分布N(0,1)的0.975的分位数,记为z0.975,0.975,0.025,1.4常用的抽样分布,正态样本均值的分布:, =10,X,n = 4,n =16,总体分布,抽样分布,1.4常用的抽样分布,t分布:,1.4常用的抽样分布,F分布:设X1,X2,Xn是来自正态总体N(1

5、,12 )的一个样本, Y1,Y2,Yn是来自正态总体N(2,22 )的一个样本,且相互独立,则: 将F(n-1 , m-1 )称为第一自由度为(n-1),第二自由度为(m-1)的F分布,1.4常用的抽样分布,F分布:,F,(1,10),(5,10),(10,10),参数估计,第二单元,2.1点估计,点估计的概念(point estimation): 用样本均值估计总体均值 用样本方差估计总体方差 用样本标准差估计总体标准差,2.2区间估计,区间估计的概念(interval estimate): 置信区间(confidence interval): ,则称这种置信区间为等尾置信区间。,2.2区

6、间估计,点估计与区间估计的区别:,我是意见是这个值是10, 但误差在1之间。,2.2区间估计,2.2区间估计,置信水平的概念: 是的置信水平为1-的置信区间。它的含义是能盖住未知参数的概率为1-。 置信区间量化了数据的不定性。,2.2区间估计,总体均值置信区间的计算: 已知: 未知:,2.2区间估计,2分布: 方差置信区间的计算:,2.2区间估计,置信区间的长度: 1、大的样本产生较短的区间,小的样本产生较长的区间。 2、低的置信水平产生较短的区间,高的置信水平产生较长的区间。,N=100,N=200,N=300,N=400,N=500,Exercise,研究草莓酱的重量是多少? 答案: =

7、95的置信区间,假设检验,第三单元,3.1假设检验问题,例:草莓酱的净重服从正态分布N(,2), 6月份从产品中随机抽取50瓶称重的平均重量为180.5克, 5月份从产品中随机抽取50瓶称重的平均重量为179.6克, ,问从总体上是否重量比原来少了? 1、这不是一个参数估计问题 2、要求对6-5=0作出回答:是与否 3、这类问题被称为统计假设检验问题 估计的主要任务是找参数值等于几; 假设检验的兴趣主要是看参数的值是否等于某个特别感兴趣的值,3.2定义假设H0和Ha,H0 要判断0.9克这个值是否超出了样本变换所能造成的差异的范围,我们先要问一问在总体均值相等的情况下,样本均值会发生什么情况,

8、即是否两个均值的差等于0,在统计学上被称为零假设(null hypothesis) 之所以用零来修饰假设,其原因是假设的内容总是没有差异或没有改变,3.2定义假设H0和Ha,HA 零假设其逻辑上的反面假设是“两个参数有区别”。这种反面假设称为备择假设(alternative hypothesis)。 当零假设所提问的问题被否定时,备择假设的答案就是正确的。如果样本数据能证明对于零假设提出的问题应该否定,那么我们就拒绝(reject)零假设而倾向于备择假设。,3.3怎样回答零假设所提出的问题,概率:p-值 p-值是当零假设正确时,得到所观测的数据或更极端的数据的概率,这个概率称为p-值(p-va

9、lue)。 当p-值小到以至于几乎不可能在零假设正确时出现目前的观测数据时,我们就拒绝零假设。 p-值越小,拒绝零假设的理由就越充分。 注意: 有时错误以为p-值与零假设对错的概率有关,但这是不可能的. p-值指的是关于数据的概率。 p-值告诉我们在某总体的许多样本中,某一类数据出现的经常程度。,3.3怎样回答零假设所提出的问题,假设检验机制: 为了求p-值,统计理论指出要把观测到的0.9这个样本均值之差变换成标准得分。 标准得分:,0.0,2.142 p-值0.0347,3.3怎样回答零假设所提出的问题,假设检验机制: t值等于2.142的概率是0.0347,因此两个样本均值之差等于0.9的

10、概率也是0.0347 ,换句话说就是如果两总体均值相等的话,从均值相等的总体中抽取200个样本两两相减所得之差只有3.47个样本的样本均值相差在0.9,是小概率(0.05)事件,我们拒绝零假设。,2.142 p-值0.0347,3.4显著水平,显著水平:我们不是在数据收集完毕之后计算p-值,而是在收集数据以前就已经确定好的小概率来构造一个区间。当样本数据落入这个区间时就拒绝零假设。这个小概率 称为检验的显著水平(significant level),通常选0.05. 一个检验的显著水平是抽样所得的数据拒绝了本来是正确的零假设的概率。 拒绝域:当样本数据落入这个区间时就拒绝零假设,那么这个区间就

11、称为拒绝域。 临界值(critical values):拒绝域的边界所对应的标准得分的值。对于双边检验,样本统计量的临界值是两个值。,3.4显著水平,3.5风险(和),3.5和的关系,你不能同时减少两类错误!,3.6假设检验的步骤,1、建立假设 2、数据独立性检查 3、数据正态性检查 4、如为One to One问题进行方差的F检验 5、计算检验统计量 6、给出显著性水平 ,通常 =0.05 7、定出临界值,写出拒绝域 8、判断,案例1,例:草莓酱的净重服从正态分布N(180,22), 5月份随机抽取50罐称重的平均重量为179.6克,问是否符合标准?,平均净重:179.6g,3.7One t

12、o Standard的问题,是假设检验的特例: 其中一个 已知,3.7One to Standard的问题,计算标准得分: 已知时,使用z统计量计算 未知时,使用t统计量计算 双侧问题,Ho值,临界值,临界值,a/2,a/2,样本统计量,拒绝域,拒绝域,接受域,抽样分布,1 - ,置信水平,3.7One to Standard的问题,单侧左检验,3.7One to Standard的问题,单侧右检验,3.7One to Standard的问题,JMP中的操作,3.7One to Standard的问题,JMP中的操作,3.7One to Standard的问题,JMP中的操作,案例2,例:草莓

13、酱的净重服从正态分布N(,2), 6月份从产品中随机抽取50瓶称重的平均重量为180.5克, 5月份从产品中随机抽取50瓶称重的平均重量为179.6克, ,问从总体上是否重量比原来少了?,假设检验的步骤,1、建立假设 2、数据独立性检查 3、数据正态性检查 4、如为One to One问题进行方差的F检验 5、计算检验统计量 6、给出显著性水平 ,通常 =0.05 7、定出临界值,写出拒绝域 8、判断,3.8One to One的问题,建立假设:,假设检验的步骤,1、建立假设 2、数据独立性检查 3、数据正态性检查 4、如为One to One问题进行方差的F检验 5、计算检验统计量 6、给出

14、显著性水平 ,通常 =0.05 7、定出临界值,写出拒绝域 8、判断,假设检验的步骤,1、建立假设 2、数据独立性检查 3、数据正态性检查 4、如为One to One问题进行方差的F检验 5、计算检验统计量 6、给出显著性水平 ,通常 =0.05 7、定出临界值,写出拒绝域 8、判断,3.8One to One的问题,F检验:,假设检验的步骤,1、建立假设 2、数据独立性检查 3、数据正态性检查 4、如为One to One问题进行方差的F检验 5、计算检验统计量 6、给出显著性水平 ,通常 =0.05 7、定出临界值,写出拒绝域 8、判断,3.8One to One的问题,相等时t的计算:

15、Sp为s1 ,s2的加权平均,称为两个样本的联合方差。,3.8One to One的问题,不等时t的计算:,3.8One to One的问题,假设检验的步骤,1、建立假设 2、数据独立性检查 3、数据正态性检查 4、如为One to One问题进行方差的F检验 5、计算检验统计量 6、给出显著性水平 ,通常 =0.05 7、定出临界值,写出拒绝域 8、判断,3.8One to One的问题,假设检验的步骤,1、建立假设 2、数据独立性检查 3、数据正态性检查 4、如为One to One问题进行方差的F检验 5、计算检验统计量 6、给出显著性水平 ,通常 =0.05 7、定出临界值,写出拒绝域

16、 8、判断,3.8One to One的问题,因为Prob0.03470.05,所以我们拒绝零假设,接受备择假设!,3.8One to One的问题,不等,实验和报告编写,第四单元,练习(30分钟),例:两家供应商的硬盘性能指标数据,问是否这两个供应商有显著差异?,谢谢大家!,课程开发人员:孟繁一、高武,附录,假设检验术语,零假设 (Ho) -不存在变化或差异的命题。如果没有充分的证据拒绝它,就假设这一命题是真的。 备择假设(Ha) - 存在变化或差异的命题。如果拒绝Ho,则认为这一命题是真的。 一类错误 - 当Ho 实际上为真时而被拒绝所产生的错误,或是接受存在差异、但事实上却没有差异时所犯的错误。 二类错误 - 当Ho 实际上为伪而没有被拒绝所产生的错误,或是接受没有差异、但事实上存在差异时所犯的错误。,假设检验术语,风险 - 出现第一类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论