成对数据的统计相关性高二下学期数学人教A版(2019)选择性必修第三册_第1页
成对数据的统计相关性高二下学期数学人教A版(2019)选择性必修第三册_第2页
成对数据的统计相关性高二下学期数学人教A版(2019)选择性必修第三册_第3页
成对数据的统计相关性高二下学期数学人教A版(2019)选择性必修第三册_第4页
成对数据的统计相关性高二下学期数学人教A版(2019)选择性必修第三册_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

“统计”数据获取数据记录数据分析抽样统计图表数据特征变量关系

在必修课程中,我们学习了单个变量的观察数据的直观表示和统计特征的刻画等知识与方法.例如,用直方图描述样本数据的分布规律,用均值刻画样本数据的集中趋势,用方差刻画样本数据的离散程度等.这些方法主要适用于通过样本认识单个变量的统计规律.在现实中,我们还经常需要了解两个或两个以上变量之间的关系.例如,教育部门为掌握学生身体健康状况,需要了解身高变量和体重变量之间的关系;医疗卫生部门要制定预防青少年近视的措施,需要了解有哪些因素会影响视力,以及这些因素是如何影响视力的;商家要根据顾客的意见改进服务水平,希望了解哪些因素影响服务水平,以及这些因素是如何起作用的;等等.为此,我们需要进一步学习通过样本推断变量之间关系的知识和方法.章首语

本章的学习内容有成对数据的统计相关性、一元线性回归模型和2×2列联表等,这些知识与方法在解决实际问题中非常有用.可以发现,两个随机变量的相关性可以通过成对样本数据进行分析;利用一元线性回归模型可以研究变量之间的随机关系,进行预测;利用2×2列联表可以检验两个随机变量的独立性.本章的学习对于提高我们解决实际问题的能力,提升数据分析、数学建模等素养都是非常有帮助的.章首语变量A:变量B:该如何着手分析不同变量间的关系?分析顺序1先分析是否相关2判断是何种相关关系4判断拟合效果是否良好3能否量化关系

相关关系的概念

相关关系的概念相关关系的概念两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.相关关系的概念例(多选)下列两个变量存在相关关系的为A.扇形的半径与面积之间的关系B.降雪量与交通事故的发生率之间的关系C.人的身高与体重之间的关系D.家庭的支出与收入之间的关系BCD函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.(课本p104).某地区的环境条件适合天鹅栖息繁衍.有人发现了一个有趣的现象,该地区有5个村庄,其中3个村庄附近栖息的天鹅较多,婴儿出生率也较高;2个村庄附近栖息的天鹅较少,婴儿的出生率也较低.有人认为婴儿出生率和天鹅数之间存在相关关系,并得出一个结论:天鹅能够带来孩子.你同意这个结论吗?为什么?子女身高y与父亲身高x之间的关系商品销售收入y与广告支出x之间的关系空气污染指数y与汽车保有量x之间的关系粮食亩产量y与施肥量x之间的关系在相关关系中,无法直接用函数去描述变量y与变量x之间的关系。根据以往积累的经验做出推断,“经验之中有规律”,经验的确可以为我们的决策提供一定的依据,但仅凭经经验推断又有不足,比如:不同经验的人对同一情形可能会得出不同的结论,不是所有的情形都有经验可循等.借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或推断.相关关系的概念油腻大叔是怎样炼成的年龄越大越“油”?变量1:年龄变量2:脂肪含量变量间的相关关系编号1234567年龄/岁23273941454950脂肪含量/%9.517.821.225.927.526.328.2编号891011121314年龄/岁53545657586061脂肪含量/%29.630.231.430.833.535.234.6问题1:脂肪含量随着年龄的变化有什么规律吗?答:从整体上看,脂肪含量随着年龄的增大而增大变量间的相关关系编号1234567年龄/岁23273941454950脂肪含量/%9.517.821.225.927.526.328.2编号891011121314年龄/岁53545657586061脂肪含量/%29.630.231.430.833.535.234.6追问1:根据规律,23岁的脂肪含量一定比30岁的脂肪含量低吗?答:不一定变量间的相关关系编号1234567年龄/岁23273941454950脂肪含量/%9.517.821.225.927.526.328.2编号891011121314年龄/岁53545657586061脂肪含量/%29.630.231.430.833.535.234.6问题2:如果用横轴表示年龄,纵轴表示脂肪含量,上述数据用直角坐标系中的点表示出来,图有什么特征?变量间的相关关系散点图特征:散点大致落在一条从左下角到右上角的直线附近正相关:从整体上看,当一个变量的值增加时,另一个变量的相应值

也呈现增加的趋势负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值

也呈现减少的趋势线性相关:两个变量呈正相关或负相关,且散点图落在一条直线附近变量间的相关关系结论:脂肪含量与年龄成线性正相关关系练习.下列四个散点图中,变量x与y之间具有负的线性相关关系的是(

)D练习巩固问题3:这两组成对变量都是线性正相关,你能判断哪一组的线性相关性更强吗?答:不能探究:线性相关的定量分析问题:散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?探究:线性相关的定量分析线性负相关线性正相关无相关关系非线性相关观察下面四个散点图所表示的四组成对变量

,从两类变量数据的正负、大小角度比较,是否有明显区别?探究:线性相关的定量分析

数据预处理的常用方法:中心化(零均值化)数据平移以后,作出散点图如下探究:线性相关的定量分析线性负相关线性正相关无相关关系非线性相关(x,y)基本异号(x,y)基本同号一般情形下,Lxy>0表明成对样本数据正相关;Lxy<0表明成对样本数据负相关.根据散点图特征,初步构造统计量.利用散点的横纵坐标是否同号,可以构造一个量探究:线性相关的定量分析在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度.变换单位前变换单位后变换单位后是变换前的100倍我们发现,Lxy的大小与数据的度量单位有关,所以不能直接用它度量成对样本数据相关程度的大小.探究:线性相关的定量分析为了消除单位的影响,进一步做“标准化”处理,用

仿照Lxy的构造,可以得到我们称r为变量x和变量y的样本线性相关系数,简称样本相关系数.接下来我们来考察r的合理性探究:线性相关的定量分析相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。当r>0时,称成对样本数据正相关;当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。当r<0时,称成对样本数据负相关;当其中一个数据的值变小时,另一个数据的值通常会变大:当其中一个数据的值变大时,另一个数据的值通常会变小。问题4:样本相关系数r的正负能反映出成对变量的什么关系?样本的相关系数类似于平面或空间向量的坐标表示,对于向量我们有设“标准化”处理后的成对数据

的第一分量构成n维向量第二分量构成向量样本的相关系数问题5:样本相关系数r的取值与成对样本数据的相关程度有什么内在联系?观察r的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到n维,n维向量的

数量积仍然定义为其中

为向量

的夹角.首先我们来考察r的取值范围样本的相关系数思考:

时,成对样本数据之间有怎样的关系

?样本的相关系数

或共线由向量的共线定理得即这表明成对样本数据

都落在直线

说明成对样本数据的两个分量之间满足一种线性关系样本的相关系数

由此可见,样本相关系数r的取值范围为[-1,1].样本相关系数r的绝对值大小可以反映成对数据之间线性相关的程度。问题5:样本相关系数r的取值与成对样本数据的相关程度有什么内在联系?当|r|越接近0时,成对数据的线性相关程度越弱.当|r|越接近1时,成对数据的线性相关程度越强;答:样本的相关系数追问5:样本相关系数r=0时,样本一定是无相关关系吗?r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.答:小贴士:利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,

若|r|>0.75,则线性相关较为显著,否则不显著.样本的相关系数①r的正负:反映成对样本数据的变化趋势②r的范围:−1≤r≤1③|r|的大小:反映成对样本数据线性相关的程度(即散点集中于某条直线的程度):|r|越接近1:线性相关程度越强;|r|越接近0:线性相关程度越弱.r=0时,只表明成对样本数据间无线性相关关系,但不排除它们有其他相关关系.④样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.样本相关系数的性质总结例1.根据表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.编号1234567891011121314年龄2327394145495053545657586061脂肪9.517.821.225.927.526.328.229.630.231.430.833.535.234.6解:先画出散点图,如图所示.观察散点图,可看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.代入公式可得样本相关系数r≈0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.例题点拨练习巩固练习.有一个同学家开了一个小卖部,他为了研究气温对热饮料销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的数据的散点图和对比表.解:观察散点图,可看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.代入公式可得样本相关系数r≈﹣0.97,可以推断脂肪含量和年龄这两个变量的负线性相关程度很强.摄氏温度x-5471015233036热饮杯数y16212811513589716337画出散点图,并用相关系数r判断热饮杯数与当天气温的关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论