第七章列联表与非线性回归分析幻灯片.ppt_第1页
第七章列联表与非线性回归分析幻灯片.ppt_第2页
第七章列联表与非线性回归分析幻灯片.ppt_第3页
第七章列联表与非线性回归分析幻灯片.ppt_第4页
第七章列联表与非线性回归分析幻灯片.ppt_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章 列联表与非线性回归分析,1、列联表 2、非线性回归分析 3、对数线性回归,第一节 RC列联表 检验,列联表(contingency table)的构造,1. 由两个或两个以上变量进行交叉分类的频数分布表. 2. 行变量的类别数用 r 表示, 列变量的类别数用 c 表示. 3. 由行变量和列变量的所有可能组合的频数构成的表格,称为列联表. 4. 一个 r 行 c 列的列联表称为 rc 列联表.,22 列联表,r c 列联表,表关于改革方案的调查结果单位:人,例:一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方法,从四个

2、分公司共抽取 420 名职 工,了解职工对此项改革的看法,调查结果见表 41 .,思考:从上表数据能挖掘到什么信息?,三. 列联表的分布(一) 观察值的分布,1. 各行合计的分布称 行边缘分布,称行边缘频数,称行百分数 2. 各列合计的分布称 列边缘分布,称列边缘频数,称列百分数 3. 称为总百分数,包含百分比的 24 列联表,表,(二) 期望值的分布,1. 假定行变量和列变量相互独立 2. 实际频数 的期望频数的估计 为,实际频数和期望频数分布表单位:人,表 44,四、拟合优度检验一. 2统计量,表 45,计算表, 2 分布,分布为正偏,随着自由度的增加,趋于对称. 当自由度很大时, 分布可

3、用正态分布来近似. 统计量的自由度为 f = ( 行数1)( 列数1)( r1)(c1) (9.2) 当 n 较大时, 统计量近似服从 分布.,二. 拟合优度检验(goodness of fit test),例 4.1某集团公司欲进行一项改革,分别从所属的四 个分公司中共随机抽取了 420 名职工,了解他们对改革方案 的态度(见表41),并对职工态度是否与所在单位有关这 个问题在 的显著性水平上进行检验.,解:,例 4.2 为了提高市场占有率,A公司和B公司同时开展了广告宣传. 在广告宣传战之前,A公司的市场占有率为0.45,B公司的市场占有率为0.40,其他公司的市场占有率为0.15. 为了

4、了解广告战之后A、B和其他公司的市场占有率是否发生变化,随机抽取了200名消费者. 其中102人表示准备购买A公司产品,82人表示准备购买B公司产品,另外16人表示准备购买其他公司产品. 检验广告战前后各公司的市场占有率是否发生了变化 ( 0.05),解:,Excel操作,第1步:将观察值输入一列,将期望值输入一列. 第2步 选择【插入】菜单. 第3步:选择【函数】选项. 第4步:先在函数分类中选【统计】,然后在函数名中选 【CHITEST】,再点击【确定】. 第5步:在对话框【Actual range】输入观察数据区域, 在对话框【Expected range】输入期望数据区域,得 p 值为

5、0.0167114,所以拒绝原假设.,四、 独立性检验,例 4.3 一种原料来自三个不同的地区,原料质量划分 成三个不同等级. 从这批原料中随机抽取 500 件进行检验, 结果如表 49 所示. 要求检验各个地区和原料之间是否存在 依赖关系.,表49原料抽样结果 单位:件,表 410 33 列联表计算过程,解:,H0:地区和原料之间独立 H1:地区和原料之间不独立,五、 列联表中的相关测量,1. 相关系数 2. 列联相关系数 3. V 相关系数,品质相关,两个变量之间相关程度主要用相关系数表示,列联表中 的相关测量,就是利用 值计算相关系数. 列联表中的变量通常为定类变量或定序变量,对于定类

6、变量或定序变量之间的相关,称为品质相关.,1. 相关系数,1. 22 列联表中数据的相关程度 2. 系数的绝对值在 01 之间 3. 相关系数为,其中,(4.6),表 411,2 2 列联表, 相关系数的计算, 相关系数的特例,1. 当 a d = b c ,则 2. b 0,c = 0 时,或 a0 ,d = 0,列联表中变量的位置可以互换,从而 的符号没有实际意义,故取绝对值即可. 越大,说明相关程度越高. 时,表明变量之间完全相关.,2. 列联相关系数,3. V 相关系数,1. V 相关系数,4. 数值分析,例 4.3 一种原料来自三个不同的地区,原料质量被分 成三个不同等级。从这批原料

7、中随机抽取 500 件进行检验, 结果如下. 试分别计算 系数,C 系数和 V系数,并分析相 关程度.,解:,已知 n = 500,R3,C = 3,已求得 ,得,由于三个系数都较小,表明产地和原料等级之间的相关程 度不高.,三个相关系数的说明,1. 同一个列联表,、 C 和 V 的值不同. 2. 对不同列联表中变量之间的相关程度进行比较时,行 数和列数应相同,并应采用同一种相关系数.,五、列联分析中应注意的问题1. 条件百分表的方向,在列联表中,变量X和变量Y的位置可以任意摆放.即可以放在行的位置,也可以放在列的位置.但是,如果二者存在因果关系,一般将自变量X放在列的位置,因变量Y放在行的位

8、置,单元中以自变量方向计算百分数,这样可以更好地表现原因对结果的影响.,例 共调查 225人,其中制造业 145 人,服务业 80 人. 在 制造业被调查者中,以物质报酬为价值取向的有105 人,以人 情关系为价值取向的有40 人;而在服务业被调查者中,以物质报酬为价值取向的有45人,以人情关系为价值取向的有 35人,数据见表 414.,表 414,职业背景与工作价值观取向,例、社会学家欲研究家庭状况对青少年犯罪的影响,设 该地区有未犯罪纪录的青少年 10000 名,有犯罪记录的青少 年 150 名. 如果从未犯罪青少年中抽取 1% ,即 对100 名进 行研究,则用相同比例从犯罪青少年中抽取

9、的样本容量仅为 1.5 人. 为满足研究的需要,对犯罪青少年的抽样比扩大到1/2 ,即抽取 75 人. 调查所获得的数据如表 415.,表 415,家庭状况与青少年犯罪 单位:人,由表 413 按家庭状况计算的条件百分表,见表416.,表 416,家庭状况与青少年犯罪百分表,由表 415 按青少年行为计算的条件百分表,见表417.,表 417,家庭状况与青少年犯罪百分表,2. 2 分布的期望值准则,1. 当数据划分为两类时,要求每一类别的期望频数不少于 5.,表 418说明表,2. 当数据划分为两个以上类别时,期望频数小于 5 的比 例不应超过 20% 时,否则应把期望频数小于5 的类别与相邻

10、的类别合并.,表 419,说明表,表 920,说明表,SPSS操作,Data- Weight Cases 将频数选入Frequency栏中 Analyze - Descriptive Statistics - Crosstabs 行变量(Row):需分类变量 列变量(Column):需分类变量 分层变量(Layer):条件(若有,需分类变量) Statistics选项: Chi-square复选项及其四种检验结果 Correlations复选项:相关系数,SPSS操作,Chi-square: 用于进行行、列变量是否独立的卡方检验。 1、在最小期望频数(Minimum Expected Coun

11、t)5,少于1/5格子的期望频数(V expected count)40时,一般使用皮尔逊卡方值(Pearson Chi-square). 2、在22表情况下,SPSS显示连续校正卡方值(Continuity Corrected Chi-square)。一般是在140时使用。 3、在22表情况下,SPSS显示费歇尔精确检验(Feshers Exact Test)。一般是在最小期望频数1,或总例数N=40时使用。,AnalyzeNonparametric TestsChi Square。然后选择想要检验的变量 如要检验其水平是否相等,则在Expected Values选All categorie

12、s equal作为零假设(默认选择); 如要检验其水平是否为某比例,则在下面Values输入你的比例(我们是5比4比1,逐个输入)作为零假设。 点Exact时打开的对话框中可以选择精确方法(Exact),Monte Carlo抽样方法(Monte Carlo)或用于大样本的渐近方法(Asymptotic only)。 如果选入的变量多于一个,则检验的都是水平相等的零假设。最后OK即可。,Minitab操作,Stat - Table - Cross tabulation and chi-square 行变量(For Row):需分类变量 列变量(For Column):需分类变量 分层变量(Fo

13、r Layer):条件(若有,需分类变量),第二节 曲线回归,1、双曲线 2、幂函数曲线 3、 对数曲线 4、二项逻辑回归(Binary Logistic),非线性回归,1、因变量 y 与 x 之间不是线性关系 2、可通过变量代换转换成线性关系 3、用最小二乘法求出参数的估计值 4、并非所有的非线性模型都可以化为线性模型,双曲线,基本形式: 线性化方法 令:y = 1/y,x= 1/x, 则有y = + x 图像,幂函数曲线,基本形式: 线性化方法 两端取对数得:lg y = lg + lg x 令:y = lgy,x= lg x,则y = lg + x 图像,对数曲线,基本形式: 线性化方法

14、 x= lnx , 则有y = + x 图像,指数曲线,基本形式: 线性化方法 两端取对数得:lny = ln + x 令:y = lny,则有y = ln + x 图像,S 型曲线,基本形式: 线性化方法 令:y = 1/y,x= e-x, 则有y = + x 图像,对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述(看修正Adjusted R2 -1),Analyze-Regression- Curve Estimation Depend

15、ent: 因变量 Independent: 自变量 Models: 全选(除了最后一个逻辑回归) 选Plot models:输出模型图形 比较有用的结果:各种模型的Adjusted R2,并比较哪个大,结果是指数模型Compound的Adjusted R2=0.70678最好(拟合情况可见图形窗口), 结果方程为:mpg=60.15*0.999664weight 说明:Growth和Exponential的结果也相同,也一样。,SPSS软件使用说明,二项逻辑回归(Binary Logistic),在现实中,经常需要判断一些事情是否将要发生,候选人是否会当选?为什么一些人易患冠心病?为什么一些人

16、的生意会获得成功?此问题的特点是因变量只有两个值,不发生(0)和发生(1)。这就要求建立的模型必须因变量的取值范围在01之间。,Logistic回归模型 Logistic模型:在逻辑回归中,可以直接预测观测量相对于某一事件的发生概率。包含一个自变量的回归模型和多个自变量的回归模型公式: 其中: z=B0+B1X1+BpXp(P为自变量个数)。某一事件不发生的概率为Prob(no event)1-Prob(event) 。因此最主要的是求B0,B1,Bp(常数和系数),数据要求:因变量应具有二分特点。自变量可以是分类变量和定距变量。如果自变量是分类变量应为二分变量或被重新编码为指示变量。指示变量

17、有两种编码方式。 回归系数:几率和概率的区别。几率=发生的概率/不发生的概率。如从52张桥牌中抽出一张A的几率为(4/52)/(48/52)=1/12,而其概率值为4/52=1/13 根据回归系数表,可以写出回归模型公式中的z。然后根据回归模型公式Prob(event) 进行预测。,Analyze-Regression- Binary Logistic 自变量为定量变量时,把因变量选入DependentVariable,把自变量选入Covariates,OK即可得到结果。 自变量为定量变量及定性变量时,把因变量选入DependentVariable,把定量变量选入Covariates,然后点C

18、ategorical,再把定性变量选入Categorical Covariate,回到主对话框, 可在options选择Hosmer-Lemeshow-goodness-of-fit检验(检验拟合优度) 点击OK即可得到结果。,SPSS软件使用说明,对数线性模型,多项分布对数线性模型 Poisson对数线性模型,高维列联表和多项分布对数线性模型,高维列联表在计算机软件的选项可有所不同,而且可以构造一个所谓(多项分布)对数线性模型(loglinear model)来进行分析。 利用对数线性模型的好处是不仅可以直接进行预测,而且可以增加定量变量作为模型的一部分。,多项分布对数线性模型,现在简单直观

19、地通过二维表介绍一下对数线性模型,假定不同的行代表第一个变量的不同水平,而不同的列代表第二个变量的不同水平。用mij代表二维列联表第i行,第j列的频数。人们常假定这个频数可以用下面的公式来确定:,这就是所谓的多项分布对数线性模型。这里ai为行变量的第i个水平对ln(mij)的影响,而bj为列变量的第j个水平对ln(mij)的影响,这两个影响称为主效应(main effect);eij代表随机误差。,二维列联表的更完全的对数线性模型为,这里的(ab)ij代表第一个变量的第i个水平和第二个变量的第j个水平对ln(mij)的共同影响(交叉效应)。即当单独作用时,每个变量的一个水平对ln(mij)的影

20、响只有ai(或bj)大,但如果这两个变量一同影响就不仅是ai+bj,而且还多出一项。,选项为AnalyzeLoglinearGeneral, 首先选择格子中频数的分布,这里是多项分布 (其默认值是Poisson对数线性模型). 把变量选入Factors(因子); 再选Model(模型),如果选Saturated(饱和模型),那就是所有交叉效应都要放入模型;但如果不想这样,可以选Custom(自定义),在Building Terms(构造模型的项)选Main effect(主效应),再把三个变量一个一个地选进来(如果两个或三个一同选入,等于选入交叉效应). 如果想要知道模型参数,在Options

21、中选择Estimates。 最后Continue-OK即可得出结果.,SPSS软件使用说明,Poisson对数线性模型,有的时候,类似的高维表并不一定满足多项分布对数线性模型。例如:关于哮喘病人个数和空气污染程度,年龄和性别的关系,收集某地在一段时间的60组在不同空气污染状态的不同年龄及不同性别的人的发生哮喘的人数。其中性别为定性变量S(sex, 1代表女性,2代表男性),空气污染程度P也是定性变量(polut, 1、2、3分别代表轻度、中度和严重污染),年龄A (age)为定量变量,为那一组人的平均年龄;还有一列计数C (count)为这一组的哮喘人数。 这个表格和前面的列联表的不同点在于每一格的计数并不简单是前面三个变量的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论