531-数理统计前沿问题研究试卷答案60_第1页
531-数理统计前沿问题研究试卷答案60_第2页
531-数理统计前沿问题研究试卷答案60_第3页
531-数理统计前沿问题研究试卷答案60_第4页
531-数理统计前沿问题研究试卷答案60_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计前沿问题研究期末考试试卷一、名词解析(10×4=40分)1.大数据分析。答:大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V,数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。充分降维方法。答:充分降维方法是“恢复”中心降维子空间的一种方法,通常分为如下几个步骤(1)“识别”中心降维子空间:基于总体形式(XT,Y),寻找一个矩阵A,使得span(A)SY|X,这样的矩阵A被称为核矩阵;(2)“估计”中心降维子空间的基方向:基于样本{(xT,y)i=1,…,n}来估计核矩阵An,对于核矩阵的估计An进行谱分解,得到特征值和特征向量,非零特征根所对应的特征向量可以作为中心降维子空间的基方向;(3)“估计”中心降维子空间的维数:如果结构维数已知,则上述两步就足够了;否则,需要进一步估计中心降维子空间的结构维数K=dim(Sy|x)3.变系数部分线性模型答:变系数部分线性模型:设Y是响应变量,(U,X,Z)是联合协变量,那么变系数部分线性模型具有如下形式:Y=aT(U)X+BTZ+ε,(3.3.1)其中,a(·)=(a1(·),…,ap(·))T是未知函数向量,B=(B1,…,Bq)T是q维未知参数向量,是随机误差且满足E(ε)=0和Var(ε)=δ2。由于维数灾祸,为方便起见,假定U是一维协变量,模型(3.3.1)允许U与X之间以某种方式发生交互作用,即不同的水平联系不同的线性模型。这就允许考察协变量X的影响在不同的变量U的水平上的变化程度。当p=1且X=1时,模型(3.3.1)变成部分线性模型。自适应变系数线性模型。答:假设对估计多元回归函数G(x)=E(YIX=x)感兴趣,其中,Y是随机变量,X是p×1随机向量,Fan等(2003)提出用变系数模型g(x)=(3.4.1)逼近回归函数G(x),其中,β∈RP是未知方向,x=(x1,…,xp)T,x0=1,系数g0(·),…,gp-1(·)是未知函数,选择方向β和系数函数gj(·),使得[E|G(X)-g(X)]2达到最小,这个模型的魅力是一旦给定β,人们就可以用标准一维核回归在βTx周围局部地估计gj(·),进而,可容易地展示系数函数gj(·)的外貌,这对观察g(·)的表面如何变化可能是特别有用的。当指标βTx给定时,模型(3.4.1)在x的每一纵坐标出现线性。它可以包括二次和交叉乘积项(或更一般的任何给定的xj,的函数)作为x的“新”分量。因此,它对迎合复杂的多元非线性结构有相当大的适应性。不失一般性,在模型(3.4.1)中,总是假定|β|=1,并且β的第一个非零分量是正的。为避免因指标方向β无唯一性而引起的复杂化,总是假定G(·)容许g(·)的唯一的最小二乘逼近,即g(·)不能表达为形式g(x)=αTαβTx+γTx+c,其中,α,γ∈Rp,c∈R是常数,α与β不相互平行。简答题(15×4=60分)简述部分线性模型的稳健推断。答:线性模型稳健性推断的前提是对边际部分线性模型的M估计,M数据集如下:{(yij,xi,tij)|j=1,…,ni,i=1,…,m}该数据集共有m个个体,第i个个体有ni个观察,共有n=个观察,yij和xij∈RP分别为在时间点tij的响应变量和协变量.可以建立如下模型yij=xijTβ+f(tij)+eij(4.2.1)其中,β是未知的回归系数,f(·)是定义在(0,1]的未知光滑函数,eij是随机误差。当不同个体之间的eij是独立的,个体内部相关,但是不假定具体的相关结构.当ni=1(i=1,…,m)时,这个模型就是熟悉并得到广泛研究的部分线性模型。利用核与最小二乘方法,进行参数和非参数的统计推断方法;也可以利用光滑样条和最大似然方法,进行估计和检验的方法。众所周知,基于最小二乘和最大似然的估计和推断方法对数据中的异常点非常敏感。当误差的分布和协方差结构没有具体的形式时,有关半参数模型(4.2.1)的M估计。在β∈RP和f(·)在回归样条空间中,求如下目标函数的最小值:ρ(yij-xijTβ+f(tij))(4.2.2)其中,ρ(·)是一个损失函数,选取在ρ(0)=0达到最小的凸函数。不像一般的估计方程方法,我们的方法避兔了估计方程有多重根的问题,同时不假设特别的协方差结构。把最小值β,f(t)作为β和f(·)的M估计。简述广义部分线性模型的稳健推断。答:考虑如下半参数广义部分线性模型:G(μij)=xijTβ+f(tij)i=1,…,m,j=1,…,ni,(4.2.17)其中,μij=E(yij),xij,β,f(·),tij的含义与模型(42.1)相同,函数g(·)是一个单调的函数称为联系函数,这个模型能够刻画连续和离散纵向数据,并且是广义线性模型和非参数模型的组合。当m=1时,即独立数据的广义部分线性模型的稳健估计,当非参数项f(·)在模型中不存在时,Liang和Zeger(1986)提出了一个非常著名的方法一广义估计方程(GEE)方法。GEE方法引入了“工作相关矩阵”来刻画个体内部的相关性,并结合广义线性模型的得分函数,构造了估计方程.这个方法的特点是一方面由于引入“工作相关矩阵”提高了估计的效率;另一方面,这个方法无论选用何种“工作相关矩阵”,参数部分都能得到相合估计,仅是效率有变化。GEE方法在分析纵向数据时已经获得了大量的应用.有关纵向数据的广义部分线性模型,Lin和Ying(2001)研究了核光滑的Profile估计,Bai等(2005)基于二次推断函数,研究了参数的推断方法,He等(2005)基于GEE思想,利用B样条通近非参数函数并结合稳健估计的特点,提出了稳健的广义估计方程(RGEE),研究了这个模型的稳健统计推断方法.本节主要介绍He等(2005)的成果。3.简述广义部分线性混合效应模型的稳健推断。答:GPLMM实际上是广义部分线性模型(GPLM)和广义线性混合效应模型(GLMM)的结合,采用部分线性模型可以避免非参数函数中包含高维的协变量,而加入随机效应则可以刻画出数据中个体之间的差异和纵向数据或重复测量数据中个体内观察数据的相关性,特别当响应变量为离散数据时,在模型中引入随机效应更为常用因为在这种情况下,通过在模型中加入随机效应,一方面,能够刻画数据相关性和个体之间的差异;另一方面,可以得到样本的似然函数,进行有效的统计推断。简述广义部分线性混合效应模型的稳健化似然推断。答:稳健化的惩罚对数似然函数假定数据有m个个体,每个个体有ni次观察,响应变量yij在随机效应给定的条件下服从式(4.3.1)和式(4.3.2)的指数族分布,Ui为随机效应且iid服从于正态分布N(0,Σ(γ))其余的符号。为方便起见,仅考虑中Φ=1。利用P样条逼近未知的函数f(·),P样条是光滑样条的推广,样条基和惩罚项是P样条的主要构成.P样条可以采用任意的样条基(如B样条基和截断幂函数基等)和惩罚项,因此,具有很大的灵活性.由于P样条采用固定的节点数,因此,计算快速方便.同时,在理论证明上,由于节点数固定,因此,可以在参数模型的框架下研究有关参数的渐近性质,而回归样条的节点数选取随着样本量的增加而趋于无穷,有关渐近性质的讨论要复杂得多对于未知非参数函数f,采用以B样条基函数为基的P样条通近f(t)≈πT(t)α其中,π(t)=(B1(t),…,BN(t)T为B样条基函数生成的向量,α是回归系数.对于连续、单调或单峰的函数,一般取5~10个节点,以样本的等分位点作为节点.采用B样条基函数为基主要是为了使后面估计的计算更加稳定.于是xijTβ+π(tij)T+zijT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论