(概率论与数理统计专业论文)非参数回归函数的稳健bootstrap.pdf_第1页
(概率论与数理统计专业论文)非参数回归函数的稳健bootstrap.pdf_第2页
(概率论与数理统计专业论文)非参数回归函数的稳健bootstrap.pdf_第3页
(概率论与数理统计专业论文)非参数回归函数的稳健bootstrap.pdf_第4页
(概率论与数理统计专业论文)非参数回归函数的稳健bootstrap.pdf_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文撼要 摘要 b o o t s t r a p 方法就是通过一定数量的仿真得到我们感兴趣的统计量( 倒如均值 和标准差) 在特定零假设下的仿真分布,从面建立该统计量的置信区间并由此判 断来自实际过程的该统计量的显著性该方法在现代的统计推断中有着越来越重 要的运用 现在随着不确定性的增加,数据的波动也越大,数据中经常包含有异常值的 存在在有异常值的数据中,b o o t s t r a p 样本可能比原有样本含有更高的“污染”, 这会降低所要做的统计推断的有效性本文讨论在菲参数回归n - w 估计中,如 何利用影响函数得到重新抽样的概率,使用倾斜的b o o t s t r a p 方法得到曲线的拟 合,从而达到有效地抵制异常值对回归函数影响的目的,数值模拟的结果表明这 种处理方式的有效睦 关键词:非参数回归;b o o t s t r a p ;影响函数;带宽选择 英文援要 a b s t r a c t b o o t s t r a pi st oe m u l a t et h r o u g hac e r t a i nq u a n t i t yt og e tt h es t a t i s t i co f i n t e r e s t ( f o re x a m p l em e a na n ds t a n d a r dd e v i a t i o n ) u n d e rp a r t i c u l a rz e r oa s - s u m p t i o n s e so fe m u l a t i o n a ld i s t r i b u t i o n ,t h e nc o n s t r u c tt h ec o n f i d e n c ei n t e r v a l o ft h es t a t i s t i ca n dj u d g et h es t a t i s t i cf r o mt h ep r o c e s s b o o t s t r a pb e c o m em o r e a n dm o r ei m p o r t a n ti nt h em o d e ms t a t i s t i c a li n f e r e n c e a l o n gw i t ht h ei n c r e a s eo fu n c e r t a i n t y , t h ef l u c t u a t eo fd a t ab e c o m eg r e a t e r , a n dt h ed a t aw i l lu s u a l l yi n c l u d es i n g u l a rd a t a f o rt h ed a t aw i t ho u t l i e r s , b o o t s t r a ps a m p l e sm a yc o n t a i nm o r e ”p o l l u t i o n ”t h a no r i g i n a ls a m p l e sa n d r e d u c et h ev a l i d i t yo fo u rs t a t i s t i c a ld e d u c t i o n i nt h i sp a p e r ,w ed i s c u s sh o w t ou s et h ei n f l u e n c ef u n c t i o nt of i n dt h ep r o b a b i l i t yo fr e s a m p l i n gi nt h en o n - p a r a m e t r i cr e g r e s s i o no ft h en we s t i m a t e w eu s et i l t i n gb o o t s t r a pm e t h o d ( t h es a m p l ep r o b a b i l i t yi sm l e q u m ) t oo b t a i nc n r v ef i t t i n g ,w h i c hi sr e s i s t a n t t ot h ep r e s e n c eo fo u t l i e r so i lt h er e g r e s s i o nf u n c t i o n k e y w o r d s :n o n p a r a n l e t r i cr e g r e s s i o n ;b o o t s t r a p ;i n f l u e n c ef u n c t i o n ;b a n d - w i d t hs e l e e t i o n 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的 研究成果。本人在论文写作中参考的其他个人或集体的研 究成果,均在文中以明确方式标明。本人依法享有和承担 由此论文而产生的责任。 声明人( 签名) :槲 掰5 月四日 i 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门 大学有权保留并向国家主管部门或其指定机构送交论文的纸质版和 电子版,有权将学位论文用于非赢利目的的少量复制并允许论文进 入学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行 检索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在 解密后适用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 , 2 、不保密。 ( 请在以上相应括号内打”) 作者签名:林嘶 导师签名: 如睁5 月彳日 年月日 非参数回归函数的稳健 第一章引言 1 1 研究动机 统计学是一门从经验中学习的科学最早的信息科学起源于1 6 5 0 年左右的 统计学本世纪,统计技术已成为生物科学、心理学、教育学、经济学、通信理 论、社会学、基因学、流行病学以及其他领域的分析方法。在当今的传统科学, 如地理学、物理学和天文学,由于它们所研究的领域要求信息化的效率,如罕见 的奇异粒子的研究或遥远星系的研究,统计方法的应用正在增长 大部分人并非天生就是统计学家利用自己的方法,我们无法从海量的受干 扰的数据中获得所需的模式但另一方面,我们又非常擅于构造出满足我们目的 ( 而事实上不存在的模式) 统计模式统计理论从两方面处理上述问题:它既为在 受干扰环境下寻找真实信息提供最优的方法,又对随机模式的过份不够合理的解 释提供严格的验证 统计理论试图解决下面的三个基本问题f l 】: 1 ,怎么收集数据? 2 怎么分析和归纳处理所收集的数据? 3 利用数据所作出的推断有什么样的精确度? 回归分析是第二个问题的部分回归被用来研究可以测量的变量之间的关 系般地,回归分析含有很多步骤为研究一组变量之间的关系,要收集这些变 量在组单元或案例中的每个数据这样研究的回归模型,个变量起着响应 的作用,称为响应变量( r e s p o n s e ) ,而其他所有的变量看成是响应的预报因子, 称为自变量( c o v a r i a t ev e c t o ro rp r e d i c t o r ) 我们可以方便地,而且也常是准确 的认为,自变量有数据收集者所得的数据值,而把响应变量看作是这些自变量的 一个函数除了若干未知参数,对于给定值的自变量,假设模型详细说明了响应 l 非参数回归函数的稳健 变量的行为模型通常还会指出,由于假设误差项而不能给出准确拟合的某些特 征然后,数据被用于得到未知参数的估计值 第三个问题构成了所谓的统计推断的一部分b o o t s t r a p 是近代才发展起来 的用于处理某些统计推断的新方法之所以这样,是由于它需要现代计算机技术 对传统统计理论的那些过于复杂的计算的支撑b o o t s t r a p 方法和其他些以计 算机为基础方法,它们的统计基本思想没有改变,只是( 执行) 计算方法改变了 现代计算机技术使得我们能在最少的数学假设上更灵活、快速、简便的运用这些 想法b o o t s t r a p 是非常实用的计量技术,应用范围包涵估计与统计推论等种种 问题它的概念为经由资料( 也即是样本) 的重新抽样( r e - s a m p l i n g ) 来得挚i 估计 统计量的仿真分布通常情况下,b o o t s t r a p 所提供的近似会比常用的极限近似 来到更精确些 由于日前越来越多的数据不适合用参数回归来进行数据拟合,雨非参数回归 是基于数据本身,因此非参数回归方法的研究越来越受到人们的重视有关非参 数回归的原理及其应用的专著有许多,如e u b a n k 闯、m u l l e r l 3 、h a r d l e 4 i 和 w a h b a 5 】等分别介绍了非参数回归在许多实际问题中的应用而自从七十年代末 e f r o n 6 l 引入b o o t s t r a p 方法后,b o o t s t r a p 方法有着广泛的运用,如点估计、 统计推断、曲线拟合、致信区间的构造等然而,在回归函数中,如果数据中含 有异常值时,进行传统的b o o t s t r a p 有很明显的缺陷,即数据拟合的效果可能很 不理想嗍,造成这样问题的主要原因是每个数据点被以等概率抽取,这样得到 的b o o t s t r a p 样本可能受到比原始样本更大的“污染”,由此导致可能数值结果失 真然而若直接去掉异常值进行估计或推断,这就可能丢失了数据中的信息,因 此也不被人们接受对于这类数据中含有异常值时,稳健估计的b o o t s t r a p 不失 为一种有效的方法,但也有些数值例子表明,仅仅使用稳健估计的b o o t s t r a p 还是不够的,s i n g h 7 1 指出了即使估计有很高的崩溃点( b r e a k d o w np o i n t ) ,但 在b o o t s t r a p 中可能很低由于非参数回归函数估计几乎基于数据本身,数据中 有异常值就需特别注意,传统的b o o t s t r a p 可能产生较大的偏差我们考虑使用 2 非参数回归函数的稳健 a m a d o 和p i r e s 【9 】推荐的倾斜b o o t s t r a p 来处理异常值 第二章是准备知识部分对非参数回归( 特别是n - w 估计以及其大样本性 质) 、稳健性的描述、b o o t s t r a p 及其性质做了简单的介绍 第三章主要讨论了n _ w 估计的稳健b o o t s t r a p 方法我们首先考虑了在 m w 估计中定义个稳健的带宽选择,然后根据其选择的带宽来确定每个样本点 对带宽的影响程度( 即影响函数值) ,从而得到在b o o t s t r a p 中的抽样概率向量 - ,) ,并按此向量进行抽样来得到我们所需的b o o t s t r a p 样本,最后并利 用数值模拟来对此方法的合理性进行判断 第四张是总结部分对本文的研究内容进行总结,并指出该算法的有效性 3 非参数回归函数的稳健 4 第二章准备矢 其 2 1 非参数回归函数的权函数估计 2 1 1 非参数回归函数的权函数估计 设x 和y 分别是d 维和维随机变量假定e l y l 0 0 ,则m ( z ) = e ( y i x = z ) 存在,m ( x ) 称为y 对x 的回归函数回归分析的基本问题在于 通过从( x ,y ) 抽出的i i d 样本( 置,k ) o = 1 ,2 ,- ,n ) 去估计回归函数r e ( x ) 在传统的回归分析中,往往假定m ( x ) 有某种特定的数学形式,一般是线睦 的或可化为线陛的形式,其中包含若干个未知参数,如线性型,并假定“误差” 的分布为正态这时用最小二乘法对回归系数进行估计即可得到m ( x ) 的估计 众所周知,在上述条件下这种估计有许多优良性质,但在实际问题中,不一定可 以假定上述条件( 回归为线性,误差为正态) 成立丽这时经验和理论都证明,基 于最小二乘法作出的估计不一定好这个睛况促使人们去寻找别的出路,非参数 回归就是朝着这个方向的一种努力其特点是对模型的假设要求很低:回归函数 的形式可以是任意的,随机误差也不必服从正态分布 广义地说,自变量x 与因变量y 之间的回归关系可以理解为x 与y 之间 虽无确定性的关系,但y 在给定x = z 时的条件分布取决于o 因此更般地 可提出对此条件分布或其特征量进行估计的问题这种问题都可以用估计回归函 数的形式提出来例如要估计条件概率,可以定义一个新的因变量这时所述条 件概率转化为z 对x 的回归函数e ( z i x = z ) 由于现在越来越多的数据不适合用参数回归来进行数据拟合,而非参数回归 是基于数据本身,所以越来越受到欢迎在这方面有很多的专论,比如e u b a n k 2 l 、 m u l l e r 3 、h a r d l e l 4 1 、w a h b a l 5 等介绍了非参数回归在各方面实际中的很多 运用 现在最受欢迎的非参数回归是n - w 核回归 1 0 1 1 1 1 它的估计方法可以来源 非参数回归函数的稳健 5 于被t u k e y 称为r e g r e s s o g r a m 的方法【12 1 该方法的基本想法与用直方图来估 计密度函数一样它把x 的值分成几个集合b j0 = 1 ,2 ,j ) ,然后在落在 马上的y 值取平均对任意z 马,回归估计定义为 k ,( x 岛) r h t ( x ) = 兰 一 j ( x i 马) l = l 在某种意义上,这是典型的非参数估计,因为对未知的函数m ,它不需要假设任 何的参数然而,这种估计有个缺点,区间目的个数和端点需要事先确定从 理论上来看,这可以看成是在每个鼠边界附近的估计偏差类似的讨论可以参 考h a r d l e l 4 此估计的缺点是不容易对x 值进行分割,要么估计的偏差过大, 要么估计的方差过大,不能比较好的取得平衡 对r e g r e s s o g r a m 估计最自然的扩展就是窗口移动估计( m o v i n g - w i n d o we s - t i m a t e ) 此估计对y 仍是采取局部平均,但在估计点x 处则取个z 的领域,即 对任意z ,它定义为 k ,( x 。p h ,z + h ” ,( 噩扛一h ,z + h i ) t = l 相对于r e g r e s s o g r a m 估计,窗口移动估计的优点在于它只依靠个参数,l ,称 为窗口宽度显然,这个参数对估计有比较大的影响,在非参数回归的很多文献 中,任务就是找个比较合理的h 值来消除r e g r e s s o g r a m 的缺点 如果用一些核函数k 来做加权平均,则可得到更般化的估计,此即为n w 估计 1 0 1 1 1 1 1 ,定义为 k k ( ( z 一五) h z w ( z ) = 爿一, k ( p 一蜀) h ) l = l 至少当使用连续的核函数耳时,它可以产生连续的估计函数一般要求核函数 j e 墨塾旦坚鱼塾鱼塾堡_ 6 k 为有界可积的实值函数,且有 。l i r a h k ( z ) = 0 通常核函数k 是个有紧支撑的对称概率密度函数,但有时取负值能产生更精 确的估计,特别是在多元的情形下面是几个比较常用的核函数【1 3 】: = j c z 卜0 5 ,+ o 5 】) ; = i ( 1 一z 2 ) f ( z 一1 ,+ 1 1 ) ; = 要( 3 1 帆2 + 7 2 4 ) 砸 - 1 1 ) = 去唧( 彳2 ) 类似前面,h 是个取正值的参数,控制估计的平滑程度,称为带宽 将上述估计般化,可以得到如下定义的权函数估计法【1 4 】 定义1 设。:( z ) = 。( z ;x 。、) ( z = 1 ,2 ,n ) 是选定的几个 依赖于z 和x l ,一,的函数,则 n m 。( z ) = 眠。k = l 称为回归函数m ( z ) 的权函数估计, t ) 称为权函数 在实用问题中,权函数几乎满足自然的条件 n 眠( z ;x 圹一,) 三0 ,( z ;噩,瓦) = 1 扛= 1 满足这些条件的权函数称为“概率权函数” 2 1 2 权函数和n - w 估计的一些性质 1 s t o n e 定理 权函数方法的大样本理论从1 9 7 7 年s t o n e 的重要论文【1 5 】发表以来,取 得了不少了成果可以说,关于权函数估计的系统研究始于这篇论文s t o n e m 琏 甄 甄 非参数回归函数的稳健 7 在其重要工作中,主要讨论了权函数估计的矩相合性问题问题是;权函数 = 啊“( z ;x a ,j 0 ) 需要满足什么条件,才能使当y 的r 阶矩( r 1 ) 刀i y f r o o 时候,有 熙e | ( x ) 一m ( x ) 1 7 0 ( 2 1 ) s t o n e 把具有这性质的权称为( 矩) 相合的 注:相合性要求对任何r 1 ,只要e i y l 7 o o ,就有( 2 1 ) 式成立,而 不止是对某个特定的r 1 成立 s t o n e 提出了很般的、近乎充要的条件现在我们只考虑充分性,并局 限于概率权 定理1 设概率权 ) 满足以下条件, ( a ) 存在有限常数e ,使得对刑上任何非负的b o r e l 可测函数,必有 ,n、 e ( ( x ;x 1 ,) ,( 五) c e f ( x ) ; ( 2 2 ) i = 1 ( b ) 对任给0 ,当n o o 时,有 粤蓼慨“啤;x 1 7 一,) 0 ( 2 4 ) i 3 二, 则 l 是相合的权函数 定理1 中的条件解释【1 4 】:条件b 是说:凡是与x 的距离达到一定限 度( s ) 的那些五,其所占的权的总和很小就是说,在估计m ( z ) 时,主要 是依靠最接近z 的那些样本点这显然是合理的条件c 是意味着:个别的 样本点,不论它与z 的距离多么的小,所起的作用总是很小的就是说,不 能把过多的注意力放在少数几个样本点上随着样本大小n 的增加,起作用 3 口 0与 鎏 r kmk xx 。汹有时 1 ln 当 沁 非参数回归函数的稳健 8 的样本应当愈来愈多,这也屉合理的要求条件a 比较难理解且不好验证 可以这样认为:若- 僻;x 1 ,瓦) 与,( 墨) 独立,则( 2 2 ) 式的左边等 于 nn e w m e f ( x i ) = e f ( x ) e w 产e f ( x ) e ( ) = el ( x ) i = 1i = 1i = 1 而( 2 2 ) 式将对c = 1 成立事实上,上述独立性般当然不成立,因此可 以把( 2 2 ) 式理解为;l k i 与,( 五) 的相关性“不能太强”这只是一种形 式的看法实际上,条件a 没有自然的直观解释 注;s t o n e 在论文 1 5 1 中得出的结果考虑了l 矿0 不必为概率权的情形 由他的结果可以推出:在“t 是概率权时,为了w 似是相合的,条件扣c 不 仅充分而且必要 2 n w 估计的逐点性质 不象参数估计,非参数估计不存在无偏估汁我们给出如下定理,具体 证明参考c o l l o m b 1 6 1 : 定理2 令口是关于上冗上绝对连续的l e b e s g u e 可测,有连续密度取y 并且满足下面条件的所有分布的集合: r v z ,i x y ( z ,y ) d y 0 , j 则不存在回归函数m ( z ) 的无偏估计,即不存在m 的估计m 。,使得对冗 的x 和d 上的,x ,y ,几乎处处有e m 。( z ) = m ) 定理表明了般的非参数模型是个更难估计的问题,原因是我们需要 估计无穷个参数医此下面我们考虑它的逐点渐进无偏性【1 3 1 根据前面对核借计的描述,被估计函数的连续性在估计函数的渐进性质 里面有着重要的作用更准确的说,我们需要如下假设: ( h 1 ) 在x 处,函数m 和,都连续,且有f ( x ) 0 , ( h 2 ) 存在实数m 使得i y i m 0 的绝对矩就可以( m a c k 和s i l v e r m a n 1 7 】) , 而( h 3 ) 可以取消( c o l l o m b 1 6 1 ,p 2 2 ) 定理3 设条件( h ,1 ) - ( h 4 ) 都满足,则核估计r h a r w 在点z 处渐进无偏, 即 瓤e m 椰( z ) 一m ( 。) = 0 下面给出简要的证明思路不失般睦,假设核函数k 的积分值为1 首先,我们有 规e 昂r ( z ) 一,( z ) = 0 其中昴rp a r z e n - r o s e n b l a t t 核估计的密度函数( p a r z e n 1 8 ;r o s e n b l a t t l l 9 1 ) 定义为 n 矗r ( z ) = ( n ) _ 1 k ( 一五) ) = 1 令g = m f 和= 开f p r ,因( 五k ) 是i i d 的,贝有 e o ( x ) = h - 1 e y l k ( ( x x 1 ) h ) = h - 1 e 陋【h i x ,】k ( 一x ) 矗) 】 = h 一1 ,n ( u ) ( ( z 一豇) ) ,( “) d u 再令z = 江一u ) ,有 埘( z ) = j 厂k ( z ) 9 扛一砌) 兆 由于核函数k 的积分为1 ,我们有 功( z ) 一9 ( z ) = 厂k ( z ) ( 9 ( z z ) 一9 ( z ) ) 如 非参数回归函数的稳健 根据g 的连续性和( h 4 ) ,有 熙9 忙一z h ) 一9 ( z ) = 0 最后,考虑如下展式: = 1 = 1 一乜一1 ) + 令z = 互e :p d a 立( = ) ,可以得到 1 、p “( z - 1 ) p + i z 础) = 错+ 0 ( m 广) 计算过程比较繁琐,细节可以参考c o l l o m b 1 6 2 2 稳健性 2 2 1 稳健性的含义 稳健陛是从英文“r o b u s t n e s s ”翻译过来的,含有强壮、健康、坚韧等意思 它是统计方法可能具有的一种特性般说来,是人们在构建统计方法时所努力 追求的一种特性在实施任一个统计方法时,必然要计算某个或某些统计量t 的 值,而r 的值由样本x 。,x 。决定在通过观察或试验以得到x 1 ,的 过程中,可能由于仪表故障或观察者的疏忽以及记录时的笔误等,使x 1 ,墨。 中的个或几个包含了较重大的误差,称为过失误差( g r o s se r r o r ) 受到这种误 差的影响的数据,一般是以离开数据群体的孤立值的面目出现,常称为样本中的 异常值f o u t l i e r ) 我们希望;在样本中混入少量异常值对,统计量t 的值受到的 影响不大因若不然,则一、二个数据的错误可以使统计分析的结论完全改观, 这就会使人们对分析的可靠性产生疑问具有这种性质的统计量t ,或者说,基 于这种统计量丁的统计方法称为有稳健性 如果一个统计方法只有具备稳健性,那也不一定有用比如不管样本怎么样, 总是用个固定的常数去估计某个参数,则有稳健性,但显然没什么用处因此 1 0 非参数回归函数的稳健 稳健统计并不是单单追求稳健性,还需要有其他良好的性能h u b e r 【2o 】提出了 一种见解:认为稳健统计的目标是寻找有如下性质的统计方法: 1 在实际模型与所假定模型符合时,该方法具有良好性能,但不必在某种标准 下为最优的; 2 ,在实际模型与所假定模型有少许偏差时,其性能所受到的影响应该比较小; 3 在实际模型与假定模型有严重偏离时,其性能仍“过得去”,或者说,不致使 该方法变得无用甚至引入歧途 为了比较某些统计量的稳健优劣性,即哪个统计量更稳健些,下面我f 1 弓i 入关于 稳健性的某种定量的指标 2 2 2 崩溃点 记为我们所假定的总体分布,而f 为事实上的总体分布 定义2 设f 0 为分布,对任给的e ( 0 ,1 ,给定了某个包含昂的分布集 r ,称为昂的“邻域”t ( f ) 为定义在,上的泛函记 b 忙) = 6 ( e ,g o ,t ) = s u p l t ( f ) 一t ( 晶) | :f p ! ) 则称 + = - c * ( f o ,t ) = i n f e :0 1 6 ( ) = b ( 1 ) ) 为泛函t 相对于邻域r 在f 0 处的崩溃点 显然,若0 e 1 e 2 0 为阉值, ( ) 为衰减 函数,且改衰减函数满足: ( i ) 非负, ( 积) 对固定的c 有2 骢。2 叩( c ,t ) = 0 及璺警盟f t :。= 0 条件( i ) 是显然的,因为叩( - ) 仅仅是改变观测值重新抽样 的概率;( i i ) 中的第个条件保证了异常值不会产生显著的偏差,而第二个 条件为平滑条件 步骤3 用修正后的经验分布p = ( p 1 ,p 。) 进行b o o t s t r a p 注:q ( ) 以及阉值c 的选择有许多种方法a m a d o 和p i r e s 9 j 推荐叩( ) 为如下类函数 1 t o o t o 。 其中c 为位置参数( 即( 3 5 ) 式中的参数c ) ,8 为刻度参数,而t 为形状参数, 个比较合理的选择为t = 2 而c 值选取方式为,若给定数据有实际背景,则 我们可以通过实际意义来选择;如果没有任何信息可以利用( 实际运用中经常如 此1 ,最直接的方法就是利用数据本身获得选择一系列不同的c 值,然后用广 义交叉验证( g c v ) 来选择使得预测误差最小的c 值 下面给出稳健b o o t s t r a p 算法 算法3 非参数回归的稳健b o o t s t r a p 算法 尝酗 = l 曼: 髯 卧唧 ,-,、l l | 幻 c 咖 非参数回归函数的稳健 步骤1 对数据集x k ,弧 款1 用第1 中稳健带宽选择得到n w 回归函数 豌w ( z , 。) ; 步骤2 计算残差矗= y t 一卉n n w ( x , 。) ,= 1 ,2 ,札; 步骤3b o o t s t r a p 过程,b 一1 ,2 ,b i 对残差( f 1 ,磊) 运用第二节中的稳健抽样计划产生独立的b o o t s t r a p 误差( 呓,) ; i i 对输入( z l ,z 。) 进行般的b o o t s t r a p 抽样( 即抽取到x k 的概率为 :k = 1 ,2 ,礼) 产生独立的b o o t s t r a p 输入( x + 1 ,z :) ; i i i 得到第b 次的数据集 z i ,醵) k l ,其中娃= 愉( z ;,h 。) + ; 对 z ;,畦) 冬l 运用稳蹴选择得到带宽船和回归函数俄n w ( x ,五窘) ; v 直到产生b 个b o o t s t r a p 复斛为止,否则令b = b + 1 ,重复步骤3 中 的i - i v ; 步骤4 对于每个矗等表示得到回归函数的一个复制 f h = ,b ( z ) = 疣wf z 五等) ,b = 1 ,2 ,b 我们可以从( 矗譬,矗2 + ) 和( f h ,f 小) 做出我们所感兴趣的统计推 断 在这一节中,我们通过数据模拟来对稳健b o o t s t r a p ( r b ) 与传统b o o t s t r a p ( c b ) 进行比较对b o o t s t r a p 结果进行推断时,我们特别感兴趣的是它的均值和d 的致信区间在选择稳健带宽时,我们使用h u b e r 函数 妒h ( r ,c ) = s g n ( r ) m i n ( 1 r t ,c ) 考虑如下数据生成过程( d a t ag e n e r a t i n gp r o c e s s ,d g p ) y ( x ) = 妒( 茁) + e + p u 非参数回归函数的稳健 其中 妒( z ) = s i n ( x o x ) s i n ( w b x ) ,u 。= 2 5 ,u b = 1 5 ,z o ,7 r 】 一n ( 0 ,程扛) ) ,0 2 ( x ) = 0 0 1 + 0 0 2 5 1 一s i n ( u 。z ) 】2 肛是异常值,分布为咒一n ( 0 ,咋2 ) ,v 的分布为个二项分布,p ( 0 ) = p ,0 卢1 我们从【o ,丌】随机产生2 0 0 个样本来进行曲线拟合,然后 从0 到”中以0 0 1 的间隔产生3 1 5 个等距数据来做检验下面我们考虑了参数 程= 1 ,卢分布为o 、5 、1 0 、2 0 的情形 图3 1 :c b 方法中的2 0 0 个b o o t s t r a p 样本曲线 图3 2 :r b 方法中的2 0 0 个b o o t s t r a p 样本曲线 非参数回归函数的稳健 2 6 图3 3 :c b 方法中的回归函数的b o o t s t r a p 预测与置信区间 图3 ,4 :r b 方法中的回归函数的b o o t s t r a p 预测与置信区间 非参数回归函数的稳健 当卢= 5 时,图3 1 和图3 2 分别给出了用c b 和r b 得到的b o o t s t r a p 样本曲线;图3 3 和图3 4 则分别给出了c b 和r b 方法下的核估计拟合曲线 ( 虚线) 、b o o t s t r a p 均值曲线( 点线) 及9 5 的致信带在b o o t s r a p 中,我们 取b = 2 0 0 表1 给出了p 所有情况的总结,其中考虑了2 0 0 个样本的平均预 测误差( p e ) 、覆盖概率( p c ) 以及置信区间的平均长度( l ) p c 是检验样本观 测值落入致信区间的百分比,平均长度定义为l = 。! t 、l “。p 一砖) ,其中上掣9 和l 分别为点( x k ,y ) 在置信区间的上下界, b o o t s t r a p 类型卢异常值预测误差( p e )覆盖概率( p c )平均长度( l ) c bo 0 3 4 7 9 5 3 19 2 7 l 0 2 2 6 6 2 3 9 r b0 o 3 4 3 7 7 3 29 2 3 5 o ,2 2 0 0 0 4 4 c b5 0 3 6 8 6 4 8 79 1 3 10 2 9 1 9 4 1 5 r b5 0 3 7 0 4 0 5 99 3 4 60 2 1 4 1 0 2 8 c b1 00 3 9 1 6 4 8 78 9 3 30 3 9 4 2 1 7 6 r b 1 00 3 9 2 5 3 1 79 1 7 60 2 1 8 7 9 4 3 c b2 0 0 4 1 2 6 3 4 18 8 8 40 ,4 8 2 3 6 4 1 r b 2 00 4 1 1 6 3 5 79 1 6 80 2 5 3 6 4 3 2 在图3 1 和图3 2 中,我们可以看出c b 和r b 方法得到的b o o t s t r a p 很 类似,虽然r b 方法中有少量样本比c b 方法得到有更大的偏差( 即使降低了异 常值的抽取概率,但有些样本还是会受到比较大的影响) ,但大部分还是更靠近 真实曲线,b o o t s t r a p 样本的带宽( 图3 1 和图3 2 中黑色部分) 更窄而表1 中的数值也支持了我们的观点从表3 。1 我们可以看出,r b 方法和c b 方法在 预测误差的估计很接近,但在覆盖概率和平均长度,r b 算法明显要好于c b 算 法特别地,在覆盖概率和致信水平差不多的情况下,由r b 方法得到的平均长 度要比c b 方法中的窄,且r b 方法受异常值的影响很小,数值稳定,而c b 方 法受异常值的影响就大多了从图3 2 中我们也可以看出,用b o o t s t r a p 的均值 非参数回归函数的稳健 曲线来作为估计比核估计更接近于我们所要估计的回归函数 图3 5 :l o s s 方法与r b 方法的比较 局部多项式估计( 1 0 e s s ) 是一种比较稳健的光滑化非参数曲线拟合方法下 面考虑对上述数据( 卢= 5 ) 用l o e s s 方法与我们所推荐的r b 方法分别计算出 9 5 的置信区闻在l o e s s 方法中,我们使用二次多项式,窗口里面的数据比例 为4 0 ,结果如图3 5 在图3 5 中,虚线的是l o e s s 估计,点线的是r b 方法 估计在l o e s s 中,拟合出的曲线虽然比较光滑,而且区间长度较窄,但在某些 地方,它则没有包含真值,特别是方差比较大的地方而我们所使用的r b 方法 却能比较有效的包含其真值 非参数回归函数的稳健 第四章总结 在含有异常值的样本中,b o o t s t r a p 样本会含有更高的。污染”,传统b o o t - s t r a p 估计的效果可能不理想本文介绍了非参数回归函数及其置信带的一种稳 健b o o t s t r a p 方法我们使用a m a d o 和p i r e s 9 l 引入的一种倾斜b o o t s t r a p 来抵制异常值的在b o o t s t r a p 样本中的影响。而倾斜b o o t s t r a p 则是通过利用影 响函数计算样本点对带宽的影响,从而得到稳健抽样计划的抽样概率,在此基础 给出了稳健b o o t s t r a p 算法数值模拟说明了此估计的有效性和准确性 ! ! 查塾堕坚鱼墼壁垒堡 3 0 参考文献 1 le f r o nb - ,t i b s h i r a u ir ,- - j ( 1 9 9 4 ) a ni n t r o d u c t i o nt ot h eb o o t s t r a p m c r cp r e s s 2 】g u b a n kr ( 1 9 8 8 ) s p l i n es m o o t h i n ga n dn o n p a r a m e t r i cr e g r s s s i o n m n e wy o r k : d e k k e r 3 m u l l e rh g ( 1 9 s s ) n o n p a r a m e t r i ca n a l y s i so fl o n g i t u d i n a ld a t a m ib e r l i n :s p r h _ l g e r 4 h a r d l ew ( 1 9 9 0 ) a p p l i e dn o n p a r a m e t r i er e g r e s s i o n i m l c a m h r i d g eu n i v p r e s s 【5 jw a h b ag ( 1 9 9 0 ) s p l i n em o d e lf o ro b s e r v a t i o n a ld a t a m p h i l a d e l p h i a :s i a m 【6 1e f f o r tb ( 1 9 7 9 ) b o o t s t r a pm e t h o d s :a n o t h e rl o o ka tt h ej a c k k n i f e j la 竹n s t n t i s t 7 1 - 2 6 7 】s i n g hk ( 1 9 9 8 ) b r e a k d o w nt h e o r yf o rb o o t s t r a pq u a n t i l s s j lt h e n 幽o s t n t s t c & 2 6 ,1 7 1 9 - 1 7 3 2 8 s a f i b i a n - b a r r e r am ,z a m a rrh ( 2 0 0 2 ) b o o t s t r a p p i n gr o b u s te s t i n l a t e so fr b g r 一 s i o n 【j 】t h ea n n a l so fs t a t s t c s ,3 0 ,5 5 6 5 8 2 9 ja m a d oc ,p i r e sam ( 2 0 0 0 ) r o b u s tb o o t s t r a p p i n gu s i n gi n f l u e n c ef u i l c t i o n s ,p m c e e d i n g si nc o m p u t a t i o n a ls t a t i s t i c s2 0 0 0 :s h o r tc o m m u n i e a c a t i o n sa n dp o s t e r s ,v o o r b u r g : s t a t i s t i c sn e t h e r l a n d s ,8 3 - 8 4 1 0 jn a d a r a y a ,e a ( 1 9 6 4 ) o ne s t i m a t i n gr e g r e s s i o n ,【j jt h e o r yp r o b a v p l ,1 0 ,1 8 6 - 1 9 6 1 1 w a t s o ng s ( 1 9 6 4 ) ,s m o o t hr e g r e s s i o na n a l y s i s , j s a n k h y as e r a2 6 3 5 9 - 3 7 2 【1 2 t m k e yj w ( 1 9 6 1 ) - c u r v e sa sp a r a m e t e r s ,a n dt o u c he s t i m a t i o n 【j 】脚d c e 曲呻so ft h e 4 t hs y m p o s i u mo nm a f h e m a t c s , s t a t i s t c sa n dp r o b a b i l i t y , b e r k e l e y , c a ,6 8 1 6 9 4 【1 3 m i c h a e lg s c h i m e k ( 2 0 0 0 ) s m o o t h i n ga n dr e g r e s s i o n :a p p r o a c h e s c o m p u t a t i o n a n da p p l i c a t i o n w i l e yi n t e r s c i e n c e 1 4 陈希孺等( 1 9 8 9 ) 【嗍非参数统计,上海科学技术出版社 1 5 s t o n ec j ( 1 9 7 7 ) c o n s i s t e n tn o n p a r a m e t r i er e g r e s s i o n ( w i t hd i s c u s s i o n ) f j l 且肌s t a f i s t 55 4 9 6 4 5 1 6 c o l l o m bg ( 1 9 7 6 ) e s t i m a t i o nn o n p a r a m 6 t r i q u ed el ar d g r e s s i o np a rl am 6 t h o d ed u n o y a u t h e s i sa tu n i v e r s i t yp a u ls a b a t i e r ,( m t o u l o u s e ,f r a n c e 非参数回归函数的稳健 3 1 l7 】m a c ky p ,s i l v e r m a nb w ( 1 9 8 2 ) w e a ka n ds t o n gu n i f o r mc o n s m t e n c yo fk e r n e lr e - g r e s s i o ne s t i m a t e s 【j 】五w a h r s c h e i n l i c h k e i t s t h e o r i e e g e b i c t e , 6 1 ,4 0 5 - 4 1 5 18 p a r z e n e ( 1 9 6 2 ) o n e s t i m a t i o n o f p r o b a b i l i t y d e n s i t y f u n c t i o n s f i m c t i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论