(概率论与数理统计专业论文)基于复发事件间隔时间下的可加可乘危险率模型.pdf_第1页
(概率论与数理统计专业论文)基于复发事件间隔时间下的可加可乘危险率模型.pdf_第2页
(概率论与数理统计专业论文)基于复发事件间隔时间下的可加可乘危险率模型.pdf_第3页
(概率论与数理统计专业论文)基于复发事件间隔时间下的可加可乘危险率模型.pdf_第4页
(概率论与数理统计专业论文)基于复发事件间隔时间下的可加可乘危险率模型.pdf_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 复发事件数据常常出现在生物学、医学、经济学、社会学等领域。由于复发事件数据 结构复杂,对它的统计分析己经受到学者们广泛重视,其相应研究结果不仅丰富了生存 分析,医学与生物统计的研究内容,而且为各交叉学科研究提供理论依据和实际指导。 自二十世纪八十年代开始,对复发事件数据的分析研究已经取得了丰富的成果。对 复发事件数据的研究主要集中在对复发时间和间隔时间的分析。对复发事数据分析的模 型包含两个方面:一方面,基于强度过程,对强度函数和危险率函数进行建模。另一方 面,对复发事件数据而言,由于复发事件的均值函数比强度函数更具有解释意义,因此 学者们对均值函数或比率函数进行了建模。 本文在复发事件间隔时间数据下,首先回顾了可乘危险率模型和可加危险率模型,利 用估计方程的思想得到参数和基准危险率函数的估计,以及所得估计的渐近性质。接着 讨论了可加可乘危险率模型,对于此危险率模型中参数和基准危险率函数,同样采用估 计方程的思想将其估计出来,然后证明了估计量的大样本性质。 关键词:可加可乘危险率模型;估计方程;间隔时间;复发事件数据 第1 页 上海师范大学硕十论文 ab s t r a c t r e c u r r e n te v e n td a t a so 舭na p p e a ri na p p l i e dr e s e a r c ho f b i o l o g ) ,m e d i c a l ,e c o n o i i l i c s 龃d s o c i 0 1 0 9 y s i n c et h es t m c t u r e0 fm er c c u n e n te v td a t ai sv e r yc o m p l i c a t e d a1 0 to fr e s e a r c h e l l s a r ei n t e r c s t c di nt i l es t a t i s t i c a la n a l y s i s t h ec o r r e s p o n d i n gr e s u l t sa r en o to n l ya 伍u d e n ti nt l l e s t u d yo fs u r v i v a l 锄a l y s i s ,b u ta l s ot l l e yp r o v i d et h e o r e t i c a la n dp f a c t i a lg u i d ef o rt h es t i l d y0 f i n t e r d i s c i p l i n a r y s i n c et 量l et w e n t i e t hc e n t l l i e i g h t i e s ,n l e r ea r eal a 玛en u m b e r0 ft 1 1 es t u d yr e s u l t so n 吐l e 孤a l y s i so fr e c l l r r e n te v e n t s t h es t u d yo nt t l e 陀c u r r e n te v e n td a t ai sm a i nc o n c e n 廿a t e do nt t l e 觚a l y s i s o fn l er e c u n e n tt i m e 加dt l eg a pt i m e t h em o d e l sa b o u tt l l e 锄a l y s i so fr e c u r r e n te v 明td a t 瞒 c o n t a i nt w os i d e s i no n es i d e ,f o ri n t e n s i t ) rp r o c e s s ,w ec o n s t n l c tt h em o d e lo fi n t e n s i t yf u n c t i o n a n dh a z a r d sf h n c t i o n i n 出eo t h e rs i d e ,t or e c u r i i e n te v e n td a t a s ,b e c a u s et h em e a n 缸n c t i o no f 出e r e c u r r e n te v e n t si sm o r es i g n i f i c a i l tm 锄t l l ei n t e n s i 哆f u n c t i o n t h er e s e a r c h e rc o n s 仇l c tt l l e m o d e lo nn l em e a nf u n c t i o no rr a t i o6 l n c t i o n h lm i sp a p e r t h eo b s e r v e dd a t a s 盯e 吐l eg a pt i m eo fr e c l l r r e n te v e n t a tf i r 瓯w e 陀v i e wt l l e p 盯a m e t r i c 锄dm en o n p 锄m e t r i ce s t i m a t o r so ft l l ea d d i t i v eh a z a r d sm o d e l 髓dm ep r o p o n i o n a l h a z a r d sm o d e l ,w h i c ha r e0 b t a i n e dt l l l 0 u 曲t t l ee s t i m a t i n ge q u 撕o na p p r o a c h e s a n dw e1 0 0 kb a c k t l l ea s y m p t o t i cp r o p e n i e so fm e p f o p o s e de s t i m a t o 璐n e x t ,w ed i s c u s st l l ea d d i t i v e m u l t i p h c a l i v e h a z a f d sm o d e l ,f o rm el l l ep 撇m e t r i c 柚dt l l en o n p a r a m e t r i co ft h em o d e l ,w es i ng e tt l l ee s t i m a 膏0 r sb yt l l ee s t i m a t i n ge q u a t i o na p p r o a c h e s t h e nw ep 托s tm ep r o o fo fm e 硒y m p t o t i c p r o p e r t i e s k e yw b r d s : t l l ea d d i t i v e m u l t i p l i c a t i v ch a z a r d sm o d e l ;e s t i m 撕n ge q u 撕o n s :g a pt i m e s ;m c * i e n te v e n td a t a 第页 论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取 得的成果。尽我所知,除文中已经注明引用的内容外,本学位论文的研究成果不包含任 何他人享有著作权的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均 已在文中以明确方式标明。 签名:斗基 日 论文使用授权声明 本人完全了解上海师范大学有关保留、 交论文的复印件,允许论文被查阅和借阅; 采用影印、缩印或其他复制手段保存论文。 使用学位论文的规定,即:学校有权保留送 学校可以公布论文的全部或部分内容,可以 ( 保密的论文在解密后应遵守此规定) 作者签名:! j 翼 日期:型! 坐璺塑 导师签名: 日期: 第一章前言 1 1 生存分析基础 自二十世纪八十年代开始,复发事件数据的统计分析就成为热点问题。复发事件的 数据统计分析离不开生存分析这一概念,那么什么是生存分析呢? 简单地说,生存分 析【l 】( s u r v i v a la 1 1 a l y s i s ) 就是对一个或多个非负随机变量进行统计分析,即根据观测数据 对一个或多个随机变量进行统计推断。 生存分析是近二三十年发展起来的数理统计新分支,它是根据医学、生命科学、可靠 性工程、保险等科学研究中的大量实际问题提出的,它起源于几个世纪前对死亡表的研 究以及半个世纪前开始的工程研究【2 】。广义地,讲生存分析是对生存时间( 非负随机变 量) 进行统计分析的一类技术。而生存时间可以定义为某个给定的事件发生的时间,这 个事件可以是疾病的发生、一种处理( 治疗) 的反应、病情复发或死亡【3 】。生存数据可 以包括生存时间、对治疗的反应以及与反应、生存及疾病发生有关的病人特征【2 】。生存 数据出现在生物医学中的例子有:疾病的发生时间、治疗后疾病复发时间;出现在工业 可靠性、社会科学、犯罪学、经济学、保险精算学以及商业研究中的例子有:机械及电子 器件或系统失效时间、可靠性工程中电子设备的寿命、首次婚姻的持续时间、寻找工作 及失业和再就业时间、犯罪学中重罪犯人的假释时间、发行债券的违约时间、被保险人 的索赔时间、保险公司在某一索赔案中所付的保险费等【2 】【4 】。 研究复发事件时间规律的问题也就是生存分析的问题,生存分析中头一个基本问题, 就是根据数据来估计危险率函数,它同样也是复发事件问题研究中的主要问题。首先我 们需要对生存分析碰到的数据类型有一个认识。数据有时是有意识安排实验获得的,有 时则是通过现场调查得到的。可以说,数据一般含有删失或不精密的特点【l 】。 什么是删失呢? 删失分为右删失和左删失。在进行观测或调查时,一个个体的确切寿 命不知道,但只知道寿命大于l ,则称该个体的寿命在l 是右删失的,并说l 是右删失数 据;若个体的确切寿命不知道,只知道寿命小于厶则称该个体的寿命在l 是左删失的,并 说l 是左删失数据。 什么叫做不精密呢? 常常是个体的确切寿命不知道,只知其在1 和t 2 之间,这时 称 1 ,2 】是个体寿命的区间型数据。 综上所述,在生存分析中碰到的数据有四种类型:确切寿命数据( 又叫完全寿命数 据) ,右删失数据,左删失数据,区间型数据。 在大量实际工作中,个体寿命常常依赖于种种自身的或环境的条件,也即个体寿命 依赖于某些参变量( 或叫协变量) 。例如,在医学研究中考察某种手术后病人的生存时 间,这个时间的长短一般与病人的年龄,以及病人手术前的多项生理指标有关,又如考 察玻璃电容器的使用寿命,它依赖于使用温度和电压等。这种对寿命起影响的变量,一 第l 页 上海师范大学硕十论文 般称为协变量。在技术产品的加速寿命试验中,协变量叫加速变量或加速因子,通常协 变量可能不只一种 5 】- 【8 】。 1 2 危险率函数及模型 生存分析中有了数据之后,通过数据来推测危险率函数,那危险率函数又是怎样类型 的种函数呢? 生存时间丁的危险率函数a ( ) 【3 】【8 】就是条件生存率,其定义 天( ) 。慨壶p 粗略地说,入( ) 是时间t 时活着的个体在往后的单位时间区间内死亡( 条件) 概率。 危险率函数也可用生存函数s ( ) 和概率密度函数,( ) 来定义: 冲) = 器 累积危险率函数的定义是 婶) = 厶蛐 设协变量为z 时,寿命丁的密度函数是,( z ) ,生存函数是s ( t 名) ,危险率函数是 婶纠= 粼 接下来让我们来回忆一下几种危险率模型。 1 9 7 2 年c o x 【9 】提出的比例危险率模型( 可乘危险模型) a ( l z ) = k ( ) e x p 席刁, 其中z ( t ) 是p 维协变量,a o ( ) 是未知的基准危险率函数,尻是未知的回归参数向 量【7 】【l o 】- 【1 4 】。h u 柚g 和c h 明( 2 0 0 3 ) 【1 5 】讨论了观测数据是复发事件间隔时间的此类 模型,求出了估计量,并给出了估计量的一些渐近性质。 1 9 9 4 年l i n 和y i n g 【1 6 】提出了可加危险率模型 入( i z ) = 入o ( ) + 例。互 这里z ( ) 是p 维协变量,知( ) 是未知的基准危险率函数,凤是未知的回归参数向 量。s u n 和d o h w 狮陆k ( 2 0 0 6 ) 【1 7 】考察了复发事件间隔时间下的可加危险率模型。 1 9 9 5 年l i n 和y i n g 【1 8 】提出了可加可乘危险率模型 a ( i z ) = 9 筒形卜卜知( ) 话x ) , 第2 页 其中z = ( t ,x t ) r 是p 维协变量,先= ( 爵,语) r 是p 维未知的回归参数向量,g ( ) , 危( ) 是已知函数,入o ( ) 是未知的基准危险率函数。本论文主要讨论的是在复发事件间隔时 间下的可加可乘危险率模型,对其参数和基准危险率函数进行估计,并证明了所得估计 的渐近性质。 若观测数据是右删失数据( 互,魂,互) ,对于每个个体t ,设正表示寿命,g 表示删失时 间,磊表示与第i 个个体有关的时间独立协变量, 正= 正 g , 盈= ,( 死g ) , i = ,( 正) 盈= j ( 互t ) ,( 正g ) , 针对可乘危险率模型 m ( ) = ,( 正) , 船) = 三静 a ( 引z ) = a o ( ) e x p 【解刁 对于未知参数p 和未知函数入。的估计思想是利用估计方程的方法,令 d 舰( t ) = d 、7 ; ( ) 一k ( ) 入( i 磊) 毗 = d m ( t ) 一m ( ) e x p ( p t 五) ( ,) , 对所有t ,d 尬( ) 是均值为0 的随机过程,则 龇俨蠢稿 对于右删失数据,得到的估计方程是 叩) 2 z 磊删) t , 第3 页 上海师范大学硕十论文 令 则 = 酎磊删唧沪五,矗潞 = z r 喜祧一燕喜姗酬肥,剀 =zf竹雪tz占d,ctt,一雩若丢笔鬻d雪t,ctt,6, 对于可加危险率模型 由于 入( i z ) = a o ( t ) + 筒z , d 坛( ) = d 肌( ) 一k ( ) a ( i 互) 出 = 讹( ) 一m ( t ) ( 亡) 一k ( ) 矿五d , d 舰( ) = d 肌( t ) 一k ( ) ( z ) 一( ) 五班= o , 蛳肛耻迭产 针对右删失数据,得到估计方程为 w ) = 豺删凡) = 喜小挑州喊m 旷琊炉础 = 喜z r 磊 d 肌( 幻一k ( ”圣旦竺塑主专产一k ( d 矿磊出 第4 页 = z 7 喜枷鬻喜删 + 鬻喜聊呦一喜删心班】 = z t n 雪 z 6 d ,( r ) 一黜d 雪 6 ,( t t ) ) 一廖 z 。2 j ( r t ) ) p 出+ 坐翟掰p 出 1 3 复发事件数据背景介绍 在生物学、医学、生态学、人口学、环境学和经济学等研究领域中,研究的个体或 指定产品可能经历多次事件或者失效【1 9 】。复发事件数据是指对一些个体进行观察,某种 感兴趣事件重复发生的时间所组成的数据。复发事件数据分为两种类型,对个体进行观 察,如果某种感兴趣的结果可能只有一种类型,而且这种感兴趣的结果在观察时间内可 能不止发生一次,这样的结果称之为单类型复发事件。例如,静脉注射吸毒人员承认的 多次住院时间、某些机器故障的多次发生时间、某种汽车模型的多次授权要求时间、白 血病病人接受骨髓移植后出现的重复感染时间【2 0 】【2 l 】、心肌梗塞,肿瘤病人手术后肿瘤 的多次复发时间。如果在研究中感兴趣的结果不止一种类型,并且这些感兴趣的结果在 观察时间内可能发生多次,这样的结果称为多类型复发事件。例如,研究骨髓移植之后 的感染问题、研究者感兴趣的是同时研究细菌、真菌和病毒感染【2 2 】。在临床研究中,考 虑硒元素补充的有效性与预防皮肤癌的关系【2 3 】,感兴趣的问题是研究几类皮肤癌的复 发。 对单类型复发事件,学者们的研究主要集中在复发时间和间隔时间两个方面。 在复发时间研究方面,在删失时间与复发时间独立的条件下,a n d e r s 印和g i l l 【l o 】提出 并分析了比例失效率回归模型;l i n ,w e i 和y i n g 【2 4 】讨论了加速失效时间模型和一类 转移模型,并给出了模型中未知参数和非参数函数的估计;m a l l e r ,s u n 和z h o u 【2 5 】研 究了事件过程的一些非参数估计;s 眦和s u 【2 6 】讨论了一般的加速均值回归模 型;s c h a u b e l ,z e n g 和c a i 【2 7 】提出并研究了加性比率模型:z e n g 和l i n 【2 8 】分别讨论了 半参数转移模型和带随机效应的半参数转移模型。 在间隔时间的研究方面,假设删失时间与间隔时间独立,h u 觚g 和c h e n 【1 5 】对边际比 例风险回归模型进行了讨论,并获得了模型的参数和非参数估计;w a l l g 【2 9 】等人研究了 第5 页 一卜海师范大学硕十论文 间隔时间的边际生存函数的一些非参数估计;s c h a u b e l 和c a i 【2 7 】讨论了间隔时间下条件比 例风险模型;s u n ,p a 武和s u n 【1 7 】考虑了间隔时间下的边际加性风险模型。大量学者从复 发事件强度和复发事件率方面讨论复发时间【3 0 】【3 3 】,但在复发事件间隔时间的讨论却较 为有限。 复发事件数据是复杂数据,其数据结构具有如下特点:首先,事件重复发生的时 间有次序的。因此复发事件数据可以看做是一种特殊的多维生存数据,可以利用多元 生存分析的方法来研究复发事件数据。例如,边际强度方法【2 1 】【3 4 】【3 6 】和条件强度方 法【1 0 】【l l 】【2 0 】【2 2 】【2 9 】 3 7 】 3 8 】都可以用来分析复发事件数据。其次,事件本身具有相依 性,而且由于删失时间的存在,删失时间可能与事件发生的时间也具有相依性。因此, 对复发事件数据的统计模型和统计推断变得很困难,也正是因为复发事件数据自身这些 特点以及广泛的应用背景,对复发事件数据的分析受到学者们越来越多的关注。 在生物学的研究中往往考察共有佗个个体,并且这n 个个体是独立的,每个个体都是 经历同一复发事件。例如,脑血管病人常常发生短暂性脑缺血,h 病人常会出现重复 的机会性感染。还有其他一些关于复发事件的例子,如疾病感染、心肌梗死、肿瘤转移 瘤、重复住院、疾病复发或疾病缓解等。 为了描述复发事件观测数据,对于个体i ,设表示事件第歹次复发与第歹一1 次复发 的时间间隔,歹= 1 ,2 ,= l ,铃也就是说,霉1 + + 表示事件第歹次复发事 件。设磊表示与第i 个个体有关的关于时间独立的协变量,g 表示删失时间。 规定尬表示第i 个个体所能观测到的间隔时间个数,整数坛满足 m 一1坛 g q = 1j = 1 则观测数据是【互1 ,正,胍一1 ,g ,磊) 。即前坛一1 个间隔时间都可以观测到。但正,盹在 m l = c :i 一 j = 1 处删失。 对每个i ,定义= ,( 磊 1 ) , 口= m a x ( 毛一1 ,1 ) , i ,i f = 1 = 【碍,i f = o 歹= l ,孵 对于每个个体复发事件间隔时间下复发事件体现了一定的齐次性,这里, 假设1 1 :每个个体复发事件过程都是一个更新过程,也就是说,对于每个个体给定 的i , ,j = l ,2 , 是独立同分布的。 第6 页 注意:对于给定删失时间g ,尬以及巧她,观察的完整间隔时间, ,歹= 1 ,舰一1 是独立同分布的。 假设1 2 :对于给定z ,r 是与删失时间c 独立。 假设1 3 : ( 场,j = l ,懈,i ,磊) ;i = 1 ,礼】是礼个独立同分布,来自于总 体 ) ,歹= 1 ,嵋,z 。 由于第一个间隔时间受限于与之独立的删失时间,整个观测的间隔时间的转变 使 ( ,j = 1 ,蟛, ,磊) ;i = 1 ,佗) 被看作一族生存数据,当然常常族的大小已 知的,由于舰 1 ,则删失时间通常是删掉的。 1 4 本文结构安排 本文的结构安排如下: 第二章,本文讨论了基于复发事件间隔时间下的比例危险率模型的回归分析,探讨了 观测数据复发事件间隔时间下的可加危险率模型的参数,基准危险率函数的估计,以及 大样本性质。 第三章,针对单类型复发事件间隔时间下的可加可乘危险率模型,同样采用的是估 计方程的思想来讨论模型中参数和基准危险率函数的问题。首先找到估计方程u ( 口) ,然 后令u ( p ) = 0 ,得到百,但文中舀是隐性的。接着可以得到佗一1 2 u ( 口) ,几1 2 ( 舀一秒) 的渐近性 质,以及累积危险率的渐近性质。同时还可知痧是p 的相合估计,痧比痧1 有效。且可以确定 回归参数估计具有一个封闭的形式,各种渐近性质能被得到,并给出了各种估计量渐近 性质的严格证明以及推导过程。 第四章,对本文进行了总结,并对后期工作进行了展望。 第7 页 上海师范大学硕十论文 第二章可乘和可加危险率模型的统计方法及性质 2 1引言 本章探讨了基于复发事件间隔时间下的可乘危险率模型,可加危险率模型的统计 方法以及性质。为了描述复发事件观测数据,对于个体i ,设表示事件第歹次复发与 第歹一1 次复发的时间间隔,歹= 1 ,2 ,i = l ,n 。也就是说,正1 + + 表示事件 第歹次复发时间。设磊表示与第i 个个体有关的关于时间独立的协变量,c :f 表示删失时间。 规定舰表示第i 个个体所能观测到的间隔时间个数,整数尬满足 则观测数据是 正1 ,正,尬一1 ,c ;c ,磊 。即前尬一1 个间隔时间都可以观测到,但五,m 在 对每个l ,定义= ,( 坛 1 ) ,蟛= m a x ( 舰一l ,1 ) , = i 二三:二三 2 2 可乘危险率模型的统计方法及性质 2 2 1 模型和估计方法 h u 觚g 和c h 饥( 2 0 0 3 ) 【1 5 】讨论了基于复发事件间隔时间下的可乘危险率模型 入( 纠z ) = 入o ( ) e x p 【雕刁, 其中z ( ) 是p 维协变量,知( ) 是未知的基准危险率函数,岛是未知的回归参数向量。 在2 0 0 3 年文献【1 5 】首先给出了可乘危险率模型的估计方程: ,( p ) = z f q ( ) b 五厶拼( 场甜一 第8 页 g 版触 a 一 芦 芦 一g i i 箩一手、冀舒j 3 ,? :? r ! 。j 毒。:t ? i ,7 乏,”j 案 锷麓鬻础( 场驯斟岛 ,( ) e x p ( t z :) ) 。、。一7 ”j 如果观测数据是 ( k l ,t ,磊) ;i = 1 ,n ,估计方程u ( p ) 有如下形式: 仉( p ) = z r q ( t ) 降 磊厶d ,( m - 坍一 端基嬲却阢蛐, 毛 j ( t ) e x p ( 伊五) ) “一一7 ”j 累积危险率函数的估计是 w ,= z 翥巷, 这里p 表示v ( p ) = o 的解,岛表示阢( p ) = o 的解。 2 2 2 渐近性质 定义露( ) = 乞 t j ( t ) ) ,0 0 ( 亡,p ) = 乞 ,( ) e x p ( 卢r 磊) ,0 l ( ,p ) = 岛t j r ( 场t ) e x p ( 伊互) 五 设k ( 亡) = e j ( k 1 ) ) ,g o ( t ,p ) = e 【j ( k 1 ) ) e x p ( 矿z ) ) ,g 1 ( t ,p ) = e ,( k 1 ) t ) e x p ( z ) z , 容易知道露( ) _ k ( ) ,0 0 ( t ,p ) _ g o ( ,p ) ,0 l ( ,p ) 一g 1 ( t ,p ) 性质2 1 ( 见【1 5 】) :在一定正则条件下,几1 2 u ( 风) 是均值为o ,协方差矩阵= e 岛( ,t ,五) 0 2 的渐近正态分布,方差的相合估计是宝,其中 慨a 周= 小t ) ( 磊一粼) 陋( 剑 一盟铲哪) g o ( t ,岛) r 7 j 。 性质2 2 ( 见【1 5 1 ) :在一定正则条件下,当他一o o ,则在阮的邻域内,存在p , 使u ( ) = o ,且p 风,n 1 2 ( p 一风) _ l ( o ,a 一1 a 一1 ) 。 第9 页 卜海师范大学硕十论文 性质2 3 ( 见【1 5 】) :p 比岛有效的,即声的渐近方差比p 1 的渐近方差小。 性质2 4 ( 见【1 5 】) :n 1 2 ( 凡( ,p ) 一人0 ( t ,阮) ) 弱收敛于均值是。的高斯过程,其在( s ,t ) 处 的协方差函数是r ( s ,t ) = e 易妒( s ;) ,z ) 易妒( t ;圪) ,z ) ) ,协方差函数的相合估计是 ( s ,t ) = 袁 专痧( s ;,t ,五) 易移( ;,t ,五) ) , 这里 砂( ;, ,互) = 口r ( t ) a 一1 ( ,l ,磊) + z 垫坐鲻号错簪塑魁, 移( ;,t ,五) = 矿( t ) a 一1 $ ( ,磊) + z 。亟丝盟器逊越, f a ( t ) = 一 ,0 。岛 ,( 乱) e x p ( 伊互) 军) 拟( u ) 铝( u ,p ) ) - z 。型丝岽等婴型,0”o k “ d , 一盟幽潞掣蚓 【g o ( ,风) 】2 r 7 j 第1 0 页 2 3 可加危险率模型的统计方法及性质 文献【1 7 】针对复发事件间隔时间,来讨论可加危险率模型 a ( l z ) = 入o ( ) + 阿互 这里z ( f ) 是尸维协变量,知( ) 是未知的基准危险率函数,阮是未知的回归参数向量。 文献【1 7 】给出了可加危险率模型的估计方程: w ) = 小) 胁删驯) - 搿嘞删蛐) 一乞 z ? 2 ,( t ) 出+ 壁号麦辫出 , 如果观测数据是 ( m l ,t ,磊) ;i = 1 ,佗) ,估计方程u ( p ) 有如下形式: 仉( 圆= z rq ( t ) 磊 z i t 讲( k - t ) ) 一乏黜携 d ,( k ,) t ) 一反 留2 j ( m - t ) ) p 出+ 堡妻辫p 砒 , 累积危险率函数的估计为 w ,= z 。逊等翥老铲幽 - ,o c “1 i j t i 之s 这里p 是u ( p ) = o 的解,向是巩( p ) = o 的解。 2 3 2 渐近性质 定义霞( ) = 如 ,( 5t ) ) ,岛( t ,) = 易_ 【j r ( 场) ) ,0 1 ( t ,p ) = 如 五,( t ) 五 设k o ) = e 【,( k 1 ) t ) ) ,g o ( t ,p ) = e ,( k 1 ) t ) ) ,g 1 ( t ,) = e z ,( k 1 ) ) ) 第l l 页 上海师范大学硕十论文 容易知道露( ) 叶k ( t ) ,0 0 ( ,p ) 一g o ( ,p ) ,0 1 ( t ,p ) 一g 1 ( t ,卢) 性质2 5 ( 见【1 7 】) :在一定正则条件下,7 1 1 2 u ( 岛) 是均值为o ,协方差矩阵= e 易妒( ,t ,磊) 0 2 的渐近正态分布,方差的相合估计是宝,其中 蜗a 周= 小z ) ( 磊一粼) 陋( 纠 一蹦唧h ( 纠( 磊一渊) 性质2 6 ( 见【1 7 】) :在一定正则条件下,当n _ 。o ,则在阮的邻域内,存在p , 使u ( ) = o ,且矽一p 岛,n 1 2 ( p 一岛) 一工( o ,a 1 a 一1 ) 。 性质2 7 ( 见【1 7 】) :声比岛有效的,即矽的渐近方差比岛的渐近方差小。 性质2 8 ( 见【1 7 】) :竹1 2 ( 凡( 以矽) 一a 0 ( 六岛) ) 弱收敛于均值是。的高斯过程,其在( s ,) 处 的协方差函数是r ( s ,t ) = e 易砂( s ;) ,z ) 易砂( ;圪) ,z ) ) ,协方差函数的相合估计是 f 、( s ,t ) = 色 易移( s ;,t ,磊) 易移( ;,t ,五) ) , 这里 此;啪确) = z 2 塑坚高器刿 j ( 场u ) d k ( t ) 一,( u ) 雕g 1 ( u ,岛) 砒1 瞬( u ,岛) j 一矿( ) a 一1 ( k f ,t ,磊) , 如;淌) = z 螋坠岽产 ,( 牡) d k ( u ) 一,( 乱) g 1 ( u ,p ) a 比1 侥( 让,p ) j 一伊( t ) a 一1 参( ,厶,磊) , ,t d ( t ) = 含。( 仳,p ) 砒岛( 牡,p ) , ,0 第1 2 页 箩一事:囊f ,。_ ? :擘:。? i ;1 :哆j 毒二专? z 。 ,尹 e ( t ) = z 。g ,( 缸,岛) 砒g 。( t t ,岛) 2 4 小结 本章回顾了复发事件间隔时间数据下的可乘危险率模型【1 5 】和可加危险率模型【1 7 】。 两文献均利用估计方程的思想,给出了模型中未知参数和基准危险率函数的估计方法, 并且讨论了估计的相合性和渐近正态性。 第1 3 页 上海师范大学硕十论文 第三章可加可乘危险率模型的统计方法及性质 3 1引言 复发事件数据是一类复杂数据,常常出现在生物学、医学、人口学、环境学、经济 学、社会学等领域中。复发事件数据分为两种类型:单类型复发事件数据和多类型复发 事件数据。对单类型复发事件数据的研究主要集中在复发时间和间隔时间两个方面。大 量学者从复发事件强度和复发事件率方面来讨论复发时闯,相反在复发事件问隔时间的 讨论却是有限的。 1 9 7 2 年c o x 【9 提出了比例危险率模型( 可乘危险模型) ,h u 觚g 和c h e n ( 2 0 0 3 ) 【1 5 】, 讨论了观测数据是单类型复发事件间隔时间的此类模型,文中利用估计方程 的思想求出了该模型中参数和非参数估计量,并给出了估计量的一些渐近性 质。1 9 9 4 年l i n 和y i n g 【1 6 】提出了可加危险率模型,s u n 和d o h w 锄p a r k ( 2 0 0 6 ) 【1 7 】考察了 单类型复发事件间隔时间下的可加危险率模型,依然采用估计方程的思想求出了参数和 基准危险率函数的估计,导出了估计的一些大样本性质。 1 9 9 5 年l i n 和y i n g 【1 8 】提出了可加可乘危险率模型,本论文针对观测数据是单类型复发 事件间隔时间下此模型,同样利用估计方程的思想方法,对模型中参数和基准危险率函 数进行估计,并证明估计具有一些渐近性质。 3 2 可加可乘危险率模型的统计方法 在这一章里,我们根据估计方程的思想来寻找所求估计。首先求出估计方程,从而推 断出参数的估计,以及基准危险率函数人o ( t ) = a o ( 乱) 砒的估计,然后给出参数和基准 危险率函数的大样本性质。 本论文所采用的观测数据是复发事件间隔时间,根据l i n 和y i n g ( 1 9 9 5 ) 【1 8 】以及s u n 和d o h w 锄p a r k ( 2 0 0 6 ) 【1 7 】文中思想,我们令u ( 口) = o ,可以得到回归参数如的估计,其 中 叫) = z r 钟) b 五劁j ( 纠) 一筹靛鬻哿嘞m 纠,岛 ,( t ) 九( ,y t 五) 一。一” 一南 历歹( ) 9 ( 矿暇) 斑 第1 4 页 z = 尹? 曩。j 囊皇”j j 甲o 。:毋;专j 乡爰t i ! 、妻 + 冬等黑乎曼器乞 ,( 场咖( 卢t m ) 】班 ( 3 - 1 ) 岛 ,( ) 九( 7 丁x ) ) 、v 一“ ”j 、 这里,如= 磊易,磊和易表示经验均值,i = l ,n ,歹= l ,蚜,q ( t ) 是 一个权重过程,其可能依赖于数据,选择不同的q ( f ) 会产生不同的关于6 1 0 的估计。在 大量有关研究中,常常设q ( ) = 1 ,时间7 ( 0 r 0 对于列向量u ,记u 固2 = t ,7 t , 如果观测数据是 ( k l ,t ,五) ;i = 1 ,n ,其是一组复发事件就复发一次的时间数 据,我们也可以相同的估计方程的思想,推断出6 1 0 的另一种估计,这种估计仅仅是一种选 择,其不是一种非常有效的估计,一般在这种情形之下,估计方程u ( 9 ) 有如下形式: ,下r 阢( p ) = q ( ) l 邑 五i d ,( k 1 t ) ) 一篇基糕哿郧川耶聃磊 ,( k 1 ) 九( 7 t x ) “一” 一磊 磊j r ( k 1 ) 9 ( p r w :) ) 砒 + 铿麓嬲印( 加( 肌啤 邑 ( k l t ) ( 7 t x ) ) “一一” ”j 7 这里痧表示u ( 9 ) = 0 的解,痧l 表示巩( p ) = 0 的解。在下一节中,我们可以了解到百的渐 近方差小于自的渐近方差,也就是说痧比痧1 有效。 定义露( t ) = 乞 氆,( t ) ) ,0 0 ( t ,口) = 岛 ,( 场t ) 危( ,y t x ) ,0 1 ( ,p ) = 如 ,( 亡) 危( ,五) 五 ,0 2 ( ,9 ) = 乞 ,( ) 夕( p 丁眠) 不难发现,蚕是钆的相合估计,在下一节里,它将得到很好的证明。一般地,为 了建立痧的渐近性质,我们首先需要找到u ( 如) 的渐近性质。在一定的正则条件下,由 第三节中定理可知,n 1 2 u ( 岛) 是一个均值是o 的渐近正态分布,方差矩阵的相合估计 是= 磊【( 岛( $ ( ,t ,磊) ) ) 0 2 】, 其中 瓶a z ;f ) = 小吼磊一踹怕撕纠 一丛堕委掣d 霞( ) 一,( ) 9 ( 矿眠) 班 g 0 ( t ,p ) 一。一” ” 上海师范大学硕十论文 由汐( 矽) 的泰勒展开,在下一节定理3 2 证明了称1 2 ( 痧一如) 服从一个均值为o 的渐近正态 分布,方差矩阵的相合估计是q = a 一1 a ,这里 卸) :壹 ( ) ( 磊一牙) p r 眦) 咿出( 矿x ) 砰砜( 酬 1 _ l 否 接着我们还讨论了基准危险率函数人o ( ) = 后( 钆) 砒的估计,根据相同的思想,我们 提出了 o ( ) 的估计量, a 以霸= z 。坐警捌普黔产 注意,此估计量在t 处并非总是单调的。在这种情形下,为了确保其渐近性质,我们 可以效仿l i n 和y i n g ( 1 9 9 4 ) 【1 6 】一文中那样,将其进行稍作修正。 如果我们仅仅把事件第一次复发时间作为观测数据,a o ( ) 有另一种形式的估计: a 5 1 ) ( 姐,= z 坠警器基麓产 类似于西,k ( ;痧) 也是比哿( t ;旁1 ) 有效。 首先,对于痧,容易得到凡( ;舀) 是a o ( ) 的相合估计,详细证明见下一节。在第三 节定理3 4 ,我们可以证明竹1 2 ( 如( ;痧) 一a o ( ) ) 弱收敛于均值是。的高斯过程,其协方差 在( s ,t ) 处的相合估计是 f ( s ,t ) = 磊畅 移( s ;场,t ,磊) 南 参(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论