孟生旺:广义线性模型—发展与应用(1).ppt_第1页
孟生旺:广义线性模型—发展与应用(1).ppt_第2页
孟生旺:广义线性模型—发展与应用(1).ppt_第3页
孟生旺:广义线性模型—发展与应用(1).ppt_第4页
孟生旺:广义线性模型—发展与应用(1).ppt_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,第 十 二 届 中 国 精 算 年 会 The 12th China Actuarial Annual Conference,广义线性模型:发展与应用,孟生旺 中国人民大学统计学院 Email:,主要内容,基本的广义线性模型:理论与应用 模型评价 费率约束 广义线性模型的推广与应用 分布假设的推广 GAM与GAMLSS(GAM for Location, Scale and Shape) 神经网络与回归树 应用案例,2,基本GLM:理论与应用,分布假设: 正态 泊松、负二项:索赔频率 伽马、逆高斯:索赔强度 Tweedie:纯保费 二项:续保率 连接函数: 恒等:加法模型 对数:乘法模型,预测值大于零 logit:预测值在(0,1)区间,3,Tweedie、泊松和伽马的比较: Tweedie: 泊松:p=1 伽马:p=2,4,模型评价1:偏差 近似服从自由度为n - p的卡方分布。除泊松外,效果不是很好。 对于嵌套模型,偏差之差近似服从 p - q 的卡方分布,近似效果较好。 注:SAS中称fD为偏差,称D为尺度偏差。,5,模型评价2:残差(下页图示) Anscobe残差: Deviance残差: 若分布假设是合理的,标准化处理后近似服从标准正态分布。 若偏差di的绝对值大于1,说明对这个观察值的拟合效果较差。,6,7,模型评价3:Type 1 和 Type 3 分析,8,模型评价4:标准误、置信区间和p值,9,模型评价5:把样本数据分为三组(数据充足) 训练样本(training data) 测试样本(test data) 评价样本(validation data) 模型评价6:Box-Cox检验,10,来源:Anderson etc.(2007), Practitioners guide to GLM,11,模型比较:信息准则 AIC或BIC的值越小越好。 误差平方和的比较?,12,GLM的优缺点,优点: 统计检验 处理相关性和交互作用(见下页) 现成软件 缺点: 无法处理加法和乘法的混合模型 参数模型,函数形式有限 寻找交互项:耗时,13,费率约束: A区域的费率系数不超过1.20 B区域的费率系数保持在当前水平1.10不变 如何解决? 传统方法: 方法 2:抵消项 方法 3:一般约束条件下的广义线性模型,14,费率约束的处理,费率约束的处理:抵消项 例:区域A和B的费率系数分别限定为1.2和1.1,区域C和D不受约束, 另一个费率因子为性别。假设不存在其他费率因子。,15,权重与抵消项的关系:泊松回归为例: 因变量:索赔次数(C) 权重:无 抵消项:log(风险单位数) 因变量:索赔频率(F) 权重:风险单位数(e) 抵消项:无,16,费率约束情况下,何时不宜使用抵消项? 例:公司希望开拓高端住宅保险市场,措施之一是适当降低其费率 问题:保额与区域高度相关 应用抵消项的结果:区域因子会调整,使得高端住宅的费率仍然较高 解决途径?方法3,一般约束条件下的广义线性模型,17,18,方法3 : 一般线性约束下的费率厘定,约束条件:,参数估计:,GLM的推广 与应用,分布假设的推广 过离散: 混合泊松分布:泊松-逆高斯,泊松-对数正态 零膨胀: 零膨胀模型 长尾: 对数正态,帕累托 0-1之间取值的变量: Beta分布,19,广义可加模型(Generalized Additive Models,GAM) GAMLSS模型(GAM for Location, Scale and Shape),20,神经网络模型,21,神经网络模型的优点: 广义线性模型的推广。 非线性。 无需事先指定解释变量与因变量之间的函数关系。 可以以任意精度逼近任意的连续函数 预测效果通常要优于常用的广义线性模型,但有例外,22,神经网络的缺陷: 缺乏进行统计推断和模型检验的统计理论 模型参数不易解释 预测过程类似于一个黑箱 有可能会引入不必要的交互项,导致过拟合。,23,回归树 优点: 无需对因变量和解释变量之间的函数关系作出假设 可以方便地处理交互作用 缺点: 拟合值是分段常数,不大可能产生很好的拟合效果。,24,最小偏差法及其推广(下页) 优点:建立加法和乘法的混合模型 缺点:没有严格的统计检验,25,26,应用案例,来源: Ismail et al.(2007) 和Cheong et al.(2008) 马来西亚车险汇总数据,27,28,广义线性模型的参数估计值,29,广义线性模型的拟合结果比较,30,回归树的结果,31,模型的误差平方和比较,32,费率约束 约束:下述三个类别的预测值落在 0.01, 0.03。,33,对选定的三个风险类别约束前后的索赔频率预测值,约束:索赔频率的拟合值要落在区间0.01, 0.03内,34,对所有风险类别约束前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论