改进的Kprototypes算法在农民工养老参保中的应用研究.docx_第1页
改进的Kprototypes算法在农民工养老参保中的应用研究.docx_第2页
改进的Kprototypes算法在农民工养老参保中的应用研究.docx_第3页
改进的Kprototypes算法在农民工养老参保中的应用研究.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

改进的K-prototypes算法在农民工养老参保中的应用研究 摘要:农民工养老问题一直备受社会关注。许多学者对该问题展开了调研,并采用Logistic回归模型来分析调研结果。但是,Logistic回归模型要避免变量间的多元共线性。农民工养老保险参保调研数据各变量之间往往存在关联性,而且数据维度高。针对Logistic回归模型的局限性和调研数据维度高的问题,本文改进了K- prototypes聚类算法,并用于分析农民工未购买养老保险的原因。基于该方法得到的分析结果可以为相关部门制定针对性政策提供参考。 下载 关键词:聚类 改进的K- prototypes算法 农民工养老保险 改革开放以来的城镇化浪潮中,国人印象中皮肤黝黑,风尘仆仆的农民工,为我国的城镇化发展做出了巨大的贡献。然而,在艰辛的体力劳动背后,庞大的农民工群体却一直游离在城市的边缘,无法真正享受农民工养老保险等应有的待遇。正确分析农民工未购买养老保险的原因是解决农民工养老问题的关键,而解决该问题的基础是对调查数据的合理分析。 目前,针对农民工养老参保调研成果的研究主要运用logistic回归进行分析。Logistic回归分析是处理混合型数据常用的方法。在过去的许多年间,logistic回归分析主要用于流行病学研究。现在它的应用更为广泛。但是,logistic回归模型也存在自身的局限性,会影响该方法在调研数据分析中的运用。比如,Logistic回归要求变量之间不存在多元共线性。而农民工养老参保调研数据各变量之间存在着联系。而且,调研的结果数据维度往往比较高,这也给调研数据的分析带来了一定的困难。 生活中,不同的农民工所面临的农民工养老保险参保(以下简称农民工养老参保)问题不同,影响他们参保的因素也不同。基于这样的思路,本文拟采用聚类的方法对样本点进行分析。聚类是一种无监督的学习,因此不受主观判断的影响,更利于体现数据的内在规律。由于本文的数据是混合型数据,我们拟采用广泛用于混合类数据的k-prototypes算法来分析问题。此外,我们注意到,调查问卷所涉及的数据的维度高,运用K-prototypes算法会降低聚类效果,故本文改进了k-prototypes算法。本文在基于K-prototypes算法,对其结果通过分析删除一些大簇中部分出现频率较高的属性后,再次聚类,从而得到更为合理的结果。 本文的结构如下:第二部分,通过查阅文献,分析比较不同的统计分析的优缺点,发现引入聚类算法更为合理。第三部分,介绍K-prototypes算法并且在其基础上提出改进的K-prototypes算法。第四部分,运用改进的K-prototypes算法对农民工养老参保状况分析的运用状况进行分析。最后,总结该方法的优点和目前存在的不足。 一、文献综述 目前,许多学者对农民工养老参保问题的影响因素进行了研究,农民工养老参保率低的情况并非偶然,大多学者认为其和政府、社会、企业以及农民工自身等因素有关。蒋云?S发现,现阶段不合理的缴费率和缴费率和缴费基数降低了农民工参保积极性。刘梦炫指出有些企业为了自身利益,不执行为农民工缴纳养老保险费用的行为,损害了农民工的正当权益。张又山等认为农民工本身工资水平低,就业不稳定,流动性大以及,对养老保险认识不足的原因导致了其参保率低。李珍等提出农民工对养老保险存在需求会受到年龄、收入,就业状况等因素影响的观点。基于安徽省的调查数据,杨哲等建立养老保险参与意愿的Tobit模型,研究发现性别与婚姻对农民工养老保险参与有显著影响。 上述研究并未针对不同的人群来分析未参保的原因,虽然得到了虽然准确的结论,但是,各影响因素的内在联系并不能体现出来。 而针对问卷调查数据的统计方法,国内外许多学者都做过相关研究。其中张、刘指出,目前对问卷调查结果的分析还停留在单指标的频数分析,或者双变量的列联表分析上,而忽视了多个变量之间的联系。而事实上,信息往往隐含在多个变量之间。白、赵提到,基于列联表测量两个定类变量的相互关系时,主要有两种测量方法。其一,建立在卡方统计量理论上的相关程度测量方法;其二,建立误差消减理论基础上的相关程度测量方法。多变量统计的统计方法很多,但从实际应用角度看,使用最广泛的还是回归分析。对数线性回归模型是专门针对定性数据的回归分析方法。但是根据Mosteller的描述,我们知道对于高维数据集给对数线性回归模型选择一个“最佳拟合”是不可能的,且对数线性回归模型在处理定量数据也存在困难。 Logistic回归分析是处理混合型数据最常用的方法。在过去的许多年间, logistic回归分析主要在流行病学中。但是,现在它的应用已经非常广泛了。邹志红利用Logistic回归进行水质分析,具有良好的拟合和预测效果。任康等和吕纯镰发现logstic回归模型用于判别分析时,取得较高的准确性和较好的预测效果。庞素琳在信用风险分析中运用Logistic回归模型准确建立信用评价模型。虽然,Logistic回归分析得到越来越广泛的应用,但是张虎、刘强指出,在问卷调查分析中利Logistic方法还存在困难。主要体现在缺省值的处理,样本维度高以及当变量是多水平的或者是连续型的,容易造成空单元和过离散等问题。近年来,聚类分析在数据统计方面的作用越来越受到人们的重视。祁玉海通过对数据进行模糊聚类,选出类代表从而建立统计分析指标体系。陈子锦等通过对按不同指标进行聚类的结果进行相关性分析,发现地区火灭损失同生产总值、消防基本投入之间均为正相关。张、刘利用聚类对数据进行预处理,降低变量的维度与分类水平。方江晓等运用聚类方法对历史风速数据进行处理,根据预测日的特征参数,按照相似度最大的原则,选择合适的类别作为预测建模用的训练样本。预测精度得到了提高。通过上述可知运用聚类分析问卷调查数据得到的结果更为令人满意。Huang等提出一种解决分类属性数据和混合属性数据的K-prototypes算法。但其存在着局限性,陈?|等指出K-prototypes算法运用海明威距离,计算两个分类属性值的相异度,处理复杂数据集时并不能完全体现样本间的差异。王宇等发现K-prototypes算法结果不理想,有时会发生几个类比较相似的情况。 二、改进的K- prototypes算法 本文对聚类结果进行分析,将在皖建筑业农民工未购买保险分为五类:占比例最多的普通型,老年型,转移型,年壮型,年老抛弃型。针对各个类型的不同特点,本文总结出各个类型未购买养老保险的原因。比如转移型,该类型农民工虽然有着较高的工资,但是他们的日工作时间达到10小时以上;这类人群迫于生活的种种压力,不得不透支自己的劳动力来获得较高的报酬;为了追求高报酬,他们不断流转于不同城市,平均在12个城市工作过,在一家单位工作的时间仅有0.6年;他们未购买养老保险的主要原因是流动性大导致的养老保险转移接续不畅。 从上述结果可以观察到,影响因素之间存在着密切联系比如:学历和工资,转移频繁与否与工资等。通过分析总结在皖建筑业农民工未购买养老保险的主要原因是:信息不对称;流动性大导致的养老保险转移接续不畅;收入低,支出特别大;家庭结构的影响;为了缩小生产成本,部分企业消极抵制;参保机制不合理;统筹层次太低。 四、结束语 近年来农民工养老问题越来越被社会所关注,本文以此为背景,通过在安徽多地对建筑行业农民工进行走访、调查问卷,得到相关调研数据。针对调研分析中常采用的Logistic回归模型的局限性,我们引入了k-prototypes聚类算法,并改进了该算法,使得该算法适用于本文中的高维数据。与传统方法分析的结果相比,发现本方法得出的结果更有针对性,原因更为丰满,思路更为简洁清晰。基于该方法得到的分析结果可以为相关部门制定针对性政策提供参考。 但是,本文的研究方法还有其局限性。如何合理的确定分类型数据和数值型数值的权重k值,以及删除属性标准的值。将来的研究将围绕该问题继续展开。 参考文献: 蒋云?S.我国农民工养老保险方案的再研究基于财政负担视角的代际核算模拟财经研究J.财经研究,2013,39(10):4-18. 刘梦炫.推进新生代农民工养老保险制度发展问题研究D.南昌:江西财经大学,2013. 张又山,张剑伟.农民工养老保险相关问题探讨A. 当代法学论坛,2011,(7). 李珍,王林昌.农民工社会养老保险研究述评J.经济研究导刊,2014 . 杨哲,王茂福.新生代农民工养老保险参与意愿及影响因素基于安徽省调查数据J.社会保障研究,2013(5). 张虎,刘强.问卷调查分析中的logistic回归与自变量筛选问题研究N.中南财经政法大学学报,2013(5). 白雪梅,赵松山.也谈对两个定类变量间的相关分析J.江苏统计,1997.12:17-19. 樊晓燕.深圳市农民工养老保险需求影响因素研究J.改革与开发,2013. Mostel. J Amer, Statist Assoc,1968. 邹志红等.基于Logistic回归的水质预测研究J.数学的实践与认识,2008,38(1):82-87. 任康,李刚.Logistic回归模型在判别分析中的应用J.统计与信息论坛,2007,22(6):71-73. 吕纯镰,陈杰伦. logistic判别及其应用(I)J.数学的实践与认识.1983. 庞素琳.Logistic回归模型在信用风险分析中的应用J.数学的实践与认识,2006 ,36(9):129-137. 何俊毓.Logistic回归分析方法在流行病学研究中的应用条件回归与非条件回归模型的比较J.消费导刊,2013,(7):163-164. 祁玉海.模糊聚类分析在建立统计分析指标体系中的应用J.青海师范大学学报(自然科学版),2002,(2):9-11. 陈子锦,王福亮,陆守香等.我国火灾统计数据的聚类分析J.中国工程科学,2007,9(1):86-88,94. 方江晓,周晖,黄梅等.基于统计聚类分析的短期风电功率预测J.电力系统保护与控制,2011,39(11):67-73,78. HUANG Z.MA N G.a fuzzy

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论