Final毕业论文中国移动客户流失预警模型的研究及应用_第1页
Final毕业论文中国移动客户流失预警模型的研究及应用_第2页
Final毕业论文中国移动客户流失预警模型的研究及应用_第3页
Final毕业论文中国移动客户流失预警模型的研究及应用_第4页
Final毕业论文中国移动客户流失预警模型的研究及应用_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士研究生学位论文题目中国移动客户流失预警模型研究及应用姓名张少辉学号10528437院系光华管理学院专业IMBA研究方向数据挖掘导师王汉生二00七年四月版权申明任何收存和保管本论文各种版本的单位和个人,未经本论文作者授权,不得将本论文转借他人并复印、抄录、拍照、或以任何方式传播。否则,引起有碍作者著作权益之问题,将可能承担法律责任。II摘要随着中国移动通信市场竞争程度的日益加剧,客户争夺成为各家移动通信运营商竞争的焦点,所以,如何有效地预测和防范客户流失就变得越来越重要。本文通过对中国移动某地市分公司的用户消费数据库进行深入研究,旨在发现流失客户在其流失前的消费特征,从而帮助移动通信运营商能够未雨绸缪地采取针对性的措施达到客户挽留的目的。我们的研究发现(1)中国移动的三大品牌中,全球通客户流失率最低,动感地带次之,神州行最高,在同一品牌中,消费量越高,流失概率越小;(2)七种费用对于客户流失的影响是显著的,其中基本月租、本地基本费用和GPRS通信费用与流失概率负相关;而IP费用、来电显示费用、彩铃费用和USSD费用则与流失概率正相关;(3)我们还研究出了一种可以用来对客户进行有效细分的工具客户流失预测矩阵,利用该矩阵可以有效地计算出各类客户的流失概率。关键词客户流失逻辑回归客户挽留中国移动IIICHINAMOBILESCUSTOMERABSENCEALERTINGMODELRESEARCHANDAPPLICATIONSHAOHUIZHANGIMBADIRECTEDBYHANSHENGWANGABSTRACTWITHTHECOMPETITIONOFCHINAMOBILECOMMUNICATIONMARKETBECOMINGSEVERERANDSEVERER,THECUSTOMERRESOURCEISEMPHASIZEDBYMOREANDMORECOMPANIES,ASARESULT,HOWTOALERTANDPREVENTCUSTOMERABSENCEWOULDBEAMEANINGFULTOPICFORCOMPANIESINCLUDEMOBILETELECOMMUNICATIONCARRIERSTHISRESEARCHISTRYINGTOFINDANEFFECTIVEMETHODFORCHINAMOBILETOBUILDANALERTINGSYSTEMFORCUSTOMERABSENCEBASEDONONEOFSUBSIDIESCONSUMPTIONDATABASEOFCHINAMOBILEWEAREHOPINGTHEOUTPUTSOFTHISRESEARCHCOULDHELPCHINAMOBILETOFINDTHECUSTOMERSWHOAREMOSTLIKELYTOLEAVEPRIORTOTHEIRABSENCEANDADOPTSOMEEFFECTIVERETENTIONMEASURESATLAST,WEGOTTHREEKEYFINDINGS1INTERMSOFTHECUSTOMERSABSENCEPROBABILITYBYBRANDS,SHENZHOUXING,MZONEANDGOTONEAREBECOMINGLOWERANDLOWER,ACCORDINGTOTHECUSTOMERSWITHSAMEBRAND,ITSEEMSTHATMORECONSUMPTIONLEADSTOLESSPROBABILITYTOLEAVE2SEVENCATEGORIESOFFEESAREFOUNDSIGNIFICANTTORESPONSEWHICHISCUSTOMERSWILLLEAVE,THREECATEGORIESOFTHEM,WHICHAREBASICRENT,LOCALBASICFEEANDGPRSFEE,ARENEGATIVECORRELATEDTOTHEABSENCE,ONTHECONTRARY,THEOTHERFOURCATEGORIESWHICHAREIPFEE,CALLERIDENTITYDISPLAYFEE,COLORRINGFEEANDUSSDFEEAREPOSITIVECORRELATEDTOTHEABSENCE3WEALSOFOUNDANEFFECTIVETOOLCUSTOMERSEGMENTATIONABSENCEALERTINGMATRIX,BYTHISMATRIX,WECANCALCULATETHEABSENCEPROBABILITYOFMANYKINDSOFCUSTOMERSEFFECTIVELYKEYWORDSCUSTOMERABSENCELOGISTICREGRESSIONCUSTOMERRETENTIONCHINAMOBILEIV目录第1章引言111研究背景112研究意义和研究目的213相关研究3第2章研究模型421本研究理论构想422研究模型4第3章数据介绍531数据来源532变量介绍6第4章描述性分析741连续性变量分析8411样本总体连续性变量分析8412全球通用户连续性变量分析9413动感地带用户连续性变量分析9414神州行客户连续性变量分析10415对比分析1142离散性变量分析12421总体样本离散性变量分析12422全球通客户离散性变量分析13423动感地带客户离散性变量分析14424神州行客户离散性变量分析14425对比分析15第5章逻辑回归模型分析1551模型一基于总体样本的逻辑回归模型16511显著性变量选择16512逻辑回归分析1652模型二基于神州行样本的逻辑回归模型20521显著性变量选择20522逻辑回归分析2053模型三基于动感地带样本的逻辑回归模型21V54模型四基于全球通样本的逻辑回归模型22第6章主要结论22第7章预测模型在现实中的应用23第8章局限及发展23参考文献25后记26北京大学学位论文原创性声明和使用授权说明27学位论文使用授权说明27VI第1章引言11研究背景经过几年的电信改革,目前国内市场已经在“51”模式下维持了将近四年,四大主导电信运营商在固网、移动市场基本形成了比较充分的竞争。随着电信运营商在未来将全部成为全业务运营商,电信市场竞争将更加激烈和充分,尤其在3G运营之后,中国电信和中国网通为了赢得市场,发展用户,必然导致更加激烈的市场竞争。不过,由于电信监管法律逐步完善,监管手段日益成熟,加上运营商竞争心态的成熟,未来几年我国电信市场竞争趋势是依然激烈,但运营商竞争手段的丰富和理性化会使得竞争趋于理性。中国移动通信业务快速发展和移动通信高新技术的不断涌现强有力地影响和改变着传统通信业务的经营和发展模式。从1997年开始,中国移动通信用户的增长超过固定电话用户的增长,到2003年10月,在全国范围内,移动电话的用户总量超过固定电话用户的总数。这种现象对于中国移动来说,暂时性处于绝对优势地位,但一旦3G牌照发放,有更多运营商进入移动通信市场的时候,中国移动必然面临着诸多严峻的挑战和考验。其中,最重要的挑战之一就是客户的竞争,客户已经成为电信运营商相互争夺的主体。近些年来,各家经营主体争相不惜重金建设CRM系统,特别对于一些大公司来说,CRM系统更是体现大公司地位和管理现代化的重要标志之一。中国移动是国内最早建设CRM系统的公司之一,事实上,由于所处行业的原因,中国移动有着天然的数据优势,这就使得中国移动有着建设CRM系统的良好基础。但中国移动最初的CRM系统只能满足一些客户资料的录入和基本查询功能,所能实现的功能都可以通过已有的营帐系统实现,使得最初的CRM系统真的成了一种摆20025月,根据国务院出台的电信体制改革方案,原中国电信分成南、两个部分。南方部分保“中国电信集团公司”名称,继续拥有“中国电信”的商誉和无形资产,覆盖广东、广西、浙江及西21个市;华地区、东地区和河南、山东共10个市的电信公司和中国网通、中国吉通重组为中国网络通信集团公司。至此,中国电信业“五加一”的格局最终形成,即由中国电信、中国网通、中国移动、中国联通、中国铁通和中国卫星通信大集团公司共同撑起中国基础电信运营市场。指第三代移动通信技术,THIRDGENERATION的简称。CUSTOMERRELATIONSHIPMANAGEMENT,客户关系管理系统。1设,而如何利用现有的数据资源,如何从浩渺的数据库中挖掘出对于经营的有效信息,才是CRM系统的真正用途所在。现在,中国移动已经开始对CRM系统的功能进行完善,特别是开始了对客户流失预警功能的探索和完善。中国移动通信集团公司的刘虹和段云峰2005认为,CRM包括收集客户资料、分析客户行为和争取客户的几个过程。了解客户就需要收集客户的各种信息电信行业采用的是客户资料(入网登记时的各种信息)和通话行为资料(客户通话详单),这些数据也是CRM的首要数据基础;有了各种客户数据,还要有丰富的分析方法和手段,才能从繁杂的客户资料信息中,发现客户的真实消费动向,并制定针对性地产品策略和营销策略。客户流失问题可以归属为客户忠诚的范畴,学术界关于客户忠诚度、客户满意度、客户挽留等有关客户管理的领域有过诸多论述,但可能是由于难以准确地搜集到第一手数据或者对企业经营操作层面的问题不甚了解的原因,绝大部分仍然停留在概念和理论层面的探讨上,对于中国电信企业来说,很难直接转化为供企业经营参考的应用工具。正是基于这一背景,本文旨在通过中国移动的数据来建立客户流失预测模型,也就是集中在CRM的分析客户行为过程,专门基于实际的消费数据就客户流失问题作较为深入的探讨,并且通过统计模型的建立探索影响客户流失的因素和有效地预测客户流失的概率,从而使中国移动在客户管理上能够未雨绸缪,提前采取有效的措施来达到挽留客户的目的。12研究意义和研究目的美国的一项调查数据表明,普遍意义上,企业每5年流失一半的客户(叶志桂,2005)。顾客流失不仅直接造成了销售额和利润的下降,而且企业为获取新顾客还必须增加相应的支出,持续的顾客流失还传递着企业提供价值恶化的信号,给企业声誉造成极其不利的影响。另一方面减少顾客的流失将给企业增加显著的收益,一些行业的数据表明,企业每年减少1的顾客流失,利润将增加2(叶志桂,2005)。因此加强客户流失管理是企业营销管理的一个重要内容,所有这一切的实现都有赖于对顾客流失的科学分析。另据一项研究表明,吸引一个新顾客所付出的成本是保持一个老顾客所付出成本的46倍;从品牌忠诚者身上获得的利润是从品牌非忠诚者身上所得利润的9倍。(井淼和周颖,2003)DESATNICK1988的研究显示,吸引一位新客户的成本大约是维持现有客户的5倍。REICHHELDANDSASSER1990的研究显示,企业若能使客户流失率降低52时,根据产业的不同,可因此产生25至85的利润。由此可见,顾客流失问题在不断地为企业造成重大损失,所以探索如何挽留客户的问题也就成为当前对于企业非常重要的问题之一,而客户的挽留就为我们提出了一个挑战,那就是如何事先预测到客户流失的发生的问题,因为顾客流失一旦发生就“亡羊补牢,为时已晚”了。本次研究以实际数据为依据,通过对中国移动客户两个月消费数据库的分析,有效地建立了一个客户分类方法和客户流失预警的模型。通过该模型,一方面,可以发现对客户流失有显著影响的业务类型以及流失前的一些特征,从而对流失概率大的客户群提前采取有效措施达到客户挽留的目的;另一方面,可以通过本文的研究方法对客户进行有效细分,从而在实际工作中,可以根据实际情况进行客户分类并对每类客户的流失概率进行监控。13相关研究已经有很多学者对顾客流失有较为深入的研究,叶志桂(2005)曾经从广义上总结了顾客流失的五方面主要原因。KEAVENEY和SUSAN1995提出了一个顾客转换服务商的模型,该模型将顾客转换服务商的原因概括为八个方面,而符国群和俞文皎2004年在中国北京和广州两城市采用“关键事件技术”的方法对包括电信行业的19个服务领域研究,对KEAVENEY的顾客转换原因模型中国市场的应用作了补充。而且,KELLEY等人1993运用零售业的数据分析了出现零售服务错误时,各种补救措施在防止客户流失方面的有效性。他们研究发现,即使补救方式不一定令顾客满意,但补救本身可以降低顾客流失率。但企业有机会采取服务补救措施的一个很重要的前提就是要在客户流失之前预测到客户要流失,因为客户流失一旦发生,企业就已经丧失了补救的机会。对于中国移动来说,顾客的消费数据库正是顾客消费行为的贴切反映,如果对该消费数据库进行深入挖掘和研究,对于我们找到一种有效地预测客户流失的方法是非常有帮助的。当前中国移动CRM系统的经营分析模块已经有了一些初步的预测功能,也总结出了一些客户流失的典型特征,如3个月内话务量明显降低、电话呼转次数明显增加等(刘虹和段云峰,2005)。但基于对数据库进行深层次挖掘的应用却非常少,金涛和胡志改(2005)、管东升(2005)曾经对基于数据挖掘的移动通信行业客户流失预测方法有过较为系统的研究,但基本上都停留在方法论的层面,本文将通过采集到的中国移动的实际数据对客户流失预测作3更深入和具有实际操作意义的探讨。第2章研究模型21本研究理论构想基于上文的分析,在此提出本研究的理论框架(如图1)。中国移动顾客的行为变量直接表现为顾客消费数据库,通过上月消费数据库中各项费用与下月是否流失建立逻辑回归模型,从而得到顾客流失行为的一些特征,透过这些特征就可以有效地找到可能流失的客户,从而及时采取针对性的措施挽留客户;此外,通过该模型还可以对客户进行有效的分类,并预测每类客户的流失概率,使企业能够将有限的资源集中在最重要客户的挽留上。当然,本文重点讨论如何找到影响客户流失的变量,至于如何达到顾客挽留的目的,甚至如何从顾客挽留达到顾客忠诚将不在本文讨论范围。图1客户流失预警研究框架图22研究模型对一给定的客户,我们用Y表示客户的使用状态,其中Y1表示客户流失,Y0表示客户正常使用,而我们用X(X1,X2,X3,XN)表示可以在用户消费数据库中得到的描述性变量,那么我们所建立的逻辑回归模型的数学表达式为412相应地,在本文中PY1|X表示客户流失的概率,反之,PY0|X表示客户正常使用的概率,XI是自变量,代表参与逻辑回归分析的各项描述性字段,I是逻辑回归后各个自变量的系数,代表截距。通过该表达式,我们可以利用回归分析得出的和I的值,从而将具体的XI代入上述方程计算出某类客户的流失概率。EXP11|0EXP1XEXP|1111NIIINIIINIIIXXYPXXYP在该项研究的变量描述性分析部分,采用R221统计分析软件,在逻辑回归模型分析部分采用SAS91统计分析软件。第3章数据介绍31数据来源本次研究的数据从中国移动某一地市级分公司的用户数据库中抽取,从2006年3月帐单库中共抽取30916条记录,其中有14295条用户状态正常的记录,随后又在2006年4月的用户资料库中提取了在3月份状态正常的14295个客户在四月份的用户状态信息。为研究方便,我们把用户状态分为正常和流失两种情况(其中我们对用户状态的定义是只要用户不在正常使用状态均视为流失,其他为正常)。最后将3月份用户消费数据和4月份用户状态数据合并后,又对异常值进行了清理,最终得到13928条数据记录作为研究样本。根据研究需要、数据的重要性和缺失情况,将变量个数精简为23个,其中20个数值型变量,3个离散型变量。考虑到为企业保密问题,在这里不透漏数据来源的具体地点,另外,尽可能使用比较早期的历史数据,关键突出研究方法的探讨,淡化信息情报的价值。532变量介绍总费用(单位元)指每个用户在3月份消费的所有通信费用。基本月租(单位元)指不同品牌用户每月向移动通信公司交纳的固定月租费,中国移动的三大品牌中只有全球通用户需缴纳月租,动感地带和神州行基本月租都为零(除部分套餐客户)。本地基本费用(单位元)客户在所属城市通话所产生的基本费用,该项费用是中国移动收入的最重要来源,占总费用的比例最大。国内漫游费用(单位元)由于客户在国内除归属城市外的其他城市通话所产生的费用,费率要比本地基本费用的费率高,在这种情况下,客户将不会产生本地基本费用。国内长途费用(单位元)用户与归属城市以外的国内其他地区用户通话所产生的除本地基本费用外的通话费用,在这种情况下,用户的每次通话费用等于本地基本费用与国内长途费用之和。IP费用(单位元)用户在拨打长途电话时在被叫号码前加拨17951时所产生的长途费用,比正常的长途费用要有一定的优惠。短信费用(单位元)用户因为使用短消息业务而产生的费用,其中动感地带品牌的短信费率最低,全球通次之,神州行费率最高。梦网费用(单位元)用户因为使用移动梦网业务而产生的费用。GPRS通信费用(单位元)用户由于使用GPRS数据业务而产生的通信费用,该业务按照使用数据流量计费,也有一部分用户仅仅开通号码纯粹为使用GPRS业务,为使研究样本具有普遍的代表性,在本报告中把只有GPRS费用的样本删除。彩信费用(单位元)彩信也叫作多媒体短信业务。该项费用象短消息一样按发送条数计费,不同品牌费率不同。来电显示费用(单位元)是由于客户开通来电显示业务而产生的费用,该业务月租为6元,按天收费,本月开通业务,下月生效,动感地带的来电显示费用包含在短信套餐中。彩玲费用(单位元)用户使用彩玲业务而产生的费用,包含彩玲月租和按照下载彩玲条数而收取的信息费。6USSD费用(单位元)用户由于使用USSD业务而产生的费用。优惠费用(单位元)该字段表示的含义是,在基本资费的基础上由于开展促销或价格调整而做出的调整数,如果优惠费用为正,在核算总费用时就要减去相应金额,反之则应加上相应金额。很多时候,该字段作为中国移动在月底对用户核账时的一个调整字段,但在某种程度上可以反映出每个客户享受优惠的多少。漫游通话次数用户在漫游状态下通话的总次数。长途通话次数用户拨打长途电话的总次数。呼叫转移次数用户在设置呼叫转移状态下产生的通话次数。总通话次数用户的所有语音通话次数。短信条数用户发送出的短信总条数。通话时长(分钟)用户所发生的语音通话的总时长。地区用户所属的具体县区,在本报告所研究的城市共包含A、B、C、D、E、F六个县区。品牌中国移动目前共有三个全国性品牌全球通、动感地带和神州行。在所研究城市的移动用户还有几十种三大品牌下的子品牌,为使研究结果更具代表性,在此我们把所有的品牌也整合为三个品牌来研究。用户状态该字段是指我们抽样所得的所有在3月份正常使用的客户到了4月份后是否继续正常使用,其中所有到了4月份没有正常使用的客户我们都视为流失。第4章描述性分析经过数据清理,在最终确定为研究对象的13928个样本中,有12364个用户到了4月份仍然继续使用,而其余的1564个用户发生的了流失行为,流失率为1123。流失率流失客户数/样本总体客户数741连续性变量分析411样本总体连续性变量分析根据表1可以看到,样本总体的3月份平均总费用为7449元,均值远远大于中位数,并且总费用标准差达到了954367,说明样本中各个用户消费情况差异较大,并有一些极大值存在。本地基本费用平均为3465元,占总费用的4652。平均优惠费用为8225,是实际收取用户费用的1倍还多。基本月租、国内漫游费用和国内长途费用的平均值基本处于同一水平,都处于6650元之间,并且这三项费用占到了总费用的1749。总体样本的平均总通话次数为18715次,平均通话时长为33341分钟,平均每次的通话费用为026元,平均每次通话时长为178分钟,平均每分钟的通话费用为015元。表1总体样本连续性变量描述统计表变量名称均值标准差极小值中位数极大值总费用74499543670104809210028基本月租62997649007170本地基本费用346545270502080112272国内漫游费用6403202410091440国内长途费用634250141003587702IP费用138801910041400短信费用44398710006018225梦网费用3711794730058560GPRS通信费用073381650019899彩信费用03427762008010来电显示费用499216590600600彩玲费用303241880500980USSD费用029976400700优惠费用8225123046018844162414477漫游通话次数6502903001026长途通话次数9532919011113呼叫转移次数09688100321总通话次数187152355701093810短信条数32288449041567通话时长333414302301868224这里每个用户总通话费用近似用本地基本费用、国内漫游费用、国内长途费用和IP费用四者之和来估计。在数据清理时删除了譬如国际漫游、IDD费用等缺失值过多并且费用值很小的字段,所以与真实情况可能会有些许误差。本文中如没特别注明,费用单位全部为人民币元,时长单位全部为分钟。8412全球通用户连续性变量分析根据表2可以看到,全球通用户在3月份平均总费用为22881元,均值依然大于中位数,并且总费用标准差达到了2261211,说明全球通用户中各个用户消费情况差异较大,最高的消费达到了2100元,而最低的只有13元。本地基本费用平均为8166元,占总费用的3569。平均优惠费用为21555元,接近对用户实际收取的费用,但优惠比例没有总体样本优惠比例大。国内漫游费用和国内长途费用的平均值分别为4142元和3367元,分别占到总费用的1810和1472,平均基本月租为2548元,占到总费用的1114。全球通用户的平均总通话次数为51109次,平均通话时长为90634分钟,平均每次的通话费用为032元,平均每次通话时长为177分钟,平均每分钟的通话费用为018元。表2全球通样本连续性变量描述统计表变量名称均值标准差极小值中位数极大值总费用22881226121113017826210028基本月租2548141876022507170本地基本费用816690005405730112272国内漫游费用4142949323072091440国内长途费用3367768345091387702IP费用4951695750021231短信费用559121355012511455梦网费用1957536569020046510GPRS通信费用194790510019899彩信费用08543961007400来电显示费用532188910600600彩玲费用313240900500628USSD费用1362239900700优惠费用2155524119501789916080414477漫游通话次数4129865209001026长途通话次数47028081018001113呼叫转移次数478215300273总通话次数51109466290411003810短信条数489910646011001071通话时长90634827360732508224413动感地带用户连续性变量分析根据表3可以看到,动感地带用户在3月份平均总费用为10578元,均值依然大于中位数,并且总费用标准差为1026281,说明动感地带用户中各个用9户消费情况差异也比较大,并有一些极大值存在。本地基本费用平均为5264元,占总费用的4976。平均优惠费用为11851元,也是实际收取费用的1倍还要多。与总体样本和全球通用户不同的是,动感地带客户的费用构成除本地基本费用外,短信费用占了很大比例,3月份短信费用平均为2160元,占总费用的2042。平均国内漫游费用为1174元,占总费用的1109。国内长途费用和梦网费用的平均值分别为536元和446元,一共占到总费用的928,动感地带品牌采用了短信包月套餐的价格策略,没有月租费用。动感地带用户的平均总通话次数为13325次,平均通话时长为30495分钟,平均每次的通话费用为054元,平均每次通话时长为229分钟,平均每分钟的通话费用为023元。表3动感地带样本连续性变量描述统计表变量名称均值标准差极小值中位数极大值总费用1057810262813127827143422基本月租000000000000000本地基本费用5264626905000334647399国内漫游费用117433257700000040320国内长途费用53612278900009012420IP费用1838667200000010770短信费用2160138172000166015700梦网费用44621669800000058560GPRS通信费用183458690000002500彩信费用068346540000005060来电显示费用000000000000000彩玲费用18320171000000734USSD费用20514636000300500优惠费用11851159399143806542128092漫游通话次数12163024000031000长途通话次数292338510001629800呼叫转移次数1081140000027300总通话次数133251471900088125400短信条数117051774900039131000通话时长3049535787000192343200414神州行客户连续性变量分析根据表4可以看到,神州行用户在3月份平均总费用为5883元,远远低于全球通和动感地带,这也是跟中国移动将神州行品牌定位为低端品牌的策略相符合的。本地基本费用平均为2921元,占总费用的4965。平均优惠费用为679810元,仍然是实际收取费用的1倍还要多。对于神州行客户来说,除了本地基本费用外,基本月租和来电显示费用基本接近,两者之和占到了总费用的1785。神州行用户的平均总通话次数为16367次,平均通话时长为28661分钟,平均每次的通话费用为023元,平均每次通话时长为175分钟,平均每分钟的通话费用为013元。表4神州行样本连续性变量描述统计表变量名称均值标准差极小值中位数极大值总费用58835515690104318107522基本月租51476050004065本地基本费用29213376340192041540国内漫游费用2981474370068320国内长途费用407119425002147639IP费用103656840041400短信费用29877713004518225梦网费用229826420058500GPRS通信费用054311530010000彩信费用02725182008010来电显示费用536174690600600彩玲费用311242360500980USSD费用006343400700优惠费用6798939459188403698134200漫游通话次数308122900407长途通话次数477119901337呼叫转移次数06262500321总通话次数163671858801042765短信条数24186487031567通话时长286613413901724111415对比分析将以上三种品牌的主要描述性分析指标汇总如表5,从该表可以看出,全球通、动感地带和神州行三种品牌客户的平均总费用基本呈倍数递减,全球通客户的平均基本月租、基本费用、国内漫游费用、国内长途费用、总通话次数和总通一般情况下,神州行品牌是没有月租的,根据与中移动相关人员交流,这里的月租来源于两种可能一种是用户选择了套餐业务,二是客户从有月租的品牌在当月转到了神州行。11话时长都远远高于其他两个品牌的客户;动感地带和神州行客户的国内长途费用相当,但动感地带客户的国内漫游费用基本高出神州行客户的2倍,说明相对来说,动感地带客户比神州行客户更频繁地离开归属地;从每分钟的话费单价(即每分钟的平均通话费用)来看,动感地带最高,全球通次之,神州行最高,而且平均每次的通话时长也有相同的顺序,我们结合中国移动对三种品牌的定位可以看出,以商务客户为主的全球通客户联络圈子广,所以通话次数多,但每次通话时长较短,而以年轻消费者为主的动感地带客户联络圈子相对较小,所以通话次数相对最少,但每次通话时长最多,说明该群体对通话时长的需求还是比较大的,而神州行客户平均总通话时长最少,但联络圈子比年轻消费者广而又不及全球通客户,所以通话次数介于其他两个品牌之间,这正是大众客户的消费特点。表5三种品牌对比分析统计表统计指标全球通动感地带神州行平均总费用22881105785883平均基本月租2548000514平均本地基本费用816652642921平均国内漫游费用41421174298平均国内长途费3367536407平均总通话次数511091332516367平均总通话时长906343049528661平均每次的通话费用032054023平均每次通话时长177229175平均每分钟通话费用01802301342离散性变量分析421总体样本离散性变量分析根据表6可以看到,在抽取的13928条记录中,A、B、C、D、E、F六个地区分别占总体样本空间的20、18、13、10、31和8,跟六个地区的实际总用户数比例基本相当。其中地区的平均费用最高,C和F地区的平均费用非常接近,在六个地区中处于最低水平。B地区平均通话次数在六个地区中最高,为20994次,比平均通话次数最低的地区高出4729次。A、B地区的平12均通话时长最多,均处于350分钟以上,比最低地区F多出6019分钟。按品牌来看,神州行用户占到了总体样本的86,全球通和动感地带数量相当,各占到总体样本的7。全球通的平均费用最高,是动感地带的倍还多,将要达到神州行的倍。全球通的平均通话次数和平均通话时长也远远高于其他两个品牌,动感地带品均通话时长比神州行多1834分钟,而平均通话次数却比神州行少了3042次。样本中有1564户在4月份流失,占总体样本的1123,流失客户在3月份的平均费用、平均通话次数和平均通话时长均少于正常使用客户。表6总体样本离散性变量描述统计表变量名称变量维度记录数平均费用平均通话次数平均通话时长A281982051863935328B244378372099436102C187566491800631946D134479781944533553E435071391818432055地区F109766001626529309全球通1024228815110990634动感地带942105781332530495品牌神州行1196258831636728661正常1236475861961734785用户状态流失156463691159121925422全球通客户离散性变量分析根据表7可以看到,A、B、C、D、E、F六个地区所占全球通样本比例分别为35、13、9、10、29和4。D地区的平均费用最高,为28929元,比次高地区B高出5258元,F地区的平均费用最低,为19603元。B、D两地区的平均通话次数和平均通话时长基本相当,远远高于其他四个地区,A地区的这两项指标均为六个地区最低。1024个全球通客户样本中,有31个客户在4月份流失,占全球通样本比例的312。流失客户在3月份的平均费用、平均通话次数和平均通话时长也都明显低于在网客户。13表7全球通样本离散性变量描述统计表变量名称变量维度记录数平均费用平均通话次数平均通话时长A359225584240678854B1342367163713108881C92219705185891441D1032892963226107472E292215625270992197地区F44196034317979693正常993231005182791696用户状态流失31158552810956616423动感地带客户离散性变量分析根据表8可以看到,A、B、C、D、E、F六个地区所占全球通样本比例分别为24、27、11、9、22和7。B、C、D、E四个地区的平均费用相当,均在110元左右,比其他两个地区高出20元左右,平均通话时长和平均通话次数亦有类似趋势。942个动感地带客户样本中,有178个客户在4月份流失,占动感地带样本比例的1889。流失客户在3月份的平均费用、平均通话次数和平均通话时长均明显低于在网客户。表8动感地带样本离散性变量描述统计表变量名称变量维度记录数平均费用平均通话次数平均通话时长A22387691019724809B253114691469533033C108109281487933919D85113081474231767E210114131502733341地区F639029864423360正常764107791379531568用户状态流失17897101130825892424神州行客户离散性变量分析根据表9可以看到,A、B、C、D、E、F六个地区所占神州行样本比例分别为19、17、14、10、32和8。六个地区平均费用差别不明显,B地区的平均14费最高,为6358元,C地区平均费用最低,为5532元,平均通话时长和平均通话次数依然是C地区最高,其他五个地区差别不明显。11962个神州行客户样本中,有1355个客户在4月份流失,占神州行样本比例的1133。流失客户在3月份的平均费用、平均通话次数和平均通话时长亦均明显低于在网客户。表9样本离散性变量描述统计表变量名称变量维度记录数平均费用平均通话次数平均通话时长A223758451566629391B205663581898531737C167555321634828551D115658671588927098E384858111573727421地区F99058681555427449正常1060759041702129689用户状态流失135557141125020609425对比分析通过以上对离散性变量的分析,我们发现三种品牌的客户在各地区的分布比例基本与实际分布比例相吻合,并且三种品牌有一个共同特征,那就是4月份流失的客户在3月份的平均费用、平均通话次数和平均通话时长均明显低于在网客户;从流失率来看,动感地带用户的流失率最高,为1889,神州行次之,为1133,全球通的流失率最低,仅为312。第5章逻辑回归模型分析通过前一部分的变量描述性分析,使我们对样本的一些总体情况有了初步认识,在本部分将针对样本总体、全球通样本、动感地带样本和神州行样本建立逻辑回归分析模型。四个模型均以客户在4月份的状态为因变量,其他22个变量为自变量,经过对22个自变量进行相关性分析,剔除8个有高度相关性的变量,最终有品牌、地区、基本月租、本地基本费用、国内长途费用、IP费用、短信15费用、梦网费用、GPRS费用、彩信费用、来电显示费用、彩玲费用、USSD费用和呼叫转移费用14个自变量参与逻辑回归模型的构建。由于(1)样本中各变量有太多的0值;(2)存在大量的异常值(OUTLIER);(3)从每个变量的分布来看,绝大多数变量偏度过高(HIGHLYSKEWED);(4)为了使预测模型的稳健性更好;(5)使分析结果的解释性更强、更有效地在实际工作中应用等原因,在建立回归模型时,对数据进行了进一步的处理,处理方法为以每个变量的中值为界,大于中位数的数值赋值为1,小于等于中位数的赋值为0,即把每个变量都分为两类,分别赋值0和1。51模型一基于总体样本的逻辑回归模型511显著性变量选择在SAS中采用逐步回归的方法,最终得到8个在95置信区间内显著的变量,分别为基本月租、本地基本费用、GPRS通信费用、IP费用、来电显示费用、彩铃费用、USSD费用和品牌。根据表10可以看到,整体模型的F值为2245,P值小于001,所以模型在95的置信度下是可靠的。表10总体样本回归显著性变量选择统计表变量名称自由度F值P值基本月租139582000本地基本费用12768000GPRS通信费用1477003IP费用12625000来电显示费用1896000彩玲费用12589000USSD费用11202000品牌22925000整体模型72245000512逻辑回归分析同时,SAS还提供了各显著变量的系数估计和其他相关统计指标(见表11)。16在本文的回归模型构建中,因为客户流失(即Y1)将作为因变量参与分析,所以,根据表11可以看到,连续性变量中的基本月租、本地基本费用和GPRS通信费用与客户流失的概率负相关,即这三项费用越高,则客户流失的概率就越小;IP费用、来电显示费用、彩铃费用和USSD费用与客户流失概率正相关,即这四项费用越高,客户流失的概率就越大。这里有一个明显的特征就是,与流失概率正相关的四项业务均为中国移动推出的新业务,而且中国移动推出新业务的一个重要目的就是通过这些业务增加粘性,达到吸引和保留客户的目的。但从这里的结果来看,中国移动靠大力推广新业务来达到挽留客户的目的是事与愿违的,达到的结果却是正好相反。通过离散性变量的系数输出结果可以看出,神州行客户的离网概率最高,动感地带次之,全球通最低。表11总体模型变量系数估计表变量名称变量维度系数估计标准差T值P值截距18601222288000基本月租12000824859000本地基本费用0630094413000GPRS通信费用021009475003IP费用0360072575000来电显示费用036012909000彩玲费用0280062192000USSD费用0390111267000全球通0680132547000动感地带000000000000品牌神州行014009249011从表11中除了可以得到以上粗略的结论之外,还可以将SAS运算的各系数估计代入公式(1)来得到总体样本的客户流失概率。现假设一种理想的情况即所有客户的各项费用只有都低于中位数和都高于中位数两种类别。在此假设下,我们可以得到各品牌客户在消费高于中位数和低于中位数情况下流失的概率,计算结果如表12。由于逻辑回归的因变量为(0,1)变量,在前文我们已经定义Y1对应“客户流失”,Y0对应“客户正常使用”,两者都可以单独被定义为因变量进行逻辑回归模型分析,在此分析中,我们规定Y1为因变量。17表12各品牌流失概率分布表品牌低于中位数高于中位数全球通731395动感地带1347752神州行1519855从表12可以看出,三种品牌的客户流失的概率表现为相同的趋势,即在消费低于平均水平时流失的概率更大,与经验上的低端客户更容易流失相吻合。另外,无论消费低于或高于平均水平,三种品牌流失概率表现为相同的顺序,即全球通最低,动感地带次之,神州行最高,也与实际经验的趋势相吻合。依照假设的方法,可以将所有单个客户的消费数据输入模型从而得到相应的流失概率。为了对各品牌客户的流失概率有更详细的描述,在这里进一步引入一个有效的工具客户流失预测矩阵,即把客户用正相关低于平均、正相关高于平均、负相关低于平均和负相关高于平均四个维度来衡量,并用这四个维度可以把这部分客户分为四个类别第I类(正相关高于平均,负相关低于平均)第II类(正相关低于平均,负相关低于平均)第III类(正相关低于平均,负相关高于平均)第IV类(正相关高于平均,负相关高于平均)根据逻辑回归的数学方程,我们得到全球通、动感地带和神州行品牌中每类客户的流失预测矩阵如表13、14、15。表13全球通客户流失预测矩阵这里,我们把四个维度的定义为正相关低于平均指与因变量正相关的变量(系数为正)费用水平低于中位数的客户;正相关高于平均指与因变量正相关的变量(系数为正)费用水平高于中位数的客户;负相关低于平均指与因变量负相关的变量(系数为负)费用水平低于中位数的客户;负相关高于平均指与因变量负相关的变量(系数为负)费用水平高于中位数的客户。18正相关低于平均正相关高于平均负相关低于平均731(第II类)2405(第I类)负相关高于平均102(第III类)395(第IV类)表14动感地带客户流失预测矩阵正相关低于平均正相关高于平均负相关低于平均1347(第II类)3846(第I类)负相关高于平均198(第III类)752(第IV类)表15神州行客户流失预测矩阵正相关低于平均正相关高于平均负相关低于平均1519(第II类)4182(第I类)负相关高于平均228(第III类)855(第IV类)从以上三个流失概率预测矩阵中我们可以看到,四类客户中,每一类客户的流失概率仍然是按照全球通、动感地带和神州行的顺序依次提高;而且三种品牌客户在的流失概率有着完全相同的趋势,即流失概率由高到低的次序均为第I类、第II类、第IV类、第III类。从客户保留角度来看,第III类客户应该是中国移动最期望的客户群体,而且如果以降低流失概率为目的的话,从以上矩阵我们可以建议通过以下的途径来实现将其他类别客户转化为第III类客户(1)通过针对性的营销措施使客户的正相关类消费变量降低,将第I类客户转化为第II类客户或将第IV类客户转化为第III类客户;(2)通过针对性的营销措施使客户的负相关类消费变量提高,将第I类客户转化为第IV类客户或将第II类客户转化为第III类客户;(3)通过综合的营销措施使客户的正相关类消费变量降低和负相关类消费变量提高,将第I类客户直接转化为第III类客户。1952模型二基于神州行样本的逻辑回归模型521显著性变量选择11962神州行客户占总体样本的86,单独以该类客户为样本,以Y0为因变量,XI为自变量,同样在SAS中采用逐步回归的方法,在95的置信度下得到七个显著变量,分别为基本月租、本地基本费用、GPRS通信费用、IP费用、来电显示费用、彩铃费用、USSD费用,除了品牌在该分析中略去外,得到的显著性变量与总体样本回归得到的显著性变量完全相同。神州行样本的整体模型F值为1799,P值小于001,所以模型在95的置信度下是可靠的。各显著性变量的详细统计指标见表16。表16神州行样本回归显著性变量选择统计表变量名称自由度F值P值基本月租129876000本地基本费用14116000GPRS费用1455003IP费用12762001来电显示费用1638001彩玲费用14255000USSD费用1734001整体模型61799001522逻辑回归分析采用与总体样本同样的分析方法,得到神州行模型中各变量的系数估计及相关统计指标详见表17。从该表可以看出,不仅从神州行样本得到的显著性变量与总体样本的结果完全相同,而且个变量的系数符号也和总体样本结果完全吻合,也即神州行样本的流失客户特征与总体样本差异不大。20表17神州行模型变量系数估计表变量名称系数估计标准差T值P值截距16601414552000基本月租12200824643000本地基本费用0720104846000GPRS费用025012453003IP费用0370082424000来电显示费用031012658001彩玲费用0380073430000USSD费用042015838000依照512中的分析方法,我们从神州行客户样本中可以得到四类客户的流失预测矩阵如表18。从该矩阵可以看出,从神州行样本模型中得到的结果与从整体样本模型得到的关于神州行品牌的各类客户的流失概率顺序完全相同,而且各类客户的流失概率也十分接近,所以在此不再重复做深入分析。表18神州行客户流失预测矩阵正相关低于平均正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论