目标客户群体特征银行卡数据挖掘_第1页
目标客户群体特征银行卡数据挖掘_第2页
目标客户群体特征银行卡数据挖掘_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

设ECHNOLOGYAPPLICATION技术与应用目标客户群体特征银行卡数据挖掘计适合客户的运营模式,要明确银行卡的目标客户群体,分析客户群体特征,根据不同客户群体的资金波动习惯,提供合适的金融服务。实现客户群体分类的一种成熟技术是计算机数据挖掘。银行卡客户数据量相当庞大,以T(1012)笔记录。随机抽取609个持卡人12个月的65406个经验数据,其中收入行为发生次数为2809次,占收支行为总次数的43,支出行为发生次数占收支行为总次数的957,是客户的主要行为。因此用支出行为的估计表达客户的资金行为波动,作为目标客户群体挖掘的期望变量。一、基于数据预处理技术,建立数据立方体数据预处理技术可以提高数据质量,降低实际挖掘需要的时间。首先进行数据清理,去掉数据中的噪声,纠正不一致;利用数据集成将多个源合并成一致的数据存储,存储为数据立方体;最后使用数据归约聚集、删除冗余特性,压缩数据。1数据选择银行卡系统数据库是面向应用而非面向主题的,首先需要选择与资金行为波动主题有关的数据。银行卡系统共有大小近70个数据表,建立数据立方体型主要需要两类数据一是作为输入数据的客户及银行卡基本信息,另一类是用于标注样本类别的历史交易数据。其中客户个人信息和卡级别、授信额度等敏感信息隐去,银行卡号进行加密,保留与客户消费习惯有关的统计数据。客户银行卡基本表。存放银行卡的基本信息和部分风险控制统计信息。包括银行卡号、开户时间、上一年年底余额、年收入,年底余额、交易笔数、是否透支、年透支额、透支数量、月平均收入、月平均支出、月平均余额。卡账户交易流水表。存放银行卡账户的历史交易数据。与分析主题有关的有流水号、银行卡号、交易时间、前期文/上海金融学院辛一余额、交易额(收入、支出)、账面余额、记账日。由该表可以得到银行卡账户交易情况,作为对样本的分类基础依据。日记表、余额表。存放银行卡账户日交易额度和余额,作为银行计息依据。主要包括数据项银行卡号、计息日期、前期余额、当日发生额(收入、支出)、余额、交易笔数。月记表、月度数据聚集表。存放银行账户月度统计聚集数据,其中与分析主题有关数据有银行卡号、月份、前期余额、当月发生额(收入、支出)、余额、交易笔数。由该表可以计算银行在每张卡上的收益,即客户对银行的贡献度,作为对样本分类的重要依据。2数据清理现实世界的数据一般是脏的、不完整、不一致的,银行卡交易数据也不例外。数据清理主要试图填充空缺的值,识别孤立点、消除噪声,并纠正数据中的不一致。(1)忽略元组发现记录中间有BALANCEEXPENSE0的无意义记录,但记录时间与完整数据记录之间具有连续性,应该为特殊内部处理记录,不涉及账户金额交易,忽略元组。(2)单位时间发生多笔交易数据同时间发生多笔交易数据的概率不大,但有其存在的可能。一般持卡人通过惟一性银行卡进行ATM、POS交易,交易顺序是线性连续的。但如果多笔交易通过计算机网络以批处理方式提交银行时,账户在单位时间内会记录多笔交易记录。另外,多个客户同时通过POS、电话银行、手机银行、网络银行多种渠道同时对一个账户进行操作,也有可能在单位时间发生多笔交易数据。当然也不排除因为黑客、内部欺诈、伪造银行卡等产生操作风险的可能性。因为要模拟银行余额表进行日数据集成,为了提高数据挖据效率进行月度数据归约,单位时间多笔记录问题不影响分析主题。只要把年初第一笔交易记录清理出来,推导出账642008年9月T数据聚类将物理的或抽象的对象分成几个群体,在每个群体内部,对象之间具有较高的相似性,而在群体之间相似性较低。聚类问题可一般性描述为待聚类样本空间XX1,X2,XN,每个样本XI有一组特征数据组成的M维向量(XI1,XI2,XIM)表示,X的样本聚类,即是X的一个划分A1,A2,AT满足并且AIIAJ(I与每个划分A的元素相互之间的距离都很小)。当T为定值时的聚类是静态聚类,即决策者已事先定出聚类的类别数;T为变量时的聚类是动态聚类,即决策者先不指定聚类数,T的大小完全有样本空间的客观情况而定。研究采用动态聚类。聚类算法主要集中为两种方法基于概率的方法(机器学习)和基于距离的方法(统计学)。后者基于如下假设,即所有数据点均是预先给出并可频繁扫描。但完全或部分忽视了这样一个事实,即并非所有点对于聚类都是同等重要的,数据点的接近和稠密应综合考虑而不是单个考虑。研究采用的是基于概率的方法,主要基于如下假设,即不同属性的概率分布是相互独立的。具体采用EM(期望最大)算法。EM算法是K平均方法的扩展,是对最大可能估计值进行迭代计算的一般方法,并且对种种不完善的数据库问题,仍然可用。它不把对象分配给一个确定的簇,而是根据对象与簇之间隶属关系发生的概率来分配对象,即在簇之间没有严格的边界。因此,新的平均值基于加权的度量值来计算。EM算法能够保证局部最大相似度,给出在兴趣域内开始迭代点的局部最大极值。EM算法应用在混合模型中,处理不完整的观测数据(未分类数据),而“完整”数据技术与应用户上一年年底余额即可。经过抽样分析,大部分账号第一笔交易一般为增加余额,即特征为收入大于零,余额大于前期余额。将年内第一笔交易时间符合上述条件的数据生成临时视图,交易时间提前一秒,删除临时视图。剩余少数账户数据人工判断、标记第一笔交易数据位置。(3)清除噪声数据噪声是测量变量中的随机错误或偏差。原始数据经过隐藏和加密,来源复杂,不可避免地会产生噪声数据。实验中发现流水账记录中间有异常数据,分类解决如下年初余额衔接缺失,通过第一笔记录的确定,推算前期余额。中间记录缺失,统计年度前期余额年度总收入年度总支出推导出的年度余额与实际流水数据最后一笔记录余额不符。分析得知38笔记录的当前记录的前期余额与前一笔数据余额不符。通过插入记录方式填充缺失记录。年末交易数据重复,产生流水数据与统计数据不符的另外一个原因是年末出现交易数据重复记录现象。由于年底交易数量攀升,数据流量大,系统产生了随机记录重复。处理方式是重复数据清除。3数据集成数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中,这些源可能包括多个数据库、数据立方体或一般文件。将多组银行清理过的数据源中的数据结合起来存放在一个一致的数据表中。避免或减少数据集中数据的冗余和不一致性,提高其后数量分析和数据挖掘的精度和速度。数据集成总账表,汇总存储银行卡号、年初前期余额、年收入、年底余额、交易笔数、是否透支、年透支额、透支数量、月平均前期余额、月平均收入、月平均支出、月平均余额、日平均前期余额、日平均收入、日平均支出、日平均余额。4数据归约通过数据仓库或业务数据库直接进行复杂的数据分析和挖掘需要很长时间,使得这种分析不现实或不可行。数据归约技术可以得到数据集的归约表示,数据量缩小很多,但仍接近于保持原数据的完整性。在归约后的数据集上进行挖掘,效率更高,并产生相同的分析结果。数据归约的主要策略为进行数据、数值压缩,维度归约,进行数据立方体聚集。数据立方体存放多维聚集信息,多个维度交叉为一个单元,每个单元存放一个聚集值,对应于多维空间的一个数据点。每个属性可能存在概念分层,允许在多个抽象层进行数据分析。数据立方体提供对预计算的汇总数据进行快速访问,因此适合联机数据分析和数据挖掘。从银行角度分析,银行会计系统一般在记录流水账、余额表、总账,进行日终、季度、年度扎账时,主要关注以上三种账的借贷平衡。但从银行卡业务角度分析,月度数据更为敏感,客户的月度账单、信用卡的月度还款周期,签约商户的月度结账等都是以月为计量单位。将日记账按照月度进行归约建立月度数据立方体。由月度和账号、客户群体形成三个维度,交叉单元内存放月度前期余额、月度收入、月度支出、月度余额、交易笔数等数据信息。二、基于数据挖掘技术,目标客户群体聚类652008年9月。将是YIXI,ZI。其中,ZIZI1,ZIG是一个如下定义的指示变量矢量由于在具有概率的G类别中,均为多元正态分布,因此任意ZIJ是独立同分布的,将引出完整数据的对象相似度图客户分类剖面图ECHNOLOGYAPPLICATION技术与应用示,表示每个分类中的标准偏差。如图可知,CLUSTER0104类客户群体的年收入、交易笔数、交易金额、月度实际余额和月度账面总余额聚类变量得到的群体标准差都很小。其中CLUSTER02类最为明显,群体数量最大占总体的314,交易金额平均值574846、STDDEV值46664,总余额平均值724816、STDDEV值5561。聚集效果十分明显,客户群体数据聚类挖掘成功。三、客户群体聚类特征分析EM算法运用两步进行迭代处理,E(期望)和M(最大极值)。E步,要求完整数据对数相似度的初始化,每个指示变量将会由其条件期望取而代之,属于第J类簇的后验概率。M步,最大相似度参数评估,通过最大化估量完整数据对数相似度的获取。E步和M步多次交替进行,在适度条件下,这种迭代将收敛于对象相似度的局部最大极值。从数据立方体中选取银行卡账号BANKCARDNO为键值,选取年收入YEARINCOME、月度支出EXPENSE、交易笔数、月度实际余额BALANCE、月度账面总余额BALANCESUM为聚类变量,EXPENSE为期望属性。由于目前银行卡中常见的准贷记卡和贷记卡都有挂账功能,月度账面总余额BALANCESUM并非实际发生余额,而是代表月度实际余额加上未付账余额。不指定聚类数,用EM算法聚类挖掘,得出CLUSTER01CLUSTER05,5个客户群体。如图所示,模型中每个分类都有一个对应的列。第一列列出分类关联的属性。通过“分类剖面图”可以直观地观察客户群体分类的某个属性的状态分布。连续属性以菱形图显CLUSTER01类客户特征倾向于年收入在20000元以下,支出金额超出月度实际余额37,支出金额占月度账面总金额843。群体1属于低收入人群。CLUSTER02类客户群体所占人群比例最大314,支出金额仅超出实际余额15,支出金额占账面总余额比例最低793。群体2属于中等收入,支出谨慎,善于储蓄人群。CLUSTER03类客户群体人群比例为26,最显著特征为支出金额占账面总余额比例1103,是所有群体比例最高的。对比CLUSTER02群体支出金额增长幅度378,交易笔数增长幅度38,实际余额增长幅度304,而账面总余额没有增长反而偏低。例如通过CLUTER03与CLUTER02的对比分数,CLUSTER02群体100在38006600范围内消费,而CLUSTER03群体999在660042600范围内消费。结果分析,群体3属于中高等收入,有消费倾向,而且具有消费潜力的客户群体,是应该主要争取成为信用卡客户的群体。CLUSTER04类客户群体各类变量值有了大幅提升,平均年收入对比CLUSTER03类增长幅度287,对比CLUSTER02类增长幅度1038。同期交易金额、交易笔数、实际余额对比CLUSTER02类增长幅度为827,73,60。支出金额仅超出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论