(计算机应用技术专业论文)基于数据挖掘的信用卡交易风险检测研究.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的信用卡交易风险检测研究.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的信用卡交易风险检测研究.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的信用卡交易风险检测研究.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的信用卡交易风险检测研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的信用卡交易风险检测研究 计算机应用技术专业 研究生魏大庆指导教师袁丁刘芳 信用卡作为一种全新的支付手段和信用工具,已经成为众多商业银行竟相 推出的产品,经营信用卡业务有高收益,同时也伴随着高风险。随着我国w t o 的加入,电子商务的发展,信用体系和制度以及信用支付环境的建立,越来越 多的消费者选择使用信用卡进行日常的消费支付。但对于信用卡消费,较为普 遍的看法还是安全问题。与国际先进的信用卡业务的信用卡交易风险管理体系 相比,我国商业银行的信用卡交易风险管理体系存在者很大差距。市场经济条 件下,经济越发展,信用卡欺诈行为也越来越多,主要表现为:冒用他人信用卡 交易和恶意透支、伪造信用卡诈骗、使用作废信用卡诈骗。信用卡诈骗严重扰 乱了正常的金融秩序,给银行和持卡人造成很大的损失,影响银行信用卡业务 的健康发展。传统的检测金融欺诈的方法主要依赖于计算机数据库系统的支持 以及客户的受教育程度。这种方法有滞后性,不准确性,不及时性等缺点。 本文仔细分析了信用卡交易的特点,发现采用数据挖掘技术能够有效地发 现其内部隐藏的、潜在的异常交易模式,在此基础上给出了种基于数据挖掘 技术的混合检测模型,其核心部分采用数据挖掘技术中的决策树分类和神经网 络来检测高风险交易行为。具体来讲做了如下工作:把信用卡的业务数据转换 为数据挖掘所需要的数据格式,并进行数据清洗、离散化、缺失数据处理等; 建立决策树检测模型和神经网络检测模型:建立决策树和神经网络的混合检测 模型;对比分析各个模型的检测结果。 本文最后还建立了一个基于决策树和神经网络的风险检测实验系统,并对 检测结果进行了预测评价,最后提出了下一步的研究工作重点。 关键词:信用卡,数据挖掘,神经网络,决策树,交易风险检测 a s t u d yo f c r e d i tc a r dt r a d er i s kd e t e c t i o n b a s e do nd a t am i n i n g m a j o r :c o m p u t e ra p p l i c a t i o n st e c h n o l o g y g r a d u a t es t u d e n t :w e id a - q i n g s u p e r v i s o r :y u a nd i n g l i uf a n g c r e d i tc a r di sak i n do fn e wp a y m e n tm e a n sa n dc r e d i tt 0 0 1 i th a sb e c o m ea p r o d u c tt h a tn u m e r o u sc o m m e r c i a lb a n k st or e l e a s ei t c r e d i tc a r db u s i n e s sh a sh i g h p r o f i t ,a l s oa c c o m p a n yh i g h r i s k a l o n gw i t ho u rc o u n t r ye n t e r sw t o ,t h e d e v e l o p m e n to fe - b u s i n e s s ,c r e d i ts y s t e ma n dc r e d i tp a y m e n te n v i r o n m e n t a lt ob e e s t a b l i s h e d , m o r ea n dm o r ec o n s u m e rc h o o s ec r e d i tc a r dt oc a r r yo u td a i l y c o n s u m p t i o n f o rt h e c r e d i tc a r d e o n s u m p t i o n m o s tp e o p l e c o n s i d e rs a f e t y p r o b l e m s c o m p a r ew i t ht h ea d v a n c e dc r e d i tr i s km a n a g e m e n ts y s t e mf o rc r e d i tc a r d o ff o r e i g nb a n k s ,o u rs y s t e mh a sg r e a td i s p a r i t y u n d e rt h em a r k c te c o n o m i c c o n d i t i o n ,b yt h ed e v e l o p m e n to ft h ee c o n o m y , m o r ea n dm o r ec r e d i tc a r df r a u d b e h a v i o ra p p e a r s i ts h o w st h a tu s eo t h e rp e r s o n sc r e d i tc a r d ,m a l i c i o u so v e r d r a f t , u s ef a k ec r e d i tc a r d c r e d i tc a r dd e f r a u d sa n du s ei n v a l i dc r e d i tc a r dd e f r a u d c r e d i t c a r dd e f r a u dh a v es e r i o u s l yd i s t u r b e dn o r m a lf i n a n c i a ls y s t e m , i tb r i n g sg r e a tl o s s a n da f f e c t st ob a n ka n dc r e d i tc a r d so w n e r , i ta l s oa f f e c t st h eh e a l t h yd e v e l o p m e n t o ft h ec r e d i tc a r db u s i n e s s t h et r a d i t i o n a lf r a u dd e t e c t i o nm e t h o dd e p e n d s0 1 1t h e s u p p o r to fd a t a b a s es y s t e ma n dt h ee d u c a t i o n a ll e v e lo ft h ec u s t o m e r t h ek i n do f m e t h o dh a si n a c c u r a c ya n dn n - t i m e l yc h a r a c t e r i s t i ce t c t h i st h e s i sa n a l y z e dt h ec h a r a c t e r i s t i co ft h ec r e d i tc a r dt r a d ec a r e f u l l y , d u r i n g t h es t u d yo ft h i sp r o j e c t 。w ef o u n dt h et e c h n i c a lo fd a t am i n i n g 啪d i s c o v e ri n t e r n a l , l a t e n tu n u s u a l l yt r a d ep a u e mf r o mt h ec r e d i tc a r dt r a d ed a t ae f f i c i e n t l y a c c o r d i n gt o t h i s , ih a v ep u tf o r w a r dam i xd e t e c t i o nm o d e lb a s e d0 1 1t h ed a t am i n i n gt e c h n o l o g y t h a th i d d e nf fd i s c o v e r ya d o p t sd a t at oe x c a v a t et e c h n o l o g y , o nt h i sf o u n d a t i o nh a v e g i v e nak i n do fb a s e do nd a t ae x c a v a t et e c h n o l o g ym i xd e t e c t i o nm o d e l i t sk e yp a r t a d o p t st h ed e c i s i o nt r o ea n dn e u r a ln e t w o r ka l g o r i t h mt od e t e c th i g h l yr i s kt r a d e b e h a v i o r m e a n w h i l e , ih a v ed o n et h i sw o r k :t r a n s f o r m e dt h ec r e d i tc a r dd a t at ot h e f o r m a to fd a t am i n i n g , a n dd i s p e r s e dd a t a , p u r g e do fd a t a ;b u i l tt h ed e c i s i o nt r e ea n d n e u r a ln e t w o r kd e t e c t i o nm o d e l ;b u i l tt h em i xd e t e c t i o nm o d e l ;a n a l y z e dt h er e s u l t o fe a c hm o d e l t h i st h e s i sa l s oe s t a b l i s h e dar i s kd e t e c ts y s t e mb a s e d0 nd e c i s i o nt r e ea n d n e u r a ln e t w o r k , m e a n w h i l e ,ih a v ef o r e c a s t e da n da p p r a i s e dt h ed e t e c t i o nr e s u l t ,a t t h ee n do ft h i sp a p e r , ip u tf o r w a r dt h ek e yw o r ko ft h en e x tr e s e a r c h k e y w o r d s :c r e d i tc a r d ,d a t am i n i n g , n e u r a ln e t w o r k , d e c i s i o nt r e e , t r a d er i s kd e t e c t i o n i v 四i i i9 i l i 范大学学位论文独创性及 使用授权声明 本人声明:所呈交学位论文,是本人在导师塞工趔羞指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何 其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。 本人承诺:已提交的学位论文电子版与论文纸本的内容一致。如因不符而 引起的学术声誉上的损失由本人自负。 本人同意所撰写学位论文的使用授权遵照学校的管理规定: 学校作为申请学位的条件之一,学位论文著作权拥有者须授权所在大学拥 有学位论文的部分使用权,即:1 ) 已获学位的研究生必须按学校规定提交印刷 版和电子版学位论文,可以将学位论文的全部或部分内容编入有关数据库进行 检索;2 ) 为教学和科研目的,学校可以将公开的学位论文或解密后的学位论文 作为资料在图书馆、资料室等场所或在校园网上供校内师生阅读、浏览。 用童定褊 论文作者签名: 氇声- k 别芳 川年歹月日 7 ,r - 弓1 第一章前言 1 1 研究目的和意义 据v i s a 国际信用卡组织最近发布的一个调查报告称,即使保守估计,中国 目前信用卡的潜在目标人群在3 0 0 0 万到6 0 0 0 万,预计2 0 1 0 年中国中等收入的人 群可能超过2 亿人,中国已经成为全球信用卡发展潜力最大的市场。现在国内银 行都在不惜血本地扩大自己的市场份额。对竞争日益激烈的市场环境,我国各 大银行为拓展市场,纷纷推出各种优惠措施以吸引消费者,并在信用审核时, 采取较宽松的政策。然而,这种营销策略,虽然可以迅速增加发卡量,降低其 单位运营成本,但也导致了信用卡风险的提高。因此,如何在增加客户与做好 风险管理问取得一个平衡点,是当前各大银行面临的重要课题。 在信用卡的风险管理1 1 卅中,信用卡的核查是第一道防线,由于审核人员 经验不足或缺乏客观审核标准而难于进行评估,造成了信用卡本身的风险。信 用卡核查后的交易风险管理又是另一道重要的防线。信用卡的普遍使用导致了 信用卡的盗窃以及信用卡欺诈闭。如果银行等信用卡发卡机构没有有效的方法 来区分合法交易和欺诈性交易,就将导致大量的经济损失。有资料显示,截止 到2 0 0 0 # ! ,全世界信用卡交易额已经超过2 6 万亿美元,而全球信用卡欺诈交易 额己占年总交易额的1 5 n 。而在我国,截止到2 0 0 3 年3 月,各类信用卡( 贷记 卡) 发行量已达至u 1 3 0 万张左右,而信用卡欺诈每年给国家造成的损失不低于 5 0 0 0 万元1 7 】。虽然利用多年积累的风险管理经验,银行可以从持卡人资料、交 易资料中识别出一些很明显的高风险交易,但缺乏一套有效的检测机制加以更 为准确的识别。 为了解决上述问题,增强信用卡交易的安全性,有必要建立一个信用卡交 易风险检测系统,提供一个安全放心的交易环境。信用卡交易风险检测方面的 研究在发达国家开展得比较早;而在我国这方面研究还相对较少。若能建立一 套交易风险探测系统,当有人利用信用卡进行交易时,能及时识别高风险交易, 并及时向监控入员发出预警信号,进而采取相应的措施,把损失降到最低。因 此,开展信用卡交易风险探测的研究具有重要的意义。 1 2 课题来源 本课题来源于: 四川省教育厅科研项目:数据挖掘在信用卡用户消费行为分析中的应用 项目编号:2 0 0 5 a 0 9 5 该课题是利用银行保存的大量客户历史交易数据建立用户消费等级评估模 型、客户消费行为分析模型、用户异常交易分析模型等。本文主要针对客户的 消费行为模式,建立客户的交易风险检测模型。 1 3 国内外研究现状 信用卡作为一种先进的金融支付工具,因其方便、快捷、安全的结算特点 而倍受青睐。但是随着近几年来信用卡的电子支付交易量猛增,信用卡交易的 风险也成直线上升,其v m a 和m a s t c r c a r d 统计,全球信用卡欺诈涉及总金额超 过1 0 0 亿美金,所以对信用卡交易风险的研究一直是信用卡研究的热门问题。 国内:目前国内信用卡风险检测系统的研究还处于起步的阶段,许多的研 究都还是停留在对理论的论证方面。 文献【8 1 2 】就银行信用卡信用风险管理中的相应问题提出了具体的分析模 型和所采用的数据挖掘算法,不过这些研究主要集中在信用风险上,而信用卡 的交易风险谈及甚少。文献【1 3 】中就银行交易系统的功能划分和反欺诈系统的 具体设计做了详细的论述,并着重阐述采用贝叶斯分类器对海量的信羽卡客户 数据分类,预测该用户交易行为是否欺诈并做出及时处理。这为我们进一步研 究信用卡交易风险起了前导性作用。文献【1 4 】中介绍了一个应用数据挖掘技术 开发的信用卡分析平台d m c a ,其中客户交易异常行为分析就是其中一个模块。 该模块采用异常检测算法对客户交易的合法性进行检测。这也为我们研究信用 卡交易风险提出了这么一个思路,可以利用数据挖掘的方法分析信用卡交易的 风险。 数据挖掘在商业银行的应用,我国起步较晚,国内的大多数银行都在研发 c r m 软件。2 0 0 0 年以后,才开始出现利用数据挖掘技术研究信用卡业务的项目。 其中的商用研究有: 新太科技的银行客户关系管理系统【1 5 j :透过统计分析和数据挖掘方法,将 2 银行客户资料做不同角度的分析,从中发现客户的行为特性或偏好、倾向,并 进而创造销售机会或避免风险发生。 1 华际友天信贷监控系统【l q :围绕商业银行信贷业务的发展需求,以信贷监 控为基本点,采用当今最流行的数据仓库技术和数据挖掘分析理论,确定以客 户分析、市场分析、风险分析、综合分析四大分析主题,并以此为基础建立分 析模型,通过可视化分析工具,实现信用欺诈预测、风险评估、趋势分析、收 益分析、辅助市场营销等各类分析应用。 新晨科技开发的银行信用卡分析考核系统【1 7 1 :是以财务数据资料为主要数 据来源,由o l a p 系统对数据进行分类、比较、分析及综合,以从中分析银行 卡的发行效率为目的的一种考核方式。并通过前端客户化界面得以呈现。帮助 银行的管理者全面、实时、准确地掌握银行卡的相关信息,为掌握整个企业的 经营状况提供良好的工具。 上海复旦德门的商业银行客户分析系统c d m i n e r 1 s l :根据对客户的卡透支 情况,个人贷款逾期情况、客户的非正常交易和等级变化的跟踪分析,掌握他 们的最新动向和趋势,提供预警机制,帮助银行更好地防范与控制风险。 国外:从事信用卡交易风险检测方面的研究比较多,在理论上也取得了丰 硕的成果。文献1 9 ,2 0 ,2 1 1 中都提出了基于数据挖掘的信用卡交易风险探测的模 型,并对模型采用的决策树算法、人工神经网络、聚类算法等进行了比较分析。 文献【2 2 】中还介绍了一个基于人工神经网络的检测实验系统c a r d w a t c h ,该 系统是利用客户信用卡交易数据和客户信息实现了信用卡交易风险检测,这为 我们建立信用卡交易风险检测系统提供了一个实验系统原型。 在商业应用上,国外已经有比较成熟的系统,目前在银行数据挖掘领域比 较活跃的软件提供商有:i b m ,s a s ,s p s s ,s y s b a s e , n c r 和o r a c u 等。他们 都提出了面向银行业的解决方案。以国外银行的应用为例,其中的商用研究有: 美国f i r s t a r 银行使用m a r k s m a n 数据挖掘工具,根据客户的消费模式预测 何时为客户提供何种产品。f i r s t a r 银行市场调查和数据库营销部经理发现:公 共数据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者投入 到新产品中的原因,在数据库中找到一种模式,从而能够为每种新产品找到最 合适的消费者。m a r k s m a n 根据消费者是否有家庭财产贷款、赊帐卡、存款证 或其它储蓄、投资产品,将它们分成若干组,然后使用数据挖掘工具预测何时 向每位消费者提供哪种产品。 美国h n c 公司开发的信用卡欺诈估测系统:f a l c o n 2 3 。f a l c o n 已经 成功地将神经网络技术应用于信用卡和借记卡行业的风险预测,它已被相当数 量的零售银行用于探测可疑的信用卡交易,f a l c o n 的数据格式主要针对一 些流行的信用卡公司,如v i s a , m a s t e r 等。 a c 坤r m 预防型风险管理系统【卅:为一完整的风险管理工具,特别适用于 各种类型的信用卡与转帐卡的诈欺行为,包括遗失或冒用,伪造卡,以及伪冒 申请等。f r m 结合了神经网络技术与数理统计,提供了一个进行风险管理的完 整解决方案。p r m 独一无二的神经网络技术称之为p r o b a b i l i s t i cr e s t r i c t e d c o u l o m be n e r g y , 简称p r c e ,拥有六项世界专利。利用多个r c e 的组合而 成的n e s t o r l e a m n g s y s t e m ( n l s ) 拥有神经网络界最快的学习与处理速度。 通过以上描述,就目前国内外研究的理论和成果来看,信用卡风险检测在 国内还停留在信用风险的研究上,而交易风险的检测还没得到广泛关注。虽然 国外商业应用研究比较成熟,但都因为设计商业秘密没有详细的技术资料;在 理论上虽然提出了不少检测模型,不过大多都采用一次建模,检测结果的准确 率也不是很高,对各种算法的二次建模等诸多问题都还没有得到圆满的解决, 因此我们研究基于决策树的神经网络的信用卡交易风险检测系统,对提高风险 检铡的准确率也是大有好处的。 1 4 本文研究内容 通过大量的查阅和研究国内外有关信用卡交易风险检测的资料,并在结合 现代数据挖掘技术的基础上,本人提出了一个基于决策树和人工神经网络的信 用卡交易风险检测混合模型。并根据这个混合模型建立了一个风险检测实验系 统。具体来讲主要研究了如下一些内容: 1 、研究了基于决策树和人工神经网络的风险检测混合模型。 这个混合模型可以很大程度地检测信用卡异常交易,同时对建立模型所用 的决策树算法和人工神经网络结构做了详细的描述和说明。 2 、处理模型建立前期的数据预处理中的一些关键f 司题。 4 这些问题的解决与否直接关系到本检测系统的检测结果,主要包括有以下 几个方面; ( 1 ) 数据的选择 包括选择多大的训练样本数量、选择哪些属性和应该增加哪些属性作为模 型的输入。 ( 2 ) 数据的处理 包括处理数据中的缺失值、脏数据的剔除、纠正错误数据、重复数据的清 除、数据的转化和集成和数据的离散化等。 3 、从理论上说明了提出该模型的正确性和可行性。 首先从大量的文献资料中获得了有关决策树和人工神经网络相结合的可行 性依据,并把混合模型的检测结果分别与单一决策树检测结果和人工神经网络 检测结果相比较,证实混合模型的可行性。 4 、开发出一个实验性风险检测系统。 5 、把检测结果与国外有关信用卡交易风险检测结果比较分析。 1 5 研究方法和论文结构 本文采用的研究方法主要是理论研究与实证研究相结合。在阅读大量的信 用卡风险检测文献的基础上,采用实际数据,利用己有数据挖掘算法进行适应 性研究开发。 本文的论文结构共分六章: 第一章讲述课题背景、研究意义,来源和国内外研究现状及本文工作。 第二章是信用卡交易风险检测概述,主要介绍数据挖掘在银行信用卡分析 中的主要应用、信用卡风险的表现,及信用卡交易风险分析的必要性。最后还 介绍了基于数据挖掘技术的信用卡交易风险检测模型。 第三章主要探讨信用卡交易风险检测模型建立的数据预处理,这部分是影 响模型检测准确率的关键部分。 第四章主要是提出了基于决策树和人工神经网络的风险检测混合模型,对 建立模型所用的决策树算法和人工神经网络结构做了详细的描述和流程说明。 并从理论上说明了提出该模型的正确性和可行性。 第五章主要是信用卡交易风险检测系统的研究,并把混合模型的检测结果 分别与单一决策树检测结果和人工神经网络检测结果相比较,证实混合模型的 可行性。 第六章是小结和展望。 6 第二章信用卡领域的数据挖掘概述 2 1 数据挖掘技术概述 2 1 1 数据挖掘技术的产生及定义 众所周知,数据库技术从2 0 世纪8 0 年代开始。已经得到了广泛的普及和 应用。随着数据库容量的膨胀,特别是数据仓库【2 5 】以及w c b 等新型数据源的日 益普及,人们面l 临的主要问题不再是缺乏足够的信息可以使用,而是面对浩瀚 的数据海洋。如何有效的利用这些数据,已经成为广大信息技术工作者所重点 关注的焦点之一。与目趋成熟的数据管理技术和软件工具相比,人们所依赖的 常规数据分析工具却无法有效地为决策者提供其决策支持所需要的相关知识, 从而形成了一种独特的现象“丰富的数据,贫乏的知识”。面对这一挑战,数 据挖掘1 2 6 捌和知识发现【凋技术运用雨生,并显示了强大的生命力。数据挖掘和 知识发现使数据处理技术进入了一个更高的阶段。它不仅能对过去的数据进行 查询,而且能够找出数据间的潜在联系,进行更高层次的分析,以便更好的解 决决策、预测等问题。毫不夸张的说,如今的数据挖掘已经成为计算机、信息 科学以及相关领域的一个时髦名词,而且在商业管理、生产控制、市场分析、 交通、电信、科学探索等领域得到了广泛的应用。 数据挖掘就是从大量的、不完全的、有噪声的、随机的实际数据中,提取 隐藏在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。数据 挖掘的结果是发现知识。人们把数据看作是形成知识的源泉,如同从矿石中采 矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是 半结构化的、如文本、图像数据;甚至是分布在网络上的异构型数据。发现知 识的方法可以是数学的、也可以是非数学的;可以是演绎的、也可以是归纳的。 发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以 用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的引 用从低层次的简单查询提升到从数据中挖掘知识、提供决策支持。在各种需求 的牵引下,汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、 可视化、并行计算方面的学者和工程技术人员,投身到数据挖掘这一新兴的研 究领域,形成了新的技术热点。 7 2 1 2 数据挖掘的挖掘过程 在实施数据挖掘之前,先要制定采取什么样的步骤、每一步都做什么、达 至什么样的目标是必要的,有了好的计划才能保证数据挖掘有条理地实施并取 的成功。那么,有没有通用的数据挖掘过程模型可以用来指导人们如何实施数 据挖掘过程昵? 实际上每一个数据挖掘软件提供商和一些数据挖掘咨询公司都 提出了自己的数据挖掘过程模型。b r a c h m a n 等人在1 9 9 6 年提出了一种实用的 过程模型,而其后f a y y a d 等人提出的多阶段模型由于其通用性而被广泛的接 受。 下面就以f a y y a d 等人提出的过程模型为基础,对数据挖掘过程作概要性介 绍。f a y y a d 过程模型1 2 7 是一个高级处理过程,它包含多个处理步骤,各个步骤 之间相互影响,反复调整,形成了一种螺旋式的上升过程。 如图2 - 1 所示,数据挖掘过程是由若干挖掘步骤组成,而数据挖掘仅是其 中的一个主要步骤。整个知识挖掘的主要过程有: 1 数据选取 从现有的数据中,确定哪些数据是与本次数据分析任务相关的。根据挖掘 目标,从原始数据中选取相关的数据集,并把不同数据源中的数据集成起来。 8 2 数据清洗 对于选择的数据,需要进行数据清洗工作,将数据转化为“干净”的数据。 目标数据集中不可避免地存在着不完整、不一致、不精确和冗余的数据,这些 数据统称为“脏数据”。数据选取之后必须利用领域专家知识对“脏数据”进行 清洗。通常采取基于规则的方法对它们实施相应的处理。 3 数据转化 数据转化的作用就是将数据转换为易于进行数据挖掘的数据存储形式。数 据转换的方法包括以期望的方式组织数据,把一种类型的数据转换为另一种类 型的,或者是对数据的属性用数学算子或逻辑算子进行转换。目的是将数据转 换为适应数据挖掘处理的形式。 4 选择挖掘算法 选择合适的挖掘算法是知识挖掘的一个基本步骤,其作用就是利用智能方 澍1 7 l ( 分类、聚类、关联规则、神经网络等) 挖掘数据模式或规律知识。 5 模式评估 根据一定评估标准从挖掘结果筛选出有意义的模式知识。如果结果不能让 决策者满意,需要重复以上挖掘过程。 6 知识表示 利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。 2 1 3 数据挖掘功能 数据挖掘功能1 2 6 悃于指定数据挖掘任务中要找的模型类型。数据挖掘任 务一般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般 特性。预测性挖掘任务在当前数据上进行推断,以进行预测。数据挖掘的功能 主要包括概念描述、关联规则、分类和预测、聚类分析、孤立点分析等。下面 对一些常用功能分别加以介绍。 1 概念描述 对于存放在数据库中的大量细节数据,能够以简洁的形式在更一般的抽象 层描述是很有用的。允许数据集在多个抽象层概化,便于用户考察数据有趣的 一般性质,可以方便、灵活地以不同的粒度和从不同的角度描述数据集。这种 9 描述性数据挖掘称为概念描述,它是数据挖掘的一个重要组成部分。概念描述 可以通过以下技术得到:数据特征化和数据区分。 数据特征化陋】是目标类数据的一般特征或特性的汇总。有许多有效的方法 将数据特征化和汇总。主要包括:一种是基于数据立方体的o l a p 上卷操作, 可以用来执行用户控制的、沿指定维的数据汇总。一种是面向属性的归纳技术 可以用来进行数据的概化和特征化,其基本操作是数据概化瞄l 。 由于将属性概化到多高的抽象层通常是相当主观的,主要取决于属性或应 用。有些属性需要留在较低的抽象层,而另一些属性需要概化到较高的抽象层。 该过程的控制称为属性概化控制。常用的技术有以下两种:第一种称作属性概 化| l j ;| 值控制,或者对所有的属性设置一个概念阀值,或者对每个属性设置一个 阀值。第二种技术称为概化关系阀值控制,即为概化关系设置一个阀值。如果 概化关系中不同元组的个数超过该阀值,则应当进一步概化,否则不再进一步 概化。 2 关联规则f 卿 使用关联规则的目的是从一个数据库表中找出多个属性之间存在的关系。 关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物 篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品和哪些 商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。 例如通过关联规则的算法我们发现啤酒和尿布经常同时被购买,利用得函的这 个规则,超市可以在摆放货物时把啤酒和尿布摆放在一起。 定义:令i = ( i l ,i 2 ,i m ) 为项目集( i t e m s e t ) ,d 为事务数据库,其中每个事 务t 是一个项目子集( t c i ) ,并具有一个唯一的标识符i d 。关联规则是形如x 啐y 的逻辑蕴含式,其中x c i ,y c i ,且x f - l y = o 。有两个园子与这条规则 相关: 如果事务数据库中有s 的事物包含x u y 挪么我们说关联规则x 辛y 的 支持度( s u p p o r t ) 为s ,如果事务数据库里包含x 的事务中有c 的事务同时包含 y ,那么我们说关联规则x ;y 的可信度( c o n f i d e n e e ) 为c 。即 s u p p o r t ( x y ) _ - p 岱u c o n f i d e n c e ( x = y ) = p ( x 阳 1 0 同时满足最小支持度阀值( r a ms u p ) 和最d - i 信度阀值( m i c o n o 的规则称 为强规则。 如果不考虑关联规则的支持度和置信度、作用度,那么在事务数据库中就 会存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度、置信度 和作用度的关联规则感兴趣。因此,为了发现有意义的关联规则,需要给定两 个阈值:最小支持度和最小置信度。前者即用户规定的关联规则必须满足的最 小支持度,它表示了一组物品集在统计意义上需满足的最低程度;后者即用户 规定的关联规则必须满足的最小置信度,它反应了关联规则的最低可靠度。另 外,关联规则发现的思路还可以用于序列模式分析。序列模式分析的侧重点在 于分析事件的前后序列关联,一般顾客在购买商品时,除了具有上述关联规律, 还有在时间上或序列上的规律,发现诸如“在购买商品a 后,一段时间里顾 客会接着购买商品b ,而后购买商品c ”的模型,形成一个客户行为的“a b c ”模式。 3 分类和预测 分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或 预测未来的数据趋势。通过对预先建立的学习模型进行有指导的学习训练,最 终可以获得具有一定准确率的分类方法。数据分类在统计学、机器学习、人工 智能等领域有着深入地研究。预测和分类不同,他是构造和使用模型评估无标 号样本类,或评估给定样本可能具有的属性值或区间值。预测可以用回归统计 技术建模,一般采用线性回归、多元回归、非线性回归等方法获得该连续值函 数模型。这里主要讨论分类模型。 数据分类是一个两步过程: 第一步;建立一个分类模型。根据样本数据描述,假定每个元组属于个 预定义的类,由一个称作类标号属性c 的属性确定。为建立分类模型,需要有 一个训练数据集作为输入。然后通过应用一个或几个分类算法,常用的分类算 法有:决策树归纳、贝叶斯分类、神经网络、k - 最临近分类、遗传算法、粗糙 集和模糊集方法等。最后由分类算法自动的产生分类模型。 第二步:使用分类模型提取的分类规则进行分类。 其中决策树技术是用于分类和预测的主要技术,它的目的是根据某个新记 1 1 录的属性,将其分派至预先定义好的若干类中的一个,并为其添加一个字段以 标识该记录的类别,它是一种挖掘数据中潜在分类规则的方法。它与神经网络、 多元统计中的判别分析等分类方法相比,有速度快、精度高、生成模式简单易 用等优点,同时可以生成容易理解的分类规则;计算量相对来说不是很大;可 以处理比例尺度变量和名义尺度变量;决策树可以清晰的显示比较重要的测试 属性,故在数据挖掘中被广泛采用。 4 聚类分析 聚类【3 2 】就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具 有较高的相似度,而不同簇中的对象差别较大。其中相似度是根据描述对象的 属性值来计算的。作为一个数据挖掘功能,聚类分析能作为一个独立的工具来 获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分 析。此外,聚类分析可以作为其他算法( 如特征化和分类) 的预处理步骤,这 些算法再在生成的簇上进行处理。 大体上,主要的聚类算法可以划分为如下几类: ( 1 ) 划分方法:给定一个有n 个对象或元组的数据库,用划分的方法构建 数据的k 个划分,每个划分表示一个聚簇。也就是说,他将数据划分为k 个 组,同时满足如下的要求:( i ) 每个组至少包含一个对象;( i i ) 每个对象必须属于 且只属于一个组。 ( 2 ) 层次的方法:层次的方法对给定数据对象集合迸行层次的分解。根据层 次的分解如何形成,层次的方法可以分为凝聚的和分裂的。凝聚的方法,也称 为自底向上的方法,一开始将每个对象作为单独的一个组,然后相继地合并相 近的对象或组,直到所有的组合为一个( 层次的最上层) ,或者达到一个终止 条件。分裂的方法,也成为自顶向下的方法,一开始将所有的对象置于一个簇 中,在迭代的每一步中,一个簇被分裂为更小的簇直到最总每个对象在单独的 一个簇中,或者达到一个终止条件。 ( 3 ) 基于密度的方法:只要临近区域的密度( 对象或数据点的数目) 超过某 个阀值,就继续聚类。也就是说,对于给定类中的每个数据点,在一个给定范 围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤“噪声”孤 立点数据,发现任意形状的簇。 ( 4 ) 基于模型的方法:基于模型的方法为每个簇假定一个模型,寻找数据对 给定模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点空间分布 的密度函数来定位聚类。它也基于标准的统计数字自动决定聚类的数目,考虑 “噪声”数据,从而产生健壮的聚类方法。 2 2 信用卡交易风险检测概述 2 2 1 数据挖掘在信用卡分析中的主要应用 1 客户信用风险评估 客户初始信用风险评估f 3 3 驯就是当一个客户来银行申请新信用卡的时候, 通过客户填写的基本信息,系统给出一个建议的初始信用等级。以客户的历史 数据为输入,表现为客户的初始信用等级分布特征,采用数据挖掘技术建立模 型,来预测新客户的初始信用等级,为客户打分。同时,客户的信用等级是一 个动态变化的过程,根据客户消费行为的变化,信用等级应该相应的发生变化。 根据客户的特征数据( 客户基本信息) 与客户的交易数据以及一些有意义的汇 总数据,构建动态的信用风险评估模型f 3 5 l ,让银行了解客户当前信用等级的分 布特征,并预测下一阶段客户的信用风险变化趋势。 2 客户透支分析 分析信用卡使用中信用透支的情况,了解透支客户的具体特征。如将客户 透支分为三种类型:高、中、低。银行可以对高、中、低的具体情况进行设置, 比如设置透支在每月5 0 0 0 元的为高。采用数据挖掘技术以客户的基本信息、历 史汇总数据为输入,所选字段需与透支无直接相关性,输出为设定的透支类别, 且能够预测当前客户在今后一段时间中可能透支的情况。 3 客户利润分析 分析信用卡客户的利润分布情况,得到带来不同利润的客户的具体特征。 例如将客户利润分为三种类型:高、中、低。银行可以对高、中、低的具体情 况进行设置。客户利润分析同客户透支分析类似。 4 客户类别分析模型 当前的市场营销中很重要的一个特点是强调客户细分1 3 6 1 。客户类别分析的 功能也在于此,比如将客户分成四个重要的类别;交易频繁的客户、偶然大量 透支的客户、稳定透支的客户、其他,帮助银行寻找出这些不同种类客户之间 的特征。可以让银行了解不同行为类别客户的分布特征,能够预测下一阶段客 户的类别变化趋势。 5 客户消费行为分析 每个客户都有一定的消费习惯,具有相似消费习惯的客户可以组成一个群 体。通过分析一个个群体的消费特征,可以了解不同稍费群体的消费模式,从 而可以提供更贴切的服务。利用数据挖掘技术将客户消费行为数据划分为不同 的聚类,在同一聚类内部的客户具有相同的消费行为,不同聚类之间的客户消 费行为差异较大,对不同聚类的客户可以采取不同的市场营销策略。它是描述 性模型,不是预言模型,主要目的是帮助银行更好的了解客户的消费行为。大 多数人的消费行为称为“正常消费行为”,而在生活中往往还存在消费习惯和行 为“与众不同”的人。客户消费异常行为分析可以找出这些有“异常消费行为” 的入,提示银行给予充分的关注和警觉。 2 2 2 信用卡业务的风险表现 随着我国信用卡支付环境的建立,越来越多的消费者开始使用信用卡进行 日常的在线支付。我国各大银行为拓展市场,纷纷推出各种优惠措施以吸引消 费者,并在信用审核时,采取较宽松的政策。然而,这种营销策略,虽然可以 迅速增加发卡量,降低其单位运营成本,但也导致了信用卡风险的提高。信用 卡风险已经成为银行面临的突出问题。 由于信用卡与其他类型的银行业务具有不同的特征,如:无须担保人和保 证金、可按最低还款额分期还款、循环信贷、额度授信,而且通过塑胶卡片为 载体,所以在实际工作中,信用卡业务的主要风险有一定的特殊性,主要表现 鲫为以下四个方面: 1 信用风险 因持卡人信用不良而产生的拒付风险。表现为持卡人由于各种原因,经济 情况恶化,无力还款,使银行贷款无法收回,形成呆帐损失的可能性,从i 酊引 发信用风险。 2 交易风险 1 4 由于持卡人恶意透支、交易非为持卡人所授意或使用、信用卡及卡上信息 被盗取后使用,一般来说,损失由发卡银行承担。 3 作业风险 因管理和作业流程上的操作不当而产生的风险。 信用风脸分析在国内外研究都比较多,也较成熟,本文主要针对信用卡交 易中产生的风险展开讨论。 2 2 3 信用卡交易风险检测的必要性 对银行信用卡风险的影响因素往往是多方面的,传统的风险检测方法无法 适应这复杂需求或无法准确预测风险类别。雨数据挖掘技术则能弥补这一不 足。 1 采用数据挖掘能深入分析客户信用的信用状况的影响因素。客户信用状 况的好坏与众多因索相关联如:经济环境状况、个人知识层次、收入高低、职 务等。如何分析这些因素间的关系或根据这些因素来决定信用卡交易的风险等 级,传统的基于统计的方法往往不能准确的解决这一难题。相反,利用数据挖 掘技术则能很好的处理这类问题。 2 采用数据挖掘能很好的分析组合信用风险问题。组合信用风险较般复 杂,要深入剖析各组合要素的关系和组合分布情况,需要采用数据挖掘的描述 性挖掘的方法来发掘隐含的分布特征。 3 采用数据挖掘技术能多层次和多角度的展现数据关系。借助数据仓库的 相关知识,数据挖掘能从不同的维度深入分析信用数据。从而,更为透彻的揭 示信用卡风险的蕴含关系和特征,增强预测的准确性。 4 目前的数据挖掘工具能非常全面的展现数据的关系和分析结果。 2 3 4 交易风险检测模型 信用卡的普遍使用导致了信用卡的盗窃以及信用卡欺诈。如果银行等信用 卡发行机构没有有效的方法来区分合法交易和欺诈性交易,就将导致大量的经 济损失。有资料显示,仅1 9 9 7 年,全世界利用万事达卡进行诈骗的损失就高达6 亿美元。目前,全球信用卡欺诈交易额己占年总交易额的1 5 。因此,如何预 测信用卡交易的合法性,成为一个非常迫切的问题。预测信用卡交易的合法性 也称为信用卡欺诈探测,r p c r e d i tc a r df r a u dd e t e c t i o n 。如果我们能够从历史的 信用卡交易数据中构造一个预测模型,然后使用这个模型预测当前信用卡交易 的合法性,就能为银行挽救大量的资金,降低风险。而数据挖掘技术可以帮助 银行等机构建立这样的风险检测模型【删,如图2 2 所表示: 围2 _ 2 风险检测模型 第三章信用卡数据的预处理 目前,信用卡数据中有许多我们并不关心的数据,以及许多不完整数据, 噪音数据等等,现有的数据库无法直接进行数据挖掘,将数据进行一些必要的 处理,以便于挖掘工作的顺利进行,这一工作称为数据预处理。本章就将对数据预 处理的相关内容做洋细的分析。, 3 1 数据预处理 数据预处理是数据挖掘中的重要一环,而且必不可少。要挖掘出很好的结 果,就必须为它提供干净、准确、简洁的数据。然而实际应用中收集的数据是 “脏”数据,通常存在以下几方面的问题: 1 杂乱性。原始数据是从各个实际应用系统中获取的( 多中数据库、多种 系统) 。由于各应用系统的数据缺乏统一标准和定义,数据结构存在较大的差 异,往往不能直接拿来使用。 2 重复性。同一事物在数据库中可能存在两个及以上完全相同的记录描述。 由于应用系统在使用中都存在一些问题,几乎所有的系统中都存在有数据的重 复和信息的冗余现象。 3 不完整性。应用系统在运行过程中可能因为人为或系统本身的原因。可 能造成数据表中数据属性的值丢失或错误的值,造成数据的不完整。 数据挖掘中的预处理主要就是针对以上问题,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论