“1+X”(初级)05-数据质量管理与数据清洗_第1页
“1+X”(初级)05-数据质量管理与数据清洗_第2页
“1+X”(初级)05-数据质量管理与数据清洗_第3页
“1+X”(初级)05-数据质量管理与数据清洗_第4页
“1+X”(初级)05-数据质量管理与数据清洗_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据质量管理与数据清洗学习完本课程后,你将能够:1.掌握数据质量的定义、来源和评价维度2.学会如何识别、评估和处理数据质量问题3.能够根据项目和数据的具体情况,使用质量控制的流程保证项目结果的有效性课程目标课程目录1.数据质量概述1.1数据质量的定义1.2数据质量问题的来源1.3数据质量问题分类1.4数据质量管理的必要性2.数据质量管理标准3.数据清洗技术4.数据规约5.数据变换数据质量的定义数据质量:数据的实际状态与期望状态的比较数据实际状态数据期望状态比较高质量

正确地反映了真实世界

达到了其在运营、决策和规划中的期望状态期望状态

通常由个人或团体、标准组织、法律法规、业务要求或软件开发要求定义课程目录1.数据质量概述1.1数据质量的定义1.2数据质量问题的来源1.3数据质量问题分类1.4数据质量管理的必要性2.数据质量管理标准3.数据清洗技术4.数据规约5.数据变换数据质量问题的来源技术问题信息问题流程问题管理问题质量问题数据创建数据传递数据装载数据使用元数据描述及理解数据质量管理标准数据变化频率创建流程传递流程使用流程维护流程装载流程数据库设计数据使用规范人员培训质量管理机构数据质量目标技术、流程问题采集标准缺失,或标准执行不到位(技术:数据创建、流程:创建流程)例如:注册信息表没有进行数据格式约束,或填写时出现错拼、漏填等现象源数据有问题但没有发现(技术:数据装载、流程:装载流程)例如:爬取得到的网页数据,下载或购买得到的数据集软件、硬件、网络问题(技术:数据传递)例如:传感器故障、网络延迟、灾害等调查问卷表BMXBNLSGSR30001女36.5’3”300002987男2717520k9527495’4”8000101女165’7”投融资数据时间公司名称行业轮次金额投资方2019/3/11儿童周末教育Pre-A轮数百万人民币北塔资本2019/3/11SOMBiotech医疗健康A轮700万欧元未透露2019/3/11Klaytn企业服务战略投资9000万美元未透露2019/3/11谊品生鲜本地生活B轮未透露腾讯2019/3/11常仁科技企业服务A轮1亿人民币未透露技术、流程问题SQL查询问题(技术:数据使用,流程:使用流程)例如:Join时,没有发现笛卡尔积,聚合后得到错误结果处理手法有误(技术:数据装载)例如:没有使用合理的抽样方法,造成分析结果偏差SELECT

prod_id,prod_name,

SUM(quantity)as

total_q

FROM

t1aLEFT

JOIN

t2bONd_id=d_idGROUP

BY

prod_id,prod_name信息、管理问题元数据管理水平低下(信息:技术元数据)例如:血缘关系不明(表之间、属性之间),属性的含义不明确漏洞百出的数据模型(管理:数据库设计、人员培训)例如:失踪的主键、时间戳等customersBMXBHFSG30001女YH5’3”2987男YH5’9”9527男WH5’4”101女YH5’7”kh两个表的关系未知、BM和HF属性含义未知信息、流程、管理问题源数据性质不同或者处理不当(信息:业务元数据)例如:同义不同名、同名不同义、数据截断/删失等业务流程中的装载规则设置错误(流程:装载流程,技术:数据装载)例如:应该使用新增(InsertInto)结果不小心覆盖(Insert

Overwrite)数据没有打通(管理问题)例如:各集团或部门之间的数据孤岛customersBMXBHFSG30001女YH5’3”2987男YH5’9”9527男WH5’4”101女YH5’7”kh性别、身高属性同义不同名课程目录1.数据质量概述1.1数据质量的定义1.2数据质量问题的来源1.3数据质量问题分类1.4数据质量管理的必要性2.数据质量管理标准3.数据清洗技术4.数据规约5.数据变换数据质量问题分类数据质量问题单源问题多源问题模式级别实例级别模式级别实例级别缺乏完整性约束,糟糕的模式设计数据输入错误异构数据模型与模式设计重叠、矛盾和不一致的数据属性依赖唯一性引用完整性…拼写错误冗余/重复矛盾的值…命名冲突结构性冲突…聚合不一致时间不一致…单源问题Table1.模式级别的单源问题示例(违反完整性约束)范围/问题脏数据理由/备注属性非法的值bdate=30.13.7030是域范围之外的值记录违反属性依赖age=22,bdate=12.02.70不符合属性的依赖关系,年龄=(当前日期-出生日期)记录类型唯一性冲突emp1=(name=”JohnSmith”,SSN=”123456”)emp2=(name=”PeterMiller”,SSN=”123456”)违反了SSN(社会保险号)的唯一性来源引用完整性冲突emp=(name=”JohnSmith”,deptno=127)部门表中未定义deptno=127单源问题Table2.实例级别的单源问题示例范围/问题脏数据理由/备注属性缺失phone=999-999-9999数据采集失败造成的伪值或默认值笔误/拼写错误city=”Liipzig”通常是拼写错误嵌入name=”J.Smith12.02.70NewYork”在一个属性中输入多个值错置city=“Germany”国家不应该放在城市字段记录类型字符换位name1=“J.Smith”,name2=”MillerP.”通常是没有形式约束的字段造成的重复emp1=(name=”JohnSmith”,...);emp2=(name=”J.Smith”,...)由于数据输入错误,同一个雇员出现了两次矛盾emp1=(name=”JohnSmith”,bdate=12.02.70);emp2=(name=”JohnSmith”,bdate=12.12.70)同一个真实世界的实体被不同的值描述来源引用错误emp=(name=”JohnSmith”,deptno=17)deptno=17存在,但此人不属于这个部门多源问题当需要集成多个来源时,将会比单个来源中存在的问题会更加严重。每个来源都可能包含脏数据,并且来源中的数据可以有不同的形式、有重叠记录或矛盾记录。模式级别,主要问题是命名和结构冲突:命名冲突,相同的名称用于不同的对象(同名),不同的名称用于相同的对象(同义)结构冲突,指同一对象在不同来源中的不同表示,比如属性VS表、不同的数据类型、不同的完整性约束等。实例级别,单一来源中的所有问题都可能在多源问题中发生,另外还可能有:相同的属性名称和数据类型,不同的表示(婚姻状况)或不同的含义(美元vs欧元)不同的聚合级别(每个产品的销售额vs每个产品线的销售额)不同的时间截点(截至昨天的销售额vs截至上周的销售额)

多源问题多源问题的一个主要议题是对象标识问题(objectidentityproblem)即识别重叠的数据匹配来自不同来源的同一个实体(比如客户表)的记录通常这些数据只是部分冗余的,而且不同的来源可以提供其他附加信息来相互补充缺失的部分为了一致并准确地反映现实世界的实体,需要

清除重复信息

合并补充信息多源问题Table3.模式级别和实例级别的多源问题示例CIDNameStreetCitySex11KristenSmith2HurleyPlSouthFork,MN48503024ChristianSmithHurleySt2SForkMN1CnoLastNameFirstNameGenderAddressPhone24SmithChristophM23HarleySt,ChicagoIL,60633-2394333-222-6542493SmithKrisL.F2HurleyPlace,SouthForkMN,48503-5998444-555-6666NoLNameFNameGenderStreetCityStateZIPPhoneCIDCno1SmithKristenL.F2HurleyPlaceSouthForkMN48503-5998444-555-6666114932SmithChristianM2HurleyPlaceSouthForkMN48503-5998243SmithChristophM23HarleyStreetChicagoMN60633-2394333-222-654224Cust-omerClientCust-omers课程目录1.数据质量概述1.1数据质量的定义1.2数据质量问题的来源1.3数据质量问题分类1.4数据质量管理的必要性2.数据质量管理标准3.数据清洗技术4.数据规约5.数据变换数据质量管理的必要性GIGO原则:Garbagein,

Garbageout“把劣质的数据丢入到最好的模型中去分析处理,就像是把已经腐烂了的桃子,用最好的卡车,走最快的路线,运输到市场,但是桃子仍然是腐烂的”输出结论的质量很大程度上由输入数据的质量决定。企业的每一个商业决策、客户关系和商业投资都是建立在数据分析的基础上,由此可见,数据质量问题开始成为影响数据分析和利用效能的“最后一公里”问题,是困扰许多大数据公司和企业在拓展其大数据战略不可回避的问题。错误数据会给企业带来金钱的损失错误数据会使员工的效率下降错误数据会损伤企业的名誉数据质量管理的必要性考虑这样一个场景:

在一次高级别会议中,两个分析师都需要分析公司业绩,结果两份报告得到了两个不同的收入数据,那么没有人能够知道哪些数据是准确的,这可能会导致错误决策或者决策被推迟。质量低劣的数据带来的不仅仅是报表数据的错误,更危险的是它可能会导致决策的偏离。业务影响库存不足或者过多结算错误财务计划的偏差信息不及时或不准确企业损失收入损失成本增加客户投诉市场占有率降低课程目录1.数据质量概述2.数据质量管理标准2.1数据完整性2.2数据唯一性2.3数据及时性3.数据清洗技术4.数据规约5.数据变换2.4数据有效性2.5数据准确性2.6数据一致性数据质量管理标准“数据质量维度”这个术语已经被广泛用于描述数据的质量。然而,即使是数据质量的专业从事者中,也没有普遍认同的数据质量维度标准。这种状况导致了许多混乱,苏格拉底说,“智慧的开始是对术语的定义”。注意数据质量管理标准是衡量和反映数据质量的指标,而不是为了去限制数据本身所代表的含义。数据质量管理标准不是一个规定性的标准,维度的使用将根据所涉及的业务需求和行业而有所不同。为了帮助管理标准中维度的使用和应用,每个维度都会用一个虚拟学校场景中的示例来说明。数据质量管理标准的6个维度数据质量维度完整性一致性唯一性有效性及时性准确性数据质量管理标准的使用方法Q:如何使用数据质量管理标准?A:企业根据其业务背景、要求、风险水平等,选择相关的数据质量维度和相关的维度阈值。请注意:每个维度可能有不同的权重,为了获得数据质量的准确度量,企业需要确定每个维度对整体数据质量的贡献程度。典型的数据质量评估流程明确对象选择维度定义阈值实施评估审查结果采取措施定期重复课程目录1.数据质量概述2.数据质量管理标准2.1数据完整性2.2数据唯一性2.3数据及时性3.数据清洗技术4.数据规约5.数据变换2.4数据有效性2.5数据准确性2.6数据一致性完整性维度完整性定义存储的数据中,“100%完整”的数据比例大小参照物具体业务规则定义的“100%完整”度量对非空值(null或空字符串)的度量范围任何数据项、记录、数据集或数据库中,需要评估的关键数据度量单位百分比%相关维度有效性、准确性必要性如果某个数据项是强制性要实现100%的完整性,需要进行有效性和准确性检查,以确定该数据项是否已正确完成完整性维度完整性案例学校要求新生家长填写一份表格,里面要填写学生的医疗状况和紧急联系电话,还有学生的姓名、地址和出生日期。到学期的第一周结束的时候,对表格中的“紧急联系电话”这个字段进行完整性度量。学校有300名学生,在300个潜在记录中有294个记录被填写,因此,联系人表中的此数据项已达到294/300x100%=98%的完整性。备注首先测量关键数据的完整性非关键数据的不完整性对业务可能无关紧要课程目录1.数据质量概述2.数据质量管理标准2.1数据完整性2.2数据唯一性2.3数据及时性3.数据清洗技术4.数据规约5.数据变换2.4数据有效性2.5数据准确性2.6数据一致性唯一性维度唯一性定义任何事物都不会被记录超过一次参照物同一个数据来源中的相同数据项,或其他数据来源中的相应数据项度量对现实世界中的事物数量与数据集中的事物记录数量的比较现实世界中的事物数量可以通过不同的、更可靠的数据来源来确定范围单个数据集中的所有记录度量单位百分比%相关维度一致性必要性视具体的业务情况来判断是否需要满足唯一性唯一性维度唯一性案例一所学校现有500名在校生。但学生数据库显示了501份不同的学生记录。其中两条记录除了名字王圆圆和王源源不同外,其他字段如住址、联系方式等全部相同,可能是将该学生使用了曾用名。这表示唯一性为500/501x100=99.8%备注唯一性评估的反面就是重复值评估课程目录1.数据质量概述2.数据质量管理标准2.1数据完整性2.2数据唯一性2.3数据及时性3.数据清洗技术4.数据规约5.数据变换2.4数据有效性2.5数据准确性2.6数据一致性及时性维度及时性定义数据在所需要的时间点反映现实的程度参照物被记录的事物在真实世界中发生的时间点度量时间差范围任何数据项、记录、数据集或数据库度量单位时间相关维度准确性(随时间流逝必然降低)必要性根据业务需要选择及时性维度及时性案例在2013年6月1日,学生张小七提供了紧急联系人的相关信息随后学校的管理团队于2013年6月4日将其输入学生数据库从提交信息到录入数据库,中间延迟了3天备注由于时间对静态和动态记录的作用不同,每个数据集的易失性和非易失性数据的比例也不同及时性缓慢渐变维度(SlowlyChangingDimension)

静态数据:比如某人的出生日期、出生地点等动态数据:人的年龄、住址、体重、联系方式,商品的价格等信息如果一个数据在t时刻是准时的,则说明该数据的值在t时刻是正确的。如果一个数据在t时刻是过期数据,说明该数据的值在t时刻是不正确的,但它在t时刻之前的某一时刻是正确的。在业务数据库中,这些变化很自然的就会修改并马上反映到实际业务当中去。在数据仓库中,其数据主要的特征一是静态历史数据,二是不删除,三是定期增长,其作用主要用来数据分析因此分析的过程中对历史数据就提出了要求,有一些数据是需要能够反映出在周期内的变化历史,有一些数据却不需要。课程目录1.数据质量概述2.数据质量管理标准2.1数据完整性2.2数据唯一性2.3数据及时性3.数据清洗技术4.数据规约5.数据变换2.4数据有效性2.5数据准确性2.6数据一致性有效性维度有效性定义如果数据符合定义的语法(格式、类型、范围),则它是有效的参照物数据库、元数据或文档规则允许的数据类型(字符串、整数、浮点等)、格式(长度、位数等)和范围(最小值、最大值或包含在一组允许值内)等度量数据与元数据或文档之间的比较范围所有数据通常都可以进行有效性测量度量单位百分比相关维度准确性、完整性、一致性和唯一性必要性必要有效性维度有效性案例情景1:每一个班级都有一个主键,由教师姓名的首字母加上班级的两位数字组成(3个字母字符和2个数字字符)。新老师尉迟千玺姓名是4个字,需要想办法如何表示四个首字母,否则数据库将拒绝“YCQX09”的类标识符。决定是去掉姓中的第二个字符“C”:“YQX09”,但这可能会破坏准确性。一个更好的解决方案是修改数据库规则,接受2或4个首字母。情景2:入学申请表上记录了小学和初中生的入学年龄记录,规定需要在4到11之间。假设记录为14或N/A,将被视为违反有效性。课程目录1.数据质量概述2.数据质量管理标准2.1数据完整性2.2数据唯一性2.3数据及时性3.数据清洗技术4.数据规约5.数据变换2.4数据有效性2.5数据准确性2.6数据一致性准确性维度准确性定义数据正确描述“真实世界”对象或事件的程度参照物实际情况或者权威数据度量数据在多大程度上反映了真实对象的特征范围任何数据项、记录、数据集或数据库中保存的对象或事件度量单位百分比相关维度有效性(数据必须有效,才能准确)必要性必要准确性维度准确性案例一所欧洲学校正在接受每年9月入学的申请,要求学生在入学年度的8月31日前达到5岁。在这种情况下,一个美国家长在申请表上填写出生日期(D.O.B),采用的是美国日期格式,即MM/DD/YYYY,而不是欧洲的DD/MM/YYYY格式,导致日期和月份的表示被颠倒。所以,学生的生日实际上是9月8号,在8月31日前未满5岁。但家长填写了09/08,而学校认为这个日期代表的是8月9号,因此学生被录取了。虽然在美国,这个日期数据是有效的,但是在欧洲,这个数据会导致年龄的错误推导,因此记录在这个申请表中是不准确的。课程目录1.数据质量概述2.数据质量管理标准2.1数据完整性2.2数据唯一性2.3数据及时性3.数据清洗技术4.数据规约5.数据变换2.4数据有效性2.5数据准确性2.6数据一致性一致性维度一致性定义同一个事物的多条记录之间是否有区别参照物同一个数据来源中的相同数据项,或其他数据来源中的相应数据项度量模式分析范围多个数据集,评估事物的数值或格式度量单位百分比相关维度有效性、准确性和唯一性(在有效性或准确性不满足的情况下,仍然可能满足一致性)必要性视具体业务情况一致性维度一致性案例学生的出生日期在学校登记册中的值和格式,与存储在学生数据库中的值和格式相同。数据质量的其他维度理解和管理这六个维度至关重要,然而还有其他因素会对数据的有效使用产生影响。数据的可用性:它是可理解的、简单的、相关的、可访问的、可维护的,并且在正确的精度水平上吗?数据的时间问题(超出及时性本身):它是否稳定而且能对合法的更改请求作出及时响应?数据的灵活性:它是否与其他数据具有可比性和兼容性,它是否具有有用的分组和分类?它能被重新调整用途吗?它容易操作吗?对数据的信心:数据治理、数据保护和数据安全是否到位?数据的可靠性如何?是可验证的,还是已经被验证的?数据的价值:数据是否有良好的成本/效益案例?它是最佳使用吗?是否危及人身安全、隐私或者企业的法律责任?它是否支持或抵触企业形象或企业信息?课程目录1.数据质量概述2.数据质量管理标准3.数据清洗技术3.1重复值清洗3.2缺失值填充3.3异常值发现与修复4.数据规约5.数据变换数据清洗流程数据清洗数据探查问题评估实施清洗数据探查定义对数据内容进行系统化的探查、统计和记录。内容获取相关的元数据数据粒度、数据类型、值范围、离散值及其频率、方差、唯一性、空值的个数、典型的字符串模式(例如电话号码的模式)和业务规则等作用描述了数据的结构、内容、规则和关系的概况,获得对数据和环境的了解,是变被动为主动地改善数据质量的第一步。问题评估假设业务部门需要了解在2016年,单身人群与结婚人群的消费金额对比缺失数据量不大的时候,通常不影响客户画像类型的分析,或影响轻微。假设业务部门需要为单身人群量身定做一套促销方案缺失数据导致促销方案中的有效客户数量下降,对促销有一定影响。假设业务部门需要上线一套客户个性化推荐的服务,其中婚姻状况是主要考量因素缺失数据导致部分顾客无法享受该服务,对业务有绝对的影响。名姓城ID省ID地址城市2016年消费邮编收入婚姻元组1小二阮44131江城路杭州¥200031001460K未婚元组3小七张01908之江路杭州¥300031000190KNULL元组5成功李01908之江路南京¥500031000150KNULL元组6建国赵04131江城路大连¥400028001280K结婚实施清洗查看表和列的设计信息,并进行统计分析,与元数据对比;使用正则匹配语句,探查数据取值是否符合定义好的格式。冲突解决:定义标准元数据——定义转换规则(创建Map表)——转换数据IDGENDERAGEHEIGHT1M361762F271623F491744M16165IDGENDERAGEHEIGHT1136176222716232491744116165BMXBHFSG30001女YH5’3”2987男YH5’9”9527男WH5’4”101女YH5’7”BMXBHFSG300012YH16029871YH17595271WH1631012YH170customerskhods_customersods_khSrc_valueStd_idM1F2女2男1map_gendermapheight公式round(x*12+y)*2.54,0)课程目录1.数据质量概述2.数据质量管理标准3.数据清洗技术3.1重复值清洗3.2缺失值填充3.3异常值发现与修复4.数据规约5.数据变换重复值清洗重复值的清洗需要在冲突解决之后进行(保证有效性之后)先单源后多源重复值清洗流程匹配合并清除实例匹配问题(instance

matching)简单情况:精确匹配 最简单的情况是根据主键或者其他独特的属性,直接匹配重复值 稍复杂一点的情况是在单个数据集中,对主键或者独特属性进行排序,检查相邻记录的其他属性是否重复重复值清洗实例匹配问题(instance

matching)复杂情况:模糊匹配基于匹配规则:根据业务规则声明某些属性列相同时为重复值,或者利用自定义函数(UDF)匹配计算相似度,设置阈值:0-1,不同属性可能对整体相似度贡献不同的权重字符串匹配:基于通配符、字符频率、编辑距离、键盘距离和语音相似性长文本匹配基准方法:简单word2vec嵌入、GloVe嵌入词移距离:

使用两文本间的词嵌入,测量其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离。SIF(SmoothInverseFrequency)预训练编码器重复值清洗编辑距离(EditDistance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少单字符编辑操作次数。编辑操作有且仅有三种,插入(Insertion)、删除(Deletion)和替换(Substitution)。一般来说,编辑距离越小,两个串的相似度越大。如何计算编辑距离呢?譬如,"kitten"和"sitting"这两个单词,由"kitten"转换为"sitting"需要的最少单字符编辑操作有:kitten→sitten(substitutionof"s"for"k")sitten→sittin(substitutionof"i"for"e")sittin→sitting(insertionof"g"attheend)因此,"kitten"和"sitting"这两个单词之间的编辑距离为3。重复值清洗编辑距离(EditDistance)Python实现方法安装计算编辑距离的模块:pipinstallpython-LevenshteinimportLevenshteinprint(Levenshtein.distance("cape","cat"))texta=

u'艾伦图灵传'textb=

u'艾伦•图灵传'print(Levenshtein.distance(texta,textb))重复值清洗简单清洗常用方法:使用distinct

/

groupby/开窗函数row_number()去除重复记录开窗函数Row

number

():

select*,

row_number()over(partitionbynameorderbyagedesc)asrn

from${t1};

select*

from${t1}

wherern=1;课程目录1.数据质量概述2.数据质量管理标准3.数据清洗技术3.1重复值清洗3.2缺失值填充3.3异常值发现与修复4.数据规约5.数据变换缺失值填充数据的缺失一般是指观测的缺失和观测中变量值的缺失,两者都会造成分析结果的不准确。缺失的观测会导致由样本数据推断出的总体数据的性质和特点出现偏差。缺失的数据可能会对数据分析的结果产生误差,从而使样本数据不能很好地代表数据总体。识别缺失的数据:在SQL中,缺失的数据通常以Null或空字符串表示(探查每一个列是否有空值或空字符串)识别缺失的观测:一般可以通过数据统计中的记录值和唯一值进行评估。例如,网站日志日访问量平时记录的值在1000左右,突然某一天降到100了,需要检查一下数据是否存在缺失了。再例如,网站统计地域分布情况的每一个地区名就是一个唯一值,我国包括了32个省和直辖市,如果统计得到的唯一值小于32,则可以判断数据有可能存在缺失。包括探查维表内是否包含事实表所有主键。缺失值填充处理缺失值常用方法:删除使用最可能的值填充缺失值,包括使用一个全局常量(NULL统一由-1代替,代表未知)使用统计值(均值/极值/众数等)使用拟合值(通过模型或者规则拟合,得到“最应该”填的值

)ods_customersIDGENDERAGEHEIGHT11361762227NULL32NULL164411616551231806NULL31159…………ods_customersIDGENDERAGEHEIGHT113617622271623227164411616551231806-131159…………课程目录1.数据质量概述2.数据质量管理标准3.数据清洗技术3.1重复值清洗3.2缺失值填充3.3异常值发现与修复4.数据规约5.数据变换异常值发现与修复异常值在统计学上的全称是疑似异常值,也称作离群点,异常值的分析也称作离群点分析。异常值是指样本中出现的“极端值”,数据值看起来异常大或异常小,其分布明显偏离其余的观测值。异常值分析是检验数据中是否存在不合常理的数据,在数据分析中,既不能忽视异常值的存在,也不能简单地把异常值从数据分析中剔除。重视异常值的出现,分析其产生的原因,常常成为发现新问题进而改进决策的契机。简单统计量分析3σ原则箱型图分析异常值发现与修复简单统计量分析:对变量做一个描述性分析,进而查看哪些数据是不合理的。常用的统计量是最大值和最小值,用来判断变量的取值是否超出了合理的范围,例如,客户年龄的最大值是199,该取值就存在异常。3σ原则:如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布下,距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)<=0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。箱型图分析:异常值通常被定义为小于QL-l.5*IQR或者大于QU

+1.5*IQR的值,QL称为下四分位数,QU称为上四分位数,IQR称为四分位数间距,是QU上四分位数和QL下四分位数之差,其间包括了全部观察值的一半。异常值发现与修复修复案例常用方法:用业务规则制定的极值代替。例:假设已知价格的上限为1000元数据质量的长期保持数据质量的保证仅靠技术显然是不行的。实际上,在整个数据质量的控制过程中,人仍然是关键因素。要想真正长期保证数据的高质量,还必须从以下5个方面着手:建立数据的标准,明确数据的定义(权衡企业内外部因素,即习惯和质量)。建立一个可复用的数据收集、数据预处理和数据维护流程(应对不断变化的企业内外部因素)。在数据预处理流程中设立多个性能监控点(评价标准:最终用户、同类数据、前期数据等)。对流程不断进行改善和优化(质量改善非一朝一夕,而是持续过程,要灵活变通)。把责任落实到人(制定数据采集、存储、集成、分析等各项活动的质量指标)。课程目录1.数据质量概述2.数据质量管理标准3.数据清洗技术4.数据规约5.数据变换数据规约数据规约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量,主要包括维度规约(从列的角度筛选数据)和数量规约(从行的角度筛选数据)两种方法。维度规约(DimensionalityReduction):减少所需自变量的个数。小波变换(WT)、主成分分析(PCA)、特征集选择(FSS)数量规约(NumerosityReduction):用较小的数据表示形式替换原始数据。参数化:回归模型、对数线性模型等非参数化:直方图、聚类、抽样等数据规约的意义:降低无效、错误数据对建模的影响,提高建模的准确性少量且具代表性的数据将大幅缩减数据挖掘所需的时间降低储存数据的成本数据规约:维度规约小波变换(WaveletTransform,WT)小波变换是由傅里叶变换(FFT)发展而来的。在数据规约中,对数据进行小波转换后截断数据,保存最强的小波系数,从而保留近似的压缩数据。主成分分析(PrincipalComponentAnalysis,PCA)PCA通过寻找原自变量的正交向量,将原有的n个自变量重新组合为不相关的新自变量。当数据中存在的自变量个数过多,或者自变量之间存在相关性时,可以考虑使用PCA的方法重构自变量。PCA能更好的处理离散数据,而WT更适合高维度数据。数据规约:维度规约特征集选择(FeatureSubsetSelection,FSS)特征选择时通过删除不相关或冗余的属性来减少维度与数据量。其目的是:定位最小属性集,使得数据的概率分布尽可能接近使用所有属性得到的原分布,简单说,就是从全部属性中选取一个特征属性子集,使构造出来的模型更好。特征集选择的步骤建立子集集合、构造评价函数、构建停止准则、验证有效性特征集选择的方法合并属性、逐步向前、逐步向后、决策树数据规约:数量规约参数化数据规约可以用回归模型与对数线性模型来实现。回归模型:对数值型的数据,可以用回归的方法,使之拟合成直线或平面。在简单线性回归中,随机变量y可以表示为另一个随机变量x的线性函数。通过最小二乘法可以定义线性函数方程。在多元线性回归中,随机变量y可以用多个随机变量表示。对数线性:如果想分析多个分类变量间的关系,对多个分类变量间的关系给出系统而综合的评价,就可以采用对数线性模型。常见的逻辑回归就是对数线性模型的一种。对数线性模型中的Logit过程如果用来分析自变量与因变量的交互项的话,其实是逻辑回归模型的结果。只不过对数线性模型显示的是属性之间的相互关系,并不需区分Y与X。数据规约:数量规约非参数化数据规约可以用直方图、聚类、抽样来实现。直方图:直使用分箱来近似数据分布,是一种流行的数据规约形式。用直方图规约数据,就是将bin的个数由观测值的数量n减少到k个。从而使数据变成一块一块的呈现。bin的划分可以是等宽的,也可以是等频的。聚类:将数据元组(即记录,数据表中的一行)视为对象,它将对象划分为簇,使一个簇中的对象相互“相似”,而与其他簇中的对象“相异”。在数据规约中,用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合数据的分布性质。数据规约:数量规约抽样(Sampling)简单随机抽样:每个样本被抽到的概率相等,随机从总体中获得指定个数的样本数据等距抽样:也叫系统抽样,样本按某种顺序排列后,随机抽取第一个样本,然后顺序抽取其余样本分层抽样:总体由不同类别(层)的记录组成,按照类别的组成比例抽取样本的方法整群抽样:也叫整体抽样,将总体分成多个互不交叉的群,随机的抽取若干个群其他抽样方法连续抽样:先抽样,基于样本分析,根据分析结果决定要不要继续抽样多阶段抽样:抽样分阶段进行,每个阶段使用的抽样方可以不同bootstrap重抽样:样本量不足时,有放回的重复抽样课程目录1.数据质量概述2.数据质量管理标准3.数据清洗技术4.数据规约5.数据变换数据变换数据变换:对数据进行变换处理,使数据更适合当前任务或者算法的需要。使用简单函数进行变换方根和乘方对数变换和指数变换差值和比例数据规范化归一化z-score标准化小数定标规范化数据离散化分类变量离散化连续变量离散化数据变换:简单函数简单函数变换:使数据符合某一分布,或使计算变简单方根和乘方对数变换和指数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论