数据质量管理系统应用.docx_第1页
数据质量管理系统应用.docx_第2页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据质量管理系统应用特征码oogrfbptgtmjwakurggw 数据质量管理系统应用 -生活篇最近在看关于综合分析数据质量管理规范的时候,结合实际生活当中的例子。在这里说出来,可以讨论一下。这里主要是指标值数据质量的管理:1:数值检查个可以和我们固定的阈值检查结合起来,即通过检查单个指标的数值和阈值的比较发现指标的异常和变动的情况。这个就是固定阈值的一种情况。比如当地铁离近站只有4分钟的时候,地铁旁边的灯会一直闪烁。地铁离开车只有一分钟要关门的时候,就会告警即将开车。以免突然开车造成人的伤害。2:波动检查:一般就是同比波动的检查和环比波动的检查。先计算指标的同比或环比波动率,然后与预订的波动率上下限(阈值)进行比较。这个就是范围阈值。例如昨天公交车上有一条新闻就是重庆目前一小时之内公交车换成免费。那么这一个小时之内就是一个范围阈值,只要在一个小时之内不收钱,即什么也不做,但是当超过一个小时之后就要收钱。那么我们这里就需要告警。3:还有一种日常当中常用的就是动态阈值比如我们乘坐地铁的时候根据路程的不同地铁价格不同。以及依照路程计价的公交车也一样,路程不同,价格不同。本质上都是乘坐地铁或者公交,但是由于距离问题因此价格不同,比如收入指标阈值制定的时候,比如不同的地市,在同一时间维度阈值是不同。比如经济发达地区应该制定高一点,经济欠发达地区制定低一点。4:指标之间的关联检查,比如我们常说的同增同减关联关系,还是以地铁为例,路程增加了,那价格相应就增加了。比如我们理论上我们的用户数增加了,那么收入应该有所增加。但是有时候反而用户量增加了,收入却下降了。 增加的用户数比丢失的用户数多因此整体上用户量增加了。但是增加的用户量都是一些劣质用户,而丢失了一部分高端用户。从而导致用户数增加,收入下降的局面。5:指标平衡检查:对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间潜在的平衡或其他比较关系。比如有些指标日指标汇总应该与月指标的值平衡。当发现数据出现异常的时候,首先先分析一下,是不是一些因素导致指标的变化,比如节假日,周末,市场营销策略,以及外部的一些政策对指标造成的变化,然后再查看是不是真的是数据质量的问题,以及源接口数据的问题。数据质量管理系统-理论篇数据质量管理系统:一:从以下5个方面对数据的质量进行管控1:及时性:数据获取是否及时,主要指数据提取、传送、转换、加载、展现的及时性。在数据处理的各个环节,都会涉及到及时性。我们一般考虑两个方面第一就是接口数据是否 能够及时的抽取过来。第二就是展现层能否及时的展现出来。2:完整性:是指数据是否完整,描述的数据要素,要素属性及要素关系存在或不存在,主要包括实体缺失、属性缺失、记录缺失以及主外键参照完整性的内容。3:一致性:第一就是原始数据即文件接口和入库的数据记录条数是一致的。第二就是同一指标在任何地方都应该保持一致。4:有效性:描述数据取值是否在界定的值域范围内,主要包括数据格式、数据类型、值域和相关业务规则的有效性。5:准确性:主要是指指标算法、数据处理过程的准确性。这个准确性主要是通过元数据管理中定义的指标的算法、数据处理顺序和人工检查相结合的方式来保证。二:数据仓库中需要进行质量管理的数据分类1:接口数据:接口数据是整个数据仓库的生命的起点,如果接口数据有问题的话会严重影响数据仓库后面的报表以及分析结果。 接口数据分为两种情况:文件接口和数据库接口 文件接口方面:一方面是接口内容本身的数据质量问题:文件传送及时率。文件内容有效性。文件传递的完整性 一方面是文件接口采集程序的监控:文件接口采集程序是否正常启动,正常结束等。 账期,接口名称,采集开始时间,采集结束时间,有效标志,接口及时率标志,接口完整性标志等。 这些可以通过查看接口运行日志来获取相关信息情况。 数据库接口方面:数据库接口参考文件接口部分。 2:数据仓库层面的数据:关键包括两个方面的内容数据处理过程执行情况和关键指标检查 第一:数据处理过程监控:监控所有的数据处理过程十分按时调度,是否成功。这些可以通过查看数据处理过程日志表来获取相关信息 第二:关键指标的检查:指标检查主要包括两个方面: 首先是基础指标的检查:数值检查:主要是通过检查单个指标的数值来发现指标的异常和突变等情况。这里需要设置相应的阀值来进行。 这里需要考虑周末、节假日以及一些外部因素对指标的影响。因此指标异常并不一定是数据的问题。 波动检查:主要是同比或者环比的检查。先计算指标的同比或环比波动率,然后与预定的波动率上下限(阈值) 进行比较。需要考虑周末、节假日及一些外部因素对指标的影响。因此指标异常不一定是数据的问题。 关联检查:对两个存在关联关系的指标(如同增、同减正关联关系),分析变化和波动情况。 比如用户量和话务量 以及用户量和收入之间的关联分析。用户量增加了。应该收入有所增加。但是有时候反而用户量增加了,收入却下降了。 增加的用户数比丢失的用户数多因此整体上用户量增加了。但是增加的用户量都是一些劣质用户,而丢失了一部分高端用户。从而导致用户数增加收入下降的局面。 平衡检查:通过对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间潜在的平衡或其他比较关系。比如收入-支出=利润。这三者之间的平衡。 日指标汇总与月指标的平衡检查等。 其次加权波动检查:通过对单个指标的基础检查结果和影响因素的加权计算分析,综合检查指标的波动和变化情况。比如一个指标今天异常的 超出了范围,我们首先应该加上一些外部的因素比如制定了相应的优惠政策以及节假日然后对其进行分析。分析得出该结果是正常的。因此当指标异常的时候我们不能首先就判断该指标数据质量有问题,应该先分析一些外部因素对其的影响。然后再考虑是否确实是数据质量的问题。 三:数据质量处理流程问题生成-问题分析-问题处理-问题总结每个处理流程都针对于后台相应的表已经相应的处理过程问题生成部分:我们应该监控接口的日志信息,数据仓库部分各个处理过程的日志信息以及指标的检查相关过程。问题分析部分:将发生的问题进行归类,将同一类的问题进行集中分析。问题分析的时候会用到元数据管理部分的一些分析方法比如:血缘分析,影响分析、数据映射分析等。问题处理部分:结合系统后台提前准备的问题处理流程,对相应的问题采用相应的处理流程来解决该问题。问题总结:当问题处理结束之后,我们要对以前的问题进行汇总,并且对问题的解决方法也进行汇总,便于下次能够不出现这样的问题。或者出现问题之后能够很快的解决。因为我们已经有相应的问题解决方案。该处理流程是一个循环的过程。四:数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论