3《金税三期大集中模式下数据质量专题报告》_第1页
3《金税三期大集中模式下数据质量专题报告》_第2页
3《金税三期大集中模式下数据质量专题报告》_第3页
3《金税三期大集中模式下数据质量专题报告》_第4页
3《金税三期大集中模式下数据质量专题报告》_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、金税三期工程大集中模式下数据质量专题报告汇报人:总体规划设计工程组1目 录其他解决途径金三规划针对性设计数据质量问题分析 现有应用数据质量问题 全国集中模式下的焦点 数据质量问题分析与应对数据质量概述数据质量:在操作、决策制定和规划中与预期使用相符,高质量的数据是精确的、一致的和及时可用的数据,是当今组织管理不可缺少的一个因素 没有缺陷的数据可访问的、精确的、及时的、完整的各数据源的数据是一致的数据的特性数据是相关联的、全面的数据具有适宜的详细程度,易读和易解释 数据可信、可用,是数据质量的两个核心。可信是指数据在适用性、准确性、完整性、及时性和有效性方面,满足应用要求;可用是指数据的格式、内

2、容等能否被操作人员读取和使用,能不能很方便地进行深入处理和分析。可信就是数据的根本质量问题,需要通过采取管理手段、技术手段等各方面的努力来解决;可用是技术层面的问题,主要通过技术手段使数据标准化、格式化。 现有应用数据质量问题问题表达在数据的填写采集、管理维护、加工复制、系统应用四个环节 ,数据质量不佳,在准确性、完整性、一致性和及时性都有差距管理维护数据质量问题环节系统应用加工复制表单繁多,数据项口径复杂、多变、不清晰,易理解错误数据多头采集,人为造成数据冗余,录入错误数据项录入不校验,无统一规那么,易录错填写采集数据进入应用后,再后无审核,有错也不易发现前台不修改数据,后台人为修改,易改错

3、,或与相关数据不一致数据维护后无相关后续记录供查询、审计物化视图复制易发生错误,数据源DDL修改无法捕获,大字段无法复制数据仓库ETL过程易造成数据丧失、数据清洗时标准不一致,源表修改、源数据修改删除都不易捕获缺乏统一标准的业务口径,各应用、各模块计算公式和结果都不相同直接从数据库中获取,口径修改后,无法及时修改同步数据不全,缺少相关数据项,没有统一视图全国大集中模式下的数据质量焦点数据复制的实时性、一致性、完整性省局与总局数据保持一致性主数据复制库在各数据库中的一致性和实时性征管操作数据库之间的数据保持一致性和准确性渠道数据与征管核心数据保持一致性与实时同步数据质量问题分析数据质量问题共16

4、类,表达在业务、技术、管理三个方面,可总结为6大影响因素数据质量问题 业务管理技术数据多头重复采集,没有统一规划校验缺乏必要的监控管理的工具和手段缺乏统一和全面的纳税人数据缺乏系统的数据质量管理机制 系统开发和实施过程中无视数据质量缺乏科学、标准、完整的数据质量标准 数据质量问题数据质量度量标准完整性 实体、属性、记录、字段值完整及时性 数据复制、转换及时快速合法性 数据格式、值域、规那么等有效合法,数据语意口径合法标准性 数据效劳、业务口径等标准化一致性 系统间、应用内数据无差异准确性 数据值与标准值相符合数据质量问题分析缺乏数据模型全局数据模型和数据质量管理方法的欠缺是隐藏在数据质量背后的

5、真正问题缺乏可供各个开发团队在开发工作中遵循和参考的数据模型,包括数据源视图和数据流视图各个零散的开发工程中,数据的采集与引用根本依赖于开发团队对于现有信息系统的认知,容易产生数据调用源错误或建立重复数据源的情况,影响数据的一致性缺乏统一的数据标准和数据口径,在各个工程开发过程中,没有实施总体的数据管控数据质量问题分析缺乏数据质量管理数据质量管理,必须建立在闭环的持续改进根底上。税务目前未使用成熟的闭环数据质量管理方法来对数据的质量进行持续的监控和管理。系统中的垃圾数据得不到及时的清理,日积月累形成隐患。数据质量管理全面质量管理:全过程、全员、全组织。系统与人、技术与管理、内部与外部综合考虑。

6、强调建立质量管理体系。注重质量管理过程和方法。持续改进与不断完善。目 录其他解决途径金三规划针对性设计数据质量问题分析 数据质量问题的针对性设计 金三规划中数据质量的总结 未能解决问题的归类数据质量问题金三规划的针对性设计问题一:填写采集类,即表单繁多,数据项口径复杂、多变、不清晰,易理解错误利用知识库,提供填写口径解释,应用页面嵌入帮助信息,并提供样例业务 简并报表技术 辅助填写取消重复数据、可计算数据的采集简化口径复杂数据管理 税前辅导,税后审核进行有针对性的纳税辅导税后进行表单内容的审核校验,提炼问题形成知识库,补充纳税辅导内容业务创新应用人性化设计纳税效劳平台数据审核金三规划针对性设计

7、数据质量问题金三规划的针对性设计问题二和三:填写采集类,数据多头采集,人为造成数据冗余,录入错误;数据项录入不校验,无统一规那么,易录错推行电子报税、ERP接口,控制人为录错建立统一采集数据的指标体系,制定完整的校验规那么,控制数据项采集源头建立纳税人统一视图,防止数据重复采集技术 标准应用共享数据管理 数据审核全局管控进行采集数据项内容的审核,并用纳税人关系管理与纳税人建立反响沟通流程依据采集数据的指标体系,在各个应用系统开发过程中,进行数据管控,明确在哪个应用中采集哪些数据项数据标准纳税效劳平台数据共享数据管控金三规划针对性设计数据审核数据质量问题金三规划的针对性设计问题四六:管理维护类,

8、数据进入应用后无审核,有错也不易发现;后台人为修改,易改错,或与相关数据不一致;数据维护后无相关后续记录供查询、审计金三规划针对性设计设管理组织,建应用系统问题四六数据质量管理应用梳理数据质量管理相关的元模型和元数据管理方式,优化基于元数据的数据采集和检查框架,提供更直观、更方便、更快捷的采集和检查规那么部署能力,完善数据地图在采集和检查全局部署中的应用;提升对系统的各种实体的采集和检查能力,提供跨系统、多角度、从整体到细节的检查功能支持。在捕获指标异动的可疑数据方面,建立多角度波动检查、平衡检查、自动与人工稽核相结合的功能支持;建立标准化的数据质量评估功能,支持自定义评估模板和评估报告管理流

9、程,对数据源接口质量评估、数据质量问题发生和处理情况评估、一经接口质量评估等日常管理工作提供支持;建立数据质量申告平台,提供统一的数据质量问题入口,为跟踪问题处理情况提供管理功能;改进数据质量申告单各个环节的处理方式,提供申告单提交人与处理人的交互机制功能支持,提供各种情况下更加灵活的流程控制功能;建立业务与技术的交互渠道,将指标类数据质量信息的自动推送到业务前端,让业务人员了解所查看业务数据的数据质量情况,并对可疑数据提出反响信息或者提交申告单;完善数据质量知识库的管理和应用,改进知识总结和组织方式,提升数据质量管理各个环节的知识自动引用能力,实现更有效的数据质量知识积累和应用;问题四六数据

10、质量管理组织预期用户与系统的交互关系数据质量管理员配置采集点、检查规则,定义检查任务;管理采集点和检查任务的执行情况,监控数据质量自动检查结果;定期和不定期进行数据质量评估,提交数据质量评估报告;手工提交数据质量申告单;接收数据质量告警信息。应用系统运维人员接收数据质量告警信息;提取数据质量申告单进行处理;总结数据质量知识,提交到数据质量知识库;查看采集点、检查规则和检查任务的配置信息并提出意见和建议;查看数据质量评估报告。应用系统负责人查看数据质量评估报告;接收高级别的数据质量告警信息;查看数据质量明细信息。业务人员查看指标和报表的相关数据质量信息;查看指标和报表的相关数据质量报告;手工提交

11、数据质量申告单。数据质量问题金三规划的针对性设计问题七:数据复制类,物化视图复制易发生错误,数据源DDL修改无法捕获,大字段无法复制主数据数据一致性当期/近期之间总局/省局之间核心征管之间数据的一致性是指同一个数据在同一时刻只有一个值,如果数据没有重复、冗余,就不会出现不一致。如果是可控制的数据重复,那么就要确保在更新(增加、删除或修改)、复制、加工时的一致性数据一致性数据冗余处理生产/渠道之间同步复制实时性数据一致性的保障手段分析数据模型数据源数据引用/流向建立统一的数据模型,建立全局的数据对象视图建立主数据管理机制建立数据应用的统一规那么,建立业务指标体系,保证引用数据的准确性、无二义性数

12、据集成交易数据产生与维护交易数据的集成设计交易系统对应唯一的数据源,确保数据的准确获取提供平台化的数据集成,利用专业技术手段保障数据的一致性交易数据集中并融合为分析数据建立管理决策数据仓库,即单一数据源,统一建模,从根本上确保数据的一致性交易数据与分析数据严格遵循分库原那么,但采用同一套指标体系,业务口径保持一致融合各应用、各渠道数据,建立全局的统一视图,保证数据完整性金三规划设计分析角度数据一致性统一数据模型建立概念数据模型和全局性的数据对象视图。提供一个清晰的关于数据源和数据流的文档作为各模块开发的总体数据标准。针对业务需要的主要数据对象,建立全局性的税务信息/数据模型,即数据源与数据流的

13、视图在哪个系统产生,被哪些系统引用,作为“唯一数据源的指导数据一致性参考数据模型定义以纳税人为中心,前台业务以流程视角组织、后台业务以帐户和案件视角组织。过程和结果别离数据一致性参考数据流程纳税人税务机关产品产品计税规那么协议产品实例申报(订单)申报日程登记表税种认定票种认定申报表生成引擎申报表协议生成引擎结构化数据XML文档数据应用工作引擎账目(征收)计税引擎税票记账日程帐务(计会)记账规那么记账引擎记账凭证申报表校验引擎用户填报的申报表数据一致性主数据管理主数据定义为系统间的核心共享数据。 主数据由各单一应用系统产生解决了各系统/模块对数据源及引用关系理解不一致、数据采集与引用容易产生数据

14、调用源错误或建立重复数据源的情况,在各个模块中统一了核心数据,建立相应数据标准。 主数据逻辑独立,考虑存储小,内容大多来源于纳税人管理业务,因此物理主库与纳税人管理库共用一个库。 基于性能的考虑,主数据库在各个需要引用主数据的应用数据库,都存放一份镜像复制数据,同步频度为实时。纳税人根本信息:纳税人识别号、纳税人名称、登记注册类型等纳税人根底状态信息:纳税人登记状态、增值税一般纳税人资格、纳税人信用等级、防伪税控纳税人资格、出口退税纳税人资格、是否具有其它资格、定期定额征收、减免优惠标志、稽查案件未结、违法违章未处理等 共享代码主数据的内容数据一致性主数据物理分布主数据管理数据一致性主数据实现

15、机制如图所示,各系统间已与主数据库建立发布和订阅的实时数据同步。 某个业务系统触发对主数据的改动; 主数据管理系统将整合之后完整、准确的主数据分发给所有有关的应用系统; 任何系统在主数据库改动纳税人信息等主数据后,主数据库向其它系统传递新的纳税人信息等主数据。所有数据更新在实时的情况下进行。新的应用系统可以直接使用主数据库,获取完整全面的纳税人基本信息等主数据。并可以在主数据库中直接添加、修改数据,通过发布和订阅把修改数据传递给其它系统各系统间的纳税人基本信息等主数据实时地同步,保证了数据的完整和一致 纳税人根本信息 纳税人根底状态信息 代码数据复制一致性的分级设定大集中数据,以当期生产操作数

16、据为基准,设定为总局数据第一落地点,那么数据库需要与其保持数据的一致性第一级实时同步 Oralce GoldenGate,秒级复制主数据在各数据库中的同步复制;近期征管操作数据与当期征管操作数据之间即N+X与N之间的数据复制第二级定时同步Oralce GoldenGate标准ETL当期征管操作数据中的前台生产数据库与计会统数据库的复制设计为月总局近期征管操作数据中按省清分后,按需定期下发数据最小频度为天近期征管操作数据加载到统一视图和管理决策库设计为天第三级事件触发或定时同步 基于消息中间件内部传输平台省局大厅申报凭证类的数据省局遗留系统数据数据复制一致性的技术保障利用数据复制的专业工具,基于

17、CDC方式增量复制,高可靠性;关键性指标数据定时检测、校验,实时预警首先由Extract进行数据抽取,将变化数据存放到LocalTrail,然后通过DataPump将LocalTrail分发到RemoteTrail,最后由目标机器上的Replicat完成数据的更新操作。 采用配置多个DataPump的方式进行数据的分发,且每个Pump进程可以设置过滤条件,实现不同目标库,传递不同数据功能。 一对一复制一对多复制数据复制一致性的技术保障数据表类型Insert50000条记录执行轮次时间(秒)CPU占用率(%)源表执行sql源表抽取trail文件抽取复制源表抽取进程占用trail抽取进程占用源库平

18、均占用复制进程平均占用目标库平均占用有主键121320647114131322112263101101313无主键1112266283514132210246010261413数据表类型Update28134条记录执行轮次时间(秒)CPU占用率(%)源表执行sql源表抽取trail文件抽取复制源表抽取进程占用trail抽取进程占用源库平均占用复制进程平均占用目标库平均占用有主键115416414813215415514713无主键111124614102113222211275931227322数据表类型Delete28134条记录执行轮次时间(秒)CPU占用率(%)源表执行sql源表抽取tr

19、ail文件抽取复制源表抽取进程占用trail抽取进程占用源库平均占用复制进程平均占用目标库平均占用有主键116419826613216417616713无主键1181442982722321714421824223数据复制一致性的技术保障数据表类型Insert50000条记录时间(秒)CPU占用率(%)源表执行时间目标表执行时间源库平均占用源库最大占用目标库平均占用目标库最大占用有主键2411241018无主键23721716数据表类型Update28134条记录时间(秒)CPU占用率(%)源表执行时间目标表执行时间源库平均占用源库最大占用目标库平均占用目标库最大占用有主键11412517无主

20、键11616415数据表类型Delete28134条记录时间(秒)CPU占用率(%)源表执行时间目标表执行时间源库平均占用源库最大占用目标库平均占用目标库最大占用有主键11517715无主键24415514对于insert操作,有主键和无主键的表的同步时间以及对系统资源的消耗差异不大;对于update操作和delete操作,在表列数很多的情况下,无主键的表比有主键的说明显需要更多的时间才能完成数据同步。无论是有主键的表还是无主键的表,抽取任务对源库的影响都比较小;复制任务对目标库有一定的影响,复制无主键的表时,其影响比较显著。数据复制一致性征管应用之间数据复制一致性生产与渠道数据复制一致性生产

21、与分析数据复制一致性总局与省局数据复制一致性征管数据清分、下发数据复制一致性主数据清分下发主数据:代码、纳税人根本信息、纳税人根本状态数据复制一致性设计小结MQ消息国税与政府其它部门交换的数据实时数据库复制主数据库,复制到各个应用数据库中的只读库,1对N;总局复制到各个省局,也是1对N,但是需要进行数据清分保存N个月数据的生产数据库群,复制到N+X个月的统一查询机,N对1 定期数据库复制申报征收数据库中的纳税人原始完税凭证信息,定期每月一次复制到计会统数据库;ETL复制总局生产数据库到,分析性数据库,每天,同步频度低,有加工过程;总局到省局的数据分发,每天;效劳纳税人级的交易过程中,需要交互的

22、共享数据数据质量问题金三规划的针对性设计问题八:数据加工类,数据仓库ETL过程易造成数据丧失、数据清洗时标准不一致,源表修改、源数据修改删除都不易捕获利用CDC技术,实现变化数据的增量捕获、增量加工标准技术清洗规那么,对于清洗中过滤的数据,提供提示查询功能建分析数据模型,保存历史痕迹增加ETL过程中的正确性检验和异常处理机制业务 清洗规那么技术 变化捕获制定业务的清洗规那么、主数据原那么指定业务关键校验指标规那么引擎数据集成ETL工具数据审核金三规划针对性设计数据质量问题金三规划的针对性设计问题九十:系统应用类,缺乏统一标准的业务口径,各应用、各模块计算公式和结果都不相同,直接从数据库中获取,

23、口径修改后,无法及时修改同步各类业务对象的统一视图管理决策数据仓库数 据 模 型指 标 模 型数据效劳数据封装分析决策类应用的数据集市分析决策类数据架构建立指标体系,统一业务、技术口径,口径标准化、标准化指标体系,业务制定,技术量化,管控全局管理与推广建数据标准效劳,架起应用与数据仓库交互的桥梁屏蔽因数据模型变动对上层应用的影响基于指标体系,进行数据封装建指标体系,进行数据效劳封装问题九十构建指标体系内容指标体系的目标是明确指标分类、命名、定义、口径说明、数据映射等内容,建立有效的维护与管理机制,标准数据采集、管理,并对外提供数据唯一性接口问题九十数据效劳封装 建立数据抽象层,有效实现效劳功能

24、业务逻辑与数据支撑逻辑的别离 标准化数据效劳访问接口,降低数据依赖,促进信息共享和应用重用; 提供多种交换模式深化应用间互动,提高数据访问的开放性和灵活性,有效支撑信息穿越 对数据效劳进行有效管理,提供包括效劳注册/查找、平安等效劳 提供高实时性数据效劳,满足特殊应用需求。数据封装是建立应用与数据之间的标准化访问原语,采用XML作为数据交互的组织方式,有效封装内部数据处理逻辑,降低应用对数据结构的依赖,提升应用的可扩展性和可重用性。数据效劳以SOAP或WS等方式封装,提供同步、异步、订阅消息交换模式数据质量问题金三规划的针对性设计问题十一:系统应用类,数据不全,缺少相关数据项,没有统一视图,取数麻烦分析结果查询效劳 统一视图查询效劳 数据统一视图法人视图管理认定数据发票业务数据违法违章数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论