数据仓库基础知识.ppt_第1页
数据仓库基础知识.ppt_第2页
数据仓库基础知识.ppt_第3页
数据仓库基础知识.ppt_第4页
数据仓库基础知识.ppt_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库基础知识,安徽国税信息中心 赵为民,数据仓库基本概念,数据仓库技术产生的背景 什么是数据仓库技术 数据仓库技术组成 数据参考参考架构 数据仓库的建设步骤,信息技术发展的几个阶段,1960s:数据采集、数据库创建阶段 集中于原始文件的处理 层次数据库和网状数据库 1970s:关系数据库系统 关系数据模型和关系数据库管理系统 E-R模型、sql语言、查询处理和优化、OLTP(恢复和并发技术) 1980s:高级数据库管理系统 面向对象数据库、对象关系数据库、主动数据库、空间数据库等 数据挖掘技术 1990s:数据仓库、联机分析处理和数据挖掘 数据仓库、联机分析处理和数据挖掘、多媒体数据库、w

2、eb数据库,现有数据库系统分析,on-line transaction processing联机事务处理系统(OLTP)也称为面向交易的处理系统 基本要求是顾客的原始数据可以立即传送到主机进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(Real time System)。 衡量的重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。 主要支持如下业务: 一笔存款(一张存款单) 一笔转帐(一张转帐单) 一笔登记信息(一张登记信息表),现有数据

3、库系统分析,OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。OLTP 数据库通常具有以下特征:支持大量并发用户定期添加和修改数据。 反映随时变化的单位状态,但不保存其历史记录。 包含大量数据,其中包括用于验证事务的大量数据。 具有复杂的结构。 可以进行优化以对事务活动做出响应。 提供用于支持单位日常运营的技术基础结构。个别事务能够很快地完成,并且只需访问相对较少的数据。OLTP 系统旨在处理同时输入的成百上千的事务。,税务信息化建设现状,在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为税务发展作出了巨大贡献 各类信息系统大多属于面向事务处理的OLTP系统 信

4、息系统多年运行,积累了大量的数据 数据是一种宝贵的资源,但没有充分发挥作用 管理决策层对数据分析基础平台的需求日益强烈,数据仓库基本概念,数据仓库技术产生的背景 什么是数据仓库技术 数据仓库技术组成 数据仓库参考架构 数据仓库的建设步骤,什么是数据仓库,数据仓库是作为决策支持系统(DSS)服务基础的分析型数据库,它用来存放大容量的只读数据,为制定决策提供所需的信息。 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 bill inmon,数据

5、仓库的特点,面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。 集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 相对稳定的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 反映历史变化 数据仓库中的数据通常包含历史信息,系统

6、记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。,数据仓库是完全不同的数据库系统,OLTP系统,数据仓库/决策分析系统,金税二期,CTAIS,办公自动化,出口退税,财务系统,高度 汇总数据,轻度 汇总数据,当前 详细数据,过去 详细数据,分析型CRM,业务指标分析,数据集市,5-10 年,数据仓库的内容和应用,1. 日常报表 2. 即席查询 3. 分析 4. 专题应用 5. 混合DSS/数据挖掘,Administration,1 2 3 4 5,数据仓库应用类型,应用价值,时间,税务数据仓库应用,税务决

7、策支持主要针对:税收业务、行政管理两个方面。,税务数据仓库应用业务查询,税务数据仓库应用执法监督,税务数据仓库应用业务分析,税务数据仓库应用预测,为什么要建立数据仓库,目前数据应用存在的问题: 数据存放较分散,异构环境不易进行统一的查询访问。 源于事务处理的数据存储模式不能满足现有的需求。表现在: A、决策层需要的信息往往涉及到大量的计算、比较、分析。同时需要对结果从各个维度观察,功能上要可以旋转、切片、钻取。而在操作型的海量数据库中,一个简单的统计就需要等待很长的时间。效率十分低下。多维分析无法在面向事务的数据库中进行 。这极大地限制了数据利用工作的深入开展。,为什么要建立数据仓库,源于事务

8、处理的数据存储模式不能满足现有的需求。表现在: B、场景无法再现。这也是事务处理不储存历史数据,不存储变更信息的原因。同样的一条sql语句。在不同的时间点上运行。结果不同。 C、现有的查询展现方式单一,分析人员很难随时按自己的分析需要得到结果。编程人员需要在数据展现上做大量的工作。 D、报表制作费时费力。 E、信息中心信任危机:,为什么要建立数据仓库,数据与信息的鸿沟扩大 业务人员在需要的时候得不到信息,或者得到的信息不准确,领导获取信息的能力也没有提高,仍然是通过传统的方式要数据、要报表、要结果,数据与信息的鸿沟不断扩大。,数据仓库的作用和意义,作用: 对已采集的数据进行简单加工,为领导层提

9、供真实可靠的信息,以全面了解税务管理状况; 为工作制度的建设提供真实的现状和优化的策略; 通过数据信息的应用,拓宽管理者的视野,挖掘领导者的思维深度,改原经验决策为科学决策; 辅助领导者的思想和决策更具前瞻,通过科学预测对未来进行准确的定位。 税务:打击偷税漏税?调整税务策略?制定征收计划? 个税起征点提高 选案分析 核定应纳税额,数据仓库的作用和意义,作用: 帮助企业对已有数据进行归纳分析,总结过去的规律,并在此规律的基础上进行挖掘利用,预测未来的发展,指导企业经营和发展。 将企业数据快速转换为经济价值。 零售业:啤酒+尿布 银行:哪些客户是我的重点客户?如何防止客户流失? 电信:营销效果分

10、析?如何防止欺诈?,数据仓库基本概念,数据仓库技术产生的背景 什么是数据仓库技术 数据仓库技术组成 数据仓库参考架构 数据仓库的建设步骤,数据仓库的组成,数据存储 数据仓库的存储是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操作型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。 ETL数据抽取 把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)和SQL语句等,以访问不同的数据。数据转换都包括,删除对决策应用没有意义的数据段;转

11、换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。,数据仓库的组成,联机分析处理(On-LineAnalyticalProcessing,简称OLAP) Codd提出OLAP的12条准则来描述OLAP系统: 准则1 OLAP模型必须提供多维概念视图 准则2 透明性准则 准则3 存取能力推测 准则4 稳定的报表能力 准则5 客户/服务器体系结构 准则6 维的等同性准则 准则7 动态的稀疏矩阵处理准则 准则8 多用户支持能力准则 准则9 非受限的跨维操作 准则10 直观的数据操纵 准则11 灵活的报表生成 准则12 不受限的维与聚集层次,数据仓库的组成,

12、结果展现 通过多样化的前端分析展示工具,实现对数据仓库中数据的分析 和处理,形成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识 。 数据集市 为了特定的应用目的或应用范围,从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。,数据仓库的组成,元数据 元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和业务元数据。 技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和

13、数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。 业务元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表; 元数据为访问数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。,数据仓库基本概念,数据仓库技术产生的背景 什么是数据仓库技术 数据仓库技术组成 数据仓库参考架构 数据仓库的建设步骤,数据仓库架构,业务系统,业务系统,ETL,数据仓库存储,结果展示,架构示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论