(计算机应用技术专业论文)有效时间不确定性的研究及基于tempdb的实现.pdf_第1页
(计算机应用技术专业论文)有效时间不确定性的研究及基于tempdb的实现.pdf_第2页
(计算机应用技术专业论文)有效时间不确定性的研究及基于tempdb的实现.pdf_第3页
(计算机应用技术专业论文)有效时间不确定性的研究及基于tempdb的实现.pdf_第4页
(计算机应用技术专业论文)有效时间不确定性的研究及基于tempdb的实现.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

有效时间不确定性的研究及基于t e m p d b 的实现 专业:计算机应用技术 硕士生:刘斌 指导老师:汤庸教授 摘要 自然界中任何事物都包含着时态属性。所有信息都隐式或显式地具有相应时 态特征。随着计算机应用技术的深入和发展,对时态信息显式处理需求越来越迫 切。时态数据库就是显式处理时态数据的重要数据库技术。 时态数据库在传统数据库的基础上增加了有效时间和事务时间。在时态数据 处理过程中,有一类基本的时态数据,其有效时间终点随着时间的演进而单调增 长,但事先不能够确定何时终止。处理这类时态数据的基本方法是引入有效时间 变量d w ,建立相应的变量数据库技术。0 w 作为变量在具体应用中形成了复 杂的不确定的时间语义。有效时间不确定性问题是时态数据库领域的一大难题, 对该问题的研究与探索有重要的现实意义。 与理论成果的繁荣相比,时态数据库技术实践则相对落后。时态数据库软件 的实现还处于探索阶段。在现有的时态数据库系统中,时态数据处理构件 t e = i i l p d b 是性能最优的典型代表,但其对有效时间不确定的支持仍存在缺陷。 本论文的主要工作和贡献是研究并总结了时态信息处理中的有效时间不确 定性,在时态数据处理构件t c :i i l p d b 实现中了实现对有效时间不确定性数据处 理的支持。首先,分析了引入时态变量的应用背景和由此产生的变量复杂语义; 其次,研究了由复杂语义带来的查询结果的时态不确定性问题、现有的处理模型 及其不足,然后建立了d w 复杂语义不确定性时态数据模型;最后,在时态数 据处理构件t 锄p d b 平台上实现了该模型,增强了r 釉p d b 对有效时间不确定 性数据处理的支持,用实验结果检验和表明了本文工作的合理性与实用性。 关键词:时态数据库;有效时间;时态变量;d w ;语义;不确定性:t e m p d b r e s e a r c ho nv a l i dt i m ei n d e t e r m i n a c ya n dr e a l i z a t i o n b a s e d0 n 1 b m p d b m 勾0 r :c o m u p t e ra p p l i e dt e c h n o l o g ) r n 锄e :l i u b i n s u p e i s o r :p r o f e s s o rt h gy o n g a b s t r a c t a n 蛐g i i lm en a t u r eh 鹊t e i l l p o r a la t t r i b u t e ,锄da l li n 向m l a t i o np o s s e s s 懿t i l e t 锄【p o r a lc h a r a c t 嘶s t i c si i n p l i c i u yo rc x p l i c i t l y w i ld e 印e 1 1 i n ga n dd e v e l o p m 舳to f c o m l m t e r 印p l i c a t i 衄t e c l l f l o l o 鼢恤d e m 锄d 衙t 锄p o r a li n f l 0 彻a t i o np r o c 鼯s i n gi s m o u r 蹦l t t 咖p o r a ld a t a b 嬲ei s 趾i 埘忡r t a n td a t a b 舔et e c l l i l o l o g yt oe x p l i c i t l y m a n a g et 既n p o r a ld a t 乱 b 雒o do n 仃a d i t i o n a ld a t a b 嬲懿,t e m p o r a ld a t a b 嬲e 水i d e dt l l ev a l i dt i m e 锄dt h e 舰邶a c 吐o nt i m e i i lt h et 曲叩o r a ld a l t ap r o c 髂s 访吕m e r ea r eac l a s so fb a s i ct 锄p o r a l d a 饥t l l a ti t s do fv a l i dt i m ei sm o n o t o n o u s l yi i 眦硒i n gw i mt i m ep r o l o n g e d ,锄d c 锄n o td e t 锄i i l ew h c i lt 0t 锄i 1 1 a t ei na d v 锄c e t 0d e a lw i ms u c ht 唧o r a lc l a 饥t l l e b 嬲i ca p p r o a c hi st 0 砷d u c eav a i l dt i m ev 耐a b l e d w ,觚dt 0e s t a b l i s hm e c 0 玎e s p o n d i n gv 撕a b l ed a t a b 髂et 础m o l o 夥a sav 耐a b l el l s e di n 印p l i c a t i o 邶, d w f o n n e dc o m p l e xi n d 酏e n l :l i n a t e t e m p o r a ls 锄锄t i c s t h ep m b l 锄o fv a l i dt i m e i i l d 酏黜i i l a c yi sah 锄g - u pi nt l l ed o m a i no ft 锄p o r a ld a ta _ b s e t h e r e f o r e ,r e s e a r c h e s 觚de x p l o r a t i o n so ni th a v ei m p o r t a i l tp r a c t i c a ls i 印i f i c a l l c e c o m p a r e dw i n lt l l ep r o s p e r i t i e so fm e o r e t i c a lr e s u l t s ,t h ep r a c t i c eo ft e m p o r a l d a t a b a s et e c h n o i o g yi s r c l a t i v e l yh a i l gb e h j n d t h ei m p l e m e n t a t i o no ft e m p o r a l d a t a b a u s es o 胁a r ei ss t i ni nt l l e e x p l o r a t o 巧p h 嬲e a m o n gt 1 1 ee x i s t i n gt e m p o r a l d a t l b a s e s y s t e m s ,细1 1 p o r 啦d a t a p r o c e s s i n gc o m p o n e n tt i 锄1 p d b i sat y p i c a l r 印r e s e i l t a t i v ew h i c hh a st 1 1 eb e s tp e r f 0 m a i l c e ,b u ti t ss u p p o r tf o rm ev a l i dt h e i 1 1 d e t e r m i n a c yi ss t i l l i n s u m c i 锄t t h em a i nw o r k 觚dc o n t 衲u t i o 衄o ft l l i sp a p c ra r cr e s e 鲫c h e da n ds 啪撕z e d 也ev d i d 咖ei n d e t i e n l l i n a c yi n t e l n p o r a li n f o r m a t i o np r o c e s s i n g ,i m p l 锄:1 e 1 1 t e d 也e s u p p o r tf o rp r o c e c c i n gv a l i dt i m ei n d e t 锄i n a t ed a t ab a s e do nt 1 1 et e m p o r a l d a t a p r o c e s s i n gc o m p o n e n t1 e n l p d b f i r s to fa l l ,a n a l z e dt l l ea p p l i c a t i o nb a c k g r o u n d i o f 鼬c 吨m et 锄印r a lv a r i a b l e d w 觚d d w sc o m p l i c a t e ds 锄枷c 跚c h 鹤 p 雒t ,p r e 晌口t a n d “f i l t u 】r e ,s 锄a 埘c s s e c o n d l 弘r 豁e 盯c h e d t h et 1 p 0 柑 i 1 帕e t 锄洫a 把p r o b l e mo fq u e 巧陀跚l t ,c a 吣e db yc o m p l e xs 啪觚t i c s ,a n d l e 懿i 蚰g p r o c e s s i i l gm o d e l 锄di t si n a d e q 瑚l c y :1 1 1 髂t a _ b l i s h e da d wc 0 l p l e xs 即1 枷c i n d e t e r i i l i n a t et 即叩o r a ld a t am o d e l f i n a l l y i m p l e m 锄t c dt l l e m o d e l吐坞 p l a t f i o m ,t l l et 即叩o r a ld a t a - p r o c 鹤s i n gc 0 m p o n e n tt 咖p d b ,e i l l l 锄c c di t s 唧r t f o r v a l i d 缸l e 证d e t e n i l i n a t ed a t ap r o c 销s i n g ,p r 0 v e da i l di n d i c a t e dm er a t i o n a l i 哆肌d 删c a l i t y o fn l i sp 印e rb ye x p 丽m t a lr e 蛐l t s k e yw b r d s :t e m p o r a ld a t a b a u s e ;v r a l i dt i m e ;t c 釉p o r a l a b l e ;d w ;s 锄龇t i c ; i n d e t 锄i m c y ;1 伽叩d b 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:壶、l 拭 日期:u 0 7 年弓月n 扫 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 学位论文作者签名: 孔斌 曰期:2 0 中5 月1 乙日 中山大学硕士学位论文前言 第1 章前言 本章概要性地介绍了时态信息处理及其领域中有效时间不确定性信息处理 方面的国内外研究背景和研究现状,分析了其中存在的问题,简要概述了本论文 的研究内容、方法和意义,最后介绍了本文的组织结构。 1 1 研究背景 时间是自然界无所不在的客观属性,所有信息都隐式或显式地具有相应时态 特征【1 捌。事件的动态性是自然公认的世界特性。时间信息及它与其他信息的联 系在我们生活中起着重要的作用。传统的数据库均是固定的当前视图,即在数据 库中的信息是其在一个非特别指定时刻的瞬像,但却认为是当前的,不联系其过 去和未来,因此,传统数据库在时间概念上有着先天不足,而将时间引入传统数 据库存在诸多困难,如:描述操作需要8 倍多的代码;描述约束的代码将是以前 的3 0 倍长;查询描述困难;查询优化困难数据的可视化困难等。现实世界中大 量的信息与时间紧密关联,随着信息技术和数据库技术的深入发展,对时态信息 处理的要求越来越迫切。s n o d 蓼舔s 指出,在应用系统中平均每5 0 行代码里就要 涉及到一个有关日期或时间操作的语句【3 1 ,可见其重要程度。传统数据库技术对 有的应用是足够的,可对许多新的尤其是现代应用而言却是不够的。日益广泛的 数据库应用要求了管理被处理事件的历史性信息和系统中元事件的时态信息。这 需要迫切解决两个问题:一是要求管理被处理事件的历史性信息,如与人事、财 务、金融和自然灾害等有关的历史资料,从中可看出事物发展的本质规律;二是 要求管理数据库系统中元事件的时态信息,如增查,删改的时刻和时间区间、在 多用户系统中对锁定排队及资源竞争协调的时标等,这些数据有助于提高数据库 系统的可靠性和效率。在这些客观矛盾中,时态数据库的研究也就应运而生了。 时态数据库不仅可以实现传统数据库对数据的存储、管理等功能,同时将数据的 时态信息也纳入数据库的管理范围,对外提供一个一致、高效的时态数据处理平 台供用户使用。 自1 9 8 2 年开辟了时态数据库研究领域以来,计算机学术界对时态数据库给 予了极大的关注,并进行了许多理论与应用研究,诞生了数以千计的论文和数以 1 中山大学硕士学位论文有效时间不确定性的研究及基于t e m p d b 的实现 百计的时态数据库模型和时态信息处理方法。国际上也形成了多个时态研究小 组,比较有代表性的有t i r 鹏c 锄t 一4 】和1 i m ec o n l t 【5 】。c t l r i s t i 锄j e l l s e l l 和鼬c h a r d s n o d 酉鹬s 两位学者对时态数据库各个研究领域进行了总结,并指出未来的研究 方向【6 】。国内中山大学数据库与协同实验室进行了大量的工作并形成了诸多研究 成果【刀。 二十余年间,时态数据库在理论研究和应用开发方面都取得很大的进展。发 展至今,对时态数据库的研究已产生了丰富的研究成果,并形成了相对完备成熟 的理论体系,正逐步实现时态数据模型“标准化”和“产品化 。目前,时态数 据库领域的研究更加侧重于应用实践以及应用中出现问题的探索与研究。与理论 成果的繁荣相比,时态数据库技术实践则相对落后。在国际上,触勰s t e i n e r 博士等人开发了时态数据库软件t i m e d b 【引,t i m e d b 被认为是较为成功的时态 数据库原型系统。作为商业d b m s 的前端构件,t i m e d b 实现了基本的时态管理 功能:时态查询、时态修改、时态视图和时态完整性约束。它的出现验证了时态 数据库系统的可行性,并实践了许多实质性的思想。在开发中,首次系统地提出 了采用中间件架构来进行时态数据库系统开发的思想。虽然t i m e d b 已取得了一 定的成功,并为后来的时态数据库系统开发提供了很好的借鉴,但仍然存在着不 足,集中体现在以下的一些方面:与后台d b m s 职责划分不明造成效率低下, 系统的兼容性、可移植性不高,存在多用户并行使用的限制,系统设计的缺陷等。 在国内,中山大学数据库与协同软件研究与开发中心在时态信息处理领域进行了 大量的工作,并在时态数据模型理论研究的基础之上,自主设计开发的一套时态 数据库平台软件一一时态数据处理构件t c :l l l p d b 【7 1 。t c :i l l p d b 能够有效支持电子 政务、电子商务、决策支持等信息处理系统中的时态应用。与t i m e d b 相比, t c 扭p d b 在时态数据完整性、时态变量d w 支持性、体系结构的合理性、时态语 言规范性等方面有着优势。 时态数据库引入有效时间和事务时间的概念,因此而形成的时态标签 ( t i m e s t 卸叩) 是时态数据的基本特征。有效时间是指数据对象在现实世界中发 生并保持的时间,或者说该数据对象在现实世界中为真的那段时间;事务时间是 指一个数据对象进入系统的时间,或者说是对数据进行插入、删除、修改等基本 操作的时间。有效时间反映事物对象发生、存在、发展和消亡的过程,有助于揭 2 中山大学硕士学位论文前言 示事物变化本质规律;事务时间反映系统中“元事件 的时态信息,有助于提高 数据库系统的可靠性和使用效率。在实际应用中,存在大量这一类数据:数据到 进行操作的当前时间都是有效的;但数据的生命周期何时结束。为处理这类时态 数据而引入时态变量,有效时间变量o w 和事务时间变量睨。按照事务时间本 身的规定性,事务时间变量沈语义单一,在应用中取当前时间值即可。由于时 态数据库本身的运行机制的约束,使得时态变量d w 在实际应用中形成了复杂 的语义,不仅具有“当前”时间语义,还具有“过去 时间与“将来 时间的语 义【州。因此而导致了时态查询结果的不确定性,因此而带来了有关时态变量引 入和使用的基本问题【1 2 b 】。传统的处理方法( 如最大值法、变动常量法和绑定 c t 法) 都不能有效地解决该问题。针对这一课题,许多学者进行深入的探讨与 研究,结合概率逻辑【1 6 1 ,提出一些有效时间不确定性的时态处理模型【1 他1 1 。 1 2 研究意义 由于不确定时态信息的广泛存在,时态数据库管理系统有必要支持不确定时 间。在时态数据库的时态属性确定性问题研究中,把一些时态变量描述成不确定 时态信息,这样产生的数据库更接近人类认识的直觉性,也更加符合现实世界的 情况。然而,处理不确定时间信息是时态数据库中目前仍缺少的一个重要的功能, 这一缺陷极大地约束了时态数据库的应用范围。因此,如何处理不确定时态信息, 是进一步完善和推广时态数据库的一个重要前提条件。基于时态变量的有效时间 不确定性的数据处理技术是时态数据库发展所面临的一个必须解决的基本课题。 目前,虽然有部分学者对时态变量肠w 的不确定性进行了研究并形成了一些理 论成果,但都未能从实际应用上解决有效时间不确定性信息的处理问题,而本文 提出了d w 复杂语义不确定性时态数据模型对解决上述问题是一种积极的努力 和尝试,具有重要的理论意义。 现有的时态数据库软件中,时态数据处理构件t c m p d b 是卓越的代表之一。 t e m p d b 体系结构合理、时态语言规范,并在时态数据完整性、时态变量d w 支 持性等方面有着优势。然而,t e m p d b 在支持有效时间不确定性信息的处理方面 仍显不足。 因此,本文选择具有代表性的、开放的t e m p d b 作为平台,实现o w 复杂 3 中山大学硕士学位论文 有效时间不确定性的研究及基于t e m p d b 的实现 语义不确定性时态关系数据模型,增强了t 锄p d b 对有效时间不确定性数据处 理的支持。d w 复杂语义不确定性时态关系数据模型在t c 扭p d b 中的实现是对 时态数据库软件实现技术的重要补充,具有重要的实践意义。 由于时态数据库技术在各个方面有着基础而重要地应用,而变量数据库时态 数据处理技术又是时态数据技术的推广和深入,在本文研究工作的基础上,通过 研究开发建立相应的不确定时态信息处理中间件,就可能为时态信息处理的某些 前沿领域提供理论与实现的支撑,例如:时态知识表示与处理和时态索引技术等 方面。 1 3 本文的组织 本文的内容共分为6 章,各章的安排及内容简述如下: 第l 章概要性地论述了在时态数据库领域,国内外研究背景和应用现状,简 要综述了本论文的研究内容,方法和意义,同时介绍了本文的组织结构。 第2 章介绍了论文研究所涉及到的一些时态数据库领域中最基础的时态知 识,为本文后续章节的展开做铺垫。 第3 章对有效时间变量d w 进行详细的分析与探讨,指出引入时态变量的 必然性,对于时态变量d w 在不同环境下的语义进行分析,论述了由此而带来 的问题。 第4 章概述了有效时间变量d w 的复杂语义、确定性和不确性的不同处理 模型,分析了不确定时态关系数据模型r r r d m 和概率不确定时态数据模型 n p d m ,提出了更优的、全面支持时态变量d w 复杂语义、确定性和不确定性 的d w 复杂语义不确定时态数据模型。 第5 章在现有的时态数据库系统软件一一时态数据处理构件t c :i i l p d b 上, 构建d w 复杂语义不确定时态数据模型,实现对时态变量d w 复杂语义、确定 性和不确定性查询的支持,并进行实例演示。 第6 章主要是总结了本论文所做的研究工作以及其中存在的不足,展望下一 步工作中哪些问题有待继续探讨。 4 中山大学硕士学位论文时态数据库简介 第2 章时态数据库简介 区别于传统的关系型数据库( 1 b m s ) ,时态数据库( t b m p o r a ld a t a b a l s e ) 主要 用于记录和管理记录那些随着时间变化而变化的值的历史,而这些历史值对应用 领域而言又是重要的,这类应用有:金融、保险、预订系统、决策支持系统等。 时态数据库有着深厚的理论基础和丰富的应用技术知识,本章将介绍时态数据库 的相关基础知识,要了解详细的内容,请查阅文献【1 3 】。 2 1 时间的概念 宇宙大爆炸的假说中,理论物理学家们认为时间开始于大爆炸的那一瞬间。 时间的概念就像一个被压缩的橡皮筋,随着宇宙的爆炸还在不断地扩展。时间有 一个标准的几何暗喻轴线,如图2 1 所示。 a s s i s t a n t s 面n l 的身份慨h i l i c i me 蟛n 附 e n g i i l 鲥 时间轴 2 0 0 2 年2 0 0 4 年 2 0 0 7 年n o w 图2 - ls i n j t h 的身份变动信息 时间有连续的表示方式和离散的表示方式,但在计算机的应用方面采用离散 的表示方式。 2 1 1 时间粒度 时间粒度( n _ u l 撕t y ) 是衡量时态数据离散化程度的单位。由于计算机的 数字化特点,不可能将时间存贮为一个连续的实体,而只能用离散形式来表示。 时间粒度是指描述时间数据的最小时间单位。表示时间粒度的单位有很多,常用 的有年、月、日、时、分、秒等。例如,描述企业生产总值的时间粒度可用年, 描述员工工资信息可用月,而描述短跑比赛的成绩必须使用到秒、毫秒,在科学 研究中要精确到微秒甚至更小的时间粒度。时间粒度越小,离散的时间点越多, 5 中山大学硕士学位论文 有效时间不确定性的研究及基于1 锄巾d b 的实现 描述的事件的变化信息越精细准确,但越小的时间粒度越会增加其数据的存储 量。在实际应用中,可以根据不同的应用需求和系统的承受能力来选择不同的时 间粒度。此外,不同的时间粒度之间是可以进行相互转换的。 2 1 2 时间元素 时间元素( ee l 锄朗t s ) 是指具有时间属性值的元素,时间元素在时态信 息系统中有着基础的地位,它对于正确有效的表达记录的时间属性有着重要的意 义。根据具体应用表达的需要,时间元素有多种表示形式:有的是离散的时间点, 其属性的时变特性是离散的,每个时间点都对应记录中的属性值;有的是连续的 时间区间,其属性的变化具有某些连续的特性,则用连续时间区间记录元组的属 性将节省了大量的空间;此外,还有较为复杂的情形集合形式。时间元素三 种基本的表现形式: 1 时间点( t i m ep o i n t ) 时间点是将时间离散化后的单个时间粒度,表现为时间轴上的一点,它的精 确度和时间粒度大小是密切相关的。选择适当的时间粒度,就可以准确的描述现 实世界事件某个时间点发生及变化的状况。例如,2 0 0 9 年6 月1 日,时间粒度 精确到“天 。如果系统使用的最小时间粒度是“秒”,则该时间点在系统内的表 示必须换算成2 0 0 9 年6 月1 日0 时o 分0 秒。 2 时间区间( t i m eh l t e r v a l ) 时间区间是将时间离散化后的若干个时间粒度的集合,通过描述时间段的起 始点和终止点来表示一段时间。时间区间是指一段时间,有固定的起止时间点, 例如2 0 0 7 年9 月1 日至2 0 0 9 年6 月3 0 日。时间区间的表示方法根据两端时间 点是否封闭分为四种,如图2 2 表示。 时间区间的表达方式一般采用前端封闭、尾端开放的形式。 时间点和时间区间的描述机制可以相互转化。时间区间可以用时间点的集合 表示,当确定了时间粒度的时候,每个时间区间都是可以用时间点的集合来表示 的。同样,时间区间也可以描述时间点。例如:在【p ,p ,】中,令p ,= p ,这时 的时间区间可以理解为延续时间为o 的一段时间,即时间轴上的某个时间点。 6 中山大学硕士学位论文时态数据库简介 四种区间 1 ) b ,p , 2 ) 【p ,p ) 3 ) ( p f ,p j 】 4 ) ( b ,p ,) 区间含义 p is t sp j p ts t p j p i t p j p i t 吼,这与阢 总是后于胁的逻辑相矛盾,如表3 5 所示。 表3 5 教师情况表 v a u dt i m e n a i mr a n k v t sv t e m o 玛a n a s s o c i a t ep r o f e s s o r2 0 0 7 0 9 012 0 0 7 0 6 0 3 因此,当阢属性值先于胁属性值时,一些数据模型不允许用时态变量 d w 作为吼属性值,而是先给阢赋个特殊的属性值n u l l ,如表3 6 所示。 表3 击教师情况表 i n a 眦 l 黜n k l v a u dt i 眦 i 2 5 中山大学硕士学位论文 有效时问不确定性的研究及基于t e m p d b 的实现 v t se m 0 玛锄 a s s o c i a t ep r o f e s s o r2 0 0 7 0 9 0ln k n 当时态变量d w 的值超过了胁属性值时,再替换为d w 。然而,在查询 中带有n u l l 的元组是忽略不作处理的。例如,对表3 1 进行以下查询:在2 0 0 7 年9 月1 日聘用了哪些教师? 从用户的角度考虑,查询结果应当包括m o 略纽。 然而,m o r g 姐的元组因为吼属性值是n u l l 而被忽略了,从而,查询结果与 用户实际期望不符,并不包括m o 唱锄的元组。 综上所述,对于某些记录,其有效时间的结束点不确定,使用某种“变量 表示其终点较为方便。有效时间变量d w 的引入,在给时态信息的表述和处理 带来极大便捷,同时也引出了一些新的特殊问题和不足之处。如何处理好这些问 题是本文工作的重点。 中山大学硕士学位论文 有效时间不确定时态数据模型 第4 章有效时间不确定性时态数据模型 有效时间不确定的信息可以描述为“未知什么时候 或更确切地说是“未知 准确时间”的信息。有效时间不确定性表现在多个方面:有效时间是固定的( 吼 为常量) 还是动态的( 吼为时态变量) ;有效时间变量d w 语义的不确定性。 对于有效时间不确定性,无论从理论上还是从数据库系统实际的运行过程中来 看,都存在着许多需要深入研究的基本问题。 4 1 有效时间不确定性 有时,人们仅知道一个对象发生的大概时间,比如,我们可能知道“常蛾二 号将于2 0 0 9 年8 月择机发射”,也就是一个在3 0 天的不确定的时间区间内可能 发生该事件。 在文献 1 2 】中,s n o d 笋a s s 指出了有效时间的不确定性主要表现为有效时间期 间的端点为集合值或为缺省值的情况,同时还分析了有效时间的不确定性产生的 原因主要在于时间粒度匹配不当( 研a n u l 撕t ym i s m a t c h ) 、时间测定技术( d a t i n g t e c h l l i q u e s ) 、计划不确定性( u n c e n a i n t yi np l 锄i n g ) 、未知或不精确的事件时间 ( u n l ( 1 1 0 w no ri m p r e c i s ec v e n tt i m e s ) 和计时器度量误差( c l o c km e a s u r 锄e n t s ) 等,主要包括以下几种: 时间粒度匹配不当很多情况下,记录数据时间的粒度与事件发生的确切 时间粒度不一致。例如,某一事件发生时间被认为在某一小时内,但一个带有时 间标签的数据库系统是以天为单位来记录该事件的,因此,事件发生时,数据库 只能记录这一事件发生在哪一天,具体发生在这一天的什么时间却无法记录。 时间测定技术很多时间测量技术本身就不是完全精确的,或多或少地存 在一定的误差,如c a r b o n 1 4 ( 碳1 4 ) 法。 未知或不精确的事件时间通常情况下,事件发生时间是未知或不精确 的。例如,我们可能不清楚某位教师的出生日期,那么在数据库中,该教师的出 生时间就会被记录为未知或不精确。 中山大学硕士学位论文有效时间不确定性的研究及基于t c 釉p d b 的实现 由于不确定时态信息的广泛存在,时态数据库管理系统有必要支持不确定时 间。在时态数据库的时态属性确定性问题研究中,把一些时态变量描述成不确定 时态信息,这样产生的数据库更接近人类认识的直觉性,也更加符合现实世界的 情况。然而,处理不确定时间信息是时态数据库中目前仍缺少的一个重要的功能, 这一缺陷极大地约束了时态数据库的应用范围。因此,如何处理不确定时态信息, 是进一步完善和推广时态数据库的一个重要前提条件。在处理不确定时态信息中 最根本的问题是考虑时态变量0 w 的绑定问题。 在进行有效时态变量d w 的绑定取值过程中,需要有相对的参考时间,这 种相对的时间称为d w 变量时间参数。d w 变量时间参数是时态变量数据库中 很重要的时间概念,是决定时态变量绑定值的重要参数,从而影响很多时态操作 的结果。以下给出三种d w 变量时间参数的定义: 定义4 1 当前时间凹 对数据进行访问( 查询) 和操作( 插入、删除和修改) 时,数据库系统的当 前运行时间,记为c r ( c u 册l tt i m e ) 。 定义4 2 查询时间q t 在对数据进行时态查询,给出查询s q l 语句时,首先,需要明确查询操作 对何时的数据起作用,即从时间轴上的哪一段时间区间来观看整个数据库的状 况,本文把这种时间信息称为查询时间,记为q 丁= q 乃,q 死) 。 定义4 3 滞后时间 对于数据创建和更新来说,通常数据入库时刻相对数据实际生效或改变时刻 都有一个“错位 情形,即胁胁。给定数据事务时间起点胁通常滞后于 有效时间起点胁,且对实际应用中的大型数据库而言,这个滞后的时间是固定 的,我们引入变量表示这个固定的滞后时间,即当胁 0 为数据库系统的滞后时间。 4 2 传统处理方法 对于有效时间不确定性问题有许多学者进行了讨论和研究,总的来说形成了 以下三种处理方法: 中山大学硕士学位论文 有效时问不确定时态数据模型 4 2 1 最大值法 最大值法将数据库系统允许的最大时间作为有效时间不确定性时态数据的 吼值进行存储,在有些数据模型中用“加旧柳 或者“o o 表示。最大值法 承认了有效时间不确定性元组或事件究竟能有效地存在多长时间的未知性,因 此,假设有效时间不确定性元组或事件将会永远有效地存在。最大值法使用简单, 但却与事实( 没有任何事物可以永远存在) 不符,而且不能完整地体现有效时间 终点时刻的“不确定”的含义,即不能表示出“数据的有效时间到当前为止没有 结束,但不知有效时间何时会结束的基本语义。 4 2 2 变动常量法 变动常量法将常量作为有效时间不确定性时态数据的吼值进行存储,但 m 值并不是一成不变的,而是随着时间的不断推进,每更新一个时间粒度就需 要对常量m 重新赋予新的时间值c r 。变动常量法一定程度上能够体现有效时 间不确定性时态数据的不确定概念,但在实际上并不可行,因为在应用中由于确 定的和不确定的有效时间终点吼都是用常量表示,系统运行中需要分清哪些是 随着时间推进需要不断更新,哪些不需要不断更新,增加了数据库管理系统在实 现技术上的复杂性,而且实际情形中数据库管理系统不可能不断地进行数据更 新。 4 2 3 绑定c t 法 绑定c t 法并不将不确定时间终点阢与具体时间相联系,只有当需要对数 据进行访问( 查询) 或操作( 插入、删除和修改) 时,才对时态变量d w 进行 具体绑定运算,赋予其值。这主要是考虑到 b w 具有“a tm ec l l 订锄tt i m e ”的自 然语义,另外,变量数据库方法不仅能表示出“数据的有效时间到当前为止没有 结束,但不知有效时间何时会结束 的基本语义,而且“变动”的时间端点使用 变量来表示,更为自然直观,可以避免最大值法和变动常量法带来的缺陷和不足 但从理论上看,这种绑定方法实质上是将不确定时刻转化为确定时刻,只反映了 不确定时刻的“确定性 含义,即“数据的有效时间到当前为止没有结束 ,而 没有完全反映出不确定时刻的“不确定性含义,即“不知道有效时间何时会结 中山大学硕士学位论文 有效时问不确定性的研究及基于t e m p d b 的实现 束 ,此外,绑定c t 法忽略了时态变量d w 的将来时间语义。 4 3 不确定时态关系数据模型 鉴于传统的处理方法不能合理有效地处理带有变量d w 的有效时间不确定 性时态数据信息,许多学者对这一领域进行更深入的研究与分析,并针对这一难 题,提出了一些不确定时态关系数据模型n r d m ( i n d e t e m i n a t e 脚r a l r e l a t i o n a ld a t a b 弱em o d e l ) ,对处理不确定时态关系数据进行讨论,这些模型对 本文有重要的借鉴意义。 不同随机事件发生的可能性的大小是不同的,概率就是人们用来表示随机事 件发生的可能性大小的一个量。对现实世界中的时态信息,可以以概率为工具来 反应确定和不确定时态信息。 在文献【2 0 ,2 1 】中提出的不确定时态关系数据模型中,提出并检验了用概率来 反应有效时间不确定性,在这些探索中取得了一定的效果,证明了该方法的可行 性。在文献 2 0 】中中提出用分布概率函数与查询区间相交的面积同查询区间的面 积进行比值来计算有效时间不确定性信息的概率。 4 4n o w 复杂语义不确定时态数据模型 上述几种不确定时态数据模型为如何处理具有复杂语义的、不确定性的时态 变量提供了指引:用概率动态地刻画时态变量的不确定性,用概率的多少来反应 时态信息的可靠程度。但上述模型有着许多不足: 1 查询结果中的可信度不科学。在不确定时态处理模型i t i m m 【2 0 j 中查询 结果中的可信度很大程度上取决于查询对象的预测有效时间期间p v t ( p r o s p e 砸v ev a l i dp 耐o d ) 。其中存在两个问题:一、查询结果的准确性可能不 准确。预测有效时间期间p v t 由于用户指定,不准确或不恰当的预测有效时间 期间p v t 值将必然影响查询结果的准确性。二、查询在预测有效时间期间p v t 区间外的不确定时态信息得到的结果可能偏离或背离事实。在不确定时态处理模 型i t r d m 中在预测有效时间期间p v t 区间外的不确定时态信息完全被排除在 外,不作考虑。上述两点将可能导致查询结果与事实不符。例如,我国将发射一 中山大学硕士学位论文有效时间不确定时态数据模型 颗“北斗2 号导航卫星,其预测有效时间期间p v t 为1 0 年,但并不能因此而 判断该卫星1 0 年后一定无效。 2 只考虑了区间查询,不能处理点查询。在不确定时态处理模型n r d m 中其不确定信息查询结果的可信度是通过面积比值计算得来。当进行时间点的查 询,即胁= 吼,其查询区间所围面积始终为0 ,因此,无法计算并判断其可 信度。 3 需要用户对时态数据库中存储的元组添加额外的、复杂的属性,严重影 响了这些模型的可行性。 4 需对查询语言s q l 进行扩展,影响这些模型的可移植性。 在多项前人研究成果的启发下,针对有效时间不确定性处理问题,本文提出 了新的解决模型一一o w 复杂语义不确定时态数据模型t d m s c i n ( 脚r a l d a t am o d e ls u p p o n i n gc o m p l i c a t e d - s e m 锄t i c s 柚di n d e t e 肌i n a c yo fn o w ) ,该模型 支持复杂时态变量d w 语义;既能够处理确定性的时态信息,也能处理不确定 性的时态信息;同时,解决了时态变量0 w 取值、预先更新等问题;对于不确 定性的时态信息实现了时间点查询和时间区间查询。 在原有的三种d w 变量时间参数基础上,d w 复杂语义不确定时态数据模 型t d m s c i n 又定义了两个肪w 变量时间参数有效时间跨度所劬口刀和预期 有效度e 国。 定义4 4 有效时间跨度刀印册 有效时间跨度门印口甩是指事物保持其原有性质不变的可能的时间区间长 度,如电子元器件的寿命、产品的保质期等。 根据数据库中数据信息的相似性,同一个数据表中的元组往往有着共同的有 效时间长度。如学籍管理数据库中同一个班级学生的学习年限、企业产品数据库 中同一批次产品的使用年限等。因此,我们用一个变量胁粥玎来记录同一个数 据表共享的、可能的有效时间跨度。 定义4 5 预期有效度e 国 预期有效度e 叨l ( e x p e c t c dv a l i dd e g r e e ) 是是指事物在有效时间跨度后未 中山大学硕士学位论文 有效时间不确定性的研究及基于t e m p d b 的实现 破坏其原有性质的概率,如电子产品在保质期后的合格率等。 根据数据库中数据信息的关联相似性,同一个数据表中的元组往往有着类似 的品质。如汽车企业生产的同一批次的汽车,若干年后的报废率等。假设某批次 同型号汽车的有效时间跨度惭刀为1 0 年,报废率为6 0 ,那么该批次汽车 l o 年后的预期有效度e 国为4 0 。 有效时间跨度惭玎和预期有效度e 助都是经过规划、经验、科学计算或 理论推证得到的参数,并带有预测性质。有效时间跨度惭甩和预期有效度 e 国在数据表创建时由于用户根据实际信息给定,也可以由数据库系统为其赋 默认值。 d w 复杂语义不确定时态数据模型t d m s c i n 综合考虑了时态变量d w 当 前时间语义、过去时间语义和将来时间语义,用概率的方式解决了时态变量d w 取值问题、严谨性问题、预先更新问题以及确定与不确定问题。 当指定了查询时间q r ,要求查询数据库中符合预定条件的元组时,显然满 足条件的元组的有效时间区间必定包含查询时间q 丁。当有效时间确定( 为固定 区间) 时,直接就可以进行判断;当有效时间不确定( 为动态区间) 时,情形就 比较复杂。在此,对不确定的有效时间的查询进行分析。 在本文所提出有效时间不确定时态数据模型t d m s c 玳中,当进行涉及时态 变量d w 的查询时,我们将0 w 与数据库系统的最大时间进行绑定,即有效时 间终点m 为d w 的对象在系统最大时间期限内是有效的,例如在m y s q l 中为 9 9 9 9 年0 1 月0 1 日,但其有效的可信度随着时间的递增而趋向于o 。 4 4 1 时间点查询算法 时间点可以看作是时间区间的特例。当查询时间q r 为一个时间点,即 q 乃= q 死。假如某汽车企业生产的某批次同型号汽车的有效时间跨度玎印彻为 1 0 年,报废率为6 0 ,即该批次汽车1 0 年后的预期有效度e 场为4 0 ,那么 该批次汽车5 年后的有效的可能性为o 4 n 5 o 6 3 ,我们用可信度r e l i a b i l i t ) ,来描 述这种可能性,即该批次汽车5 年后的有效的可信度约为0 6 3 ;该批次汽车2 0 年后的有效的可信度为0 4 2 = 0 1 6 ;该批次汽车n 年后的有效的可信度为 3 2 中山大学硕士学位论文有效时间不确定时态数据模型 0 4哺聊,其有效的可信度随着时间的递增而趋向于0 。具体算法可以用以 下模型表述: 1 当y 乃c 丁时 这是较常见的情形,综合考虑时态变量的d w 现在、过去及将来时间语义, 其查询结果的可信度在时间轴上的分布可以分为三段来分析:确定性时间区间 m i i l ( 7 锄p ) ,胁) 、确定性时间区间【胁,c 丁一) 和不确定性时间段 c 丁一,m a ) 【( 砌p ) ) 。元组可信度r e 玩6 f ,f 纱的取值范围在o 和1 0 0 之间,确 定性时态区间的可信度可以用确定的值来描述,而不确定性区间的可信度可以通 过概率来反应,其概率值可根据指数分布计算。如图4 _ l 所示。 l r e i a b ii t y l o o e v d k 兰? 留 - _ - - - l o v t s ;c t - v t 针v t 印锄 t i n 图4 1 点查询可信度p 的分布函数 不确定性时态查询时元组的可信度r e 矗口6 f 劬p 的计算方法如表4 - 1 所示: 表4 1 元组的不确定性可信度度量 q t 的分布情况元组可信度r e u a b m 哆 q 丁 胁o ( 不满足查询条件) q 丁【胁,c 丁一) 1 ! 垒! :竺型 q 丁c r 一 e 团协脚 e 例如,如表4 2 所示,某高校的老师情况,m o r g 锄在2 0 0 7 年0 9 月0 1 日被 聘为副教授,当前时间c r 为2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论