【毕业学位论文】(Word原稿)基于数字资源库藏系统(CDAL)的元数据存储方案设计与实现_第1页
【毕业学位论文】(Word原稿)基于数字资源库藏系统(CDAL)的元数据存储方案设计与实现_第2页
【毕业学位论文】(Word原稿)基于数字资源库藏系统(CDAL)的元数据存储方案设计与实现_第3页
【毕业学位论文】(Word原稿)基于数字资源库藏系统(CDAL)的元数据存储方案设计与实现_第4页
【毕业学位论文】(Word原稿)基于数字资源库藏系统(CDAL)的元数据存储方案设计与实现_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 1 - 基于数字资源库藏系统( 元数据存储方案设计与实现 北京大学计算机 系 网络与分布式系统实验室 摘要: 元数据在中文数字财富大全库( 样旨在对多种类型数字资源长期保存的系统而言有很大的应用价值。 实际应用中,各类数字资源的元数据标准 不断的经历着完善和发展,主要表现为元数据属性的增减以及属性定义的改变 ;为了广泛收集元数据, 用了集成大众智慧的 同编辑方式,这种方式 需要元数据系统保存所有元数据的历史版本,还会引起 因 元数据 被 频繁 的 修改 对通过网络 访问 元数据的 效率带来 的 负面影响。 针对以上 这些问题 , 本文 为 四类多媒体类型资源确定了一套基于 元数据模式标准供 用,并 提出了一个针对在协同编辑环境下的可变模式的结构化数据的存储方案 。该方案采用元组方式实现数据模式与实际数据的分离维护,同时考虑到了协同编辑方式带来的网络访问效率问题以及与原有 统的整合问题。 关键词: 元数据, 元数据存储, 元数据标准, 协同编辑,数字资源 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 2 - of in 京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 3 - 目次 第一章 引言 . - 4 - 第二章 元数据标准与协同编辑 . - 5 - 1 多媒体数字资源元数据的标准 . - 5 - 2 元数据的来源:协同编辑 . - 7 - 第三章 元数据系统的设计与实现 . - 8 - 1针对 元数据模式 的 功能的实现 . - 9 - 2 针对元数据具体取值的功能实现 以及 块对资源实体的封装 . - 10 - 3 元数据管理 . - 14 - 4 与原系统的协同工作 . - 15 - 5 存取性能上的优 化 . - 16 - 第四章 实用效果与展望 . - 19 - 第五章 总结 . - 22 - 致谢: . - 23 - 参考文献: . - 23 - 附表:四类数字资源的元数据模式 . - 23 - 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 4 - 第一章 引言 中文数字财富大全库 (称 昵称燕储 ) 是由北京 大学网络实验室建立并维护的综合数字资源仓储系统 。 自建立以来 , 搜集存储约 7频 , 音频 , 静态图片 , 软件 , 电子书籍等多种数字资源, 按照 提供 务 。 现在的服务方式包括目录导引查询和文件名关键字查询 。 为了便于更好地提供检索服务,需要解决的一个重要问题是元数据的收集、检索与管理。 从资源实体的组成来看,任何一个资源实体都可以由以下三个方面的特征来描述: 内容( : 指资源实体的 组成 ,是资源实体的内在特征 。 上下文( 描述与资源实体的创建相关的人物、个体、原因、地点、方式等,是资源实体的外在特征。 结构 ( : 描述资源实体各个组成部分之间或者与其他资源实体之间的关联,该特征可能是内在的,也可能是外在的 。 元数据是关于数据的数据, 针对 数字资源 而言 ,元数据指数字资源的描述信息。通常,一个元数据记录由一组属性构成,这组属性与其相应的属性值共同构成对资源的描述。元数据的宗旨是对数字资源更好的进行整理、追踪,并提高资源的可访问性和互操作性。 早在数字资源的概念出现之前,图书馆将图书的索引 、摘要、分类记录等结构化的数据遵照一定的标准,作为针对资源内容的元数据保存起来,以方便读者快速查找图书;图书馆将图书的出版年代、作者、借阅记录等信息遵照一定的标准 ,作为针对上下文的元数据 保存起来,这些信息既可以辅助管理人员识别不同的书目,亦可帮助读者进行复杂的查询,北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 5 - 从中不难看出针对上下文信息的元数据在资源库中的作用 。 对于以多媒体数字资源而言, “ 上下文 ” 信息很难随着对资源本身的收集而获得,而内容相关的结构关联也因为涉及多媒体内容分析而难 以实现 。在这种情况下,对多媒体数字资源建立文本描述的元数据,不但可以说明 上述内容,而且能够直接有助于提高对资源检索的准确率和满意度。 因此,我们希望通过为各个资源增加元数据的方式达到更充分的利用以及更有效的维护 大量的数字资源的目的 。 为了达到这个目的, 需要: 1) 确定多媒体数字资源元数据的标准 ; 2) 为 的各资源找到可靠的元数据来源 ; 3) 设计和实现 元数据系统 ; 4) 元数据与 实际存储的资源 需进行匹配 。 以下第二、第三两章 将 围绕上述 1), 2), 3)三个方面 详细论述笔者所进行的工作。第二章主要论述 数据标准的形成过程以及采用协同编辑方式搜集元数据的原因;第三 章详述了元数据系统的设计与实现思路。 第二章 元数据标准与协同编辑 1 多媒体数字资源元数据的标准 为一个 资源库选择一合适的元数据标准需要考虑以下两个问题: 1) 该标准的元数据属性集合必须能够满足资源库的需要; 2) 该标准与其他的元数据标准之间要有一定的互操作性 。 样才能够对外提供更强大的检索方式,并且为资源本身进行更加有序的分类管理与资源个体识别 。 为了同时满足资源库本身的需要以及与其他标准之间的互操作性,用在标准的 下简称 “)上添加扩展的方式确定其自身采用的标准 。 基本元数据,是指按照数字信息资源服务的共同需要建立起来的一种元数据格式,它可以支持对象的检索、确认北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 6 - 和调度,同时它可以作为核心元数据集,各个领域可以根据特殊需要或者按照各个应用系统的特点依照标准方法进行扩展,形成各个领域的专门元数据格式或具体应用系统的元数据应用格式 。 数据于 2003 年 2 月成为国际标准该元数据标准可分为两个层次:简单 数据( 及有修饰词的 数据( 。 简单 数据由15 个属性构成,为了满足对 多媒体资源的检索、分类、资源个体识别以及与外部系统互操作的需求,我们采用的元数据模式是在简单 数据的基础上,针对不同类型的数字资源参照不同行业内的权威元数据机构提出的模式,并对其进行扩展之后得到的(具体模式可参见附表 1。 在为资源选择元数据模式的时候 , 通常要考虑以下三个问题: 1) 该模式要在最大程度上适应资源的使用者的需要; 2) 确定模式中相对重要的属性以及描述粒度; 3) 保证系统当前应用的是该模式的最 新版本 。 元数据模式会随着时间的推移和应用需求的变化而演变 ,我们对 数据模式的研究发现,尽管 员会竭力保持简单元数据集的稳定,几乎每个最初的元数据项还是发生 了或大或小的变化, 这些变化主要 包括定义的明确、范畴的细化、数据类型的变更等 。 基本元数据属性由最初的 13 个发展到现在的 15 个,有修饰词的 2003 年的版本相比也增加了 2个属性 1。 所 以 具有根据资源查找的需要及时调整其元数据模式的功能 。 由于 每一类数字资源采用的元数据模式都是对 本元数 据的一个延伸,当基本元数据的版本发生变化时, 数据模式需要及时的适应这一变化,以在最大程度上保证 数据的可用性及其与外系统的互操作性 。 鉴于以上原因, 要一个 模式 灵活 性好 的元数据系统,以适应底层元数据模式的发展和变化 。 1 完整的历史变化过程可参阅 元数据的来源:协同编辑 为了获取可靠的元数据,以往的尝试是鼓励 注册用户为其感兴趣的资源填写 少的元数据。用户从 网站上找到资源的元数据项,根据自己的意愿将新的元数据在本地编辑完毕,然后上传。 网络服务器端将新的元数据以文本文件 的形式保存起来,以供使用。 该策略也是协同编辑的形式之一。不过,这种方式有以下两个缺陷: 1) 注册用户人数有限,不能满足资源量增长造成的元数据标注负担 ; 2) 以每个人以“承包任务 ”的方式标注元数据,其给出内容是否准确、完整、可信需要其他环节再行检验 ,这又要耗费额外的人力 ; 3) 文本方式的存储导致检索等高级功能实现困难。 与上述协同编辑不同, 于 1994 年产生的 念是一种完全自由的协同编辑方式。与以往的尝试相比, 式显得更为简明。 式在获取信息资源方面所取得了显著的成果 。 其中,最具代表 性的“维基百科全书 ”(从 2001 年 1 月创建起,一直到 2004 年 10 月,它所涵盖的信息量已经超越了历史长达 200 多年的 以下为二者在信息量上的比较: 词数 条目数 44,000,000 140,000 250,000,000 360,000 由于采用的是自由、开放的编辑方式,维基百科全书的信息质量难免遭到职业百科全书编者的质疑 。 事实上,它的信息质量并未因此大打折扣 。 协同编辑的模式在信息获 取方面有如下两个显著的特点:首先,由于任何人都可以随意修改网页上的信息,于是低质量 或者 过于偏执 的信息很容易被访问者删除,经过长期的积累,能够在网页上留下来的信息便都是有价值的 。 2其次,几个 用者可能因为在某个问题上持不同见解而在网页上争执不休,2 。 可是在 供的这种协同编辑模式下,大多数使用者在对网页内容进行编辑时会趋向使用客观、中立的语言和表达方式使得自己的观点更容易被他人所接受 。 协同编辑的这两个特点是 点 能够良好运作的重要保障 。 鉴 于 取得的成功,我们将尝试 采用 协同编辑的方式为 各类数字资源获取针对资源内容和资源上下文的元数据信息 。 成熟的 擎在数据存储、检索、缓存等方面都有值得借鉴之处,本文所详述的元数据系统即借鉴了开源 擎 数据存储方式和缓存策略。然而,成熟的 擎都是针对非结构化数据的搜集而设计的,而元数据是结构化的数据 。 因此在 擎实现上,还要充分考虑到元数据的特点 。 第三章 元数据系统的设计与实现 如上所述,该系统既是资源元数据的存储与维护系统,又是在协同 编辑环境下的 擎 。 因此,该系统的设计以及实现既要考虑到元数据本身的特点,又要兼顾 擎在运作中可能出现的各种问题 。 除此之外,元数据的管理,新系统与旧系统的整合,以及运行的效率等问题都需要考虑 。 系统的 整体结构如 图 1 所 示 : 元 数 据 系 统原 C D A L 的 功 能 模 块 ( 对 其修 改 , 使 之 与 元 数 据 系 统 相连 )访 问W E B ( 对 资 源 实 体 进 行 封装 , 实 现 w i k 控 制 、 元数 据 查 询 等 功 能 )访问图 1. 整体结构 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 9 - 块实现对系统中资源实体的封装, 程控制,检索接口等功能;有的程序也需要适当的修改,使其能够与元数据系统协同工作。 这两部分功能的实现在很大程度上依赖于元数据系统。 元数据 系统 在功能上 大致可分为针对元数据模式的功能与针对元数据取值的功能两个方面。其中元数据模式上的功能是实现存储元数据取值存储的基础。 1 针对 元数据模式 的 功能的实现 如前所述,该元数据系统的元数据模式依赖于 数据 标准 , 而且, 系统还要允许元数据模式发生变化。首先,为了保持 元数据模式与 数据模式之间的对应关系,系统需要记录 类资源各自的元数据模式以及系统当前采用的 数据模式,这样在与外界进行互操作的时候就可以将C 标准之后再进行其他需要的操作 。 其次,由于各类资 源的元数据项之间在名称和显示方式上存在着差异,所以系统需要为每类资源的元数据定义保存相应的元数据名称和显示方式 。 故系统需要这样两个基本的 数据 结构维护元数据模式: 1) 此数据结构 定义 了 用的 数据模式,每一个结构描述一个数据项,该项由元数据项的名称( 定, C 元数据标准所定义的该项的显示名称,例如,名称为“元数据项,显示为 “题名 ”。 2) 此数据结构 为每一类资源定义 应用于 身的元数据模式 。 其中对每一类资源, ($被替换位这类资源的名称 。 例如,电子书这类资源的元数据模式将定义在 构中,而电影资源的元数据模式将由 构确定 。 这个数据结构中,属性元数据项的名称, 定该项的显示, C 元数据标准中与之对等的属性,与前面一样, 定北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 10 - 该项在 的显示名称 。 有了这两个结构之后,系统只要保存每个资源所拥有的各个元数据项上的值即可 。 在元数据模式本身发生变化的时候,只要相应的修改上述两个结构,即可完成元数据模式的更新 。 2 针对元数据具体取值的功能实现 以及 块对资源实体的封装 元数据取值上的主要功能 包括 :读取与修改。 为了实现元数据取值的读取,系统需要借助( 1)中描述的两个结构提供的元数据模式上的支持取得相应的元数据属性取值 。 为了达到这一目的,系统还 需要 这样一个数据结构 为每一个资源实体保存其资源类型以及其各个元数据项对应的取值在系统中的位置: ) 每一个 象唯一的决定了系统中的一个资源实体,该唯一性由性决定 。 性 用来标记资源实体的 所属的资源类型 , 而 多个元组 共同记录该实体在每个元数据项上的取值 。 加上这个结构,系统进行资源实体的访问时便可按照如下流程进行: 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 11 - 从 c d a l _ i n f o _ 构中读取 n a m e s p a c e , 通过n a m e s p a c e 的值定位到具体的 c d a l _ ( $ t y p e ) _ a d a t a 结构 , 并从 c d a l _ ( $ t y p e ) _ m e t a d a t a 结构中获取该资源实体的所有元数据项 。 从 c d a l _i n f o _ 构中读取 n a m e s p a c e , 通过 n a m e s p 值定位到具体的 c d a l _ ( $ t y p e ) _ m e t a d a t a 结构 , 并从 c d a l _ ( $ t y p e ) _ m e t a d a t a 结构中获取该资源实体的所有元数据项 。将该资源实体的唯一标识符与各个元数项的名称分别组合 ,到实际的数据存储模块中取得所有的元数据项取值 。图 2. 给定 资源实体 元数据的 访问流程 在 户对元数据的取值进行修改时,为了实现像编辑、历史版本保存等基本的 性,系统在每次保存某个资源实体的某个或某些属性的新的取值时,不能简单的改掉原值,而是要将原值保存好,并将用户输入的新值在系统内部标记为这些属性的最新版本,同时保存 。 这些 特性带来的主要影响是:需要一个额外的数据结构为每一个资源实体的每个属性记录该属性的最新版本数据所存放的位置,称之为 以 指存储系统中保存所有元数据最新和历史取值的模块, 元数据 系统的核心部分可如下概括: 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 12 - c d a l _ i n f o _ o b jc d a l _ a t t r i b u t e _ v a l u ec d a l _ i n f o o b j _ l a t e s 属 性 最 新 取 值 的 存 储 位 置获 取 属 性 所 有 历 史 版 本 的 取 值获 取 取 值 的 最 新 版 本c d a l _ d c m e t a d a t ac d a l _ ( $ t y p e ) _ m e t a d a t 元 数 据 项 集 合图 3. 元数据存储模块的核心结构 在 此核心的基础上, 对图 2 中的流程进行细化,得到新的资源实体元数据访问流程图,如图 4 所示: 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 13 - 从 c d a l _ i n f o _ o b 出 与 i 的 资 源 实 体利 用 该 资 源 实 体 的o b j _ n a m e s p a c e 属 性 找 到该 资 源 实 体 相 应 的c d a l _ ( $ t y p e ) _ m e t a d a t a ,并 读 出 其 所 有 元 数 据 项结 束从 e l e m e n t _ s e t 中 取 出 一 个 元 数 据项 , 应 用 该 项 结 合c d a l _ i n f o o b j _ l a t e s t 与c d a l _ a t t r i b u t e _ v a l u e 结 构 读 出 该项 的 最 新 取 值 , 并 将 该 项 从e l e m e n t _ s e t 中 删 除将 读 出 的 所 有 元 数 据 项 的最 新 取 值 形 成 返 回 结 果e l e m e n t _ s e t 为空 集 ?N oY e 出 的 所 有 元 数 据 项 构成 集 合 e l e m e n t _ s e 图 4. 细化后的资源实体访问流程 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 14 - 块 使用 对 资源实体 进行封装: 的每个属性都作为 相应的基本属性出现,此外,资源实体的每个元数据项都会作为该类的复合 属性出现,这个复合属性记录了该元数据项的名称、标签、取值等信息。我们将这个属性 抽象成 。 获取这些信息的流程包含在 图 4 的 示 意中 。 完成封装之后, 块即可使用 实现对资源实体的元数据的访问: - n a m e s p a c e : in . . .I n f o r m a t i o n O b j e c t- e le m e n t _ n a m e : s t r in g- la b e l : s t r in g- e d it a b : b o o . . .A t t r i b u t n d 11- E n d 2*图 5. 资源实体的面向对象封装 3 元数据管理 该元数据系统与普通 擎的不同点主要体现在如下几个方面: 1)在粒度上,系统要维护到比资源实体更细致的层次,即资源实体的各个元数据属性 。 不同的属性在可编辑性上会有不同,有些属性是可以开放给网络用户编辑的,例如电子书的作者、出版社、描述等 ; 有些属性是不适合编辑的,例如,资源的收录时间就应是收录的时候确定的,无需编辑; 2)对元数据系统来说,元数据项往往是有唯一的正确取值的,而普通的 擎不做该假设 。 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 15 - 这两方面的区别决定了系统在对元数据的管理上需要在可编辑性以及编辑的粒度上做控制 。 为了实现该控制机制, 在资源实体的层次,系统为置一个 性,用来表示该实体是否可编辑;在元数据模式层次,系统在 有记录的每个元数据项上设有性,用来表示该项是否可编辑 。 只有 性取值为假的资源实体的 性为真的元数据项才会对网络用户显示为可编辑的 。 这样管理者就可以通过设置这两个值实现可编辑性的控制 。 4 与原系统的协同工作 为了使元数据系统与原系统能够互相访问,元数据系统需要一种 方法由到原系统的资源,同时原系统也需要一种方法从各个资源文件到元数据系统中取得资源的元数据 。 原系统的各种资源分布存储在若干台服务器上,每个资源实体由服务器的 资源的绝对路径唯一确定,所以元数据系统可以利用该性质实现二者之间的对应 。 在 设置 置 性记录绝对路径,这样元数据系统就可以通过每个资源实体的 到相应的资源所在位置;反之,原系统亦可 通过 资源文件的绝对路径找到资源实体在元数据系统中的 而获得资源的元数据 。 元数据系统将以上设计在关系数据库中实现构成了 其 核心部分 。 图 3 中除外,每个数据类型对应数据库中的一个表格,而分为 个表格来实现,其中的每条记录代表一个历史版本,与资源实体的属性相联系,而只记录取值,各个值与 应,以此 方式将历史版 本和具体取值这两个信息分离 。 综合以上设计思路,得到数据库模式如 图 6 所示 : 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 16 - c d a l _ i n f o o b j _ l a t e s a t t r i b u t e _ n a m er e v _ l a t e s tc d a l _ r e v i s i o r e v _ e v _ e v _ a t t r i b u t e _ n a m er e v _ t i m e s t a m pr e v _ v a l u e _ d a l _ d c m e t a d a t e l e m e n t _ n a m l a b e l 10 n _ l a b e lc d a l _ ( $ t y p e ) _ m e t a d a t e l e m e n t _ n a m e q u i v a l e n c el a b e le d i t a b l ec d a l _ v a l u o l d _ l d _ t e x tc d a l _ i n f o o b n a m e s p a c r e a d _ o n l l o c a t i o n _ l o c a t i o n _ p a t . 元数据存储模块的数据库模式 5 存取性能上的优化 按照如上方式实现,对某个给定 资源实体,为完成一次对其所有元数据项的最新版本的读取,须向数据库系统发出如下 询: 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 17 - m e, e = e e= e ($;该查询涉及到 5 个表格进行联表运算 。 查询的结果又要被转换成可显示的形式返回给提交请求的客户 。 注意到 ,如果这个资源实体的任何元数据项在两次查询之间都没有被改动过,那么由前一次查询结果生成的可显示的形式的返回值便可以直接作为返回值应用到后一次的请求中,无需进行上述联表查询 。 因此可以考虑将这个返回值缓存起来供后来使用。 一般情况下,在协作编辑环境中,随着时间的推移,数据被修改的频率会越来越低 。 因此,随着时间的推移,如果不被频繁修改的数据更多的从缓存中而不是从实际存储中读出,读取效率无疑会有所提高 。 添加数据结构 于缓存客户端请求元数据查询时由元数 据 系 统 生 成 的 可 显 示 的 返 回 值 。 该 数 据 结 构 包 含 三 个 属 性 :1)时存在于系统中的该属性的不同的值对应不同的资源实体,标识该数据结构的实例用来缓存系统中的哪个资源实体; 2) 属性为被 性标识的资源实体的缓存取值, 中时将其作为最终结果返回; 3) 明该缓存记录的有效期限 。 将缓存模块加入到元数据系统之后,当系统收到 “查看给定资源实体 元数据 ”这一请求时, 元数据系统首先从 据结构中读出该资源实体。 然后,系统不会直接到 读取元数据属性,而是到寻找是否有与该资源实体相对应的缓存项,如果有,则读出该项的值作为返回结果,否则,执行图 4 中 所示流程 读取 所有元数据项的取值并构建返回值,并将返回值存入 。这一 执行 过程 如图 7 所示 : 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 18 - 从 c d a l _ i n f o _ o b j 中 读 出 与 i 的 资 源 实 体计 算 该 资 源 实 体 的c a c h e _ k e y n a m e 的 值 , 并用 该 值 查 询c d a l _ i n f o o b j _ c a c h ec a c h e 命 中 ?读 出 c d a l _ i n f o o b j _ c a c h e 中与 c a c h e _ k e y n a m e 相 应 的记 录 的 c a c h e _ v a l u 出 的 c a c h e _ v a l u e 作 为返 回 结 果结 束Y e 图 4 所 示 流 程 获 得 返 回值将 返 回 结 果 写 入c d a l _ c a c h e , 并 设 置 c a c h 效 期 限c a c h e _ e x p t i m e , 返 回 结 果开 始清 除 过 期 的c a c h e 条 目c a c h e 条 目 数 超 出预 设 最 大 值 ?Y e sN oN . 元数据访问的总体流程 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 19 - 至此,元数据系统的 主体部分设计完成 。 第四章 实用效果 与展望 在有 元数据系统 之前, 数字资源的访问是只能基于文件名的,如图8 所示: 图 8. 旧的 源列表界面 这个界面上显示的 电子图书 资源对应了某台服务器上“ 中美百万册图书 录下的一系列文件 。我们可以从路径上得到这些资源的一些分类信息,但是关于这些书籍更详尽的描述信息我们就没有办法从路径中获取了。 同样是这些书籍,如果 够利用资源文件的路径信息通过元数据系统获取到资源的元数据,界面上的显示则变为图 9: 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 20 - 图 9. 与元数据系统协同工作后的资 源列表界面 列表上可以显示书籍的名称,点击书籍名称右侧的 ”接可以查看该书籍详细的元数据信息。从此也就进入了 擎,用户可以随意编辑该图书的元数据。详见图 10 与图 11: 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 21 - 图 10. 元数据显示页面 图 11. 元数据编辑界面 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 22 - 在为 加新的数字资源时, 如果数字资源 伴随着 符合 准或者 准的 元数据一起加 入 ,那么 可以通过程序将元数据存入 样就能出现图 9 的显示效果。以上示例效果即是通过此法取得的。 当前实现的功能 尚未构成一 个完整意义上的 擎,因为系统还不能实现为缺少元数据的资源实体添加元数据的功能,只能为有元数据的资源实体提供编辑功能。在存储系统的基础上,有效的 元数据 检索系统的实现也是重要的课题之一。 第五 章 总结 本文由 元数据问题出发,探讨了针对具有以下两个特点的对象的协同编辑系统的一种解决方案: 1)对象的数据是结构化的; 2)结构化数据的数据模式可能是不确定的 。 该系统只要在数据模式上稍加改动,即可应用于其他类型资源库的场合。 实现存储和访问的功能时,系统既兼顾到了元数据和协同编辑两个方面的特点,又注意 到访问效率的提高 。 描述资源实体和与外系统之间的互操作都是元数据的主要作用,故系统采用国际上普遍接受的元数据模式 为类资源的元数据模式的基础;为了使得系统快速适应元数据模式的变化,系统采用了将元数据模式与元数据项的取值分离的存储方式 。 由于是协同编辑的环境,系统保存了所有元数据的历史版本,以追踪元数据的变化,也便于在必要的时候恢复原值 。 而设计 缓存 的目标则是减轻后台数据库系统的压力 。 从应用效果上看,元数据系统 与原 系统 整合得比较顺利,并达到了通过元数据丰富与完善资源库的效果。 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 23 - 致 谢: 感谢北京大学网络与分布式系统的博士 研究 生 陈翀 在 元数据, 指导与启发以及在实现程序功能和提高程序运行效率上提出的宝贵建议。 参考文献: 1 姜爱蓉,牛金芳,郑小惠 我国数字图书馆标准规范建设:基本数字对象描述元数据规范 2003 年 2 of a 2002 3 2000 4 2005 5 . 6 方网站: 7 开源项目 档及代码 附表:四类数字资源的元数据模式 1 电子书籍: 元数据项 扩展自 标签名 注释 dc:识符 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 24 - dc:名 由创作者或出版者赋于资源的名称 dc:者 可以是一个人,一个组织或一个服务 。 填创建者的名字 版次 dc:题及关键词 描述资源内容的关键词,短语或专业领域的分类号 。 推荐主题和关键词最好是取自于一个受控词表或是一个规范的分类体系 。 dc:述 文摘,目录,简介 dc:行者 可以是一个人,一个组织或一个服务 。 dc:种 资源内容所用的语言, 采用 766中所定义的语种代码规范 (可以将用户填写的文字转换成这个规范中的编码 ) dc:版日期 资源的出版日期 。 建议采用的日期格式应符合 ) 规范,并使用 日)的格式,也可以用时间段表示 。 dc:录日期 资源被 录的时间 dc:权 dc:型 资 源内容的分类范畴,功能,特性或集合层次 北京大学计算机系网络与分布式系统实验室 李庚 学士论文 - 25 - dc:式 资源的媒体格式 dc:盖范围 时空覆盖面,例如 “讲述建国前的历史 ”, “东北地区 ”) dc:合人群 适宜阅读对象,可以是年龄段,学历,知识领域 。 由作者、发行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论