(计算机应用技术专业论文)面向saas应用的多租户海量存储系统设计与实现.pdf_第1页
(计算机应用技术专业论文)面向saas应用的多租户海量存储系统设计与实现.pdf_第2页
(计算机应用技术专业论文)面向saas应用的多租户海量存储系统设计与实现.pdf_第3页
(计算机应用技术专业论文)面向saas应用的多租户海量存储系统设计与实现.pdf_第4页
(计算机应用技术专业论文)面向saas应用的多租户海量存储系统设计与实现.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江人学硕i j 学位论义摘要 摘要 软件即服务、云计算、互联网应用、科学计算等现代大型应用平台,对文件 存储系统提出了更大容量、更高性能、更高可靠性及多租户隔离等要求,高效可 信的海量文件存储将成为构建上述大型应用的关键技术。 针对s a a s 应用多租户、数据隔离和服务质量保证的问题,论文提出一种面 向多租户的海量存储系统架构,通过元数据服务器和存储服务器两种节点组成集 群,分离客户端对文件系统命空间和数据流读写的操作名。元数据服务器通过虚 拟存储控制器对多租户的请求进行安全验证,同时设置了高速缓存,提升元数据 的并发访问性能,缓存的延迟加载策略减少了服务器故障恢复时间。存储服务器 采用对象的方式维护数据块,使用区段的形式分配空间,使数据块在磁盘上分布 更加连续,提升了大文件访问的效率。 为了保证s a a s 应用数据的高可用性,论文提出一种基于负载均衡的动态副 本管理策略,将文件副本所在服务器节点进行分簇,在簇内设置处理能力强和稳 定在线的超节点来维护副本的增加和删除,监控服务器节点的负载信息。这种局 域集中、广域对等的组织方式,加快了文件副本的定位速度,能够有效的管理大 规模的文件副本。通过对文件的历史访问记录进行分析,预测下一周期文件访问 频率,为流行文件设置合理的副本数,根据负载情况有效分散客户端的请求,实 现了分布式系统的负载均衡。采用负载迁移算法,使各节点的负载和存储空间达 到均衡,以形成合理的数据分布。 为对s a a s 的多租户进行性能隔离和服务等级区分,论文提出基于服务等级 归类的多级服务队列调度方法,采用了队列的方法管理不同租户的请求。通过将 大的请求进行分割,充分利用了存储和网络资源的并行性,并对q o s 保证提供 便利。对多租户的请求按照服务等级归类后,使系统可以优先处理服务等级高的 租户的请求,在服务器资源充足的情况下,能够满足各个级别的租户的q o s 需 求。 结合国家重大科研项目,研制了面向s a a s 应用的多租户海量存储系统原型 j t a n g f s ,该系统实现了论文所述的基本功能,并在基于s a a s 的网络硬盘、浙江 电信商务领航等应用中得到初步验证,能较好地支撑大型s a a s 应用平台的需求。 关键字:软件即服务,海量存储系统,负载均衡,副本策略,服务质量 浙江人学倾1 :学位论文a b s t r a c t a b s t r a c t s o f t w a r e a sas e r v i c e ,c l o u d c o m p u t i n g , i n t e m e t a p p l i c a t i o n s 。 s c i e n t i f i c c o m p u t i n g a n do t h e rm o d e m l a r g e s c a l ea p p l i c a t i o np l a t f o r m s d e m a n ds o m e r e q u i r e m e n t sw h i l eu s i n gt h ef i l es t o r a g es y s t e m ,s u c ha sg r e a t e rc a p a c i t y , h i g h e r p e r f o r m a n c e h i g h e rr e l i a b i l i t ya n dm u l t i t e n a n ti s o l a t i o n e f f i c i e n ta n dc r e d i b l em a s s f i l es t o r a g ew i l lb et h ek e yt e c h n o l o g yt ob u i l ds u c hl a r g e s c a l ea p p l i c a t i o n s f o rm u l t i t e n a n ts a a s a p p l i c a t i o n s d a t a i s o l a t i o na n dq u a l i t yo fs e r v i c e g u a r a n t e e s ,t h i sp a p e rp r e s e n t sm u l t i - t e n a n t o r i e n t e dm a s ss t o r a g es y s t e ma r c h i t e c t u r e m e t a d a t as e r v e ra n ds t o r a g es e r v e rc l u s t e r sa r eu s e dt os e p a r a t ef i l es y s t e mn a m e s p a c e o p e r a t i o n sa n dd a t as t r e a mo p e r a t i o n s w i t hv i r t u a ls t o r a g ec o n t r o l l e r si nm e t a d a t a s e r v e r , m u l t i t e n a n t sr e q u e s t sa r ea u t h e n t i c a t e df o rs e c u r i t y m e t a d a t ac a c h ei su s e dt o i m p r o v et h ep e r f o r m a n c eo fc o n c u r r e n ta c c e s st om e t a d a t a c a c h i n gs t r a t e g yr e d u c e s t h ed e l a yo fs e r v e rf a i l u r er e c o v e r yt i m e s t o r a g es e r v e ru s e so b j e c ta p p r o a c ht o m a i n t a i nd a t ab l o c k s s e c t i o ni st h eu n i tt oa l l o c a t ed i s ks p a c e i tm a k e st h e d i s t r i b u t i o no fd a t ab l o c k so nd i s km o r ec o n t i n u o u sa n de n h a n c e st h ee 衢c i e n c yo f l a r g ef i l ea c c e s s i no r d e rt oe n s u r eh i 曲a v a i l a b i l i t yo fs a a sa p p l i c a t i o n ,t h i sp a p e rp r o p o s e da d y n a m i cr e p l i c am a n a g e m e n ts t r a t e g y b a s e do nl o a db a l a n c i n g r e p l i c a sa r e p a r t i t i o n e di n t od i f f e r e n tc l u s t e r s s u p e rn o d e s w h i c ha r es t e a d yo n l i n ea n dh a v eh i g h p r o c e s s i n gc a p a c i t y , a r es e tu pt om a i n t a i nr e p l i c aa d d i t i o na n dr e p l i c ar e m o v a li n c l u s t e r s r e p l i c al o c a t es p e e di sa c c e l e r a t e db yt h i sr e p l i c ao r g a n i z a t i o nm o d e lo f c e n t r a l i z a t i o ni nl o c a la n dp e e rt op e e ri nw i d ea r e a l a r g e s c a l er e p l i c a sc a nb e m a n a g e de f f e c t i v e l yi nt h i sw a y b ya n a l y z i n gt h eh i s t o r yo ff i l ea c c e s sr e c o r d s 。f i l e a c c e s sf r e q u e n c yi nn e x tc y c l ec a nb ep r e d i c t e d r e p l i c a sa r ea d d e df o rp r e v a l e n c e f i l e s a n dt h e nc l i e n tr e q u e s t sc a nb ed i s p a t c h e da c c o r d i n gt os e r v e rl o a di n f o r m a t i o n t oa c h i e v ead i s t r i b u t e ds y s t e ml o a db a l a n c i n g l o a dm i g r a t i o na l g o r i t h mi su s e dt o a c h i e v eb o t h1 0 a db a l a n c ea n ds t o r a g es p a c eb a l a n c eo ne a c hn o d e w h i c hc a nf o r ma r e a s o n a b l ed i s t r i b u t i o no fd a t a i no r d e rt oa c h i e v ep e r f o r m a n c ei s o l a t i o na n ds e r v i c e 1 e v e ld i s t i n c t i o nf o r m u l t i - t e n a n ts a a sa p p l i c a t i o n ,t h i sp a p e rp r o p o s e das e r v i c e - b a s e dc l a s s i f i c a t i o no f m u l t i c l a s ss e r v i c el e v e lq u e u es c h e d u l i n gm e t h o d q u e u ei su s e dt om a n a g ed i f f e r e n t u s e r sr e q u e s t s l a r g er e q u e s ta r eb r e a ku pi no r d e rt om a k ef u l lu s eo fs t o r a g ea n d n e t w o r kp a r a l l e l i s mr e s o u r c e s ,a n dt of a c i l i t a t eq o sg u a r a n t e e s t e n a n t sr e q u e s t sa r e c l a s s i f i e da c c o r d i n gt os e r v i c el e v e l i ta l l o w st h es y s t e mt om e e tt h ed e m a n do fh i g h l e v e lr e q u e s t s i ft h e r ea r es u f f i c i e n ts e r v e rr e s o u r c e s e v e r yl e v e l sq o sr e q u i r e m e n t s w i l lb es a t i s f i e d a sam a j o rn a t i o n a lr e s e a r c hp r o j e c t ,w ei m p l e m e n tam a s ss t o r a g es y s t e m p r o t o t y p ej t a n g f sf o rm u l t i - t e n a n ts a a sa p p l i c a t i o n s j t a n g f si m p l e m e n t st h eb a s i c f u n c t i o n sd e s c r i b e di np a p e r s i th a sb e e nt e s t e da n dv e r i f i e db ys a a s b a s e dn e t w o r k d i s ks y s t e ma n dz h e ji a n gt e l e c o mb i z n a v i g a t o rp l a t f o r m s y s t e mt e s tr e p o r ts h o w s t h a tj t a n g f si sa b l et om e e tc u r r e n td e m a n d so fs a a sa p p l i c a t i o n s 1 1 浙江人学形ii :学位论文 a b s t r a c t k e y w o r d s :s a a s ,m a s ss t o r a g es y s t e m ,l o a db a l a n c i n g r e p l i c as t r a t e g y q o s 浙江人学硕i :学位论义图日录 图目录 图1 1g o o g l e 文件系统5 图1 2h a d o o p 分布式文件系统6 图1 3c e p h 分布式存储系统6 图1 4 监鲸分布式文件系统7 图1 5h y b i r d 多实例多租户模式8 图1 6n a t i v e 单实例多租户模式8 图1 7i b m 中间什技术启用多租户的五种主要方法9 图1 8 论文组织架构图10 图2 1s a a s 应川中的多级存储架构1 3 图2 2 面向s a a s 应用的海量文件存储系统15 图2 3 面向多租户的存储架构17 图2 4 对象文件系统磁柱布局示意图2 1 图3 1 分簇管理网络拓扑图2 7 图4 1 基于服务等级归类的多级o o s 队列管理4 0 图5 1 钱塘文件服务器系统架构图4 6 图5 2 钱塘文件服务器备份恢复管理l :具4 8 图5 3 基于钱塘文制:服务器的网络便盘系统4 9 图5 4s a a s 在线存储服务企业信息界面5 0 图5 5s a a s 在线存储服务空间中请历史记录界面5 0 图5 6 基于钱塘文件服务器的w i n d o w s 虚拟磁盘5 1 图5 7 元数据服务器类倒5 2 幽5 8 存储服务器类图5 3 图5 9 文1 ;,| :副本管理器类图5 4 图5 1 0 存储服务器的网络流量监控图5 6 图5 1 1 基丁历史记录文件访问概率预测和实际分布对比图5 6 图5 1 2 文件访问频率和生成副本数的关系图5 7 图5 1 3 平均响应时间的比较5 7 图5 1 4j t a n g f s 和n f s 在千兆网上的写数据性能比较5 8 图5 15j t a n g f s 和n f s 在千兆网上的读数据性能比较一5 8 图5 1 6 五个副本在负载冈子统计5 9 图5 1 7 负载重分配前后存储服务器的文件块分布情况5 9 图5 1 8 平均响应时间对比图。6 0 图5 1 9 传输速率对比图6 0 v l 浙江人学顾1 :学位论文表目录 表目录 表5 1 元数据服务器模块表5 1 表5 2 存储服务器模块表5 3 表5 3 系统测试环境元数据服务器配置表5 5 表5 4 系统测试环境存储服务器配置表5 5 v l i 浙江大学研究生学位论文独创性声明 本人声明所交的学位论文是本人在导师指导下进行的研究:j :作及取得的研究成果。除 了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得逝姿盘堂或其他教育机构的学位或证1 5 而使用过的材料。与我一同i : 作的同j 占对本研究所做的任何贡献均已在论文中作了明确的说明升表示谢意。 学位论文作者签名:签字日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解迸望盘堂有权保留并向国家有关部门或机构送交本论 文的复印件和磁盘,允许论文被查阅和借阅。本人授权进姿态堂可以将学位论文的全部 或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 ( 保密的学位论文在解密后适_ h j 本授权1 5 ) 学位论文作者签名:导师签名: 签字日期:年月 日 签字日期:年月日 浙江人学硕i j 学位论文 第1 章绪论 第1 章绪论 软件即服务( s a a s :s o f t w a r e a s a - s e r v i c e ) 1 】的出现,将彻底改变软件系统的 交付和使用形式。软件即服务的现代大型应用平台,对文件存储系统提出了更大 容量、更高性能、更高可靠性和多租户隔离等要求,高效可信的海量文件存储将 成为构建上述软件即服务大型应用的关键技术。 1 1 研究背景 面向s a a s 应用的多租户海量文件存储系统,要满足软件即服务中基于w e b 形式的软件应用需求,通过搭建和维护文件存储所需的软件环境、硬件平台和网 络设施,为中小企业信息化建设提供便利,在满足企业对信息管理需求的同时, 有效降低每个租户的成本投入。 1 1 1 软件即服务 s a a s 是s o f t w a r e a s a - s e r v i c e ( 软件即服务) 的简称,是一种通过互联网提 供软件服务的模式。应用提供商发布基于w e b 的软件应用,管理和维护软件的 开发和升级,提供软件的运行环境,中小企业用户可以直接租用软件来管理企业 经营活动。 软件部署为托管服务,通过因特网存取,是s a a s 的基本特点。s a a s 向企业 和个人消费者两大类别的最终用户提供服务,企业和组织通过对服务进行个性化 配置,可以完成包括财务、客户管理管理( c r m ) 和供应链管理( s c m ) 等商 业活动。个人消费者可通过订购或免费的方式,使用邮件系统、在线文档编辑、 电子表单、网络存储等服务。 s a a s 所提供的服务和传统软件产品具有很大的不同,传统软件产品的部署 和使用需要最终用户提供服务器硬件、网络设备及所需的运行环境,购买软件产 品的授权,并需要在软件升级和维护时花费额外的支出。s a a s 供应商通常按照 用户所租用的服务类型和租用时长来收费,负责维护服务器硬,管理软件服务件 的部署、运行、维护和升级,用户仅需支付订购软件服务的一小笔费用,即可使 浙江人学硕1 :学位论义第1 幸绪论 用到业务所需的软件。 s a a s 的出现,使中小企业企业用户只需一次性支付项目的实施费用,并根 据企业业务需求定期支付软件租赁服务费,就能使用到所需的软件服务,消除了 购买、搭建和维护i t 基础设施的需要,并无需建立机房和招聘专门的i t 人员, 有效的减少了成本开销。s a a s 的服务模式和企业原有模式的信息系统在使用上 基本没有区别,但租赁的方式使企业可以更加灵活的根据需要选择所需的服务, 大幅度降低了中小企业信息化的门槛。 用户为使用s a a s 服务而支付给s a a s 供应商的费用旱,有一部分要用于服务 器硬件和软件服务的开发和管理。对于供应商来说,不用为每家客户提供单独的 服务器和部署独立的软件。在由若干服务器组成的负载均衡集群上,支持多家不 同规模的客户,每个客户按照使用情况分担所有的集群硬件和运营成本,因此 s a a s 模式充分利用了资源。在客户数量增加时,每个客户的成本在降低,与传 统模式相比节约了成本。 s a a s 的服务提供商要通过有效的安全加密技术措施,保证每个企业和用户 数据的安全性和保密性。一个好的s a a s 服务提供商提供数据的高可用性,在多 个地点建立数据的副本,使用户能在任何时间任何地点访问到所需的数据,同时 也要通过一系列机制保证多个数据副本之间的同步和一致,根据用户的访问情况 分配到不同的副本上,实现负载均衡的功能。 在降低成本的同时,s a a s 应用提供商需要保证每个客户的服务质量,因此 要在所提供的服务中加入q o s 保证,满足不同付费级别客户对性能、流量、速 度、响应时间、容量等需求。同时,数据访问的q o s 对于流媒体视频点播、v o i c e o v e ri p 等实时性要求高的互联网应用程序十分重要,需要保证足够的网络带宽 和较小的网络延迟。 1 1 2 多租户技术 s a a s 应用的核一i i , 技术之是多租户技术( m u l t i t e n a n c y ) ,通过多个企业共享 和复用软件、硬件、运营和维护资源,降低了s a a s 应用的成本。 对多租户技术的普遍定义是,所有的应用共享通用的基础结构和相同的程序 代码,通过配置的方式改变每个用户的特性。多租户模式通过在多个承租者之间 2 浙江人学硕i j 学位论义第l 章绪论 共享软件、硬件和应用程序的开发维护成本,共享的应用程序升级后,所有的承 租者都同步升级,有效降低了单个承租者的成本。 然而,在多租户的情形下,由于多个企业租户共享应用的资源,对数据的安 全和隔离带来了新的挑战,同时保证每个租户的服务质量的技术难度也比单租户 要加大很多。 多租户的模式也对软件开发和应用程序带来一些潜在的问题。在物理结构 上,所有的承租户共享同一个软件实例和存储设备,单个租户对应用软件的使用 可能会对其他租户在可用性及性能上产生影响。如果资源隔离和安全性保障机制 不够时,会造成租户的私有数据被其他租户访问,带来数据安全问题。此外,在 共享存储设备的方式下,各个租户很难在不影响其他租户的情况下实现私有数据 的备份和恢复。 在多租户模式的海量存储系统里,所有用户和应用将共享这个系统的硬件, 使用相同的代码,每个用户可以根据配置的方式,进行个性化设置,对存储系统 进行不同类型的访问。每个租户可能会有不同的存储需求,采用h t t p 、h t t p s 、 s o c k e t 、f t p 等不同的协议,读写不同大小的文件,对响应时间和传输速度也具 有相应的需求。 因此,需要一个面向s a a s 应用的海量存储系统架构,来解决多租户模式下 数据隔离、高可用性和服务质量保证问题。 1 1 3 海量存储系统 随着大型数据库、互联网、科学计算的快速发展,全球的数据存储容量急剧 膨胀,传统的数据存储技术的可扩展性不够。通常可以连接的存储设备数量受到 接口的限制,增加设备可能会需要停机,在数据的传输性能和可靠性方面,也存 在着不足。数据总线带宽、磁盘速度的增长也无法满足应用对于数据带宽的需求, 存储子系统逐渐成为计算机系统发展的瓶颈。 为了支持数据的快速增长,许多应用系统采用分布式文件系统进行存储容量 的扩展,通过计算机网络将多个节点上的物理存储设备进行连接。网络文件系统 ( n f s o n e t w o r kf i l es y s t e m ) 的出现使得分布式文件系统发展并应用到各个领域, 在经历了四个版本更新后,被移植到几乎所有的主流操作系统,成为分布式系统 浙江人学硕i :学位论文第1 章绪论 事实上的标准。分布式文件系统将可扩展性放到设计和实现的重要位置,能够支 持数百甚至数千个节点的分布式环境。为了满足应用的需求,分布式文件系统采 用了多种方法提高系统性能,比如多级的缓存策略、资源管理的优化、采用多个 存储设备、更好的调度算法等。 传统的分布式文件系统一般都是运行在局域网( l a n ) 上,面对广域网和大 容量存储的s a a s 应用需求,往往难以支撑,因此需要研制新型的海量存储系统 来满足s a a s 应用的要求。 海量存储系统要支持大容量的存储,并且提供良好的可扩展性,在容量、性 能、管理方面都可以快速适应应用系统的变化。海量的存储系统要同时为多个用 户提供服务,要具有较高的性能,保证数据访问时所需要的高带宽。庞大的数据 规模,存储系统本身也会越来复杂,通过数据副本等机制实现高可用性将十分关 键,另外系统需要提供完善的监控和管理工具,自动检测和修复硬件和软件所引 起的故障,以减少昂贵的人工维护成本。 1 2 国内外研究现状 1 2 1 分布式文件存储系统 。 计算机的存储系统最初是用来管理本地的磁盘,提供数据的读写接口,能够 以文件的形式管理数据。随着网络技术的发展,数据需要在不同的主机节点间进 行访问,网络文件系统为了满足这个需求而产生。在分布式文件存储系统领域, 比较成功的系统有g o o g l ef i l es y s t e m l 2 1 、a p a c h eh a d o o p 3 1 、c e p h l 4 1 、b w f s t 5 1 、 c o d a l 6 、p n u t s t 7 1 、d y n a m o 8 1 、z f s l 9 1 、m o g i l e f s t l 0 1 、g p f s l l l 】及m i c r o s o f td f s 等,这旱选取有代表性的4 个进行详细介绍: 1 g o o g i e 文件系统 g o o g l e 文件系统( g o o g l e f i l es y s t e m ) 是g o o g l e 公司为大规模分布式数据 访问的应用设计的分布式文件系统。g o o g l e 作为一个巨大的数据检索系统,并 没有采用常见的数据库管理系统来管理w e b 文件及相关数据,而是把多个w e b 文件汇集到一个巨大的文件中进行存储和管理。 g o o g l e 文件系统是一个使用普通p c 机组成集群来实现高性能、高可靠、易 4 浙江大学硕:i :学位论文第1 章绪论 扩展的海量存储系统。采用单个主服务器( m a s t e r ) 和多个存储服务器( c h u n k s e r v e r ) 的模式,主服务器中保存全局的文件系统命名空间,记录文件大小、文 件创建修改时间等属性信息,以及文件到存储服务器的数据块映射。在g o o g l e 文件系统中,每个文件块在3 台存储服务器上有副本,通过数据冗余来实现容错 功能。g o o g l e 文件系统中的文件有一个特性,每个文件基本上只执行一次写入 操作,以后都是频繁的的只读操作。 ? “”。”。“”一“ 。g 摊d i 嘲3 _ 一 融删舭,:缬蠛趟i k。 l d m l 轴姗。 爪j 一 露h l 姗& 歉- e 躯鞠嚏蠛, 畚兰! l 汹融椭懒船确晰钟群叮+ 一 。; i 瓣蛾轴觑。帆蝴,一:;i c b 嘲鼍煅触 0h _ d 蜮d a t a 一一一一 ,一一一一 一j l _ 融f i l e 姆蝴 ;拥馘f i l e 甥懒j 图1 1g o o g l e 文件系统 2 1 - l a d o o p 分布式文件系统 a p a c h eh a d o o p 是一个分布式计算平台。y a h o o ! 和c a r n e g i em e l l o n 大学 合作的开源分布式计算项目( 代号m 4 5 ) ,计算集群采用4 0 0 0 个处理器,3 t 内 存,1 5p b 的存储空间,r 该集群就运行在a p a c h eh a d o o p 上。 a p a c h eh a d o o p 中包含一个分布式文件系统( h d f s ) ,用来在各个计算节点 上存储数据,能够提供高吞吐率的数据读写。由于应用了m a p r e d u c e 和分布式 文件系统使得h a d o o p 框架具有高容错性,能自动处理失败节点。h a d o o p 分布式 文件系统具有良好的容错性,可以使用低成本的普通电脑构建集群,采用了一个 名字节点( n a m e n o d e ) 和多个数据节点( d a t a n o d e ) 的架构,数据以块的形式 分布在不同的数据节点上,并且具有多个数据块的副本,在硬件或者软件发生故 障时能够选择可用的数据副本,具有很高的可用性。 浙江入学倾l :学位论文第1 帝绪论 h d f sa r c h i t e c t u r e 图1 2h a d o o p 分布式文件系统 o e p h 分布式存储系统 c e p h 分布式存储系统是由美国加州大学圣特克鲁斯分校存储系统研究中心 开发的海量存储系统。元数据服务器和存储服务器均采用分布式的结构,具有动 态元数据管理和分层的数据分布选择方式。由多个元数据服务器构建的文件系统 名字空间,比g o o g l e 文件系统和h a d o o p 分布式文件系统支持更多的文件命名 空间并发访问。元数据的动念子树划分技术具有较好的负载均衡功能,将元数据 的访问请求分配到不同的节点,同时支持负载的动态迁移。在存储服务器中,提 供一套基于对象存储设备的对象文件系统,优化了不同大小文件的存储空间分 配,使每个文件尽可能的连续分布在磁盘上,在合理利用磁盘空间的同时,减少 了磁头的寻道时间,加快了数据的访问速度。 m e t a d a t ac ;l u s t e r 图1 3c e p h 分布式存储系统 6 浙江大学坝t 学位诧第j 章鲭诧 4 蓝鲸分布式文件系统 蓝鲸分布式文件系统( b w f s ) 是中国科学院计算技术研究所工程中心自主 设计研发的基于网络存储的大容量、高性能、高扩展能力分布式文件系统。它采 用了专用服务器模式将文件访问的数据流和控制流进行了分离,能够提供高吞 吐率和高扩展能力的数据访问。 b w f s 系统的集群包括元数据服务器和绑定服务器两个部分,通过专门的元 数据服务器集群管理文件系统元数据,网络存储设备管理文件数据存储服务,绑 定服务器管理元数据的分布,实现负载均衡功能。应用服务器集群通过蓝鲸分柿 式文件系统的元数据访问协议,直接向网络存储设备进行文件数据的读写。 图14 蓝鲔分布式文件系统 1 2 2 多租户的实现技术 多租户技术( m u l t i - t e n a n c y ) 在技术实现上,目前常用的方法有物理隔离、虚 拟化和应用支持的多租户三大类”i i ”i i ”i 。这方面的研究工作主要集中在h y b i r d 多实例和n a t i v e 单实例两种多租户模式。 h y b i r d 多实例多租户模式为每个租户建立单独的应用实例,每个企业租户的 应用和数据存储都是物理隔离开的,独占为其分配的物理资源,隔离层次最高, 浙江人学硕1 :学位论文第1 章绪论 幽固妁彬锣姑 l ,。? h 一一“”、,一 应用疆;蓼应用i 量序:应用腥第 1疆体设餐资源 、- - _ - _ _ _ _ _ _ _ _ _ _ _ _ 叫蛐_ _ _ _ - _ _ _ _ _ _ 一 国为国 := 二一,:二= 刁 应用楗序j 存储系统| 碜件设餐资源 i 8 浙江人学删l 。学位论文第】常缔论 s h a r e dn t i d d l c l l a r c 4 m a j z - ooo oo ”:燃? “微烈竺谧豁絮等蹴掣”= 嚣嚣6 ” ! ! :! ? , ! , e 苎苎鬟龋i i i ;i 【瞄浏崩划k 藕藏雾噩赣 基一= = = 二巫匦巫画巫亟 _ 二二亘亟垂西西蔓萎煎茧量至窭= 圈17i b m 中间件技朱启用多疆户的五种主要方法 在单一应用程序实例的共享中间件方法里,采用租户标识的方法,所有接口 的操作和数据的访问中都要添加租户,如果使用数据库表每张表都应该有 租户m 这一列。 多个应用程序实例和共享地址空间的共享中自j 件方法,为每个租户创建不同 的应用程序实例,中白j 件是一个实例,数据库的表是按照用户区分的。 多个应用程序实例和单独地址空间的共享中间件方法将应用部署在不同的 中间件里,每个租户具有独立的操作系统进程地址空间。 租户相关的虚拟映像实现虚拟化方法。租户使用不同的应用程序、中间件和 操作系统实例但是共享物理服务器。服务器虚拟化技术在近几年有快速的发展, 在服务嚣领域得到广泛使用,采用虚拟化技术可咀快速实现租户资源的隔离。 单独的服务器上运行多个实例的a s p 模型,租户只共享数据中心的基础结 构,例如供电和制冷设备,应用程序、中自件、操作系统和服务器采用不同实例, 这种方法最适合那些要求为不同的租户提供充分隔离和定制的工作负载和场景。 1 3 研究内窖 本文工作是基础中自j 件平台的研制及其产业化项目的一部分。浙江省重大基 础软件产品开发专项“基础中间件平台的研制及其产业化”课题旨在研发面 向制造业、服务业、电子商务和电子政务行业,具有国际先进水准、具有自主知 浙江人学硕1 j 学位论文第1 幸绪论 识产权的中间件平台类基础软,提升软件企业的核心技术水平。 论文的主要研究内容包括:设计一个面向s a a s 应用的多租户存储系统架构, 通过虚拟存储控制器来对不同用户的存储数据进行隔离管理,采用分簇的方式管 理多个文件的副本,通过对访问频率进行预测,动态生成不同个数的文件副本, 保证s a a s 应用中的数掘高可用性。同时采用负载均衡策略,将负载最低的副本 提供给用户的请求。为了满足不同等级租户对存储系统的传输速率和响应时间要 求,采用请求调度的方法,满足用户的q o s 需求,具体包含保证基于服务等级 归类的q o s 的调度算法和q o s 可调度验证算法。 l第1 蕈绪论i ;几器蓍蟊嚣劢瓤阑辩匿甍磊面霹阑i i的毫互疆缝il迹回q q 堡垂友洼 j : 够 。压;夏磊磊习 l 第5 童原型系统实现和性能分析l 辱 图1 8 论文组织架构图 如图1 7 所示本文共分为六个章节,各章的组织结构如下: 一第l 章绪论,介绍论文的研究背景、国内外研究现状和研究内容,对软 件即服务、多租户技术和海量存储系统等基本概念做了一个比较系统的 介绍。然后对国内外的海量存储系统研究现状进行了分析,最后介绍论 文的研究内容和完成的主要工作。 i 第2 章多租户海量存储系统架构,通过对s a a s 应用中多租户的需求进 行分析,提出面向s m a s 应用的存储系统分级模型,对实现多租户隔离、 数据高可用性和具有数据访问q o s 保证的海量存储系统进行架构设计, 将系统分解成虚拟存储数据管理、多租户元数据管理和数据块存储管理 几个模块。 1 0 浙江人学硕j j 学位论义 第1 章绪论 第3 章s a a s 应用数据的高可用性,采用了文件副本的方法来满足s a a s 应用对数据访问的高可用性需求,提出基于分簇网络拓扑结构的副本管 理模型,简化副本管理和维护的复杂性。多个文件副本能够提供负载均 衡功能,根据文件访问流行度动态增减副本。对于文件分布不均衡的情 况,可采用负载重分配方法进行调整。 第4 章s a a s 应用数据访问q o s 保证方法,首先分析了s a a s 应用对数据 访问的文件级、会话级和操作级的三种需求,指出q o s 管理的目标。在 q o s 保证方法上,采用存储请求分割和基于服务等级归类的多级队列调 度来满足不同等级租户的q o s 需求。提出网络带宽控制和磁盘调度算法, 进一步合理利用服务器资源。 第5 章原型系统实现和性能分析,提出面向s a a s 应用的多租户海量存 储系统的原型实现j t a n g f s ,介绍主要功能特点、系统架构和s a a s 在线 存储案例,对多副本管理所实现的负载均衡和高可用性进行测试和分析。 第6 章总结与展望,对本文所完成的主要工作进行总结,并对下一步的 研究工作进行了展望。 1 4 本章小结 本章主要向读者介绍了软件即服务、多租户技术和海量存储系统等基本概 念,对国内外的g o o g l e 、h a d o o p 、c e p h 和蓝鲸分布式文件系统的架构和功能进 行介绍,分析了h y b i r d 多实例和n a t i v e 单实例在解决多租户问题的区别,指出 研发面向s a a s 应用的多租户海量存储系统的重要意义,然后对本文的研究背景 和研究内容进行了阐述,最后介绍了论文的研究内容和文章的组织结构。 浙江人学颂i :学位论文第2 章多租户沟量1 竽储系统架构 第2 章多租户海量存储系统架构 软件即服务中,产品、客户、雇员、供应商的数据是商业运营最核心的资产。 用户通过网络对结构化数据和非结构化的文件数据进行存储,需要一个完善的多 租户海量存储系统架构,来确保用户间的数据隔离和安全,保证数据访问的高可 用性,同时满足传输速率和响应时间的q o s 需求。 2 1 多租户存储系统需求 在s a a s 应用环境中,为了满足海量数据的存储、高并发访问和数据共享的 需求,往往采用分布式的文件系统或存储网络系统来支持大量的客户端和应用程 序,分布式的方案具有很强的伸缩性,具有动态扩展的特性。 面向s a a s 应用的海量存储系统,需要提供具有高扩展和高可靠性的在线存 储服务,以互联网为基础,满足当前及未来w e b 2 0 应用的存储需求。s a a s 应用 的租户将无需考虑存储容量、数据存放位置、系统的安全性、可靠性和高可用性 等技术因素。租户只需要按需付费就可以获得近乎无限大的存储空间和可靠的服 务质量,即付即用,节约投资,从而完全专注于自身应用与业务的发展。 面向s a a s 应用的海量存储系统面临的技术需求如下: - 异构性 面向s a a s 应用的海量存储系统必须基于多种不同的存储设备、网络、操 作系统、计算机硬件和编程语言,需要能够屏蔽这些不同。 一分布性 单一的数据中心存储模式无法满足s a a s 应用在数据访问效率、数据可靠 性和系统负载均衡方面的需求,海量存储系统底层的存储资源池中将包含多 个地理位置分布的数据中心用来进行数据冗余和负载均衡。 _ 扩展性 简单高效的存储空间扩容是海量存储系统的基本特点,存储节点的加入 和退出必须以热插拔的方式进行。 一透明性 1 2 浙江人学硕i :学位论义第2 章多租户海量1 竽储系统架构 包括存储位置透明和用户访问透明,用户不需要关心数据存储的具体位 置,能够就近访问到数据的副本,对于用户而言,数据总是可用的。 - 并发性 海量存储系统中多个用户可能会对共享数据资源产生并发请求,每个海 量存储系统组件必须被设计成在并发环境中是安全的。 _ 可靠性 任一进程、计算机和网络都有可能独立的发生故障,因此每个海量存储 系统组件需要清楚所依赖的组件可能出现故障的方式,组件要设计成能适当 的处理每个故障。 效率 用户访问海量存储系统中共享数据的算法应该避免性能瓶颈,频繁访问 的数据需要复制更多的副本,用户能够就近访问获得最快的访问时间,同时 用户使用海量存储系统的接口应该尽可能简单。 2 2 多租户存储系统分级模型 我们可以采用图2 1 所示的四级模型来描述面向s a a s 应用的多租户数据方 案,每种模型对应不同的实现,随着级别的上升,系统的扩展性在增强,资源的 利用率在提高,软硬件的整体花费在下降,每个租户能够通过较低的成本获得所 需的存储资源。 吴吴吴吴吴吴 lif iii 囝:。2 二曰e j e je j 。o 吴吴吴。 吴吴吴 ili l 槛尸盘载均衡黟 i iii e 三j曰e j e 弓 图2 1s a a s 应用中的多级存储架构 第一级是租户定制级,这种成熟度类似于应用程序提供商采用的软件租赁方 式,每个租赁的服务对应一个单独的存储设备资源,采用针对租户需求的实现方 浙江人学硕i :学位论文第2 章多租户海量存储系统架构 案,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论