(计算机系统结构专业论文)存储控制系统性能优化技术研究.pdf_第1页
(计算机系统结构专业论文)存储控制系统性能优化技术研究.pdf_第2页
(计算机系统结构专业论文)存储控制系统性能优化技术研究.pdf_第3页
(计算机系统结构专业论文)存储控制系统性能优化技术研究.pdf_第4页
(计算机系统结构专业论文)存储控制系统性能优化技术研究.pdf_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近年来,处理器内核的工作频率及处理器内部指令执行并行度的不断增加,使单位 时间内处理器内核的访存频度不断增加,导致处理器对访存效率的要求也越来越高。然 而,与处理器性能提高的速度相比,内存设备工作效率提高的速度相当缓慢。目前,内 存访问的较长延时和较低带宽已经成为制约计算机系统性能提高的主要因素,因此,对 控制内存设备的存储控制系统进行性能优化方面的研究是非常有意义的。 本文从减少系统访存延时和增加系统访存带宽的角度出发,结合龙芯2 号处理器运 行s p e ca u 2 0 0 0 测试程序时的内存访问行为,系统地研究了存储控制系统的性能优化 技术。本文的主要贡献及创新点如下: 1 利用现代内存设备所支持的访问模式( c l o s ep a g e 模式o p e np a g e 模式) 以及内 存设备中多个存储体( b a n k ) 可以并发访问的特性,结合龙芯2 号处理器运行s p e c c p u 2 0 0 0 测试程序时的内存访问行为特征,提出了一种基于存储体访问历史表的动态内 存设备p a g e 管理策略以提高内存设备的访问效率。 2 提出了一种在存储控制系统中实现的预取结构。该预取电路基于s t r e a mb u f f e r 预取技术,结合龙芯2 号处理器运行s p e cc p u 2 0 0 0 测试程序时的内存访问行为特征来 对访存s t r e a m 进行定位。为了减少预取操作对系统有效访存带宽的负面影响,在预取电 路中利用动态p a g e 管理电路所提供的内存设备p a g e 状态信息对预取操作的发起时机进 行了管理。 3 结合目前龙芯2 号处理器系统总线的相关特征,提出了一种在存储控制系统内部 实现的写缓存技术以提高系统的有效访存带宽。 4 提出了一种基于s p l i tt r a n s a c t i o n 技术并且与目前龙芯2 号处理器系统总线协议相 结合的系统总线传输协议。在改进的系统总线传输协议中,通过简洁的握手机制保证了 系统总线上多个读操作所对应的命令与数据被分离交叠地传输。 论文对上述优化策略进行了大量的实验和测试。实验结果表明:动态p a g e 管理策略、 预取技术以及写缓存技术结合在一起,可使龙芯2 号处理器的有效访存带宽提高近一倍, 并且使龙芯2 号处理器运行s p e cc p u 2 0 0 0 测试程序时的平均i p c ( i n s t r u c t i o n sp e r c y c l e ) 提高1 0 以上;改进的系统总线传输协议使得系统有效访存带宽得到明显的提高; 另外,在改进总线传输协议的基础上,本文所提出的存储控制系统性能优化技术依然能 够使得处理器的口c 提高1 0 左右。上述实验结果说明:本文所提出的存储控制系统性 能优化技术对系统访存性能的提高是相当明显的。 关键词:龙芯2 号处理器;存储控制系统;p a g e 管理策略;预取;写缓存:系统总线 p e r f o r m a n c eo p t i m i z a t i o no f m e m o r yc o n t r o ls y s t e m s l iw e n ( c o m p u t e r a r c h i t e c t u r e ) d i r e c t e db yt a n gz h i m i n i nr e c e n ty e a r s ,w i t ht h ei n c r e a s i n go ft h ep r o c e s s o r sf f e q u e n c ya n dt h e p a r a l l e ld e g r e e s i np r o c e s s o r si n s t r u c t i o ne x e c u t i n g , t h ep r o c e s s o r sm e m o r ya c c e s so p e r a t i o n se x p a n dg r e a t l y a n db r i n gg r e a tp r e s s u r et oc o m p u t e rs y s t e m s h o w e v c o n t r a s tt ot h ep e r f o r m a n c e i m p r o v e m e n to f p r o c e s s o r , t h ep e r f o r m a n c eo f m e m o r yi m p r o v e sv e r ys l o w l y , t h a tc a u s e st h e l a t e n c yo f m e m o r ya c c e s sb e c o m e st h em a j o rb o t t l e n e c ko f t h ep e r f o r m a n c ei m p r o v e m e n tf o r t h em o d e mc o m p u t e rs y s t e m s i no r d e rt oi m p m v et h ep e r f o r m a n c eo f c o m p u t e rs y s t e m s ,i ti s e s s e n t i a lt oo p t i m i z et h ep e r f o r m a n c eo f m e m o r yc o n t r o ls y s t e m s f r o mt h ep o i n to fv i e wo fd e c r e a s i n gt h el a t e n c yo f m e m o r ya c c e s sa n di n c r e a s i n gt h e b a n d w i d t ho fm e m o r ya c c e s s , c o m b i n e dw i t ht h ec h a r a c t e r i s t i c so fg o o d s o n - 2p r o c e s s o r s m e m o r ya c c e s sa c t i o nw h e ng o o d s o n - 2p r o c e s s o rm r m i n gs p e cc p u 2 0 0 0t e s tp r o g r a m s s e v e r a la p p r o a c h e st h a tc a nb r i n gp e r f o r m a n c ei m p r o v e m e n to fs y s t e m sm e m o r ya c c e s si s p r o p o s e di nt h i sd i s s e r t a t i o n 贴ed c t a i l e dr e s e a r c hi m p r o v e m e n t s a r ea sf o l l o w s i u t i l i z i n gt h ec h a r a c t e r i s t i c st h a ta l lo f t h em o d e md r a m d e v i c e sc a n s u p p o r tt w op a g e s t r a t e g i e s ( c l o s ep a g em o d ea n do p e np a g em o d e ) a n dt h eb a n k s i nd r a mc a nb ea c c e s s e d c o n c u r r e n t l y , a n db a s e do nt h es p a t i a ll o c a l i t yc h a r a c t e r so fg o o d s o n - 2p r o c e s s o r sm e m o r y a c c e s s e so p e r a t i o n so b t a i n e dw h i l eg o o d s o n - 2p r o c e s s o rr u n n i n gt h es p e cc p u 2 0 0 0t e s t p r o g r a m s ,ad y n a m i cp a g es t r a t e g yi sp r o p o s e di nt h i sd i s s e r t a t i o n 2 ap r e f e t c h i n gp o l i c yi nm e m o r yc o n t r o ls y s t e mi sp r o p o s e d , w h i c hn $ e st h ei d e ao f s t r e a mb u f f e rp r o p o s e db y 1 0 u p p i i nt h ep r e f e t c h i n gp o l i c yp r o p o s e di nt h i sd i s s e r t a t i o n , t h e m e m o r ya c c e s ss t r e a mi sa l l o c a t e db a s e do rt h es p a t i a ll o c a l i t yc h a r a c t e r so fg o o d s o n - 2 p r o c e s s o r sm e m o r ya c c e s s ( :so p e r a t i o n sw h e ng o o d s o n - 2p r o c e s s o rr u n n i n gs p e cc p u 2 0 0 0 t e s tp r 0 乎锄n s ,i nt h ei m p l e m e n t a t i o no fp r e f e t c h i n g , t h ep r e f e t c h i n go p e r a t i o ni sm a n a g e db y u t i l i z i n gt h ei n f o r m a t i o nt h a t t h ed y n a m i cp a g em a n a g e m e n tc i r c u i t s p r o v i d e d ,s ot h e p r e f e t c h i n gp o l i c yi n t h i sd i s s e r t a t i o nc a nr e d u c et h en e g a t i v ea f f e c to nm e m o r ya c c e s s b a n d w i d t hc o n t r a s tt ot h ep r e f e t c h i n gi np r o c e s s o r s 3 c o m b i n e dw i t ht h ec h a r a c t e r so fs y s t e mb u su s e di nt h eg o o d s o n - 2p r o c e s s o r , w e d e s i g naw r i t eb u f f e ri ng o o d s o n - 2m e m o r yc o n t r o ls y s t e mi no r d e rt oi m p r o v et h ep r o e e s s o r s m e m o r ya c c e s sb a n d w i d t h 4 i no r d e rt oi m p r o v et h eb a n d w i d t ho fs y s t e mb u s ,w ep r o p o s eas y s t e mb u sp r o t o c o l t h a tu t i l i z e st h es p l i tt r a n s a c t i o nt e c h n o l o g ya n da d o p t st h ep r o t o c o lu s e di nc u r r e n tg o o d s o n - 2 p r o c e s s o r ss y s t e mb u s t h en e ws y s t e mb u sp r o t o c o lp m p o s e di nt h i sd i s s e r t a t i o nr i s e sc o n c i s e h a n d s h a k ep o l i c yt og u a r a n t e em u l t i - r e a do p e r a t i o n sc a nb et r a n s f e r r e do nt h es y s t e mb u s d i s c r e t e l y n 1 存储控制系统性能优化技术研究;a b s n a e t a c c o r d i n gt ot h ee v a l u a t i o nr e s u l t so ft h ep o l i c i e sp r o p o s e di nt h ed i s s e r t a t i o n , t h e yc a l l n e a r l yd o u b l et h es t r e a mt e s tr e s u l t so f g o o d s o n - 2p r o c e s s o r , a n dg e tt h ei m p r o v e m e n to f1 0 f o rt h ei p co fg o o d s o n 一2p r o c e s s o r , w h e nt h ed y n a m i cp a g em a n a g e m e n tp o l i c y , p r e f e t c h i n g a n dw r i t eb u f f e ru s e dt o g e t h e ri nt h em e m o r yc o n t r o ls y s t e m f r o mt h e a n a l y s i sr e s u l t s ,w ef m d t h a tt h en e w s y s t e mb u sc a ni m p r o v eb a n d w i d t ho ft h ep r o c e s s o r sm e m o r ya c c e s so b v i o u s l y , a n dt h ep e r f o r m a n c eo p t i m i z a t i o np o l i c yf o rm e m o r ys y s t e mt h a tp r o p o s e db yt h i sd i s s e r t a t i o n c a nb r i n g1 0 o f t h ei m p r o v e m e n tf o rt h ei p co f g o o d s o l o s y s t e ma l s 0 w h e nt h en c w s y s t e m b u sp o l i c yi su s e di ng o o d s o n - 2s y s t e m n er e s u l ts h o w st h a tt h eo p t i m i z a t i o nt e c h n o l o g y p r o p o s e di nt h i st h e s i sc a nb r i n gt h ep e r f o r m a n c ei m p m v e r n e n to b v i o u s l yf o rt h es y s t e m m e m o r ya c c e s s k e y w o r d s :g o o d s o n - 2p r o c e s s o r , m e m o r yc o n t r o ls y s t e m ,p a g em a n a g e m e n tp o l i c y , p r e f e t c h i n g 。w r i t eb u f f e r , s y s t e mb u s 图目录 图1 1c p u d r a m 性能发展趋势对比 图1 2 现代处理器存储层次2 图1 3 针对s p e ci n t 2 0 0 0 处理器内外不同倍频关系下s p e c 分值的相对比值3 图1 4 针对s p e cf p 2 0 0 0 处理器内外不同倍频关系下s p e c 分值的相对比值4 图1 5 处理器i p c 相对值随c a c h em i s s 后访存延迟值的变化情况5 图1 6 单处理机系统架构 图1 7 集中式总线仲裁。 图1 8 分布式总线仲裁 图2 1 现代d r a m 芯片内部逻辑结构图。 。6 7 。8 1 3 图2 2d r a m 存储单元原理图1 4 图2 3d i 认m 存储体结构示例1 5 图2 4d r a m 读操作时序图 图2 5s d r a m 读操作时序图 图2 6d d rs d r a m 和s d rs d r a m 访问时序的差别 图2 7 访存顺序调度技术对访存延时的优化 图2 84 路交叉存储器组织形式 图2 9i n t e l9 2 5 x 芯片组的系统框架图 图2 1 0 系统总线s p l i t 位a n s a c t i o n 传输机制 1 7 1 8 2 8 图2 1 1h y p e r t r a n s p o r t 总线的数据传输效率优势3 4 图3 1 龙芯2 号片外存储控制系统的外围接口与设备 图3 2 龙芯2 号片外存储控制系统框架图 图3 3 共享总线式互连 图3 4 交叉开关结构图3 8 i x 存储控制系统性能优化技术研究;图目录 图3 5 基于交叉开关的龙芯2 号片外存储控制系统内部互连机制3 8 图3 6 交叉开关方式的w i s h b o n e 总线结构3 9 图3 7 基于时间片轮转方式的仲裁机制 图3 8 处理器系统接口与内存设备之间的访存通路 图3 9d d rs d r a m 控制器的整体框架 图4 1 内存设备控制电路在c l o s ep a g e 和o p e np a g e 模式下的读操作状态转换5 2 图4 2 龙芯2 号处理器运行s p e c c p u 2 0 0 0 测试程序时访存操作的p a g e 命中率5 4 图4 3 基于b a n k 访问历史表指导当前访存操作p a g e 策略的控制流图5 7 图4 4 不同阈值对s p e ci n t 2 0 0 0 测试程序访存操作p a g e 预测准确性的影响。5 8 图4 5 不同阈值对s p e cf p 2 0 0 0 测试程序访存操作p a g e 预测准确性的影响5 9 图4 6 针对s p e ci n t 2 0 0 0 测试程序不同阈值对延时优化程度的比较6 0 图4 7 针对s p e c f p 2 0 0 0 测试程序不同阈值对延时优化程度的比较6 0 图4 8p a g e 管理电路实现 图4 9 两种预充电优化策略的性能比较 图4 1 0 本文的p a g e 管理策略对s t r e a m 测试结果的影响 图4 1 1 本文的p a g e 管理策略对处理器i p c 值的提高程度 图5 1s t r e a mb u f f e r 预取电路结构图 图5 2p o w e r 3 中预取技术的实现 图5 3s p e cc p u 2 0 0 0 测试程序内存访问操作中取指访存行为空间局部性分布图7 4 图5 4s p e cc p u 2 0 0 0 测试程序内存访问操作中数据访存行为空间局部性分布图7 5 图5 5s p e cc p u 2 0 0 0 测试程序内存访问地址的空间局部性分布图7 6 图5 6s p e cc p u 2 0 0 0 测试程序内存访问操作中指令访存行为的时间局部性分布图7 7 图5 7s p e cc p u 2 0 0 0 测试程序内存访问操作中数据访存行为的时间局部性分布图7 8 图5 8s p e cc p u 2 0 0 0 测试程序内存访问操作的时间局部性分布图7 9 图5 9 预取电路逻辑结构图。 x 存储控制系统性能优化技术研究;图目录 图5 1 0 s t r e a m b u f f e r 个数为4 时s t r e a m b u f f e r 命中率随过滤项数增加的变化情况8 4 图5 1 1s t r e a m b u f f e r 个数为8 时s t r e a m b u f f e r 命中率随过滤项数增加的变化情况8 4 图5 1 2s t b 控制电路逻辑结构图 图5 1 3s t r e a m b u f f e r 命中率随s t r e a m b u f f e r 个数增加的变化情况8 6 图5 1 4 本文的预取技术对s t r e a m 测试结果的影响 图5 1 5 本文基于p a g e 管理策略的预取对处理器 p c 值的提高程度8 9 图5 1 6 结合p a g e 管理策略的预取与片外c a c h e 对处理器i p c 值的提高程度对比9 0 图6 1 龙芯2 号处理器系统总线写操作的总线交互协议9 3 图6 2 龙芯2 号片外存储控制系统中写缓存技术的实现 图6 3 写缓存技术对处理器系统总线访存带宽的影响 图6 4 写缓存技术对处理器口c 值的提高程度9 8 图7 1 现有系统总线读操作时序图 9 9 图7 2 改进后的处理器读操作总线协议1 0 2 图7 ,3 改进后的处理器写操作总线协议 图7 - 4 改进的系统总线与原系统总线的s t r e a m 测试分值比较 1 0 3 1 0 5 图7 5 改进的系统总线对处理器p c 值的提高程度1 0 6 图7 6 本文的优化技术在使用改进系统总线的系统中对s t r e a m 测试分值的影响1 0 7 图7 7 本文的优化技术在使用改进系统总线的系统中对处理器i p c 值的提高1 0 7 x i 表目录 表3 1l i n e a r 访存地址顺序和i n t e r l e a v e 访存地址顺序的区别4 5 i 3 , 2s p e c i n t 2 0 0 0 4 8 表3 3s p e c - f p 2 0 0 0 表3 4s t r e a m 操作定义 表4 1 内存设备b a n k 访问历史信息表 表5 1 数据访存操作占整体访存操作的百分比 表5 2s t r e a m 过滤表结构示例 5 5 8 0 8 3 表6 1 写缓存深度对处理器i p c 值提高程度的影响9 6 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名:劣豇 日期:,ft 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 作者签名:季丈 导师签名:p 时t d 第一章引言 近年来,处理器内核电路的工作频率和处理器内部指令执行并行度的不断增加,使 得处理器内核的性能不断得到提高,结果导致单位时间内处理器的访存频繁程度不断加 剧。然而,目前内存设备工作效率的提高速度远小于处理器内核性能的提高速度,因此, 处理器的访存效率逐渐成为影响系统整体性能发挥的重要因素为了提高计算机系统的 整体性能,在提高处理器内核性能的同时,对内存设备控制系统的性能优化变得至为关 键。 本章首先分析了目前处理器和内存工作效率的发展趋势,结合内存访问延时对龙芯 2 号处理器的重要影响,说明了对系统访存性能进行优化的必要性。然后,本章对存储 控制系统在计算机系统中的地位进行介绍,鉴于存储控制系统对处理器内存访问性能的 重要影响,提出通过存储控制系统性能优化这条途径来解决处理器的内存访问效率问题。 接着,给出了对存储控制系统的访存性能进行量化的指标。最后,总结了本文的创新点, 并给出了后续章节介绍。 1 1 在计算机系统中进行访存性能优化的必要性 在目前的计算机系统中,内存设备通常是由d r a m ( d y n a m i cr a n d o ma c c e s s m e m o r y ) 组成。实际上,并不是所有的内存都是由d r a m 组成,例如,为了减少访问 延时,c r a y 曾经使用s r a m ( s t a t i cr a n d o ma c c e s sm e m o r y ) 在它的超级计算机中来构 建内存。与d r a m 的访问延时相比,s r a m 的访问延时是小很多,但是它的成本却很 高,由于现在的内存系统容量一股都很大,如果用s r a m 来构建内存的话。价格是难以 忍受的。正因为这种原因,导致d r a m 成为目前构建内存系统的首选,本文对内存控 制策略的研究主要体现为对d r j w 控制策略的研究。 近年来,芯片结构以及制造工艺的不断改进使得处理器和内存的工作效率不断得到 提高,然而,就现在的发展趋势来看,处理器工作效率和内存工作效率的提高并不是以 相同比例进行的从1 9 8 5 年开始,处理器的工作效率以每年4 0 - - 5 0 的速度提升, 而由d r a m 设备组成的内存系统的工作效率却以每年7 一1 1 的速度增长 p a t t e r s o n 9 7 1 w u l i l 9 5 。造成d r a m 访问延时下降缓慢的原因和其访问方式有着紧密的关系,因 为对于一次d r a m 读偈访问,首先要进行行选( r o wa c t i v e ) ,然后进行列选( c o l u m n a c t i v e ) 才能对d r a m 存储单元进行访问,而行选( r o w a c t i v e ) 所需要的时间每年下降 大约7 左右,列选( c o l u m na c t i v e ) 需要的时间每年下降大约2 5 左右 p r z b y l s l d 9 6 1 , 因此,造成了内存设备工作效率一直处于缓慢提高的现状。图1 1 给出了近年来处理器 和内存的性能发展趋势 p a t t e r s o n 0 2 。从图中可以看出,虽然d r a m 的性能也不断得到 提高,但是和处理器性能的增长速度相比,d r a m 性能的增长速度严重滞后,这种滞后 l 中国科学院博士学位论文存储控制系统性能优化技术研究 导致处理器与d t l a i v l 之日】在数据传输上存在一个巨大的鸿沟。由于处理器和内存之间 的性能增长存在不均衡性,处理器访问c a c h e 不命中时就会使得处理器需要花费数十甚 至数百个处理器时钟周期的时间来等待数据从内存的j 医_ b u r g e r9 7 。 。 j + c p uj i + d r a m i 么! :p 寸,_ _ 图1 ic p u - d r a m 性能发展趋势对比 然而,让计算机系统设计人员庆幸的是:大多数程序的执行具有一定的局部性 s m i t h 8 2 。局部性原理指出:绝大多数程序访问的指令和数据都是相对簇聚的。程序执行的局 部性体现为时间局部性和空间局部性。时间局部性指的是被处理器访问过的指令或数据, 在一定的时问内很有可能再次被访问;空间局部性指的是被处理器访问过的指令或数据, 和它存储空间邻近的指令或数据很有可能被处理器访问基于局部性原理,为了减少由 于进行内存访问给处理器带来的等待,多级存储层次被提出田a e r 8 9 ,图1 2 给出了 b a e r s 9 q b 的现代处理器存储层次。 i1 个时钟周期 苄 :i o 个时钟周期 j l o o 个时钟周期 图1 2 现代处理器存储层次 在图1 2 中,由于c a c h e 位于处理器内部,所以相对内存访问来说,处理器访问c a c h e 的延时相当微小的( 一级c a c h e 的访问延时往往是一个处理器内核时钟周期) ,因此对于 访存行为时间局部性好的程序,c a c h e 技术使得处理器性能得到很大的提高 2 第一章引言 随着处理器工作频率的不断增加,单位时问内处理器访存操作的频繁程度不断得到 增加,而c a c h e 的容量毕竟足有限制的,因为c a c h e 容量的增加会导致处理器芯片面积 的增大,相应供电、功耗等一系列问题随之而来,因此,单独依靠处理器内部c a c h e 技 术来解决处理器访存压力是有局限的。 超标量处理器结构出现以后,处理器内部指令的执行呈现出很高的并行性,这样使 得处理器访存操作频繁程度加剧,结果导致处理器对访存带宽的需求线性甚至是超线性 增长 h u a n g9 6 。为了缓解处理器的访存压力,乱序执行技术在超标量处理器设计中被 广泛应用并且使得处理器对访存的延时有了一定的容忍 r l w u 8 7 1 。然而,处理器内部指 令的乱序执行需要相当复杂的硬件控制电路,另外,乱序执行的指令的窗口总是有限的, 因此,乱序执行技术对处理器访存延时的容忍程度也是有限的 d i e f e n d o r f f 0 0 。 对于很多重要的应用程序( 例如:稀疏矩阵、数据库系统、信号处理、多媒体应用 以及c a d 应用等) 来说,它们的访存操作不但频繁,而且访存地址的局部性特征很差, 处理器内部c a c h e 的容量根本不能满足这些应用程序的访存需求;另外,针对这些内存 访问操作比较剧烈的应用程序,指令乱序执行对处理器访存压力缓解程度也变得相当有 限,因此,对于这些应用程序,处理器和内存之间的性能差距往往导致处理器的处理能 力难以发挥出来,提高处理器的内存访问效率变得至为关键。 在龙芯2 号处理器的设计过程中,随着处理器工作频率的提高以及处理器内部指令 执行并行度的增加,内存访问延时逐渐成为影响处理器系统性能的关键因素。图1 3 和 图1 4 分别给出了一款龙芯2 号处理器的两种配置( 一种配置是处理器内核工作在 2 6 4 m h z ,系统总线工作在6 6 m h z ,另一种配置是处理器内核工作在2 0 0 m h z ,系统总线 工作在l o o m h z ) 针对s p e cc p u 2 0 0 0 测试分值的相对值比较。 图1 3 针对s p e ci n t 2 0 0 0 处理器内外不同倍频关系下s p e c 分值的相对比值 中国科学院博士学位论文一存储控制系统性能优化技术研究 图1 4 针对s p e cf p 2 0 0 0 处理器内外不同倍频关系下s p e c 分值的相对比值 在图1 3 和图1 4 中,针对诸如1 7 1 s w i m 、1 7 6 g c e 、1 7 9 a r t 、1 8 3 c q u a k c 这些访存操 作比较密集的s p e cc p u 2 0 0 0 测试程序,处理器内核工作在2 6 4 m h z 时的s p e c 分值比 处理器内核工作在2 0 0 m h z 时的s p e c 分值还要低。 从图1 3 和图1 4 可以看出,虽然第一种配置中处理器内核的工作频率要比第二种配 置中处理器内核的工作频率要高,但是由于第一种配置中系统总线的工作频率低于第二 种配置中系统总线的工作频率,系统访存的延时导致某些测试程序在第一种配置下的分 值反而低于在第二种配置下的分值。 图1 3 和图1 4 说明处理器系统总线的工作频率对计算机系统的整体性能有着极为重 要的影响。然而,系统总线的工作频率对计算机系统的整体性能的影响实质上是处理器 内存访问延时对处理器系统性能影响的一种体现,所以对龙芯2 号处理器内存访问操作 进行性能优化是相当有必要的 为了分析处理器内存访问延时对处理器性能的影响,我们在龙芯2 号处理器的模拟 器上设置不同的处理器内存访问延时拍数,通过内存访问延时拍数的改变来观察其对处 理器性能的影响。 图1 5 给出了针对s p e c c p u 2 0 0 0 测试程序,内存访问的延时对龙芯2 号处理器i p c ( i n s t r u c t i o n sp e rc y c l e ) 值的影响。在图1 5 中,设定处理器通过系统总线访问内存设 备的延时为1 个处理器时钟周期时每个s p e cc p u 2 0 0 0 测试程序的i p c 值为l ,图中的 纵坐标值是当系统总线进行内存访问的延时增加时,处理器的i p c 值与访存延时为1 个 处理器时钟周期时的i p c 值的比值 4 第一毒引言 图1 5 处理器i p c 相对值随c a c h em i s s 后访存延迟值的变化情况 从图1 5 可以看出,当处理器系统总线访问内存的延时拍数增加时,处理器i p c 值 变化相当剧烈,对于大多数测试程序,处理器的i p c 值是呈直线下降的。这种线性关系 说明了处理器内存访问延时对计算机整体性能的影响是至关重要的。 总之,现代处理器访问内存设备的频繁程度在不断增加,而内存与处理器工作效率 之问的差距却越来越大,这样导致在目前的计算机系统中,处理器访问内存设备所花费 的时间占系统整体运行时问一半还要多,处理器访问内存的代价成为提高计算机系统性 能的一种主要障碍 l i n0 1 。 1 2 存储控制系统及其对计算机系统访存性能的影响 计算机系统是由处理器,内存以及i o 设备等组成的。由于组成计算机系统的各个 部分之间的工作频率的差异很大,并且相互之间没有统一的接口信号用来交互,为此, 在计算机系统中,需要专门的控制电路来负责他们之间的交互 在目前大多数计算机系统中,内存设备的控制一般不是位于处理器内部,而是处于 处理器片外的存储控制系统中因此,处理器的内存访问延时和用于控制内存设备的存 储控制系统有着极为重要的关系。 1 2 1 存储控制系统简介 由于目前处理器和内存设备以及i o 设备之间的工作频率和接口标准存在一定差 异,处理器直接和内存以及i o 设备进行交互存在定的困难,因此,在现在的计算机 系统中,围绕着处理器出现了各种芯片组,而这些芯片组的核心部件就是负责处理器和 内存、i o 设备以及显示设备进行交互的。通常,这些核心部件被称为存储控制系统 中国科学院博士学位论文存储控制系统性能优化技术研究 ( m e m o r y c o n t r o l h u b ) 以及f o 控制系统( i o c o n t r o l h u b ) ,存储控制系统和控制 系统在工业界通常也被称为北桥和南桥。 存储控制系统也称为主桥( h o s t b r i d g e ) 或北桥( n o r t h b r i d g e ) ,它除了负责c p u 、 内存、a g p 以及p c i 设备之间数据的传输之外,还负责提供对c p u 的类型和主频、系 统的前端总线频率、内存的类型( s d r a m ,d d rs d r a m 以及r d r a m 等等) 和最大 容量、i s a p c i a g p 插槽、e c c 纠错等支持,为了加速图形的显示,有的存储控制系统 还集成了显示核心。和存储控制系统相对应的i o 控制系统一般负责对一些低速i o 设 备( 键盘、鼠标等) 的控制。 目前比较经典的单处理机系统架构如图1 6 所示 图1 6 单处理机系统架构 如图1 6 所示,存储控制系统芯片( m c h ) 就是单处理机系统中离c p u 最近的芯 片,主要负责与c p u 的联系并控制内存、a g p 、p c i 数据在存储控制系统内部传输,它 在连接处理器和内存设备以及i o 设备中起主导作用由于处理器的内存访河操作主要 靠存储控制系统来完成,因此存储控制系统访存延时直接关系到处理器的访存性能 随着处理器对内存访问效率的要求变得越来越高,目前已经出现在处理器内部集成 内存控制电路。例如,已经发布的a m ) a t h l o n 6 4 系列的c p u 将内存控制电路集成在了 c p u 内部,这也许将是一种大趋势,与此相结合,存储控制系统的功能会逐渐单一化, 为了简化主板结构、提高主板的集成度,也许以后主流的芯片组很有可能变成存储控制 系统和i o 控制系统融合在一起的单芯片形式 6 第一蕈引占 1 2 2 存储控制系统对计算机系统访存性能的影响 对于计算机系统来说,存储控制系统和处理器之间存在非常密切的关系,存储控制 系统和处理器之问的总线传输效率、存储控制系统内部仲裁机制以及内存控制电路的控 制策略这些因素都影响着系统访问内存设备的性能。 ( 1 ) 存储控制系统内部的仲裁策略影响处理器访存的效率 由于存储控制系统主要是用来负责c p u 、内存、a g p 以及p c i 数据在存储控制系 统内部的传输,因此在存储控制系统内部存在多个接口部件,例如:处理器接口、内存 控制接口以及f o 设备接口等,这些接口部件之间都存在着数据的传输,比如处理器的 访问内存操作就是在处理器接口和内存控制接口之问进行数据传输,p c i 设备的d m a 操作是在p o 接口与内存设备之间进行数据传输由于在系统运行过程中,存在着处理 器接口和的设备接口同时需要向内存控制接口传送数据的可能性,因此,在存储控制 系统内部必须对数据的传输请求进行仲裁,以保证数据传输正确性。 目前,数据传输请求的仲裁方式大致分为集中式仲裁和分散式仲裁。 集中式仲裁 在存储控制系统内部存在着诸如处理器、内存设备以及i l o 设备等子系统的接口, 集中式总线就是用来连接这些接口,使得这些接口之间能够进行数据的交互。 使用集中式总线为存储控制系统内部子系统的接口之间提供互连时,如果某个接口 希望和其他接口进行数据传输,必须向总线提出请求,总线对请求的响应方式可以多种 多样,比如说中断系统总线上当前操作对该接口发出的请求立即响应或者让该接口处于 等待状态一直到系统总线处于空闲状态等等。在使用集中式总线连接的系统中,为了占 用总线而进行的总线使用权申请过程就是集中式总线仲裁方式。 图1 7 给出了集中式总线仲裁方式的示意图。 数据控制总线 图1 7 集中式总线仲裁 集中式总线作为各个子系统之间共享的通信链路,两个主要优点就是低成本和多样 性。通过定义一个统一的连接方法,各种设备可以很容易地连接起来,而且开销较低。 使用集中的总线仲裁方式对存储控制系统内部各个接口之间的总线使用请求进行仲 裁的主要缺点是接口之间的数据通讯必须独占使用总线,因此,总线成为各个设备之间 7 中国科学院博士学位论文存储控制系统性能优化技术研究 信息交换的瓶颈,从而限制了系统中总的f o 吞吐量。 分布式仲裁 与集中式仲裁方式对应的是分布式仲裁方式为了避免集中式仲裁中由于所有的请 求必须统一进行仲裁而降低数据传输效率的缺点,分布式仲裁将请求的仲裁分布到每个 接口部件,这样可以使得存储控制系统内部可以并行进行数据传输。由于分布式传输是 点对点的传输,所以通常分布式仲裁方式也被称为交叉开关式仲裁方式,图1 8 给出了 分布式仲裁的示意图。 1 输 入2 ; : n 仲裁 l l i ,r r 1 r l 1r 1 一啼 1r 1r 1r y 忏习 勰器 龄器 输出l 输出2 输出n 图1 8 分布式总线仲裁 由于分布式仲裁将请求的仲裁分布到各个接口处,所以在电路实现上相对集中式仲 裁要比较复杂一些,但是分布式仲裁方式避免了采用集中式仲裁的存储控制系统中同时 只允许有一路数据在传输的缺点,因此为了提高系统的访存效率,存储控制系统内部的 仲裁方式通常选用分布式仲裁方式 1 2 ) 连接处理器和存储

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论