(通信与信息系统专业论文)h264视频编码标准中的运动补偿算法研究.pdf_第1页
(通信与信息系统专业论文)h264视频编码标准中的运动补偿算法研究.pdf_第2页
(通信与信息系统专业论文)h264视频编码标准中的运动补偿算法研究.pdf_第3页
(通信与信息系统专业论文)h264视频编码标准中的运动补偿算法研究.pdf_第4页
(通信与信息系统专业论文)h264视频编码标准中的运动补偿算法研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学硕士学位论文摘要 摘要 随着时代的发展,视频编码技术在数字电视、高清晰度电视、可视电话、会 议电视和多媒体等视频通信服务中起着至关重要的作用。视频序列图像在时间上 有很强的相关性,利用块运动估计和运动补偿技术可以比较有效地去除图像帧f b 冗余度,实现高码率压缩比,所以这种技术已广泛用于视频压缩的一些国际标准, 如h 2 6 1 ,h 2 6 3 ,m p e g - 1 ,m p e g - 2 和m p e g - 4 中。在这些视频压缩国际标准 中视频系统编码器的复杂性最主要取决于运动估计算法,运动估计的复杂度取决 于运动搜索复杂度、数据读取复杂度和内存管理复杂度。在视频编码过程中,运 动估计的估计精度、数据读取复杂度和内存管理复杂度取决于所采用的块匹配准 则。常用的块匹配准则有绝对平均误差函数( m a e ) 、互相关函数( c c f 】、均方误 差函数( m s e ) 等,而运动估计的运动搜索复杂度取决于运动估计的快速搜索算 法。视频标准的制定,为了满足不同的需求,为了适应不同的码率、不同分辨率 和不同画质的需要,只规定了从视频编码器到解码器码流格式和各种参数的定义 和允许的取值范围,对视频压缩算法,视频编解码器的实现没有给予具体规定, 这就给用户在编码器设计上留下了广阔的空间。 本文从h 2 6 4 的关键技术入手,研究了通用的运动估计和运动补偿技术的快 速算法,并结合h 2 6 4 的特点,提出了一种适合于h 2 6 4 可变分块大小的运动补 偿搜索方式多层次结构方法,即在每层面上用快速算法搜索运动矢量,经 过对以前的快速搜索算法的分析比较,提出一种改进的钻石搜索算法,改进了搜 索的模板和匹配准则;然后运用一个熵准则判断是否细分宏块大小,如果宏块经 过进一步细分后,则将运动矢量投影到下一层上进行运动矢量搜索操作。 通过在j m 参考模型上实现实验对比,搜索的性能提高了3 0 4 0 。证明了 算法的有效性。 关键词:视频压缩编码h ,2 6 4 运动估计运动补偿匹配准则 中国科学技术大学硕士学位论文 摘要 a b s t r a c t a st i m eg o e sb y ,v i d e oc o d i n g t e c h n o l o g yp l a y sak e yr o l ei na r e a sl i k ed i g i t a lt v , h d t v ,v i d e oc o n f e r e n c e ,a n dm u l t i m e d i ac o m m u n i c a t i o n se t c t h e r ei s g r e a t c o r r e l a t i o nb e t w e e n p i c t u r e s i nv i d e o s e q u e n c e ,s ow ec a n u s eb l o c km o t i o n e s t i m a t i o na n dm o t i o nc o m p e n s a t i o nt e c h n o l o g yt oe l i m i n a t e r e d u n d a n c yb e t w e e n f r a m e sa n dg e t h i g hc o m p r e s s i o nr a t e b e c a u s eo fi t se f f i c i e n c y ,b l o c km o t i o n e s t i m a t i o ni sw i d e l ya d o p t e db ym a n yv i d e oc o m p r e s s i o ns t a n d a r d s ,s u c ha sh 2 6 1 , h 2 6 3 ,m p e g 一1 ,m p e g 一2 ,m p e g 一4 ,h 2 6 4e t c t h ec o m p l e x i t i e so fe n c o d e r so f t h e s ev i d e os t a n d a r d sa r em a i n l yd u et om o t i o ne s t i m a t i o na l g o r i t h m ,w h i l ew h i c h r e l i e so nt h e e o m p l e x i t y o fm o t i o nv e c t o rs e a r c h 、d a t aa c c e s sa n d m e m o r y m a n a g e m e n t i nt h ep r o c e s s o fv i d e o c o d i n g ,a c c u r a c y o fm o t i o n e s t i m a t i o n , c o m p l e x i t yo fd a t aa c c e s sa n dm e m o r ym a n a g e m e n td e p e n d sm u c ho nm a t c h i n g c r i t e r i o nf u n c t i o nt h a tc a r lb eu s e df o rb l o c km o t i o ne s t i m a t i o no fh 2 6 1 h 2 6 3 ,m p e g l ,m p e g 2 ,m p e g 4 ,a n dh 2 6 4c o d e c s o r d i n a r i l yu s e dm a t c h i n g c r i t e r i o n sa r em a e ,m s e ,a n dc c fe t c c o m p l e x i t yo fm o t i o ns e a r c hi sd u et of a s t s e a r c ha l g o r i t h mu s e di nm o t i o ne s t i m a t i o n t h es p e c i f i c a t i o no fv i d e oc o m p r e s s i o ns t a n d a r dw a sd e v e l o p e di nm e e t i n gt h e n e e do ft h eg r o w i n gd e m a n df o rag e n e r i cc o d i n gm e t h o do fm o v i n gp i c t u r e sa n do f a s s o c i a t e da u d i of o rv a r i o u s a p p l i c a t i o n s a n du s e r ss u c ha s d i g i t a ls t o r a g e , t r a n s m i s s i o no fm e d i ac o n t e n t ,t e l e v i s i o n b r o a d c a s t i n g a n dc o m m u n i c a t i o nt h e s t a n d a r do n l yd e f i n e ds t r u c t u r eo fb i ts t r e a ma n dar a n g eo fa l l o w a b l ev a l u e sf o r p a r a m e t e r s ;b u ti t d i dn o td e f i n eaf i x e db i ts t r e a mc o n f i g u r a t i o no ff i x e db i tr a t e , s a m p l i n gr a t eo rn u m b e ro f1 i n e s t h es t a n d a r da l s od i dn o tt e l lh o wt or e a l i z ea n e n c o d i n ga l g o r i t h ma n dt h ei m p l e m e n t a t i o no f b o t he n c o d e ra n dd e c o d e r s oi t b r i n g s u sag r e a t o p p o r t u n i t y t o s t u d y a n dd e s i g nam o r ee f f e c t i v e e n c o d i n g d e c o d i n g a l g o r i t h m i nt h i st h e s i s if o c u so nt h ee n c o d i n ga l g o r i t h mi n c l u d i n gm o t i o ne s t i m a t i o na n d f a s tb l o c km a t c ha l g o r i t h mu s e di nh 2 6 4f r a m e w o r k f i r s tw ei n t r o d u c ep r i n c i p l e so f v i d e oc o d i n ga n dk e yi m p r o v e m e n ti nh 2 6 4s t a n d a r da n dt h e nw es t u d yn o r m a l l y u s e dm o t i o ne s t i m a t i o na n dc o m p e n s a t i o nf a s ts e a r c ht e c h n o l o g i e s a t i e rt h a t ,t om e e t t h ef e a t u r e so fh ,2 6 4 w ep r e s e n taf a s ts e a r c hm e t h o df o rh ,2 6 4v a r i a b l eb l o c ks i z e i n t e r f r a m em o t i o nc o m p e n s a t i o n - - - - m u l t i l e v e ls t r u c t u r e w eu s em o d i f i e dd i a m o n d s e a r c ha l g o r i t h mi n e v e r yl e v e l ,a n du s ea ne n t r o p yc r i t e r i o nt oj u d g ew h e t h e rt o d i v i d eab l o c kt ot h ef i n e ri e v e l i fn e e d e d w ed o w np r o j e c tm ec u r r e n tm o t i o nv e c t o r t ot h en e x tl e v e l s i m u l a t i o nr e s u l t su s i n gt h i sm e t h o ds h o wt h a tt h ep r o p o s e da l g o r i t h mi sb e t t e r t h a nc u r r e n ta l g o r i t h m su s e di nh 2 6 4r e f e r e n c es o f t w a r ep l a t f o r m t h ep r o p o s e d a l g o r i t h mi sm u c h r o b u s ta sc o m p a r e dt oo t h e rf a s ts e a r c hm e t h o d sw h e t h e ro rn o tt h e i m a g es e q u e n c e c o n t a i n e df a s to rs l o wm o t i o n k e y w o r d s :v i d e oc o d i n gs t a n d a r d ,h 2 6 4 ,m o t i o ne s t i m a t i o n ,m o t i o n c o m p e n s a t i o n ,m a t c h i n gc r i t e r i o n ,f a s tb l o c km a t c h i n ga l g o r i t h m 中国科学技术大学硕士学位论文 第一章绪论 第一章绪论 1 1 视频编码技术概述 随着通讯技术的发展,人们对视频的需求不断增长,涌现出了各种各样的视 频应用。多媒体内容包括文字、语音、音乐、声音、静止图像、电视图像、电影、 动画、图形等。多媒体技术集计算机、视频压缩、音频压缩、数据压缩以及通信 等技术于一体,具体包括媒体的采集、处理、存储、显示和传输等。2 0 世纪8 0 年代后期以来,图像编码技术取得了引人瞩目的发展,先后出现了用于电视电 话会议的国际标准c c i t t ( 现为i t u - - x ) h 2 6 1 ,用于低码率可视电话的i t u - - t h 2 6 3 标准,用于静止图像压缩的j p e g 标准,用于活动视频图像压缩的m p e g 一1 标准,m p e g 一2 标准和m p e g 一4 标准。上个世纪9 0 年代以来,通信技术 与媒体压缩技术都得到了快速发展,一些媒体压缩与通信的国际标准的相继提出 及其产业化应用开发使得多媒体通信进入了一个新的阶段。由i s o m p e g 和 i t u t 制定的多个国际标准为不同的厂家和视频提供者奠定了一个共同工作的 基础。 众所周知,制约多媒体技术快速发展的两大因素包括通信带宽与媒体处理技 术。若仅是简单地对抽样以后的视频信号进行8 b i t 量化的p c m 编码,数据量非 常巨大。一路数字化的高清晰度电视信号,其数码率商达1 。3 g b s 。如果要存储 和实时传输这样的数据,显然是不现实的,也是不经济的。由于图像在相邻象素 之间存在空间相关性,运动图像在相邻的扫描行之间以及相邻帧之间都存在着较 强的时间相关性,因而可以利用信息论中的信源编码原理,去除这些相关性带来 的冗余度,从而实现数据压缩的目的。另一方面,由于图像和视频最终是通过入 的视觉来感知的,可以充分利用人的视觉心理特性来实现图像压缩,以节省存储 容量和传输所需的信道容量,这就是图像压缩编码的研究内容。图像压缩是多媒 体通信、多媒体计算机和数字电视广播( 普通电视、高清晰度电视) 的核心技术。 1 2 视频编码研究的现状 视频编码技术在数字电视,高清晰度电视,可视电话,电视会议和多媒体等 视频通信服务中起着至关重要的作用。视频序列图像在时间上有很强的相关性, 利用块运动估计和运动补偿技术可以比较有效地去除图像帧问的冗余度,实现高 码率压缩比,所以这种技术已经广泛用于视频压缩的一些国际标准,如h 2 6 1 1 ”, h 2 6 3 2 1 。m p e g 1 1 3 l ,m p e g 2 【4 1 和m p e g 一4 1 5 1 中。 中国科学技术大学磺士学位论文 第一章绪论 在这些视频压缩国际标准中视频系统编码器的复杂性最主要取决于运动估 计算法。运动估计的复杂度取决于运动搜索复杂度、数据读取复杂度和内存管理 复杂度。在视频编码过程中,运动估计的估计精度、数据读取复杂度和内存管理 复杂度取决于所采用的块匹配准则,而运动估计的运动搜索复杂度取决于运动估 计的快速搜索算法。 运动估计是活动图像编码和计算机视觉领域中的一项关键技术,计算机视觉 的研究侧重于物体的二维运动估计来估计其三维运动,活动图像编码的研究侧重 于由物体和摄像祝的相对运动而形成的二维运动。筱定运动目标在帧间作平移运 动,相对应的运动模型可以表示为: l 、,d = x - t l t - v , o - i ) i v = y + 0 当运动目标在帧间有旋转,形状和大小变化时,采用式( 1 一1 ) 所表示的运动 模型做运动估计,会产生很大的运动估计误差,为了解决这个问题,需要从活动 图像中提取运动信息,采用一个更灵活的运动模型,并选择合适的运动模型的参 数使得总的估计误差最小或者尽可能的小,例如采用十二个参数的运动模型,可 以表示为: 这种参数模型可以用来估计在帧间有平移、旋转和缩放以及有其他任意变化 的运动目标。在视频编码中,运动目标在帧闯可以有平移、旋转或缩放和其他任 意运动变化,例如物体的一部分向摄像机运动,而另一部分背向摄像机运动,或 者物体一部分在运动而另一部分静止等。式( i - 2 ) 所描述的运动模型可以有效地 估计运动物体的各种不同的运动变化,但是需要进行很复杂的参数估计。在视频 编码中,由于实时编码和压缩效率的要求,目前采用的视频国际标准中鄙仅考虑 物体的平移运动。 然而在视频编码过程中把图像分割成有不同运动的物体是非常困难的。通常 采用两种比较简单的方法,一种是对每个象素的位移进行递归估计:另种是把 图像划分成若干矩形块,假定块做平移运动,对块进行块匹配运动估计。通常象 素递归估计的计算精度商,对多运动画面的适应性强,但是它的跟踪范围小,实 现起来比较复杂;而块匹配运动估计虽然精度较低一些,但是它的跟踪能力强, 而且容易实现,因而得到了广泛的应用,被多个视频标准采用。 在视频编码标准中。运动估计以宏块为单位,在参考帧中在以相对应的宏块 为中心的搜索区域内进行搜索,寻找最佳匹配宏块,得到相应的运动矢量。运动 估计只对亮度信号进行,色度信号借用亮度信号的估计结果。 ” 潞彩蠢吣镰黔 中国科学技术大学硬士学位论文 第一章缔论 1 3 亟待解决的问题 实时的块匹配运动估计的实现需要考虑以下几个方面:在给定的搜索域内运 动搜索的复杂度;每次块匹配运算的匹配计算复杂度:每次块匹配运算需要从帧 存储器读取到运动估计处理器的数据量大小;实时硬件实现的实用性。 目前运动估计的快速搜索算法有很多种,全搜索运动估计( f s ) 算法由于精度 高,应用比较广泛,但它的运动搜索复杂度很高,特别是在大范围搜索时,硬件 实现难度很大。 全搜索算法是运动预测算法的最基本的方法,但是计算复杂度和搜索复杂度 太大是它的致命缺陷。为了克服这个缺点,提出了很多不同的快速搜索算法,快 速运动搜索算法基于以下几条策略: 减少检测点的数目( 如三步算法3 s s ,2 dl o g 算法,钻石算法) - 减少援索窗的大小r 如下采样d o w n - s a m p l i n g ) 减少运算次数 快速搜索算法通常是低运算复杂度。但是有时它也不够精确,容易落入局部 最小,而不是全局最小。对应于上述几条快速搜索的策略,基本上每种快速搜索 算法都试图降低编码运动矢量所需的比特数或者检测点的数目来降低预算复杂 度。我们的算法就是基于这种方法来改善性能的。 为了减少f s 算法的运动搜索复杂度和数据读取复杂度出现了许多改进的 运动估计算法,如t ik o g a 等人提出的三步搜索算法( 3 s s ) 【2 “、共轭方向搜索算法 ( c d s ) f 4 2 】、二维对数搜索算法( l o g s ) 脚1 、交叉搜索算法( c s ) 【4 3 j 等。 这些运动估计算法往往只能找到搜索区域的局部最优值,但比起f s 算法来 蜕大大减少了搜索复杂度。在这些算法r 1 ,3 s s 算法是最简单有效的,也是最 常用的,但3 s s 算法在搜索区域为( 8 ,s ) 时初始搜索步长为4 ,对慢速运动 块的估计来说太大了,所以出现了改进的搬( n 3 s s ) j ,四步搜索法 ( 4 s s ) p 5 l 等以上的这些快速算法虽然减少了搜索复杂度,但硬件结构仍很复杂。 这些方法尽管各有千秋,但是不能满足h 2 6 4 的要求。为了适合h 。2 6 4 标准 中可变分块大小的运动估计方法,我们键出了一种基于多层次结构的运动锼索算 法,在每一层次上使用改进的钻石搜索算法,而在是否进一步划分块的时候运用 熵准则,仿真分析表明这种快速搜索算法和h 2 6 4 已有的搜索算法相比在基本 不降低性能的前提下降低了运动搜索复杂度。从而提高了运算速度。 1 4 本文的主要研究内容和安排 视频编码压缩标准是个很大的框架,在标准的制定过程中,为了适应不同 中国科学技术大学硕士学位论文 第一章绪论 码速率,不同平台,不同分辨率和不同画质的要求。它只对比特流结构中从视频 编码器到视频解码器的比特流的句法和语法即数据元素的含义,相应的解码方法 以及各种参数允许的取值范围做了做了规定。而对比特流中的比特速率,取样速 率和扫描行,视频编码算法,视频编码器的实现以及视频解码器的实现都没有给 予严格限定,这就给用户实现编码器的算法提供了广阔的空间。如运动估计的搜 索算法,码字分配和码率控制等【3 _ 5 】。本文主要通过研究视频编码国际标准h 2 6 4 的关键技术,研究了用于其中的运动补偿预测快速搜索算法,并在j m 7 3 参考模 型的平台上得以实现。 本文的章节编排如下: 第一章绪论部分,先概述了视频编码技术产生和存在的背景,之后讨论了该 领域研究的现状,亟待解决的问题,并列举了本文所做的工作。 第二章先论述了基本的视频压缩编码原理和方法,然后简要地回顾了视频压 缩标准的发展历程,并比较细致的对比了视频标准h 2 6 4 相对于其他视频标准的 优点。 第三章详细分析了h 2 6 4 中帧问预测编码的具体方法。h 2 6 4 标准根据不同 的需求,采用了多参考帧预测,可变分块大小,通过象素插值进一步提高运动补 偿精度等技术。 第四章从运动补偿的概念入手,对于最常使用的块匹配算法,块匹配运动补 偿的判别标准,常用的几种运动补偿快速搜索方法,进行了研究,然后针对h2 6 4 标准,提出了一种适合于h 2 6 4 标准可变分块大小的分层结构快速搜索算法。快 速搜索算法层面,通过仔细地分析比较,提出一种改进的钻石搜索算法,对搜索 算法的模板和匹配判据都进行了改进。划分块大小方面,提出了一种熵判据来决 定是否进一步划分块大小。 第五章结合j m 参考模型,给出了我们的实验结果和分析对比。证明了算法 的有效性。 第六章是结束语,对全文做了总结,对今后的工作进行了展望。 中国科学技术大学硕士学位论文第二章视频编码压缩方法和视频标准介绍 第二章视频编码压缩方法和视频标准介绍 2 1 基本的视频编码压缩方法 视频压缩的主要根据在于:一方面视频信号在时间与空间上存在大量冗余, 另一方面利用人的视觉特性,在图像变化不被觉察的条件下减少量化信号的灰度 级,以定的客观失真换取数据压缩。 视频冗余存在于结构和统计两方面。在结构上的冗余度表现为很强的空间( 帧 内) 和时间( 帧间) 相关性。一般情况下画面的大部分区域信号变化缓慢,尤其是背 景部分几乎不变,视频信号在相邻像素间、相邻行间和相邻帧问存在强相关性, 这种相关性具体表现为空间冗余和时间冗余。另外,人眼对图像的细节分辨率、 运动分辨率和对比度分辨率的感觉都有一定的界跟。因此可以在定图像质量范 嘲内,减少表示信号的精度,实现数据压缩。 具体的视频压缩方法有很多种分类。根据是否存在信息损失可以分为无损压 缩编码和有损压缩编码。常用的压缩编码方法可以分为三类:熵编码、预测编码、 变换编码以及其他编码方法。 2 1 1 熵编码 s h a n n o n 定理证明只要符号速率不超过信息容量c ,符号可以任意小的差错 概率在该信道中传输。信源所含有的平均信息量( 熵) 就是进行无失真编码的理 论极限,只要不低于此极限,总能找到某种适宜的编码方法逼近熵。而信源中含 有的冗余度源于信源本身的相关性和信源概率分布的不均匀性,只要能去除相关 性或改变概率分布的不均匀性,也就找到了信源编码的方法,利用信源熵的编码 方法主要由h u f f m a n 编码、行程编码和算术编码。 最常见的去除编码冗余的方法有h u f f m a n 编码,h u f f m a n 编码是可变字长编 码( v l c ) 的一种。是h u f f m a n 于1 9 5 2 年提出的一种编码方法,浚方法完全依 据字符出现概率来构造异字头平均长度最短的码字,有时称之为最佳编码,一般 称为h u f f m a n 编码。h u f f m a n 编码中每个符号都对应于一个码宇,总的形成一 个码表,接收端和发送端码表相同。 现实中有许多这样的图像,在一幅图像中具有许多颜色相同的色块。在这些 图块中,许多行上面都具有相同的颜色,或者在一行上有许多连续的象素都具有 相同的颜色值,这种情况下就不需要存储每个象素的颜色值,而仅仅存储一个 象素的颜色值,以及具有相同颜色的象素数目就可以,或者存储一个象素的颜包 值,以及具有相同颜色值的行数。这种压缩编码称为行程编码( r l e ) ,具有相 同颜色并且是连续象素数目称为行程长度。 h u f f m a n 编码的缺点是它不能接近熵界限,除非许多样点一起编码。这是因 为每个样点( 或者样点组) 至少用一个比特。因此,即使对一个很小的字母表, 比特率在标量编码情况下不可能低于l 比特,样点,或在矢量编码情况下不可能 低于1 比特,矢量采样。避免这种问题的一种方法是把可变数目的样点转换成可 变长的码字。这种方法称为算术编码。对于一般的信号,它可以比h u f f m a n 编码 中国科学技术大学硕: 学位论文第二章视频编鸫摧缩方法取 视频标准分缨 更接近熵编码。 算术编码是将被编码的信息映射到实数0 与1 之间的一个间隔。信息越长, 编码表示它的间隔就越小,表示这间隔所需的二进制位数就越多。算术编码包 括基于概率统计的固定模式与非概率统计的自适应模式。自适应模式各个符号的 概率初始值相同,它们依据出现的符号而相应地改变。只要编码器和译码器使用 相同的初始值和改变值方法,它们的概率模型将保持一致。算术编码的自适应模 式可以不必预先定义概率模型。因为在实际的应用中,不可能对全部大量的信息 进行概率统计( 时间较长) ,所以使用自适应模式的算术编码效率很高。 当信源概率分布很不均匀时,h u f f m a n 编码有优势;当信源符号概率比较接 近时,算术编码优于h u f f m a n 编码;行程编码适用于计算机生成的图像,对减少 图像文件的存储空间非常有效,但它不太适用于颜色丰富的自然图像,因为在同 一行上具有相同颜色的连续象素往往很少,而连续几行都具有相同颜色值的连续 行数就更少。在这种情况下,通常需要和其他的压缩编码技术联合使用。 2 1 2 预测编码 预测编码根据过去参考象素来预测当前的象索值,称之为预测值,然后对当 前的象素值与预测值之差进行编码。由于差值少,相应的表示位数减少,从而达 到压缩的目的。常见的预测编码方法包括d p c m 编码和运动补偿预测编码两种。 d p c m 编码方法是利用样本与样本之间存在的信息冗余度来进行编码的一 种数据压缩技术。差分脉冲编码调制的思想是根据过去的样本去估计( e s t i m a t e ) 下一个样本信号的幅度大小,这个值称之为预测值,然后对实际信号值与预测值 之差进行量化编码,减少了表示每个样本信号的位数。它与脉冲编码调带q ( p c m ) 不同的是,p c m 是直接对采样信号进行量化编码,而d p c m 是对实际信号值与 预测值之差进行量化编码,存储或传送的是差值而不是幅度绝对值,这就降低了 传送或存储的数据量。此外,它还能适应大范围变化的输入信号。 运动补偿预测编码的基本思想是把一幅动态图像看成是由静态部分和运动 部分叠加而成。静态部分可以重复使用上一帧的数据,而对运动部分则设法确定 其位移量来帮助运动部分的预测,即进行运动补偿之后再进行帧间预测。 运动补偿预测编码着眼于减小帧间的时间冗余度,是提高视频压缩效率目前 最有效的编码方法,在现有的视频编码标准中得到广泛应用。由于运动补偿预测 编码的计算复杂度很大,它成为视频压缩计算复杂度中的关键环节与瓶颈。虽然 目前提出了许多的快速运动估计算法,其运算复杂度在视频压缩中的瓶颈地位依 2 1 3 变换编码 变换编码的基本原理在于通过数据空间变换,改变数掘的表示形式或分嘶, 从而在变换空间实现数据压缩,然后再变换到原来的数据空间,是典型的有损压 缩方式。正交变换的种类很多譬如k l 交换、d c t 交换、s l a n t 变换、 w a l s h h a d a m a r d 变换等。其中k l ( k a r h u n a n - l o e v e ) 变换后的各系数相关性小, 能量分布集中,忽略低值系数带来的误差小,一般被认为是最佳变抉。但其计算 复杂度大,工程上难以实现。实际中采用的主要是与k l 变换性能最为接近的 中国科学技术大学硕:学位论文 第二章视频编码压缩方法和视频标准介绍 d c t 。 2 1 4 其他编码方法 其它的编码方法还有诸如子带编码、子采样编码、统计分块编码、分形编码 与模型基编码等。其中子带编码方法是将输入信号的频带用带通滤波器分成若干 连续的频段,称之为子带,对每个子带中的信号采用单独的编码方案去编码。在 信道上传送时,将每个子带的代码复合起来。译码时,对每个子带单独译码,然 后把它们组合起来,还原成原来的信号。 混合编码计算量适度,抗干扰能力强,并能得到较大的压缩比。现有的视频 压缩标准采用混合编码方法。它们采用离散余弦变换,行程编码,预测编码以及 基于统计特性的熵编码的混合,所以达到极高的压缩比,而又能满足图像主观保 真度质量的要求。 近几年,人们开始利用小波变换进行变换编码。与f o u r i e r 分析相比,小波 变换是时间和频率的局域变换,能更加有效地提取信号和分析局部信号。小波变 换继承了f o u r i e r 分析的优点,同时又克服它的许多缺点,所以在静态和动态图 像压缩领域得到广泛的应用。利用小波变换可以一次变换整幅图像,不仅可以达 到很高的压缩比,而且不会出现j p e g 重建图像中的”方块”效应,但编码器复杂, 有潜像问题。m p e g 4 中的视觉纹理模式支持视觉纹理和静态图像编码,这种模 式基于零树小波算法,在非常宽的比特率范围内具有很高的编码效率。这些年关 于小波变换图像压缩算法的研究和应用十分活跃。国外一些公司将这种技术用于 i n t e m e t 环境中的图像数据传输,提供商业化的服务,对于缓解网络带宽不足、 加快图像信息传播速度起到了很好的推进作用。图文资料数字化必然会产生大量 的图像数据,对于高比率图像压缩算法的需求尤为迫切。作为一种优秀的图像压 缩算法,小波变换在这一领域具有非常好的应用前景,能够发挥关键性的作用, 同时也必将在我国得到推广和应用。 2 2 视频压缩编码的国际标准 近些年来,国际标准化组织针对不同的应用制定了h 2 6 1 ,h 2 6 3 l ”, m p e g i em p e g i i 4 1 和m p e g 一4 【5 1 标准,在这些标准中作为关键技术的图像压 缩编码技术都采用了将基于离散余弦变换编码和预测编码相结合的混合编码技 术。 2 2 1h 2 6 1 标准 h 2 6 1 图像编解码标准是c c i t t ( 现i t u t ) 于1 9 9 0 年制定的针对活动图像 的p 6 4 k b o s 的编码协议。它同m p e g l 的区别在于h 2 6 1 是传送屏幕区域的更 新信息,火幅度地降低了数据流的瞬时变化,在带宽有障碍的信道上传输是一种 理想的方案。h 2 6 1 可使数据速率压缩至p 6 4 k b p s ( p = 1 2 0 ) ,一般在3 2 3 8 4 k b p s 时图像可达c i f 、q c i f l 5 帧每秒( f s ) ,总体上图像质量略逊于m p e g l , 适合在i s d n 、d d n 、p s t n 网上传输运动的图像。 中国科学技术大学硕士学位论文第二章视频编码压缩方法和视频标准介绍 2 2 2h 2 6 3 标准 h 2 6 3 【2 1 是i t u t 于1 9 9 5 年提出的更低比特率的视频编码方案,可将图像最 低编码到2 0 k b p s ,通过电话线上以2 2 8 k b p s 的v 3 4m o d e m 传输,图像质量达 到1 7 6 1 4 4 或1 2 8 9 6 分辨率下5 1 5 f s 的水平。h 2 6 3 非常适合在固定带宽 的信道中传输视频信号。m p e g l 、h 2 6 1 、h 2 6 3 三种编码方式都是针对低成本 的编码方案。m p e g l 编码方式实现在4 0 0 k b p s 2 m b p s 速率上传输c i f 格式、 每秒5 3 0 帧的活动图像,在三种编码方式中图像质量最高且2 6 1 编码方式采用 了区域更新的方法,进一步降低了码流速率,实现在1 2 8 7 6 8 k b p s 的速率上传 输c i f 或q c i f 格式、每秒5 2 5 帧的活动图像,图像质量略逊于m p e g l ; l 2 6 3 编码方式是三种方式中数据流速率最低的一种,它在h 2 6 1 的基础上增加了四种 编码选项,将码流速率降到1 2 8 k b p s 以下,在9 6 1 2 8 k b p s 的速率上传输c f 或q c i f 格式、每秒1 1 5 帧的活动图像,特别适合在电话线上传输质量要求不 高的活动图像。 2 2 3m p e g 1 m p e g 是运动图像专家组的简称,全称是i s o i e c j t c l s c 2 9 w g l l ,即国际 标准化组织和国际电工委员会第一联合技术组第2 9 分委会第1 1 工作组,负责数 字视频、音频和其他媒体的压缩、解压缩、处理和表示等国际技术标准的制定工 作,成立于1 9 8 8 年。 m p e g 一1 【3 】制定于1 9 9 2 年,是为工业级标准而设计,可适用于不同带宽的设 备,如c d r o m 、v i d e o c d 、c d r 等。主要针对1 5 m b p s 以下的数字存储媒质 运动图像及其伴音编码的国际标准,它用于在c d r o m 上存储同步和彩色运动 视频信号,可以优化为中等分辨率,并在其优化模式下,采用s 1 f 标准格式( 对 于n t s c 制式为3 5 2 2 4 0 、p a l 制式为3 5 2 2 8 8 ) 的图像进行压缩,传输速率为 1 5 m b i t s s e c ,每秒能够播放3 0 帧,具有c d 音质,质量级别基本与v h s 录像带 相当。 m p e g l 的编码速率最高可达4 - 5 m b i t s s e c ,但随着速率的提高,其解码后的 图象质量有所降低。m p e g 1 对色差分量采用4 :l :l 的二次采样率,旨在达到 v r c 质量,其视频压缩率为2 6 :1 。m p e g 1 取得了一连串的成功,如v c d 和 m p 3 的大量使用,w i n d o w s 9 5 以后的版本都带有一个m p e g 一1 的软件解码器、 可携式m p e g 一1 摄像机等等。同时它也被用于数字电话网络上的视频传输,如 非对称数字用户线路( a d s l ) 、视频点播( v o d ) 以及教育网络等。 2 2 4m p e g 2 m p e g 2 4 】标准的制定从1 9 9 0 年7 月开始,经过四年半到1 9 9 4 年l1 月完成 标准。它的结构与m p e g 1 相似,增加了新的补充部分。m p e g 一2 标准的设计目 标是高级工业标准的图象质量以及更高的传输率,它追求的是c c i r 6 0 1 建议的 图象质量d v b 、h d t v 和d v d 等制定的3 m b p s 1 0 m b p s 的运动图像及其伴音 的编码标准。因为m p e g 2 可以提供一个较广的范围改变压缩比,以适应不同 中国科学技术大学硕士学位论文 第二章视频编码压缩方法和视频标准介绍 画面质量、存储容量以及带宽的要求,所以除了作为v c d 和d v d 的指定标准 外,m p e g 一2 还可用于为广播、有线电视网、电缆网络以及卫星直播d b s ( d i r e c t b r o a d c a s t s a t e l l i t e ) 提供广播级的数字视频。但是对于最终用户来醅,由于现在电 视机分辨率的限制,m p e g - 2 所带来的高清晰度画面质量( 如d v d 画面) 在电视 上效果并不明显。 2 2 5m p e g 4 m p e g 组织在1 9 9 3 年7 月开始了m p e g 一4 5 h 视音频对象编码”的研究。并 于1 9 9 9 年5 月形成国际标准,是一种基于对缘的视、音频编码标准。m p e g 4 的本意是制定甚低比特率的视音频压缩编码标准,如在电话线上传输视频和音频 数据。但为了满足现在越来越多的视昕材料要以数字形式进行相互交换而产生的 各种需求,它所包含的内容和将要起的作用已经远远超出了最初的设计思想。 m p e g 一4 不再是一个单纯的视音频编解码标准,它更多定义的是一种格式、框架, 而不是具体算法,为多媒体数据压缩提供了一个更为广阔的平台,允许在系统中 加入新的算法,为用计算机软件编解码提供了更大的方便。m p e g 一4 标准的视频 码率覆盖范围为5 k b i t p s 至5 m b i t p s 。 m p e g 4 标准视频的主要特征: 1 基于对象的编码:m p e g 一4 标准是基于对象和模型的编码,在音频和可 视景物中,可分出若干个对象、自然的及合成的对象,如图形、动画等。m p e g 一4 支持对场景中的物理对象单独进行编码和解码,并支持矩形及任意形状对象的编 解码。m p e g 一4 的视频对象编码技术包括了m p e g 一1 与m p e g 一2 ,但多了形状编 码,要将形状信息传送给解码器。 2 提供基于对象的交互功能:m p e g 4 标准采用对象的概念。不同的数据 源可视为不同的对象。数据的接收者不再是被动的,可以对不同的对象进行操作: 删除、添加、移动、改变尺寸等。 3 场景描述:m p e g 4 可描述场景的结构和音视频对象的位置变化、尺寸、 彩色、声音响度等属性。场景描述的核心是对多媒体对象的安排布蹬,用户通过 场景描述可以操作对象的显示状态,实现交互操作。描述语言采用b i f s ( b i n a r y f o r m a tf o rs c e n e s ) 。场景描述用单独的数据流传输和独立的编解码器,因而可在 压缩的数据流域实现对象控制。 4 分级功能:为适应互联网和无线网等窄带视频通信、多质量视频服务和 多媒体检索等服务,提供了基于对象的分级功能,其中包括空间、时域和混合分 级,高级的精细分级将使m p e g 一4 码流能应对各种不同带宽通路,克服了数字 信号的悬崖效应。 5 差错鲁棒性和差错回避:m p e g 一4 的数据流允许在各种环境下传输,如 比特率低到1 0 k b p s 的移动通讯链路,为此提供了差错鲁棒性和差错回避技术: 重新同步、可逆可变长编码、数掘分块。m p e g 4 的应用范围非常广,具体应用 领域如视频会议和视频电话、交互式视频游戏、多媒体通信、移动通信、多媒体 邮件、基于网络的数据库服务、远程教育、远程视频监视、视频流媒体( s t r e a m i n g v i d e o ) 、交互电视( 用m p e g 4 增强m p e g 2 ,提供用户点播的附加信息) 、电子 节目指南等,环球移动通信系统( u m t s ) 已选择m p e g 4 v i d e o 作为下一代移动电 话的压缩标准。 中国科学技术大学硕士学位论文第二章视频编码压缩方法和视频标准介绍 2 2 6m p e g 7 m p e g 一7 可以形容为“基于语义的表示”。m p e g 7 将规范一组“描述子”, 用于描述各种多媒体信息,也将对定义其他描述子,包括标准化描述符及其相互 关系的结构( 描述模式,d e s c r i p t i o ns c h e m a ) 的方法进行标准化。这些“描述”与 其内容关联,允许快速有效地搜索用户感兴趣的资料。m p e g 7 将标准化一种语 言来说明描述模式,即“描述定义语言”一一d e s c r i p t i o nd e f i n i t i o n l a n g u a g e ( d d l ) 。带有m p e g 7 数据的a v 资料可以包含静止图像、图形、3 d 模 型、音频、语音、视频,以及这些元素如何在多媒体表现中组合的信息,通过 m p e g 7 的描述,就能被索引和搜索。这些通用数据类型的特例可以包含面部表 情和个人化特性。m p e g 7 可独立于其它m p e g 标准使用,但m p e g 4 中所定 义的音频、视频对象的描述适用于m p e g 7 ,因此可以利用m p e g 一7 的描述来增 强其它m p e g 标准的功能。在刚刚结束的第6 2 次m p e g 国际会议中,确定了 m p e g 7 档次和级别划分的原则,为m p e g 7 标准在不同领域的应用提供了技术 框架。 m p e g - 7 的应用范围很广泛,既可应用于存储( 在线或离线) ,也可用于流式 应用( 如广播、将模型加入i n t e m e t 等) ,还可以在实时或非实时环境下应用,如: 数字图书馆( 图像目录,音乐字典等) 、多媒体名录服务( 如黄页) 、广播媒体选择( 无 线电信道、t v 信道等) 、多媒体编辑( 个人电子新闻业务、媒体写作) 等。另外 m p e g

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论