(计算机科学与技术专业论文)信息隐藏技术的研究与音视频同步方案的实现.pdf_第1页
(计算机科学与技术专业论文)信息隐藏技术的研究与音视频同步方案的实现.pdf_第2页
(计算机科学与技术专业论文)信息隐藏技术的研究与音视频同步方案的实现.pdf_第3页
(计算机科学与技术专业论文)信息隐藏技术的研究与音视频同步方案的实现.pdf_第4页
(计算机科学与技术专业论文)信息隐藏技术的研究与音视频同步方案的实现.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i 独创性声明f 螋 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 躲量鱼垫日期:芝! 兰:型! 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:三一丝亟! 导师签名: 日期:趔:兰:夕 i t | 摘要 摘要 随着计算机网络技术的j 、= 断发展以及多媒体的迅速普及,多媒体应用已经深 入到生活的各个领域。在开放的网络环境中,涉密的多媒体信息在传输和存储中 的安全是政府部门、企业和个人非常关心的问题。如何保证它们在网络和其他信 道上传输的安全显得无比重要。 信息加密与信息隐藏是多媒体信息安全的两种主要技术。以密码学为基础的 信息加密技术是主要的信息安全手段,但是该方法存在易受攻击而被破译等问 题。信息隐藏技术是近年来信息安全与多媒体技术融合产生的新兴交叉技术,它 为保障多媒体信息的安全问题提供了新的解决方法。本文研究了信息隐藏技术在 解决多媒体安全传输和存储问题中的应用。 i n t e m e t 提供一种b e s t e f f o r t ( 尽力而为) 的服务,因此数据可能会有不可预 测的延迟,也可能会丢失。时延抖动和阻塞引起的分组丢失会破坏实时媒体流中 媒体单元之间的时序关系从而影响多媒体信息传输的同步。其中音视频同步问题 是最受关注而成为多媒体同步的核心研究课题。如何利用高比特率信息隐藏技术 解决音视频同步的难题,是本文的研究和分析的问题。 通过分析现有信息隐藏和高比特率信息隐藏技术,改进高比特率信息隐藏算 法,本文提出一种基于改进算法的视频嵌入视频方案,实现了大量隐秘信息的安 全传输和存储的目的。实验证明,该方法比原方法减少了信息隐藏操作时间,同 时隐秘信息保持了良好的鲁棒性和准确性。 通过研究高比特率信息隐藏技术在隐藏音频等多媒体信息方面的特点,针对 现有时间戳方法实现音视频同步的缺点,提出一种嵌入式音视频同步方案,将音 频压缩码流作为隐秘信息嵌入到视频图像亮度成分的频域d c t 系数中,然后进行 混合视频的压缩编码并传输。实验结果表明,与常用的时间戳的同步模型相比, 嵌入式算法没有使用系统时钟,在对视频图像的质量影响较小,节省了网络带宽 资源的情况下实现了音视频的同步编码传输和播放,并在网络传输中因丢包情况 下优先保证了音频的流畅性。 关键词信息隐藏;高比特率;音视频同步;离散余弦变换( d c t ) 北京t _ , i e 大学丁学硕十学位论文 1 1 f a b s t r a c t a bs t r a c t w i t ht h ed e v e l o p m e n to fn e t w o r kt e c h n o l o g y , a sw e l la st h er a p i dp o p u l a r i t yo f m u l t i m e d i a ,m u l t i m e d i aa p p l i c a t i o n sh a v eb e e nd e e pi n t op e o p l e sl i v e si nv a r i o u s f i e l d s i nt h eo p e nn e t w o r ke n v i r o n m e n t ,t h es e c u r i t yi s s u eo ft r a n s m i s s i o na n d s t o r a g e o fs e c r e tm u l t i m e d i a m e s s a g e i sc o n c e m e df o r g o v e r n m e n ta g e n c y , c o r p o r a t i o na n di n d i v i d u a l h o wt og u a r a n t e et h es e c u r i t yo f t h en e t w o r kt r a n s m i s s i o n i st h em o s ti m p o r t a n tp r o b l e m m e s s a g ee n c r y p t i o na n di n f o r m a t i o nh i d i n g a r em a i nt e c h n i q u e sf o rd i g i t a l m u l t i m e d i ai n f o r m a t i o ns e c u r i t y i n f o r m a t i o ne n c r y p t i o nb a s e do nc r y p t o g r a p h yi st h e m a i nm e a n so fi n f o r m a t i o ns e c u r i t yh o w e v e r , i th a st h ew e a k n e s so fa t t a c ka n dw i l l b ee a s i l yd e c i p h e r e d i n f o r m a t i o nh i d i n gt e c h n i q u ei sa ne m e r g i n gc r o s s t e c h n o l o g y c o m ef r o mi n f o r m a t i o ns e c u r i t ya n dm u l t i m e d i at e c h n i q u e ,i to f f e r sn e ws o l u t i o nf o r m u l t i m e d i ai n f o r m a t i o ns e c u r i t y s ot h ea p p l i c a t i o no fm u l t i m e d i ai n f o r m a t i o n s e c u r i t yi nn e t w o r kt r a n s m i s s i o na n ds t o r a g ei ss t u d i e db a s e do ni n f o r m a t i o nh i d i n g t e c h n i q u e i n t e m e tp r o v i d e sab e s t e f f o r ts e r v i c e ,t h e r e f o r e ,t h ed a t am a yb eu n p r e d i c t a b l e d e l a y e d ,d a t ac o n g e s t i o na n db el o s t p a c k e tl o s sc a u s e db yd e l a yj i t t e ra n dc o n g e s t i o n w i l ld e s t r o yt h et i m er e l a t i o n s h i pa m o n gt h em u l t i m e d i au n i t l s ,t h e na f f e c t st h e s y n c h r o n i z a t i o no fm u l t i m e d i ai n f o r m a t i o nt r a n s m i s s i o n h o wt os o l v et h ep r o b l e mo f a u d i oa n dv i d e os y n c h r o n i z a t i o nb yh i g hb i t r a t ei n f o r m a t i o nh i d i n gt e c h n i q u ei st h e k e yp r o b l e mi nt h i sp a p e r t h i sp a p e rd e s c r i b e sc u r r e n ti n f o r m a t i o nh i d i n gt e c h n i q u e sa n ds u m m a r i z e st h e c h a r a c t e r i s t i c so fi n f o r m a t i o n h i d i n gt e c h n i q u e sa n da d v a n t a g e so fh i g hb i t r a t e i n f o r m a t i o nh i d i n gt e c h n i q u e ,t h e np r o p o s e st h ei m p r o v e dm e t h o do fs p e e d i n gu pt h e o p e r a t i o no fi n f o r m a t i o nh i d i n g as c h e m eo fv i d e o i nv i d e ob a s e do ni m p r o v e d a l g o r i t h mw a si m p l e m e n t e dw i t ht h ep u r p o s eo ft r a n s m i s s i o na n ds t o r a g eo fs e c r e t m u l t i m e d i am e s s a g e e x p e r i m e n t a lr e s u l t ss h o wt h a ti ti m p l e m e n t sw e l lr o b u s t n e s s a n dc o r r e c t n e s sc o m p a r e dt ot h eo r i g i n a la l g o r i t h ma n di tr e d u c e st h et i m eo f i n f o r m a t i o nh i d i n go p e r a t i o n t h i sp a p e rs t u d y st h ec h a r a c t e r i s t i c so fh i d i n ga u d i oi n f o r m a t i o n ,d u et ot h e w e a k n e s so fs t a m pm e t h o dt oa c h i e v ea u d i oa n dv i d e os y n c h r o n i z a t i o n ,p r o p o s e sa n 1 1 1 北京t 业大学工学硕上学位论文 e m b e d d e da u d i oa n dv i d e os y n c h r o n i z a t i o np r o g r a mb a s e do ni m p r o v e di n f o r m a t i o n h i d i n gt e c h n i q u e t h ep r o g r a mh i d e sa u d i oc o m p r e s s e dc o d es t r e a ma sh i d d e n i n f o r m a t i o ni n t ot h ed c tc o e f f i c i e n t si nf r e q u e n c yd o m a i n a n do ft h ev i d e oi m a g e l u m i n a n c ec o m p o n e n t ,t h e nv i d e oc o m p r e s s i o nc o d i n gi si m p l e m e n t e d e x p e r i m e n t a l r e s u l t ss h o wt h a tc o m p a r e dt ot h eu s u a lt i m e s t a m ps y n c h r o n i z a t i o nm o d e l ,t h e e m b e d d e d a l g o r i t h m d o e sn o tu s et h e s y s t e mc l o c k ,m e a n w h i l e i ta c h i e v e s y n c h r o n i z a t i o no fa u d i oa n dv i d e oe n c o d i n gt r a n s m i s s i o nw i t ht h el e s si m p a c to nt h e q u a l i t yo fv i d e oi m a g e sa n ds a v en e t w o r kb a n d w i d t hr e s o u r c e s t h es c h e m en o to n l y i m p l e m e n t sa u d i o - v i d e os y n c h r o n i z a t i o n ,b u ta l s oe n s u r e das t r o n gf l o wo fa u d i o k e y w o r d s :i n f o r m a t i o nh i d i n g ;h i g hb i t r a t e ;a u d i o - v i d e os y n c h r o n i z a t i o n ; d i s c r e t ec o s i n et r a n s f o r m ( d c t ) 目录 m mmm l im m m m l im 舅舅量曼皇曼寡曼曼皇曼詈皇曼曼皇曼皇皇鲁曼量暑曼曼曼曼曼量 目录 摘i 要i a b s t r a c t i i i 第1 章绪论1 1 1 研究背景及意义1 1 2 论文的研究内容2 1 3 多媒体同步技术介绍2 1 4 论文结构安排1 2 第2 章国内外研究现状l 3 2 1 信息隐藏技术的研究现状1 3 2 1 1 信息隐藏的一般性模型及术语1 3 2 1 2 信息隐藏的特征1 4 2 1 3 信息隐藏技术的分类1 5 2 1 4 几种主要的信息隐藏算法1 6 2 2 音视频同步技术的研究现状2 1 2 2 1 音视频同步基本控制方法2 1 2 2 2 基于时间轴的音视频同步控制方法2 2 2 3 本章小结2 3 第3 章基于信息隐藏技术的视频嵌入视频方案。2 5 3 1 高比特率信息隐藏技术概述2 5 3 2 高比特率信息隐藏算法及改进2 6 3 2 1 信息隐藏步骤2 7 3 2 2 信息提取步骤2 8 3 2 3 信息隐藏算法的改进2 8 3 3 视频嵌入视频方案3 0 3 3 1 总体设计框架3 0 3 3 2 视频嵌入视频方案实现过程3 1 3 4 实验结果及分析3 1 3 5 本章小结3 5 第4 章基于信息隐藏技术的音视频同步方法3 7 4 1 音视频同步一般解决方法3 7 4 2 基于信息隐藏技术的音视频同步方法3 8 4 2 1 发送端音频嵌入视频操作3 9 4 2 2 音频流畅性增强4 0 4 2 3 接收端音视频同步的实现4 1 4 2 4 音频嵌入视频同步方法的优势4 1 北京丁业大学t 学硕十学位论文 4 3 实验结果及分析4 2 4 4 本章小结j 4 8 结论5 1 参考文献5 3 攻读硕士学位期间发表的学术论文5 7 致谢5 9 第l 章绪论 1 1 研究背景及意义 第1 章绪论 信息隐藏是一门具有渊源历史背景的新兴学科,涉及感知科学、信息论、密 码学等多个学科领域,涵盖信号处理、扩频通信等多专业技术的研究方向。简而 言之,信息隐藏技术是一门新兴的交叉技术,是近年来信息安全和多媒体信号处 理领域中提出的一种解决媒体信息安全的新方法。在以i n t e r n e t 为代表的全球信息 化迅猛发展的今天,由于对私密多媒体信息保护不断增长的需求,以及受到密码 加密技术的限制这两方面的原因,信息隐藏技术成为目前研究的热点。信息隐藏 技术利用人类在视觉、听觉分辨率上的限制,以数字媒体信息为载体,将隐秘信 息隐藏在公开的媒体信息中,掩盖秘密信息的存在,达到秘密传输信息和安全存 储的目的。也可以充分利用多媒体信息本身冗余性,传输和存储大量隐秘信息, 节省传输带宽。因此研究信息隐藏技术对解决多媒体信息的安全传输和存储问题 有重要意义。 在数字信息交流中,越来越多地使用以音频、视频、文本、图像等多种媒体 集成的多媒体信息作为交流的手段。在许多新兴系统,比如远程会议系统、教学 系统、视频监控等,多媒体通信的作用更是无可替代,它们使得身处异地的人们 能够面对面地交流。另外,互联网上的视频点播和网上直播也在成为互联网经济 的一个新的重要增长点,并且大有取代传统电视之势。在这些应用系统的设计中, 多媒体的同步性是一个关系着多媒体应用系统表现质量的重要因素。由于分布式 网络环境的复杂性,使多媒体同步处理复杂化。如何在网络环境下保证多媒体同 步质量是多媒体系统需要解决的关键问题。 对于音频、视频等连续数据流,不仅要求传输的实时性,还要保证终端能同 步表现这些媒体流,可以说对网络环境提出了一个很高的要求。而现有的互联网 采用t c p i p 协议,单纯传统的“尽力而为 ( b e s t e f f o r t ) 的网络服务,越来越 不能保证传输及媒体的服务质量,并且由于网络传输中的延迟、抖动、网络拥塞 等问题,及其发送端的发送速度与接收端的接收速度的不匹配等问题,对实时传 输的媒体服务质量产生重要的影响,当前许多专用网络已对传输的实时性、传输 媒体的同步质量提出了特殊的要求,而因特网的发展也要求网上的实时传输应用 能具有更高的同步质量。研究音视频同步技术是当前解决网络上实时多媒体传 输、保证多媒体表现质量的一个重要的课题,是多媒体研究的关键技术之一,也 是未来通信中的一个重要研究方向。 北京t 业大学t 学硕七学位论文 1 2 论文的研究内容 通常保护涉密多媒体信息在传输和存储中的安全采用信息加密技术方法,而 信息隐藏技术是信息安全技术与多媒体技术的融合产生的新兴交叉技术。信息隐 藏技术与多媒体技术的特殊关系使得信息隐藏技术在多媒体应用领域有着广泛 的应用。本文研究的主要内容的包括以下两个部分:信息隐藏技术的研究及在多 媒体安全中的应用;基于信息隐藏技术的音视频同步方法的研究。 信息隐藏技术是集多种学科理论与技术一身的新兴技术,它利用人类视觉感 官的不敏感,以及多媒体信号本身存在的冗余,将秘密信息隐藏在一个宿主信号 中,不被人的感知系统察觉或者不被注意的,而且不影响宿主信号的感觉效果和 使用价值。信息隐藏最重要的特点在于它不仅隐藏了信息的内容,而且隐藏了信 息的存在。在开放的网络环境下,如何保护隐私信息是个重大问题,信息隐藏技 术为信息安全传输和存储提供了新的方法。如何隐藏信息内容和如何隐藏信息的 存在是信息隐藏技术的两大研究方向,这两个问题又相辅相成。本文主要研究了 高比特率信息隐藏技术,如何有效隐藏信息同时不被觉察,又要兼顾隐藏信息的 存在性,保证隐藏信息的鲁棒性和准确性,实现隐秘信息的安全传输和存储。 音视频同步涵盖的内容很广,涉及到数据的生成、传输及播放等多个方面, 可以在发送端、网络或接收端进行控制,同时可以将上述三方面的控制结合起来 以实现媒体的同步。本文主要研究发送端和接收端的音视频同步问题。提出一种 基于信息隐藏技术的嵌入式音视频同步解决方案,该方案适合现有的视频大都采 用h 2 6 4 视频压缩标准,在有损压缩编码中保持了良好的鲁棒性。有效解决了发 送端和接收端的音视频同步问题。 1 3 多媒体同步技术介绍 多媒体同步技术多媒体应用已经深入到教育、办公、商业、科学工程研究及 家庭等各个方面,如视频点播、远程购物、远程教学、视频会议、计算机支持协 同工作( c o m p u t e rs u p p o r t e dc o o p e r a t i v ew o r k ,c s c w ) 等,而支持这些应用的 一个关键技术就是同步技术。 1 ) 多媒体概念 所谓多媒体是指多种数据流类型的集成,这些数据流包括连续媒体流( 视频、 音频和动画) 及离散媒体流( 文本、数据、图形和图像等) 。多媒体可以定义为 把文字、图形、图像、动画、音频及视频等媒体信息数位化,并将其整合在一定 的交互式界面上的信息传递载体。根据媒体数据与时间之间的相互关系,可以将 媒体数据划分为静态媒体数据和连续媒体数据。连续媒体数据有着严格的时间关 第1 荦绪论 系,如音频、视频:其他类型的数据被称为静态媒体数据。这种划分在多媒体通 信系统中有着广泛的应用。按照数据对时间的关系和数据生成方式的差别,可以 将不同媒体类型的数据划分为表1 1 所示的几类【2 1 。 表i - i 媒体数据成分 t a b i lm e d i ad a t ac o m p o n e n t s 获取( 源自自然世界)声音、视频信号静止图像 合成( 由计算机完成)动画文本、图像 多媒体数据的构成可以用图1 1 来表示。其中主体部分是不同媒体的数据, 这些数据包含了所要表达的信息内容,称为构成多媒体数据的成分数据。由于多 媒体数据所包含的各种媒体对象并不是独立的,它们之间存在着多种相互制约的 关系( 也就是同步关系或同步规则) 。多媒体同步规则是一种明确地描述多媒体 系统中各个媒体对象内以及各个媒体对象间所有时间关系的方法。时域同步规则 由同步描述数据和同步容限组成。前者表示媒体内部和媒体之间的时间约束关 系,后者表示这些约束关系所允许的偏移范围。 图1 1 多媒体数据构成 f i g 1 1t h ec o m p o s i t i o no fm u l t i m e d i ad a t a 流媒体指在i n t e m e t i n t r a n e t 中使用流式传输技术的连续媒体【3 1 如:音频、 视频或多媒体文件。简单来说,就是把连续的声音和视频数据信息经过压缩处理 后放在远程服务器上,让用户通过网络一边下载一边播放、收听,而不需要等所 有文件全部下载后才能开始播放欣赏。流媒体在播放前并不下载整个文件,只将 开始部分内容存入缓冲内存。流媒体的数据流随时传送随时播放,只是在开始时 略有延迟。在播放数据的同时,下载数据进程在后台自动运行,实现媒体数据的 流式传输。 流媒体技术【4 】的开发创意是从传统的t c p f l p 协议对通过网络传送信息的控 制方法中得到的。当通过t c p i p 协议下载文件时,服务器会按照一定的顺序将文 件分成若干个独立的数据包,然后依次发送出去。而客户端的程序会将这些数据 包重新组装起来,最终形成和原来完全一样的完整文件,这时才可以对这个文件 北京1 二业大学1 = 学硕_ l 学位论文 进行任何可能的操作了。流媒体技术则不然,流媒体技术能够按照特定的顺序将 文件发送出去,而播放程序则可以边接收数据边播放【5 1 。为了使播放更加稳定连 贯,通常客户端会通过为接收数据开辟缓存区的方法来解决网络拥堵的问题。只 需要在数据缓存区充满前等待几秒钟就可以开始欣赏了。这种在i n t e r n e t i n t r a n e t 中使用流式传输技术的连续时基媒体就称为流媒体。流媒体实现的关键技术就是 流式传输,流式传输定义很广泛,现在主要指通过网络传送媒体( 如视频、音频) 的技术总称。其特定含义为通过i n t e m e t 将影视节目传送到p c 机。 2 ) 多媒体同步技术 多媒体同步问题研究的重点是维持连续媒体对象间的时间关系,而连续媒体 数据可以看成是由一系列信息单元( i n f o r m a t i o nu n i t ) 构成的时间序列( 或称为 流) 。信息单元电称为逻辑数据单元l d u ( l o g i c a ld a t au n i t ) 。l d u 的大小在 一定的程度上取决于同步容限。偏移的许可范围越小,l d u 越小:反之,l d u 越大。通常,视频信号的l d u 为一帧图像,而音频信号的l d u 是由若干在时域上 相邻的采样点构成的一个集合。在这些媒体流的信息单元之间存在着某种时间关 系,当多媒体系统存储、发送和播映数据时必须维持这种关系。一般地,维持一 个或多个媒体流的时间顺序的过程就称为多媒体同步【6 】。 多媒体之间的相互依存关系不只是显示时才有,在捕获、存储、传输和处理 过程中也是存在的。不同媒体对象之间的相互依存关系可概括为内容关系,空间 关系和时间关系三类: 内容关系。例如,根据某一组数据既可以列出表格,同时又可以画出曲线, 那么在计算机中只需要保存一份数据,而将表达这组数据的方式另作定义,这称 为指定数据间的内容关系。同一组数据可以对应于几个不同的内容关系。 空间关系。主要指不同的媒体对象在显示时所处的相互位置关系;通常它们 在不同的窗e l 中显示,而各个窗口又允许有缩放、激活、移动等功能,这些关系 就是用空间关系来描述的。 时间关系。电视中的伴音要求很好地和人的口形动作相吻合,幻灯片的解说 词应该与正在显示的图像相对应。这是媒体对象之间必须保持一定的时间关系的 典型例子。 多媒体同步指的是上述3 种关系的确立。不难看出,在这3 种同步关系中,时 间关系是最重要的一种,在实际应用中时间关系也是考虑得最多的一种关系。实 际上,多媒体同步指的就是各类媒体在事件发生时间顺序的确立。 在流媒体系统中,可以从以下四个角度对流媒体同步进行分类。 ( 1 ) 按施加对象划分 按照施加对象来划分,流媒体同步可以分为媒体内同步和媒体间同步【7 1 。它 们之间是紧密相关的,前者是后者实现的基础和前提。 第1 帝绪论 媒体内同步指维持一个时间相关媒体对象内部各个信息单元的时间关系。这 种时间关系是在数据的获取时确定的,而且要在处理、传输和播放过程中保持不 变,否则就会破坏媒体显示时的质量。例如维持一个视频流各个帧间的时间关系, 对于一个2 5 帧秒的视频流,每帧应播映4 0 m s 。如果这种时间关系大于一定限度, 观众就会明显感到画面的停顿和不流畅,影响观看效果。媒体内同步主要是消除 通信过程中所产生的延迟抖动( j i t t e r ) j 。 媒体问同步是指维持各个媒体对象相互之间的时间关系。图1 2 给出了一个 多媒体的对象间同步的例子,首先它从视频( v i d e o ) 与音频( a u d i 0 1 ) 开始播 放,随后呈现几幅图片( p 1 ,p 2 ,p 3 ) 和一段动画( a n i m a t i o n ) 内容,接着再 播放音频( a u d i 0 2 ) 。媒体问同步主要是消除通信过程中所产生的各种相关媒体 流之间的时间偏移【9 i 。 a u d i 。1a u d i 0 2 l p 1lp 2p 3 0、r v i d e oa n i m a t i o n 图l 2 对象间i 司步不例图 f i g 1 - 2s y n c h r o n i z a t i o ns a m p l eg r a p hb e t w e e no b j e c t s ( 2 ) 按照运行环境划分 根据流媒体系统的运行环境,多媒体同步可分为单机环境下的同步和分布式 网络环境下的同步。在分布式网络环境中,多媒体信息的同步问题比单机环境下 要复杂得多,这是因为媒体信息来源于不同的信源,通过网络传输之后可能会产 生不同的延迟和抖动【1 0 】。 ( 3 ) 按同步层次划分 按照同步的层次划分,流媒体的同步可分为系统同步、合成同步和用户级同 步【1 1 1 。系统同步是指媒体内部同步,它属于底层同步。主要由操作系统和底层的 通信层负责,根据各种输入媒体实际硬件系统的性能参数来协调完成其上层合成 同步描述的各对象间的时序关系。系统同步处理单个媒体流,以避免单个媒体在 表现中出现抖动和跳跃。 合成同步属于中层同步,是媒体之间的同步,侧重于各种媒体流在合成表现 时的时间关系的描述。合成同步是对定位好的多个媒体流的同步提供动态运行支 持,该层的目标是维护和保持各媒体流之间的时序关系,特别是对媒体流之间的 错位加以严格限制。例如,用户如果发现说话者的口形与其声音不相匹配,出现 唇音失步的现象,就会对播放质量非常不满意。 用户级同步是上层同步,又称为表现级同步或交互同步。对于多媒体表现, 各媒体以何种时间关系和空间关系显示在画面上,可以用脚本方式来组织,这便 北京t 业大掌工学硕一卜学位论文 是脚本模型。多媒体脚本需考虑用户交互性的问题。用户级同步目标是:如果遇 到时间相关媒体对象中预先定义好的同步点,则在一个用户可以忍受的时间间隔 内来启动或终止媒体无关对象的表现。媒体对象间的时序关系必须预先说明,如 果需要以被获取时同样的方式进行表现或播放,它就可以在获取媒体对象时隐含 说明,音视频的录制和回放就是属于这一类【l2 1 。 ( 4 ) 按运行环境划分 根据流媒体系统的运行环境,多媒体同步可分为单机环境下的同步和分布式 网络环境下的同步。在分布式网络环境中,多媒体信息的同步问题比单机环境下 要复杂得多,这是因为媒体信息来源于不同的信源,通过网络传输之后可能会产 生不同的延迟和抖动【l3 1 。 3 ) 同步参考模型 同步机制在同步层中实现,同步层相当于o s i 参考模型中的会话层和表示 层。媒体同步需要系统的许多部分协同解决,包括操作系统、通信系统和应用程 序等。我们需要一个参考模型来理解多媒体同步的各种需求,区别和构造支持同 步的运行机制,比较多媒体同步的系统解决方案。在多媒体同步参考模型中,最 具代表性的就是g e r a l db l a k o w s k i 和s t e i n m e t z 1 4 1 1 1 5 1 提出的四层“瀑布式同步 参考模型,如图1 3 所示,它是在m e y e r 、e f f e l s b e r g 等人提出的三层同步参考模 型基础上改进而成。同步参考模型自上而下分为规范层、对象层、码流层以及媒 体层。每一层都有自己的接口,每层的接口皆可以直接被上层应用程序使用,下 面逐层加以阐述。 图1 3 同步参考模型 f i g 1 - 3s y n c h r o n i z a t i o nr e f e r e n c em o d e l ( 1 ) 媒体层 媒体层提供一个独立于设备的接1 2 1 ,它的操作针对单个媒体流。该层负责上 提供与设备无关的操作,如:r e a d 和w r i t e 等。媒体层主要完成两个任务,一是 第l 荦绪论 申请必要的资源和系统服务,如c p u 时间、通信带宽、通信缓冲区、q o s ( q u a l i t y o f s e r v i c e ) 保证等,为该层各项功能的实施提供支持;二是提供访问各类媒体设 备的接口函数,获取或提交一个完整的l d u 。 ( 2 ) 码流层 码流层操作针对的是连续码流或码流组f 1 6 】。在这层中必须解决时间相关媒体 流之间的时间关系以及媒体流内部各个媒体单元的连续性。该层提供的足带q o s 时间参数的流的抽象,单个的l d u 在码流层是不可见的。码流层主要负责启动 码流、停止码流、将码流划分成组以及定义所需要的q o s 。另外还负责维持时间 独立媒体对象和其它时间相关媒体间的同步。借助于码流层,应用程序可以进一 步控制任何时问独立媒体对象以及用户交互过程,得到连续媒体流、时问独立媒 体流等不同的应用程序接口。 ( 3 ) 对象层 对象层对各种类型的媒体进行操作,它隐藏了静态媒体与连续媒体之间的区 别。对象层的主要任务是实现连续媒体对象和静态媒体对象之间的同步,并完成 对静态媒体对象的处理。该层弥补了面向流的服务和同步表现的执行之间的断 层,功能包括计算和执行完全的表现计划( 包括静态媒体对象的表现) 和调用码 流层的服务。对象层不处理流内和流间的同步,它只使用码流层提供的服务。 ( 4 ) 描述层 多媒体应用生成的时域场景,是描述层的处理对象。描述层解决的是多媒体 播映中的对象出现次序及对交互处理的描述,即多媒体播映的作者如何描述一个 多媒体播映。描述层的核心是时域定义方案,其接口为用户提供了使用时间模型 描述多媒体数据时域约束关系的工具。描述层是一个开放的层,它不会提供明显 的接口,该层包含一些应用工具,利用这些工具用户可以生成关于同步的描述。 这些工具包括同步编辑器、多媒体文献编辑器及创作系统。描述层还将用户级 q o s 要求映射到对象层接口。 4 ) 影响同步的因素 在分布式多媒体系统中,信源产生的多媒体数据需要经过一段距离的传输才 能到达信宿。在传输过程中,由于受到某些因素的影响,多媒体数据的时域约束 关系可能被破坏,从而导致多媒体数据不能正确地播放。下面将叙述影响多媒体 同步的几种关键因素。 ( 1 ) 不同的采集起始时间或延时时间 在多个发送端的情况下,发送端必须同时开始采集、传输信息。若相互采集 的起始时间不同,则在接收端同时播放这些发送端传来的媒体单元时就会出现类 似“唇音不同步”的问题。此外,编码、打包等时间不同或由于网络的实时传输带 宽、传输距离和通过网络节点速度,路由变换等多种因素的影响,多个发送端到 北京t 业大学t 学硕l 学位论文 接收端的传输延时不等,也会引起同样的问题。 ( 2 ) 时钟偏移 时钟偏移也称时钟漂移,连续媒体的捕获、重新生成和播放都有端系统时钟 来驱动,在无全局时钟的情况下,由于温度、湿度等因素的影响,分布式多媒体 系统的本地时钟频率可能存在偏移【1 7 】。如果信宿的时钟频率高于信源的本地时钟 频率,经过一段时间后可能在接收端产生数据不足的现象,从而破坏了连续媒体 播放的连续性;反之,则可能造成接收端缓存器的溢出,引起数据的丢失。长时 间的收、发时钟的漂移会使同步出现问题。如果发送端和接收端的时钟频率失步 严重甚至会影响播放。 ( 3 ) 时延抖动 信号从一点传输到另一点所经历的延时的变化称为延时抖动。系统的很多部 分都可能产生延时抖动。例如从数据库中提取多媒体数据时,由于存储位置不同 导致磁头寻道时间的差异,各数据块经历的提取延时有所不同;终端中,由于 c p u 、存储单元等资源的不足可能导致对不同数据块所用的处理时间不等;在网 络传输方面也存在许多因素使信源到信宿的传输延时出现抖动。延时抖动将破坏 媒体内部和媒体之间的同步。图1 4 给出了网络延时抖动对同步破坏的例子。在 信源端,视频流和音频流内各自的l d u 之间是等时间间隔的,两个流的l d u 之 间在时间上也是对应的。在信宿端,由于各个l d u 经历的传输延时不同,视频 和音频流内部的时序关系出现了不连续,二者之间的对应关系也被破坏。 视频数据 口口l 服 用 务网络 户 器 _ - _ 。_ 。_ 二口 口 一1 一 艺二一 图1 4 传输时延抖动对流媒体同步的破坏 f i g 1 - 4d e s t r u c t i o no fs 灯e a m i n gm e d i as y n c h r o n i z a t i o no w i n gt ot r a n s m i s s i o nd e l a yj i t t e r 为了消除网络传输时延抖动引起的媒体失步,一个最简单的办法是让接收端 的l d u 先进入一个缓冲器,如图1 5 。 图1 - 5 接收缓存器 f i g 1 5r e c e i v e r b u f f e r 8 第1 章绪论 ( 4 ) 数据丢失和乱序 传输过程中数据的丢失相当于该数据单元没有按时到达信宿端,显然会破坏 同步。乱序产生后需要用一个缓冲区重新排序,也增加了时延和时延抖动。 ( 5 ) 网络传输条件变化 在一些网络,例如口网等,网络的平均延时、数据的丢失率与网络的负载 有关,因此在通信起始时已同步的数据流,经过一段时间后可能因网络条件变化 而失去同步。 5 ) 同步容限与同步性能测量标志 同步容限 同步容限是同步规范之一,包含了对同步机制服务质量的要求。在一个多媒 体系统的运行过程中,存在着一些影响准确恢复时域场景的因素,如其它进程对 c p u 的抢占、缓冲区不够大、传输带宽受限等。这些因素致使恢复后的时域场 景中,时域事件的相对位置发生偏移( s k e w ,又称错位) 1 8 】。有媒体内偏移和 媒体间偏移两种。媒体内同步通过对媒体对象内部偏移的控制来实现,媒体间同 步则通过对连续媒体对象间偏移的控制来实现。同步容限就是用户与同步机制之 间就偏移的许可范围所达成的协议。为了描述同步要求,实现相关的控制机制, 定义了一些q o s 参数。这些参数包括单个媒体流中相邻媒体单元所经历的时延 抖动( d e l a yi i t t e r ) 以及两个媒体流中相关媒体单元的时间偏移。延迟抖动和错 位是不可避免的,但研究发现,它在一定范围内是可接受的【坶】。人们对抖动和偏 移的测量结果表明,如果抖动和偏移限制在一个合适的范围内,观众会认为媒体 是同步的,这个q o s 参数因此被称为可感知q o s 参数。由于不能找到定义偏移 许可范围的客观标准,所以一般采用主观评估的方法。虽然这样得到的偏移许可 范围并不十分准确,但对于同步控制机制仍是一个有力的依据。 对于媒体内和媒体间偏移,通过大量实验统计给出表1 2 和表1 3 【2 0 】给出了 主观评估所得到的大致许可范围,这些都是与流媒体同步有关的服务质量参数, 这些参数很大程度上依赖于具体的应用。 北京工业大学t 学硕二i j 学位论文 表1 - 2 媒体内偏移许可范围 t a b 1 2o f f s e tt ot h ee x t e n tp e r m i t t e dw i t h i nt h em e d i a q o s最大时延最大时延平均速率 允许的误允许的错 ( s ) 抖动( m b i t s ) 码率误分组率 ( m s ) 音频 o 2 51 00 0 6 4 1 0 1 1 0 1 视频 ( t 压缩视频 数据 图像 o 2 51 0 o 2 5l 1 1 1 0 0 2 1 0 2 l o o 2 1 0 1 0 。2l o 3 1 0 - 1 0 9 o0 l o 4 l o 9 表1 - 3 媒体间偏移许可范围 t a b 1 - 3o f f s e tt ot h ee x t e n tp e r m i t t e da m o n gt h em e d i a 同步性能测量标志 多媒体同步反映的是多种媒体的时间关系,特别是单个媒体内部的连续性和 多种媒体之间的同步关系。这种连续性和同步性在多媒体系统中,特别是分布式 环境中的多媒体传输中,体现为一种或多种q o s 内容,而这种连续性和同步性 在多媒体应用系统的用户端则体现为用户对多媒体演播质量的感知,如对视频连 贯性、音频的不间断性、及视音频之间唇音同步的满意程度和困惑程度,因此多 媒体质量在用户端是以具体的q o p ( 感知服务质量) 来体现的。 为了评估多媒体同步系统的同步性能,需要提出一些同步性能的衡量指标, 以下分别从客观衡量和主观衡量两个方面阐述。 ( 1 ) 客观标准 均方根误差r m s e ( r o o tm e a ns q u a r ee r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论