计算概论B-马思伟 Lecture 4 信息表示与多媒体技术_第1页
计算概论B-马思伟 Lecture 4 信息表示与多媒体技术_第2页
计算概论B-马思伟 Lecture 4 信息表示与多媒体技术_第3页
计算概论B-马思伟 Lecture 4 信息表示与多媒体技术_第4页
计算概论B-马思伟 Lecture 4 信息表示与多媒体技术_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算概论

(IntroductiontoComputing)

主讲人:马思伟北京大学数字媒体研究所/第四讲信息表示与多媒体技术提纲信息的表示二进制数值、指令、字符等信息的表示多媒体技术信息的输入输出输入信息的分类程序、数据、操作命令、用户响应输入设备键盘、鼠标、手写板、扫描仪、数码相机、声卡/麦克风、数码摄像机….输出设备显卡/显示器打印机字符式、点阵式、喷墨、激光 计算机的数据处理文字中文、英文、日文…Word,WPS,AdobeAcrobatReader…音乐WAV,MIDI,MP3…WindowsMediaPlayer,Winamp…图片BMP,GIF,JPEG…ACDSee,AdobePhotoshop,MicrosoftPaint…动画与电影mpg,avi,rm…WindowsMediaPlayer,CyberlinkPowerDVD,MacromediaFlash,AdobePremiere………信息的编码表示二进制化表示数值文字声音图象视频…..存储容量位(Bit,比特):0/1字节(Byte):8比特千字节(KB):210字节兆字节(MB):220字节千兆字节(GB):230字节兆兆字节(TB):240字节二进制数制也称计数制,是指用一组固定的符号和统一的规则来表示数值的方法。按进位的方法进行计数,称为进位计数制。几种常用进位计数制.

十位制(Decimalnotation)

二进制(Binarynotation)

八进制(Octalnotation)

十六进制数(Hexdecimalnotation)二进制十进制数的特点是用十个数码(0~9)表示所有的数,基数是10,采用逢十进一的记数方法。二进制数的特点是用两个数码(0~1)表示所有的数,基数是2,采用逢二进一的记数方法,八进制数的特点是用八个数码(0~7)表示所有的数,基数是8,采用逢八进一的记数方法。十六进制数的特点是用十六个数码(0~F)表示所有的数,基数是16,采用逢十六进一的记数方法。数制转换例:十进制数253在不同数制下的表示253=2×102+5×101+3×100

X=An×2n+A(n-1)×2(n-1)+…+A1×21+A0×20

=Bm×8m+B(m-1)×8(m-1)+…+B1×81+B0×80

=Ck×16k+C(k-1)×16(k-1)+…+C1×161+C0×160AnA(n-1)…A1A0

:二进制数BmB(m-1)…B1B0

:十进制数CkC(k-1)…C1C0

:十六进制数数制转换不同数制之间的转换,实质是基数间的转换一般转换的原则是:如果两个有理数相等,则两数的整数部分和小数部分一定分别相等。因此,各数制之间进行转换时,通常对整数部分和小数部分分别进行转换。十进制数转换成二进制数(整数)把十进制数转换为二进制数的方法是:整数转换用“除2取余法”;小数转换用“乘2取整法”。十进制数转换成二进制数(小数)将(0.745)10转换成四位二进制小数,转换过程如下:0.745×2=1.490取出整数1(最高位)0.490×2=0.980取出整数00.980×2=1.960取出整数10.960×2=1.920取出整数1(最低位)0.920转换结束这里,第四次乘积的小数部分不为0,但已满足题目所要求的精度,所以,(0.745)10≈(0.1011)2。显然,在转换过程中,做的乘法次数越多,结果就越精确十进制数转成八进制数和十六进制数十进制数转换成八进制数的方法是:整数部分转换采用“除8取余法”;小数部分转换采用“乘8取整法”。十进制数转换成十六进制数的方法是:整数部分转换采用“除16取余法”;小数部分转换采用“乘16取整法”。二进制、八进制及十六进制间的转换二进制和八进制数、十六进制之间的转换:

11111101=11,111,101=(375)8

=1111,1101=(FD)16

非十进制数转换成十进制数非十进制数转换成十进制数的方法是,把各个非十进制数按权展开求和即可。即把二进制数(或八进制数,或十六进制数)写成2(或8或者16)的各次幂之和的形式,然后计算其结果。11111001=1×27+1×26+1×25+1×24+1×23+1×22+0×21+1×20=253(375)8=3×82+7×81+5×80=253(FD)16=F×161+D×160=253二进制的算术运算加法减法例:(1101)2……(13)10例:(1101)2……(13)10+(1011)2……(11)10-(1011)2……(11)10--------------------------------------------------------------------------------------------(11000)2……(24)10(0010)2……..(2)10二进制数的逻辑运算

没有进位,按位运算逻辑非!

单操作数运算:!1=0;!0=1逻辑或|

双操作数运算:0|0=0;0|1=11|0=1;1|1=1逻辑与^

双操作数运算:0^0=0;0^1=01^0=0;1^1=1

双操作数运算:00=0;0

1=110=1;11=0逻辑异或!11010=00101

11001|0110111101

11001

^0110101001

110010110110100数值数据的表示有关概念数的长度:在计算机中,数的长度按比特(bit)来计算。但因存储容量常以“字节”为计量单位,所以数据长度也常以字节为单位计量。1字节(byte)=8比特(bit)数的符号:一般用数的最高位(左边第一位)来表示数的正负号,并约定以“0”表示正,以“1”表示负。小数点的表示方法:小数点的位置总是隐含的数值数据的表示定点(fixed-point)数表示方法:将计算机中的小数点的位置视为是固定不变的。定点整数范围:-2n~(2n-1)定点小数数值数据的表示浮点数:±d.dd...d×βJ,(0≤d

i

<β),d.dd...d

为尾数,β

为底数,J

为指数,例:123.45=0.

12345×103

计算机中x=m×2Jm为尾数J为阶码浮点数运算加减法先对齐小数点位置;乘除法尾数相乘,阶码进行加减数值数据的表示原、补码的引入例:计算768-875=-10700768–00875=99893补数99893=-00107+10^599893和-00107相对于模10^5同余

数值数据的表示带符号数的表示方法原码

原码就是用最高位表示数的正、负号,0表示正,1表示负,而数值部分用最高位以后的若干位来表示。二进制数+a1a2…….an-1的原码为0a1a2…….an-1二进制数-a1a2…….an-1的原码为1a1a2…….an-1例如二进制数+1000110(70)的原码表示为:01000110(70)二进制数-1000110(-70)的原码表示为:11000110数值数据的表示带符号数的表示方法反码

正数的反码与原码相同;负数的反码是将它的原码除符号位外逐位取反。二进制数+a1a2…….an-1的反码为0a1a2…….an-1二进制数-a1a2…….an-1的反码为1ā1ā2…….ān-1例二进制数+1000110的反码表示为:01000110二进制数-1000110的反码表示为:10111001数值数据的表示带符号数的表示方法补码正数的补码和其原码相同;负数的补码是它的原码除符号位外逐位取反(即0变1,1变0),最后在末位加1。二进制数+a1a2…….an-1的补码为0a1a2…….an-1二进制数-a1a2…….an-1的补码为1ā1ā2…….ān-1+1例二进制数+1000110的补码表示为:01000110二进制数-1000110的补码表示为:10111010110001101011100110111010十进制原码补码

87-87127-1270-0010101110101011111010111101010010111111101111111111111111000000100000000000000001000000000000000采用补码来表示正、负整数时,+0和-0的取码是完全相同的,而原码对+0和-0的取码是不相同的。原码、补码的几个例子补码原理补码加法:[X+Y]补=[X]补+[Y]补【例】X=+0110011,Y=-0101001,求[X+Y]补 [X]补=00110011[Y]补=11010111 [X+Y]补=[X]补+[Y]补=00110011+11010111=00001010注:因为计算机中运算器的位长是固定的,上述运算中产生的最高位进位将丢掉,所以结果不是100001010,而是00001010。补码原理补码减法:[X-Y]补=[X]补-[Y]补=[X]补+[-Y]补其中[-Y]补称为负补,求负补的方法是:对Y的原码的每一位(包括符号位)求反,最后末位加“1”。从而减法运算可转化为加法运算补码原理补码?取反加1?补数:对于范围为[0,M)的整数计量系统,其模为M。和为M的两个数互为补数。如果有两个整数a,b∈[0,M),f(a-b)==f(a+c),则c=M-b,是-b的补码。f(a-b)=f(a+M-b)

f是一个映射,定义为:当0<=x<M时,f(x)=x;

当x>=M时,f(x)=x%M;

当x<0时,f(x)=f(M+x).//f(-b)=f(M-b)

其中%为取余运算(效果同编程语言中的取模运算)。这就把减运算转化成了加运算假设机器字有n位,那么M=2n,c=2n-b。2n-b:2n的原码就是1后面跟了n个0,直接用它减b的原码不方便,先用2n-1的原码(n个1)减b的原码,得到的结果加上1就是2n-b的值了——这就是“取反加1”的由来。字符编码ASCII码(西文字符)ASCII码:7比特扩展ASCII码:一个字节汉字编码2个字节国标码,大五码(Big5)汉字输入音码形码基于词语和联想的输入汉字输入的转换过程查找汉字库,找出输入码对应的汉字显示①特②忑③慝④铽⑤忒得到“特”的国标码te的编码键盘转换人击键输入人选择①te矢量字库和点阵字库点阵字库优点:编码、存储方法简单,使用方便,每个二进制位直接对应屏幕上(或纸上)的一个点。缺点:数据量大、占用空间多。矢量字库优点:数据量小、占用空间少。缺点:输出时需要转换,显示速度慢。汉字编码国标码:01101001110011机内码:1011010011110011字形码:16×16点阵声音编码声波采样:离散化、数字化采样频率、采样精度图像编码图像的基本属性分辨率:组成图像的像素数目颜色深度(位数):存储每个像素所用位数如:640*480*256色(即8位)≈300k真彩色和伪彩色:显示图像时,真彩色由R、G、B直觉决定显示设备的基色强度,而伪彩色则通过颜色查找表来决定。多媒体技术什么是多媒体:定义Multimedia释义Multi

(Latinmultus) -many;much;multipleMedium(Latinmedius) -asubstanceregardedasthemeansoftransmissionofaforceoreffect;achannelorsystemofcommunication,information,orentertainment (Merriam-WebsterDictionary)多媒体Multimedia:

文本、图形、图像、视频和音频的组合形式,使其内容更丰富,更便于交流。数字媒体DigitalMedia:

以数字化的形式存储、处理和传播信息的媒体,以网络为主要传播载体,并具有多样性、互动性、集成性等特点。MultimediaMultiMedia复合媒体超文本(Hypertext)利用超链接,允许非顺序读写的文本;超媒体(Hypermedia)超文本在多媒体方面的扩展,其节点不仅是文本,还可能是图像、视频、音频等。超视频(Hypervideo)通过链接和锚点文字,将视频集成到超媒体结构中。Inhypervideo,thevideocontentisnotregardedasamereillustration,butcanalsobestructuredthroughlinksdefinedbyspatialandtemporaldimensions.

普通文本超文本超视频超媒体AudioImagesInformationRetrievalStorageSystemsNetworkingHCIDataCompressionNaturalLanguageProcessingMultimediaVideoFrom:MikeChristel,AlexHauptmann,IntroductiontoMultimediaandMSEC20-791,CMU./MM2002/syllabus.htm数字媒体简史1970-an19801990Future8位处理器CD-ROM,LAN,WAN,16位处理器桌面PC32位处理器WWW数字视音频图形操作系统数字媒体简史Pre-DigitalAge:参见“Multimedia:FromWagnertoVirtualReality”, /w2vr/timeline/timeline.html1906–彩色摄影出现 /pagus/pagus-inv.html1945–VannevarBush,memex“AsWeMayThink”/unbound/flashbks/computer/bushf.htm1960s–TedNelson,Xanadu项目,“auniversalinstantaneoushypertextpublishingnetwork”1967–NicholasNegroponte创立MIT系统机组(后来在1985年成立MITMediaLab),于1977年提出“多类媒体”项目。1987–RCA’sDavidSarnoffLabs宣布DigitalVideoInteractive1988–Apple提出“KnowledgeNavigator”构想数字媒体简史1989–TimBerners-Lee在CERN提出WWW1991–MotionPictureExpertsGroup(MPEG)1992–JPEG成为数字图像压缩国际标准1993–NCSAMosaic,MPEG-11994–Netscape;W3C成立1995–JAVA,MPEG-21996–PNG(PortableNetworkGraphics),DVD1997–HTML4.01998–XML1.01999–MPEG-4,XSLT1.0andXpath1.02001–MPEG-7,JPEG2000,SVG2002–知识产权和JPEG20002003-2006–MPEG-4AVC/VC-1/AVS2006–PKUIDM成立2009–PKU数字视频编解码技术国家工程实验室所有设备和内容数字化……AllDevicesand

Contentare

goingDigitalMegaTrend1:海量的多媒体数字图书馆LeadingtoMegaTrend2…TheDigital

“Library”MegaTrend2:从2C到4CInnovation19851990199520002005DemandAnyTime,Anywhere,

AnyDeviceCOMPUTINGCOMMUNICATIONS计算、通信、内容、消费电子融合(4C)BROADBAND/WiredandWirelessEntertainment,E-Business,ServicesMEDIAPre-RecordedContentPersonalMediaConditionalAccess/Cable,Satellite,Broadcast,WirelessServices,EntertainmentAnyContent+,AnyPlace,

AnyDevice,AnyTime+AsAuthorizedMOBILEMULTIMEDIAEntertainment,PersonalPicturesandVideo,ServicesMegaTrend3:虚拟媒体世界与自我展示平台Flickr:世界上最大的在线照片管理和共享站点MegaTrend3:虚拟媒体世界与

自我展示平台Youtube:全球最大的视频博客网站数字媒体技术原理

媒体数字化为什么要数字化?能否数字化?---媒体的物理特性波的概念数字化过程媒体数字化关键技术采样(Sampling)压缩(Compression)编码(Coding)为什么要采用数字形式?通用的存储和传输格式,数字化后处理更方便适用于光盘存储和远距离传输准确可靠,没有累计失真,属于无损传输和存储BUT:采样率失真,信息丢失/扭曲与模拟相比,需要很大的空间。例如35mm照片需要420万像素大量的工作来进行基于感知的有损数字压缩技术能否数字化?---媒体的物理特性声音->声波Higherpitchesarecausedbyhigherfrequenciesofvibratingmoleculesthatreachyoureardrum.Lowerpitchesarelikewisecausedbylowerfrequencies.影像->电磁波光:在空间坐标上具有不同亮度的电磁波颜色:波长(红色为最长的可见波)波:由波长和频率刻画wavelength波长/频谱LongradiowavesMicrowavesX-raysGammaraysTV,FMInfraredUltraviolet700nm600nm500nm400nm4.5x1014Hz5x1014Hz6x1014Hz7x1014Hz数字化过程三步骤采样(Sampling)量化(Quantizing)压缩(Compression)与编码(Coding)SamplerQuantizer&CoderanalogsignalsampledsignaldigitizedsignalStep1:采样与失真通过某种频率的采样脉冲将模拟信息的值取出,变连续的模拟信息为离散信号。采样定理:采样频率>=原始信号频率的2倍时,

采样信号才可以保真地恢复为原始信号。Step2:量化与失真将采样样本的幅度按照量化级别决定其取值的过程。目的是将采样样本的幅度值离散化。量化之前需要规定量化级,比如8级,16级等。量化是一个对一的映射。Step3:编码与压缩编码用相应位数的二进制代码表示量化后的采样样本的量级。如果有N个量化级为,那么对应的二进制位数就为log2N。当N=16,二进制需要4位。经过编码之后,每个样本都表示为相应的二进制代码。脉冲编码调制(PCM,PulseCodeModulation),完成模拟信号的数字化为什么需要数据压缩?压缩编码的理论基原理从信息论的角度来看,压缩就是去掉信息中的冗余,即保留不确定的信息,去除确定的信息(可推知的),也就是用一种更接近信息本质的描述来代替原有冗余的描述。信息冗余的例子你的朋友,Helen,将于明天晚上6点零5分在上海的虹桥机场接你。

(23*2+10=56个半角字符)你的朋友将于明天晚上6点零5分在虹桥机场接你。

(20*2+3=43个半角字符)Helen将于明晚6点在虹桥接你。

(10*2+7=27个半角字符)结论:只要接收端不会产生误解,就可以减少承载信息的数据量。多媒体领域中的冗余分类统计冗余空间冗余——规则物体的物理相关性时间冗余——视频与动画画面间以及音频帧间的相关性信息熵冗余编码冗余——数据与携带的信息结构冗余纹理冗余——规则纹理、相互重叠的结构表面视/听觉冗余视觉、听觉敏感度和非线性感觉知识冗余凭借经验识别224色28色数据压缩数据压缩可分成两种类型无损压缩有损压缩无损压缩指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同用于要求重构的信号与原始信号完全一致的场合。一个很常见的例子是磁盘文件的压缩。有损压缩指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。适用于重构信号不一定非要和原始信号完全相同的场合。压缩策略无损压缩(LosslessCompression)哈夫曼编码(HuffmanCoding)自适应哈夫曼编码Lempel-Ziv-Welch(LZW)用于GIFJPEG-LS有损压缩(LossyCompression)JPEGH.261,MPEG-1,MPEG-2无损+有损(LosslessandLossyTogether)JPEG2000人眼视觉特性与颜色模型人眼的视觉特性可见光谱:人眼能看到的光谱范围从380纳米到780纳米。不同波长对应不同色彩感觉,不同强度和强度分布的光刺激人眼。人眼的临界闪烁频率为46HZ。因此要求每秒钟摄取的画面数约为25帧左右。颜色科学色彩是人类视觉对可见光的感知结果,在可见光谱内不同波长的光会引起不同颜色感觉。三基色原理:将红、绿、蓝三种颜色按照不同的比例进行组合,就可以引起人眼对自然界的全部颜色感觉。颜色模型RGB色彩模型:彩色最基本模型,适合于计算机系统;CMY(CMYK)色彩模型:用于印刷;YUV(亮度、色差)色彩模型:用于PAL电视信号传输;YIQ色彩模型:用于NTSC彩色电视广播;YCbCr色彩模型:数字视频常用的颜色模型。颜色红色橙色黄色绿色青色蓝色紫色波长700620580546480436380RGB颜色模型RGB颜色模型是彩色最基本的表示模型。RGB分别代表三种基本颜色红(red)、绿(green)、蓝(blue)三色,每种颜色的亮度大小用数字0-255表示。通过对R、G、B三个颜色通道的变化以及它们相互之间的叠加可得到各式各样的颜色,共有1670万种颜色。

R=G=B=0黑色

R=G=B=255白色

0<R=G=B<255灰色其他颜色模型YUV颜色模型Y表示亮度信号,可构成灰色图像,U、V表示色度信号,是构成色彩的两分量。YUV空间相当于对RGB空间做了一个解相关的线性变化。YUV的最初作为模拟电视系统信号编码其亮度信号和色差信号分离,容易使彩色电视系统与只对亮度敏感的黑白电视机亮度信号兼容。PAL制式电视系统就采用该空间进行传输,电视机接收后再转换成RGB空间。YCbCr色彩模型YCbCr颜色空间是由YUV颜色空间派生的一种颜色空间,主要用于数字电视系统中。Y代表亮度,Cb和Cr代表色差。YCbCr颜色模型考虑的是压缩时可以充分取出冗余量。从RGB到YCbCr的转换中,输入、输出都是8位二进制格式。图形和图像的表示图像的基本属性分辨率:组成图像的像素数目颜色深度(位数):存储每个像素所用位数如:640*480*256色(即8位)≈300k真彩色和伪彩色:显示图像时,真彩色由R、G、B直觉决定显示设备的基色强度,而伪彩色则通过颜色查找表来决定。主要的图像文件格式JPEG(JointPictureExpertGroup):有损压缩;多用于照片;GIF(GraphicsInterchangeFormat):无损压缩,最多256色,可透明,可动画;多用于小图标;TIFF(TagImageFileFormat):未压缩或简单压缩;多用于扫描及传真;BMP(Bitmap):Windows中的位图,一般未压缩;EPS(EncapsulatedPostScript):矢量绘图软件和排版软件所使用的格式。图形和图像的表示和存储方法矢量图(Vector):多用于图形用一组命令来描述图形,这些命令给出构成图形的各种属性和参数,如圆可以是圆心坐标、半径以及粗细和色彩组成的。优点:图形文件占用空间较少。缺点:图形复杂时,耗时相对较长。位图(Bitmap):多用于图像在空间和色彩上已经离散化的图片,通过描述画面中每一像素的颜色或亮度来表示该图像,非常适合表现包含大量细节的图片(如明暗、浓淡、层次和色彩变化等)。优点:色彩和色调变化丰富,景物逼真。缺点:缩放等处理后易失真,数据量大。视频的概念视频:动态图像,是一组图像按时间顺序的连续展示。利用人眼视觉暂留的原理,通过播放一系列的图片,使人眼产生运动的感觉。视频的三要素:空间分辨率(即屏幕上的点数)颜色分辨率(即每个点的颜色位数)时间分辨率(即每秒的帧数)按信号组成和存储方式的不同:模拟视频:是由连续的模拟信号组成的图像序列,像电影、电视和录像的画面;数字视频:是一系列连续的数字图像序列。基本概念帧:一段视频中的每一幅图像称为一帧。根据视觉暂留原理,要使人的视觉产生连续的动态感觉,每秒钟图像的播放帧数要在24~30帧频(每秒播放的帧数)。扫描:传送电视图像时,将每幅图像分解成很多像素,按照一个一个像素、一行一行的方式顺序传送或接收。扫描行数(扫描分辨率)越多,电视清晰度越高。分隔行扫描(常用)和逐行扫描。数字视频常见的数字视频文件格式MPG:采用MPEG组织制定的视频压缩编码算法生成的视频文件。平均压缩比为50∶1,最高可达200∶1。VCD、SVCD、DVD均采用MPEG视频标准。AVI:微软公司推出的一种音频视像交插记录的数字视频文件格式。MOV:Apple公司在其生产的Macintosh机(后移植于PC/Windows环境)推出的视频格式,可以采用不压缩或压缩的方式。RM:RealNetworks公司所制定的音频视频压缩文件格式,根据网络数据传输速率的不同制定了不同的压缩比率,能用于流媒体播放。WMV:Microsoft公司出品的视频格式文件,具有本地或网络回放、可伸缩的媒体类型、流的优先级化等特点。ASM:AVS的视频文件格式。数字电视数字电视(DTV)的定义:指从电视节目采集、录制、播出到发射、接收全部采用数字编码与数字传输技术的新一代电视技术。它可以划分为3大部分:信源部分(发送端)、信道部分(传输/存储过程)和信宿部分(接收端)。数字电视分类:根据图像比特率的大小标准清晰度数字电视(SDTV)高清晰度数字电视(HDTV)数字电视的优点:高清晰度的电视画面:可以可与DVD相媲美(最低:1280×720,最高:1920×1080)。优质的音响效果:伴音可以达到CD质量。丰富的节目内容,有线网的带宽利用率更高。抗干扰功能力强,画面更稳定。扩展功能多:机顶盒除了一些基本功能外,还有许多扩展功能如上网、点播、股票查询、在线交易、远程教育等。HDTV:由它所能提供的画面质量定义的。分辨率:HDTV画面水平和垂直的像素目都差不多是常规系统的2倍。垂直方向的高清晰度是由1000多行的扫描线获得的。需要大约为传统5~8倍的视频带宽。宽高比:HDTV画面的指定宽高比为16:9=1.777。其他数字媒体动画利用人的视觉残留特性使连续的静态播放的静态画面相互衔接而形成的动态效果。动画性质帧动画:构成动画的基本单位是帧,一部动画由许多帧组成。借鉴传统动画的概念,每帧的内容不同,当连续播放时,形成动画视觉效果。矢量动画:是经过计算机计算而生成的动画,画面只有一帧;通常采用编程方式制作,及某些工具软件。动画制作如Flash(二维动画)扩展名为.swf闪客如3DMAX,Maya(三维动画)数字游戏采用数字技术实现的电子游戏,包括

视频游戏、网络游戏和移动游戏等。虚拟现实利用计算机生成的虚拟环境,具有

沉浸感、交互性和构想性(I3)特性。数字媒体标准简介

为什么需要媒体标准?数字媒体标准是相关技术与产业之基础!技术基础:采用不同标准的数字媒体,其压缩、编码、传输、内容分析与检索等技术有所不同产业基础:五环相扣——技术、专利、标准、产业、应用例子:全球电视竞争的转折点在MPEG-2(1996)数字媒体领域的主要技术标准JPEGMPEG系列:MPEG-2/4/7/21H.26x系列:H.261/3/4AVSJPEGJPEGJPEG(JointPhotographicExpertsGroup)标准(ISO10918)是ISO和ITU的联合提出的通用静态图像压缩国际标准。JPEG的重要特性设定压缩参数在解码速度和图像质量间均衡无损压缩原始图像重构图像逆向离散余弦变换正向离散余弦变换量化逆量化编码解码压缩图像量化表编码表Qualitylevel:90

Filesize:10,582bytesQualitylevel:50

Filesize:5,154bytesQualitylevel:1

Filesize:923bytesJPEG2000压缩标准JPEG2000(ISO15444)是JPEG的更新换代标准,针对Internet应用和无线通信等领域。关键技术:以离散小波变换DWT为主的多解析压缩方式核心算法:EBCOT高压缩比:比JPEG压缩性能提高30%JPEG与JPEG2000的性能比较标准JPEGJPEG2000标题连续色调静态图像的数字压缩编码新一代静态图像编码标准日期1986.3-1992.101996.2-2000.12压缩比2-30:12-50:1主要技术离散余弦变换DCTZigzag扫描哈夫曼编码算术编码离散小波变换DWTEBCOT核心算法ROI编码空间可扩展编码应用场合Internet数字照相图像视频编辑Internet数字照相打印、扫描、移动通信MPEG系列标准MPEG系列标准由国际标准化组织和国际电工委员会第一联合技术组(ISO/IECJTC1)制定的。MPEG视频标准MPEG-1:数字电视标准,1992年正式发布。MPEG-2:数字电视标准,1994年成为国际标准草案。MPEG-3:已于1992年7月合并到高清晰度电视(High-DefinitionTV,HDTV)工作组。MPEG-4:多媒体应用标准(1999年发布)。MPEG-7:多媒体内容描述接口标准(2001年发布)。MPEG-21:有关多媒体框架的标准(正在研究)。MPEG-A:多媒体应用格式标准(正在研究)。MPEG-4MPEG-4标准编号ISO/IEC14496,标准名称为“甚低速率视听编码”1998年11月公布第一版,1999年12月公布了第二版,共分为6个部分。目标是低速率下(<64kbps)的视频、音频编码,更加注重多媒体系统的交互性和灵活性。引入了视听对象(Audio-VisualObjects,AVO)AVO可以是孤立的人,也可是这个人的语音或一段背景音乐等。AVO具有高效编码、高效存储、高效传播以及可互操作的特性。MPEG-4对AVO的操作主要有:采用AVO来表示听觉、视觉或者视听组合内容;生成复合的AVO;对AVO的数据灵活地多路合成与同步;对AVO进行交互操作等。MPEG-4的特点与MPEG-1和2相比,MPEG-4更适于交互视听服务以及远程监控。设计目标使它具有更广的适应性和可扩展性。MPEG-4能以很低的速率基本实现DVD的质量;由于属于一种高比率有损压缩算法,其图像质量始终无法和DVD的MPEG-2相比。举例:MPEG-4视听场景的说明由4个复合媒体对象(人,背景,家具,音视演示)组成。系统定义了一个场景坐标系,

然后可以指定组成该场景的媒体对象在该坐标系中的位置,并可设定用户观察该场景时所在的坐标位置,这些位置信息都会包含在场景的描述中。MPEG音频标准MPEG音频压缩的主要依据是人耳

朵的听觉特性,利用了“心理声学

模型(psychoacousticmodel)”。心理声学模型的一个基本概念:

听觉阈值。低于听觉阈值的声音

信号听不到,因此就可以把这部

分信号去掉。心理声学模型的另一个概念:听

觉掩蔽特性。听觉阈值会随听到

的不同频率的声音而发生变化。MPEG音频标准MPEG-1Layer1:子带无损压缩+可选的简单掩蔽模型。MPEG-1Layer2:更高级的掩蔽模型。MPEG-1Layer3(即MP3):增加了对低比特率的处理。MPEG-2AAC(即MP4):压缩比更大(15:1-20:1),增加了对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪等特性。H.26X系列标准H.26X系列标准由国际电联(ITU-T)制定的。H.26X系列标准H.261:针对在窄带ISDN上实现速率P×64kbps的双向声像业务,其中P=1~30。H.263:针对低比特率视频应用H.264:ITU-T和ISO/IEC的MPEG共同成立的联合视频小组JVT提出,目的是为视频编码应用提供下一代的解决方案。VideoCodingSystemControlAudioCodingDataCallControlMultimediaMultiplexandSynchronizationNetworkInterfaceNetworkAdaptationGeneralprotocolstackofH-seriesaudiovisualcommunicationterminalAVS标准AVS是我国具有独立自主知识产权的视音频编码标准。标准进展2002年,数字音视频编解码技术标准(AVS)工作组成立。2006年1月6日,信息产业部批准通过AVS视频部分。2006年2月,《信息技术先进音视频编码第二部分:视频》国家标准GB/T20090.2-2006发布。2006年3月1日,GB/T20090.2-2006正式实施。走向国际2006年9月,AVS已正式成为国际电联ITU-T的联络组织,意味着AVS标准已具备选入ITU-T标准体系的资格,为AVS的国际化道路打开了大门。2007年4月,ISO/IECMPEG在新一代标准框架RVC要求支持的第一个非MPEG视频编码标准就是AVS。2007年5月,AVS列入ITU-TIPTVFG的内容编码标准文件,成为与H.264、VC-1

并列的选项。AVS国家标准的构成AVS部分国家标准计划号小组草案(WD)工作组草案(CD)最终草案(FCD)标准送审稿(FD)国家标准(GB)AVS1-P1(系统-广播)20051304-T-3392003.102003.122006.102007.03

AVS1-P2(视频-基准)20032265-T-3392003.102003.122004.42004.8

2006.2AVS1-P2(视频-增强)20032265-T-3392005.92006.32008.6

AVS1-P3(音频双声道)20051305-T-3392004.122005.32005.122006.4

AVS1-P3(音频-5.1)20051305-T-3392005.92005.122005.122006.4

AVS1-P3(移动)20051305-T-3392007.032007.62007.92007.12AVS1-P4(一致性测试)20051306-T-3392007.3-P2AVS1-P5(参考软件)20051307-T-3392006.3AVS1-P6(DRM)20051308-T-3392005.32005.122006.122006.03

AVS1-P7(移动视频)20051309-T-3392005.32005.62005.92006.4

AVS1-P8.1(系统-IP)TBD2005.32005.92005.122006.3AVS1-P8.2(系统-IP)TBD2006.12006.32006.3AVS1-P9.1(文件格式)TBD2005.32005.92005.122006.3

AVS1-P9.2(文件格式)TBD2006.12006.32006.32006.3

AVS视频技术框架熵编码逆量化&

反变换运动补偿控制数据量化变换因子运动数据帧内/帧间编码

控制运动估计变换/量化-输入视频信号划分成16x16的宏块帧内预测环路滤波输出视频信号AVS——创造中国音视频产业跨越机遇数字媒体技术的应用

数字媒体技术的应用家庭娱乐数字影视(有线电视、IPTV、地面数字电视)数字游戏数字广播数字广告……教育培训视频会议远程医疗移动通信移动多媒体广播、手机电视、移动电视…………应用示例1:高清视频IntelAVS高清播放器IntelAVS高清播放器应用示例2:手机电视IntelIMPlayer—嵌入式AVS播放器可在PocketPC和SmartPhone上运行支持全屏播放和窗口方式播放。应用示例3:高清地面广播应用示例4:数字动漫数字动漫:艺术与科学的完美结合小结计算机的信息处理数字多媒体VC++编程环境VC++编程环境-基本概念

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论