一 视频编码综述
1. MPEG标准的发展
MPEG是Moving Pictures Experts Group(动态图像专家组)的缩写。是一个致力于数字视频、音频技术发展及标准化的杰出组织,它是ISO(International Standard Organization)与IEC(International Electronic Committee)在1988年联合成立的,正规的组织代号是ISO/IEC JTCI/SC29/WG11,成员专家来自于不同国家的最有业界影响力的研发机构。
在十多年的时间里,MPEG组织取得了丰硕的成果,自身也有了很大的发展。1992年11月,MPEG-1被批准,并于1993年被ISO组织接纳为国际标准;1994年11月,MPEG-2标准发布,并在1995年成为国际标准;MPEG-4标准则于1999年和2001年分别有了版本1和版本2;目前,H.264/M PEG-4 AVC(即 ISO MPEG-4 Part 10)正在制定之中。
2. ISO MPEG-1 标准
MPEG-1 制定于1992年,为工业级标准而设计,编号为ISO/IEC 11172。MPEG-1针对CIF标准分辨率(NTSC制为352×240;PAL制为352×288)的图像进行压缩,并在标准中规定了视音频信息经过压缩后的数据码率最大为1.5Mbps。MPEG-1可实现在不同带宽的设备,如CD-ROM、Video-CD等数字媒体上进行存储,也可以在局域网、ISDN网上进行视音频信息的传输。
3. ISO MPEG-2 标准
MPEG组织在1994年推出了MPEG-2压缩标准,并在1995年成为国际标准,编号为ISO/IEC13818。MPEG-2标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定,编码码率可达100Mbps。MPEG-2不是MPEG-1的简单升级,它在系统和传送方面作了更加详细的规定和进一步的完善。MPEG-2特别适用于广播级的数字电视的编码和传送,被认定为SDTV和HDTV的编码标准。
(1)MPEG-2标准的构成
MPEG-2标准目前分为9个部分,各部分的内容描述如下:
1) 第一部分-ISO/IEC13818-1,System:系统,描述多个视频,音频和数据基本码流合成传输码流和节目码流的方式。
2) 第二部分-ISO/IEC13818-2,Video:视频,描述视频编码方法。
3) 第三部分-ISO/IEC13818-3,Audio:音频,描述与MPEG-1音频标准反向兼容的音频编码方法。
4) 第四部分-ISO/IEC13818-4,Compliance:符合测试,描述测试一个编码码流是否符合MPEG-2码流的方法。
5) 第五部分-ISO/IEC13818-5,Software:软件,描述了MPEG-2标准的第一、二、三部分的软件实现方法。
6) 第六部分-ISO/IEC13818-6,DSM-CC:数字存储媒体-命令与控制,描述交互式多媒体网络中服务器与用户间的会话信令集。
以上六个部分均已获得通过,成为正式的国际标准,并在数字电视等领域中得到了广泛的实际应用。此外,MPEG-2标准还有三个部分:第七部分规定与MPEG-1音频非反向兼容的多通道音频编码;第八部分现已停止;第九部分规定了传送码流的实时接口。
(2)MPEG-2编解码原理
MPEG-2视频压缩的原理是利用了图像中的两种特性:空间相关性和时间相关性。这两种相关性使得图像中存在大量的冗余信息。为了能够有效的去除图像中的冗余信息,MPEG-2标准中将编码图像被分为三类,分别称为I帧,P帧和B帧。I帧图像采用帧内编码方式。P帧和B帧图像采用帧间编码方式。P帧图像只采用前向时间预测,B帧图像采用双向时间预测,可以大大提高压缩倍数。 MPEG-2的编码码流分为六个层次,从上至下依次为:视频序列层(Sequence),图像组层(GOP:Group of Picture),图像层(Picture),像条层(Slice),宏块层(MacroBlock)和像块层(Block)。
在帧内编码的情况下,编码图像仅经过DCT,量化器和比特流编码器即生成编码比特流。在帧间编码的情况下,原始图像首先与帧存储器中的预测图像进行比较,计算出运动矢量,由此运动矢量和参考帧生成原始图像的预测图像。而后,将原始图像与预测像素差值所生成的差分图像数据进行DCT变换,再经过量化器和比特流编码器生成输出的编码比特流。
(3)MPEG-2中的Profile@Level
现有MPEG-2视频标准的技术规范集包括5类(Profile)4级(Level)组成,并采用分级编码。类和集的若干组合构成MPEG-2标准在某种特定应用下的子集。
级(Level)是指MPEG-2的输入格式,标识从有限清晰度的VHS 质量图像到HDTV图像,每一种输入格式编码后都有一个相应的范围。共分4级:
1) 低级LL(Low Level),图像输入格式的像素是ITU-R Rec.BT 601格式的1/4,即352×240×30或352×288×25。
2) 主级ML(Main Level),图像输入格式符合ITU-R Rec.BT 601格式,即720×480×30或720×576×25。
3) 1440高级H14L(High 1440 Level),图像宽高比为4∶3,采用1440×1080×30的高清晰度格式。
4) 高级HL(High Level),图像宽高比为16∶9,采用1920×1080×30的高清晰度格式。
类(Profile)是指MPEG-2的不同处理方法,每一类都包括压缩和处理方法的一个集合,较高的类意味着采用较多的编码工具集,进行更精细的处理,达到更好的图像质量,同时实现的代价也更大。共分5类:
1) 简单类SP(Simple Profile),使用最少的编码工具集。
2) 主类MP(Main Profile),它比简单类增加了一种双向预测方法,在相同比特率的情况下,将给出比简单类更好的图像。
3) 信噪比可分级类SNRP(SNR Scaleable Profile)和空域可分级类SPP(Spatially Scaleable Profile),这两种类允许将编码的视频数据分为基本层和附加层,提供了一种多种广播的方式。
4) 高级类HP(High Profile),应用于图像质量、比特率要求更高的场合。
(4)MPEG-2的特点及应用
MPEG-2具有以下几个突出特点:①支持的图像分辨率最高,包括符合ITU-RRec.601(CCIR601)格式的标准分辨率的数字电视和更高分辨率的HDTV。②支持包括高速体育运动在内的各种活动图像。③支持的应用最为广泛,既包括存储媒体中的DVD,广播电视中的数字广播电视和HDTV,还可应用于交互式的视频点播(VOD)和准视频点播(NVOD)。④还能够适配ATM等宽带通信网。
4. ISO MPEG-4标准
MPEG-4于1998年10月定案,在1999年1月成为一个国际性标准,随后为扩展用途又进行了第二版的开发,于2001年有了其第二个版本。MPEG-4的国际标准编号为ISO/IEC14496。MPEG-4的特点是其更适于交互AV服务以及远程监控,是一个有交互性的动态图像标准。
(1)MPEG-4标准的构成
1) 多媒体传送整体框架(DMIF):主要解决交互网络中、广播环境下以及磁盘应用中多媒体应用的操作问题。通过DMIF,MPEG-4可以建立起具有特殊品质服务(QoS)的信道和面向每个基本流的带宽。
2) 数据平面:MPEG-4中的数据平面可以分为传输关系和媒体关系两部分,并引用了对象描述(OD)和流图桌面(SMT)的概念,使基本流和AV对象在同一场景中出现。
3) 缓冲区管理和实时识别:MPEG-4定义了一个系统解码模式(SDM),该解码模式描述了一种理想的处理比特流句法语义的解码装置,它要求特殊的缓冲区和实时模式。通过有效地管理,可以更好地利用有限的缓冲区空间。
4) 视频编码:MPEG-4支持对自然和合成的视觉 对象的编码,合成的视觉对象包括2D、3D动画和人面部表情动画等。
5) 音频编码:MPEG-4不仅支持自然声音,而且支持合成声音。它将音频的合成编码和自然声音的编码相结合,并支持音频的对象特征。
6) 场景描述:场景描述主要用于描述各AV对象在具体AV场景下,如何组织与同步等问题,同时还有AV对象与AV场景的知识产权保护等问题。
(2)MPEG-4编解码原理
a. 基本思想
MPEG-4编解码的基本思想是基于图像内容的第二代视频编解码方案,并将基于合成的编码方案也结合在标准中。它根据图像的内容将图像分割成不同的视频对象VO(Video Object),在编码过程中对前景对象和后景对象采用不同的编码策略,对于人们所关心的前景对象,则尽可能的保持对象的细节及平滑,而对不大关心的后景对象采用大压缩比的编码策略。
b. 编解码的数据结构
MPEG-4按照如下五个层次组织要编码的图像,从上至下依次为:视频段VS(Video Session)、视频对象VO(Video Object)、视频对象层VOL(Video Object Layer)、视频对象组层GOV(Group of Video Object Plane)、视频对象平面VOP(Video Object Plane)。
在MPEG-4中,VO主要被定义为画面中分割出来的不同物体,每个VO有三类信息来描述:运动信息、形状信息、纹理信息。VO的构成依赖于具体应用和系统实际所处环境,在要求超低比特率的情况下,VO可以是一个矩形帧(即传统MPEG-1中的矩形帧),从而与原来的标准兼容;对于基于内容的表示要求较高的应用来说,VO可能是场景中的某一物体或某一层面,如新闻节目中的解说员的头肩像 ;VO也可能是计算机产生的二维、三维图形等。
c. VOP编码器结构
编码器主要由两部分组成:形状编码和传统的运动纹理编码,其中形状编码是MPEG-4在编码任意形状的VOP时所必须的。
d. MPEG-4的编解码流程及框架
MPEG-4的编码流程:第一步是VO的形成(VO Formation),先要从原始视频流中分割出VO,之后由编码控制(Coding control)机制为不同的VO以及各个VO的三类信息分配码率,之后各个VO分别独立编码,最后将各个VO的码流复合成一个位流。其中,在编码控制和复合阶段可以加入用户的交互控制或由智能化的算法进行控制。现在的MPEG-4包含了基于网格模型的编码和Sprite技术。在进行图像分析后,先考察每个VO是否符合一个模型,典型的如人头肩像,如是就按模型编码;再考虑背景能否采用Sprite技术,如是则将背景生产一幅大图,为每帧产生一个仿射变换和一个位置信息即可;最后才对其余的VO按上述流程编码。MPEG-4的解码流程则基本上为编码器的反过程,这里不再赘述。
(3)MPEG-4中的Profile@Level
(4)MPEG-4的主要应用场合
从目前的情况看,MPEG-4主要被用于三个领域:数字电视、交互式的图形应用(包括内容上的合成技术)、交互式多媒体领域等。
(5)MPEG-4的特点及优势
1) MPEG-4是做为一个国际化的标准来制定研究的,因而具有很好的兼容性及开放性。
2) MPEG-4提供高压缩比的同时,对数据的损失很小,达到以最小的数据获得最佳的图像质量的目的。
3) MPEG-4是个开放标准,因其高质量的数字影像,以及允许内容创建者从MPEG-2质量一直到极低带宽的Internet流式内容全程进行品质和带宽的均衡,而被全世界的无线、电脑及娱乐 公司广泛采用。
4) 正如MPEG-2将使数字电视最终完全取代现有的模拟电视那样,随着MPEG-4新标准的不断推出,数据压缩和传输技术必将趋向更加规范化。
5. H.264/MPEG-4 AVC(ISO MPEG-4 Part 10)
H.264(ITU-T命名),或称之为MPEG-4 AVC(ISO/IEC命名),是一种由ITU-T与ISO/IEC正在联合进行开发的视频编解码方案,即将成为MPEG-4标准的第10部分(ISO MPEG-4 Part 10)。关于该技术的视频编码方案,现在正式命名为ITU-T H.264或“JVT/AVC草案”。H.264/MPEG-4 AVC作为MPEG-4标准的扩展(MPEG-4 Part 10),充分利用了现有MPEG-4标准中的各个环节。H.264/MPEG-4 AVC就在现有MPEG-4 Advanced Simple Profile的基础之上进行发展的。
H.264/MPEG-4 AVC的编解码方案流程主要包括如下5个部分:精密运动估计与帧内估计(Estimation)、变换(Transform)及逆变换、量化(Quantization)及逆量化、环路滤波器(Loop Filter)、熵编码(Entropy Coding)。
尽管H.264/MPEG-4 AVC这项技术虽然还没有得到正式批准,但是其可以降低50%或更多带宽的能力,能以少于1Mbps的数据率传输基于互联网协议(IP)的广播质量级的视频内容,这是目前正式颁布的ISO MPEG-4及MPEG-2编解码方案根本所不能比拟的。因而,H.264/MPEG-4 AVC将对所有要求高压缩率、高质量的应用领域产生深远的影响。
目前Amphion Semiconductor、Envivio、Equator Technologies、iVAST、德州仪器、UB Video和VideoLocus等芯片制造商以及软件技术供应商都对该项技术进行了相关的研究及产品开发,其中VideoLocus公司推出了VLP4000系统用于H.264/MPEG-4 AVC编解码、流媒体方案及性能的评估。
6. DV标准
数字摄像机记录视频不是以模拟信号,而是以压缩的数字信号的方式。为避免出现不兼容的情况,这种技术的主要产品都符合一个数字压缩标准:DV。很多国际知名的视频厂商都发展和提供DV格式的产品,这其中的传输标准被称为FireWire(IEEE 1394)。DV是一种将DCT压缩的数字视频信号记录到盒式录像带的方法。
(1)DV涉及的指标
1) 取样频率及取样比:DV使用的是4∶2∶0的数字分量记录系统,视频亮度取样频率为13.5MHz,色差信号取样频率是3.375MHz。
2) 量化深度:DV对取样后的亮度及色差信号进行8-bit量化。
3) 视频信号压缩比:DV格式采用的是帧内压缩方法,压缩比为5∶1,压缩后视频码流在进一步处理后记录在磁带上。
(2)DV(IEEE l394)接口
IEEE l394是标准的高速、短距数据传输交换协议。IEEE1394已经被数字VCR联盟确认为标准的数字接口,被数字视频协会确认为数字传输标准。VESA(视频专家标准协会)认同1394用于家庭网络,并且欧洲数字视频广播(DVB)也认同将IEEE1394用于数字电视接口。
(3)DV的特点
1) DV格式具有优异的图像质量,它具有高清晰度,宽色度带宽,能还原色彩绚丽的图像、无抖动的稳定画面等特点。
2) DV格式能对声音进行数字记录,为了与优越的图像相配合,DV格式提供了优质的PCM音频记录。
3) DV格式基于它的应用 特点,不能调整输出码率。
4) 支持DV的MiniDV盒带比VHS盒带小巧许多,使得MiniDV的带仓、磁鼓和带盘机构等也相应变得更加精巧。
7. MXF格式标准
素材交换格式(Media eXchange Format, MXF)是厂商之间和主要组织(如Pro-MPEG、EBU和AAF协会)之间合作的巨大进展。MXF是一种在服务器、数据流磁带机和数字档案之间交换节目素材的文件格式。其内容可能为完整的节目以及整套广播电视节目或片段。MXF可自成体系运用,无需外部素材即可保存完整的内容。目前素材交换格式(MXF)标准化工作已发展到第9版本。
(1)MXF文件格式
MXF把统称为实体的视频、音频和节目数据(如文本)与元数据捆绑在一起,并将它们置于一个包内,其主体基于码流并携带实体和某些元数据。它保存视频帧的一个片段,每个片段辅之于有关的音频和数据实体以及基于帧的元数据。后者一般包含时间码和每个视频帧的文件格式信息。主体可基于若干不同类型的素材(实体),包括MPEG、DV和非压缩视频/音频,它还使用SMPTE KLV数据编码系统,这使之具有成为公认标准的优势。
MXF是音频/视频/元数据的打包结构,由文件头、文件尾、文件体以及可选的索引部分组成。索引部分包括部分元数据和文件参数用于文件访问,文件体部分可以是多种视音频格式,如MPEG,DV和非压缩的AV数据。文件体由若干场景文件构成,每个场景文件都是由图像、声音和元数据组成的。
(2)MXF的元数据(Metadata)
1) 元数据的含义
元数据就是与视音频数据结合在一起的辅助信息,它记录了与节目制作相关的数据,如:拍摄时间、拍摄地点、人物、场景编号及其他相关信息。这些信息在节目制作、传送、复制及播出的各个阶段,始终与视音频信号密切结合。
2) 元数据的作用
元数据(Metadata)在日后的素材管理、资料查找、交互式节目制作与播出等应用中,将大大提高我们的工作效率,并起到举足轻重的作用。利用元数据,我们可以轻松的实现素材查找。除了可以直接观看视频画面之外,还可以通过元数据查看其他相关数据,获得更直观、更丰富、更形象的资讯。
(3)MXF与AAF的关系
AAF是Advanced Authoring Format的缩写,意为“先进制作格式”。AAF是一个协会,它包括了目前世界上主要的电子设备供应商、计算机软硬件厂家和一些广播机构。协会主要负责制定用于增强的编辑和制作的通用AV文件格式标准,即AAF格式。AAF格式是一种用于多媒体创作及后期制作、面向企业界的开放式标准。
AAF是一种带标签和地址的图像/声音/元数据打包方式, MXF与AAF这两种格式具有互补性。AAF可以对现有的各种媒体文件格式进行集成和补充;而MXF对AAF文件和现有的各种流媒体格式都有这样的效能。MXF和AAF都可以单独使用,它们在各自的应用领域各有所长;与此同时,用户对任何一者无须有依赖性。例如,一个单纯的广播系统可以使用MXF格式;一个后期制作室可以只使用AAF格式;而一个带有后期制作设施的广播机构,则可以同时使用这两种格式。
MXF与AAF这两种文件格式在很多方面非常相似,从这两种文件的关系上来看MXF是AAF的子集。
(4)MXF的作用
1) 使用MXF文件,我们可以利用成熟、实用且构造简单、价格并不昂贵的IT网络传送高质量的视音频数据。
2) 应用MXF文件技术,可以在所有支持即将成为国际标准的MXF文件格式的各个厂家设备(录像机、服务器、非线性制作设备)之间传送视频数据。
3) 除了提供更好的互操作性,即在不同的设备和不同的应用之间处理视频和音频。MXF另外的贡献是传送元数据。从一开始就把MXF作为一种新文件格式来开发,因此对元数据应用加以大量的关注。这不仅对MXF文件的恰当运行非常重要,而且还将导致功能强大的新型媒体管理工具的出现。
二 流媒体标准
1. ISMA MPEG-4流媒体标准
ISMA是国际互联网流媒体联盟(Internet Streaming Media Alliance)的简称,它是由苹果、思科、IBM、Sun、Philips、Kasenna等产业界巨人于2000年12月14日发起并宣布成立,目前其正式成员达到30家以上。ISMA联盟的宗旨为推动开发与使用IP端到端媒体流解决方案的国际开放性标准。其官方网站(www.ISM-Alliance.org)作用在于发表各项完成的规范并发布联盟的活动信息。
由于MPEG-4作为MPEG-1及MPEG-2的替代技术标准,可以将较大的流媒体文件在保证视音频质量情况下压缩的非常小,更利于在网络上传播。基于此,ISMA MPEG-4标准正是由ISMA制定并发布的基于ISO MPEG-4的流媒体新标准。
ISMA发布了新标准的第一个规范说明--ISMA 1.0。该规范说明允许用户仅下载一个插件,就可以使用不同公司的播放器欣赏网络音频与视频;而且使用范围不局限于PC机,还包括各种掌上无线设备(如PDA、手机等)。
ISMA 1.0目前有两个版本:Profile 0和Profile 1。前者是为了无线网络及带宽较窄的网络准备的,可以适用于手机、PDA等掌上无线设备;后者是为了宽带设计的,可以应用于机顶盒以及PC机。ISMA希望MPEG-4 能够最终代替MPEG-2标准,但是新标准在视频效果及交互性方面有待改进,目前仍在不断的发展及提高之中。
2. QuickTime
(1)QuickTime MOV格式
Apple公司的QuickTime MOV文件格式是数字媒体领域的工业标准。QuickTime MOV文件格式定义了存储数字媒体内容的标准方法,使用这种文件格式不仅可以存储单个的媒体内容(如视频帧或音频采样),而且能保存对该媒体作品的完整描述。
QuickTime MOV文件格式被设计用来适应为与数字化媒体一同工作需要存储的各种数据。它将媒体描述和媒体数据分开存储,媒体描述包含轨道数目、视频压缩格式和时间信息等,同时包含媒体数据存储区域的索引。媒体数据是指所有的采样数据,如视频帧和音频采样。由于这种文件格式能用来描述几乎所有的媒体结构,是应用程序间(不管运行平台如何)交换数据的理想格式。
(2)QuickTime支持的ISO/ISMA MPEG4流媒体格式
Apple公司的QuickTime从5.0版本开始采用MPEG-4相关的压缩技术,并且在其最新版本QuickTime 6中率先提出支持ISO/ISMA MPEG-4流媒体格式(mp4文件格式),而且是世界上用于创建、流化和观看MPEG-4内容的首款完全媒体解决方案。 QuickTime在ISO/ISMA MPEG-4的流媒体应用方面具有以下明显特征:
1) 采用完全符合ISO MPEG-4标准的视频编解码,用于MPEG-4影像内容的编码和解码。
2) 符合互联网流式媒体联盟(ISMA)的1.0规范,并全面支持ISMA 1.0标准中的两个版本:ISMA Profile 0 和ISMA Profile 1。
3) 采用Instant-On Streaming(即时通媒体流)技术,其特点是可消除缓冲延时,达到即时进退、帧进、帧退、拖动间播放、停止播放后还能进行自由定位浏览等功能,使用户能简捷快速地扫过流式媒体内容而定位到要观看的 特定部分。这是RealVideo和Windows Media目前根本不能达到的功能。
4) 在MPEG-4中采用高级音频编码(AAC)的音频编码技术,能够以小得多的文件提供比MP3好得多的音质,也比Windows Media Audio(WMA)更强。
3. Windows Media Technologies
Microsoft Windows Media 技术是一个能适应多种网络带宽条件的流式多媒体信息的发布平台,提供密切结合的一系列服务和工具用以创造、管理、广播和接收通过 Internet 和企业 Intranet 传送的极其丰富的流式化多媒体演示内容,包括了流式媒体的制作、发布、播放和管理的一整套解决方案。另外,还提供了开发工具包(SDK)供二次开发使用。
(1)Windows Media 9 Series Platform
Microsoft Windows Media 9 Series Platform是一套涉及编解码、服务器、播放器、软件开发包等各个方面的完整多媒体解决平台。它作为多媒体领域的最新核心技术,在编解码质量、稳定性、集成性、流媒体性能、功能等方面都有了较大的提高,同时该平台紧密的和Windows操作系统结合在一起,将在广播、电视、网络、远程教学、远程服务等方面有着广泛应用。
(2)Windows Media Video 9(WMV 9)
Windows Media Video 9(WMV 9)是Microsoft视频媒体技术的首要Codec,它派生于MPEG-4,几个专有扩展功能使其可在给定码率下提供更好的图像质量,在这种意义下,Windows Media Video 9是流式视频中质量最高的Codec之一。
WMV 9的主要优点包括:本地或网络回放、图像质量优秀、可扩充的媒体类型、部件下载、可伸缩的媒体类型、流的优先级化、多码率合成、多语言支持、环境独立性、丰富的流间关系以及扩展性等。但是WMV 9也具有一些缺陷,如系统平台只能采用Windows操作系统,跨平台支持能力差;转码生成WMV 9的效率较低;流式媒体内容的浏览没有采用QuickTime浏览 ISO/ISMA MPEG-4视频内容的方便等。
4. RealNetworks的RealVideo技术
RealNetworks公司所制定的视音频压缩规范称为RealMedia,是目前在Internet上相当流行的跨平台的、客户/服务器结构的多媒体应用标准,它采用音频/视频流和同步回放技术来实现在Internet上全带宽地提供优质的多媒体,同时也能够在Internet上以28.8kbit/s的传输速率提供立体声和连续视频。
RealVideo技术的整套流媒体解决方案主要包括:
1) 客户端播放软件RealPlayer,可以独立运行,也可以作为插件在浏览器中运行,目前最新版本为RealOne Player。 2) 制作端产品是内容制作软件RealProducer,它将其他各种媒体格式的文件压缩转换为Real流媒体格式文件,目前最新版本为Helix Producer Plus 9.0。第三方开发者可以通过RealNetworks公司提供的SDK将它们的媒体格式转换成RealMedia文件格式。
3) 服务器端软件RealServer用于提供流式服务,目前最新版本为Helix Server 9.0
5. DivX MPEG-4
DivX MPEG-4的基础技术来源于微软的MPEG-4 V3版本,由DivXNetworks发起一个开放源码项目ProjectMayo而开发出来的。
DivX MPEG-4具有以下特点:MPEG-4算法采用完全符合ISO MPEG -4标准的OpenDivX Codec;画质优秀、容量小;播放环境简单方便;直接可以采用AVI文件进行流媒体播放等应用。
三 音频编码标准
1. LPCM
LPCM(线性脉冲编码调制)是一种非压缩音频数字化技术,是一种未压缩的原音重现,在普通CD、DVD及其他各种要求最高音频质量的场合中已经得到广泛的应用。
各种应用场合中的LPCM原理是一样的,区别在于采样频率和量化精度不同。普通CD规格为16bit/44.1kHz,DVD的规格则有多种,量化精度可分为16bit、20bit、24bit,采样频率分为48kHz、96kHz。此外,LPCM信号中可录入杜比环绕声信息,供现有的杜比定向逻辑环绕声系统使用。
2. MP3(MPEG Audio Layer-3)
MP3是MPEG Audio Layer-3的简称,是从MPEG-1标准衍生的、开放的编码方案,1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。
MP3音频压缩技术是一种失真压缩,其原理是把声音频率中人耳几乎听不到的音域在音频中去除,采用高效率的变换编码音频压缩算法对声音进行压缩,从而使得文件体积大为缩小,可达到12∶1的压缩比。
MP3的频率范围最高为44kHz,最低为20Hz。在128Kbps的码率下,MP3可以达到接近CD音质的声音质量。但是由于损失了音频中的甚高、甚低音部分(尽管人耳不是非常敏感),使MP3毕竟要比CD稍逊一些。
3. WMA(Windows Media Audio)
WMA为Windows Media Audio的缩写,是微软公司制定的音乐文件格式。WMA Codec 是Microsoft音频技术的首要Codec。据微软自身发表的声明,目前最新的版本WMA 9.0相对于WMA 8,在压缩率上有着20%的提升。
WMA类似于MP3,同样是一种失真压缩,损失了声音中人耳极不敏感的甚高、甚低音部分。但与MP3相比较起来,仍然具有不少优势。
1) 它具有与MP3相当的音质,但容量更小。
2) 更先进的压缩算法在给定速率下可获得更好的质量。
3) 特别适合于低速率传输。
4) 除了损失了的音频成份外,WMA比起MP3在频谱结构上更接近于原始音频,因而相对起来具有更好的声音保真度。
4. AAC(Advanced Audio Coding)
AAC是高级音频编码(Advanced Audio Coding)的缩写。AAC是由动态图像专家组(MPEG)开发的,已经被国际标准化组织(ISO)讨论通过,成为了MPEG-2国际标准的一部分,同时它也是一种开放的音频编码标准。
(1)AAC的编码原理及特点
1) AAC是一种高压缩比的音频压缩算法,但它的压缩比要远超过较老的音频压缩算法,如AC-3、MP3等。并且其质量可以同未压缩的CD音质相媲美。
2) 同其他类似的音频编码算法一样,AAC也是采用了变换编码算法,但AAC使用了分辨率更高的滤波器组,因此它可以达到更高的压缩比。
3) AAC使用了临时噪声重整、后向自适应线性预测、联合立体声技术和量化哈夫曼编码等最新技术,这些新技术的使用都使压缩比得到进一步的提高。
4) AAC支持更多种采样率和比特率、支持1个到48个音轨、支持多达15个低频音轨、具有多种语言的兼容能力、还有多达15个内嵌数据流。
5) AAC支持更宽的声音频率范围,最高可达到96kHz,最低可达8Hz,远宽于MP3 20-44kHz的范围
6) 不同于MP3及WMA,AAC几乎不损失声音频率中的甚高、甚低频率成分,并且比WMA在频谱结构上更接近于原始音频,因而声音的保真度更好。专业评测中表明,AAC比WMA声音更清晰,而且更接近原音。
7) AAC采用优化的算法达到了更高的解码效率,解码时只需较少的处理能力。
(2)专业评价
1) AAC以128Kbps(立体声)的速率对音乐进行压缩,然后经由专家辨认,结论是其结果同原始未压缩时的声音“区别不出来”。
2) AAC以96Kbps的速度压缩音乐,通常其压缩后的质量比MP3在128Kbps压缩后的质量还要高。AAC在128Kbps压缩音乐后的性能比MP3在相同速度压缩音乐后得到的性能高很多。
3) AAC是唯一一个在欧洲广播联盟主办的64Kbps听力测试中被评为“优秀”的因特网音频数字多媒体编解码器。
4) 鉴于其卓越的性能和质量,AAC已成为MPEG-4规范的核心,同时它还是因特网、无线网以及数字广播网领域中的新一代音频数字解码器的选择。
四 静态图像压缩标准
1. JPEG标准
JPEG标准,即国际多灰度静止图像数字压缩编码标准,由JPEG专家组(Joint Photographic Experts Group)于1991年3月提出的ISO CD10918号建议草案而来,其标准号为ISO 10918-1。JPEG是一个适用于彩色和单色多灰度或连续色调静止数字图像的压缩标准。
(1)JPEG标准的组成部分
JPEG标准包括基于DPCM(差分脉冲编码调制)的无损压缩编码,基于DCT(离散余弦变换)和Fuffman编码的有损压缩算法两个部分。前者不会产生失真,但压缩比很小;后一种算法进行图像压缩信息虽有损失,但压缩比可以很大,例如压缩20倍左右时,人眼基本上看不出失真。目前我们对JPEG标准的应用主要是其高压缩比的有损压缩算法。
(2)JPEG算法的三个基本步骤
JPEG算法操作可分成以下三个基本步骤:
1) 通过离散余弦变换(DCT)去除数据冗余。
2) 使用量化表对DCT系数进行量化,量化表是根据人类视觉系统和压缩图像类型的特点进行优化的量化系数矩阵。
3) 对量化后的DCT系数进行编码使其熵达到最小,熵编码采用Fuffman可变字长编码。
(3)JPEG的应用
鉴于JPEG优良的品质,使得它在短短的几年内就获得极大的成功,目前绝大多数的图像都是采用JPEG的压缩标准,各类浏览器、图片浏览处理工具均支持JPEG图像格式。同时由于JPEG格式的文件尺寸较小,Web页有可能以较短的下载时间提供大量精美的图像,使得JPEG成为网络上最受欢迎的图像格式。
2. JPEG2000标准
随着多媒体应用领域的激增,传统JPEG压缩技术已无法满足人们对多媒体图像资料的要求。因此,更高压缩率以及更多新功能的新一代静态图像压缩技术 JPEG 2000 随之诞生。
JPEG2000标准同样由JPEG 组织负责制定。自1997年3月开始筹划,于2000年3月出台。其标准号为ISO 15444。
(1)JPEG2000编码原理
JPEG 2 000与传统 JPEG 最大的不同,在于它放弃了 JPEG 所采用的以离散馀弦转换(DCT)为主的区块编码方式,而改采用以小波转换(Wavelet transform)为主的多解析编码方式。小波转换的主要目的是要将图像的频率成分抽取出来,分别加以控制及编码。
(2)JPEG2000的优点:
1) JPEG2000作为JPEG升级标准,高压缩比(低码率)是其目标,其压缩率比JPEG高约 30%左右。
2) JPEG2000同时支持有损和无损压缩,其无损压缩具有很好的实用价值,因此它适合保存重要图片。
3) JPEG2000的一个极其重要的特征就是采用小波变换后,JPEG2000 能实现渐进传输,这也就是我们常说的“渐现”特性。它先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示,而不必是像现在的 JPEG 一样,由上到下慢慢显示。
4) JPEG2000能方便的实现对码流的随机存取与处理,保证位错误的鲁棒性。
5) JPEG2000支持所谓的“感兴趣区域”特性,你可以任意指定图像上你感兴趣区域的压缩质量,还可以选择指定的部份先解压缩,这样我们就可以很方便的突出图片中的重点进行浏览。
(3)JPEG2000图片的压缩
目前有很多公司、机构提供了JPEG2000的压缩工具及编解码器。主要有LuraWave SmartCompress Freeware for Windows、Elecard Wavelet Image Compressor等。其中以LuraTech的LuraWave SmartCompress 及相应编码器生成的LuraWave(lwf)格式最有名。
一 视频编码综述
1. MPEG标准的发展
MPEG是Moving Pictures Experts Group(动态图像专家组)的缩写。是一个致力于数字视频、音频技术发展及标准化的杰出组织,它是ISO(International Standard Organization)与IEC(International Electronic Committee)在1988年联合成立的,正规的组织代号是ISO/IEC JTCI/SC29/WG11,成员专家来自于不同国家的最有业界影响力的研发机构。
在十多年的时间里,MPEG组织取得了丰硕的成果,自身也有了很大的发展。1992年11月,MPEG-1被批准,并于1993年被ISO组织接纳为国际标准;1994年11月,MPEG-2标准发布,并在1995年成为国际标准;MPEG-4标准则于1999年和2001年分别有了版本1和版本2;目前,H.264/M PEG-4 AVC(即 ISO MPEG-4 Part 10)正在制定之中。
2. ISO MPEG-1 标准
MPEG-1 制定于1992年,为工业级标准而设计,编号为ISO/IEC 11172。MPEG-1针对CIF标准分辨率(NTSC制为352×240;PAL制为352×288)的图像进行压缩,并在标准中规定了视音频信息经过压缩后的数据码率最大为1.5Mbps。MPEG-1可实现在不同带宽的设备,如CD-ROM、Video-CD等数字媒体上进行存储,也可以在局域网、ISDN网上进行视音频信息的传输。
3. ISO MPEG-2 标准
MPEG组织在1994年推出了MPEG-2压缩标准,并在1995年成为国际标准,编号为ISO/IEC13818。MPEG-2标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定,编码码率可达100Mbps。MPEG-2不是MPEG-1的简单升级,它在系统和传送方面作了更加详细的规定和进一步的完善。MPEG-2特别适用于广播级的数字电视的编码和传送,被认定为SDTV和HDTV的编码标准。
(1)MPEG-2标准的构成
MPEG-2标准目前分为9个部分,各部分的内容描述如下:
1) 第一部分-ISO/IEC13818-1,System:系统,描述多个视频,音频和数据基本码流合成传输码流和节目码流的方式。
2) 第二部分-ISO/IEC13818-2,Video:视频,描述视频编码方法。
3) 第三部分-ISO/IEC13818-3,Audio:音频,描述与MPEG-1音频标准反向兼容的音频编码方法。
4) 第四部分-ISO/IEC13818-4,Compliance:符合测试,描述测试一个编码码流是否符合MPEG-2码流的方法。
5) 第五部分-ISO/IEC13818-5,Software:软件,描述了MPEG-2标准的第一、二、三部分的软件实现方法。
6) 第六部分-ISO/IEC13818-6,DSM-CC:数字存储媒体-命令与控制,描述交互式多媒体网络中服务器与用户间的会话信令集。
以上六个部分均已获得通过,成为正式的国际标准,并在数字电视等领域中得到了广泛的实际应用。此外,MPEG-2标准还有三个部分:第七部分规定与MPEG-1音频非反向兼容的多通道音频编码;第八部分现已停止;第九部分规定了传送码流的实时接口。
(2)MPEG-2编解码原理
MPEG-2视频压缩的原理是利用了图像中的两种特性:空间相关性和时间相关性。这两种相关性使得图像中存在大量的冗余信息。为了能够有效的去除图像中的冗余信息,MPEG-2标准中将编码图像被分为三类,分别称为I帧,P帧和B帧。I帧图像采用帧内编码方式。P帧和B帧图像采用帧间编码方式。P帧图像只采用前向时间预测,B帧图像采用双向时间预测,可以大大提高压缩倍数。 MPEG-2的编码码流分为六个层次,从上至下依次为:视频序列层(Sequence),图像组层(GOP:Group of Picture),图像层(Picture),像条层(Slice),宏块层(MacroBlock)和像块层(Block)。
在帧内编码的情况下,编码图像仅经过DCT,量化器和比特流编码器即生成编码比特流。在帧间编码的情况下,原始图像首先与帧存储器中的预测图像进行比较,计算出运动矢量,由此运动矢量和参考帧生成原始图像的预测图像。而后,将原始图像与预测像素差值所生成的差分图像数据进行DCT变换,再经过量化器和比特流编码器生成输出的编码比特流。
(3)MPEG-2中的Profile@Level
现有MPEG-2视频标准的技术规范集包括5类(Profile)4级(Level)组成,并采用分级编码。类和集的若干组合构成MPEG-2标准在某种特定应用下的子集。
级(Level)是指MPEG-2的输入格式,标识从有限清晰度的VHS 质量图像到HDTV图像,每一种输入格式编码后都有一个相应的范围。共分4级:
1) 低级LL(Low Level),图像输入格式的像素是ITU-R Rec.BT 601格式的1/4,即352×240×30或352×288×25。
2) 主级ML(Main Level),图像输入格式符合ITU-R Rec.BT 601格式,即720×480×30或720×576×25。
3) 1440高级H14L(High 1440 Level),图像宽高比为4∶3,采用1440×1080×30的高清晰度格式。
4) 高级HL(High Level),图像宽高比为16∶9,采用1920×1080×30的高清晰度格式。
类(Profile)是指MPEG-2的不同处理方法,每一类都包括压缩和处理方法的一个集合,较高的类意味着采用较多的编码工具集,进行更精细的处理,达到更好的图像质量,同时实现的代价也更大。共分5类:
1) 简单类SP(Simple Profile),使用最少的编码工具集。
2) 主类MP(Main Profile),它比简单类增加了一种双向预测方法,在相同比特率的情况下,将给出比简单类更好的图像。
3) 信噪比可分级类SNRP(SNR Scaleable Profile)和空域可分级类SPP(Spatially Scaleable Profile),这两种类允许将编码的视频数据分为基本层和附加层,提供了一种多种广播的方式。
4) 高级类HP(High Profile),应用于图像质量、比特率要求更高的场合。
(4)MPEG-2的特点及应用
MPEG-2具有以下几个突出特点:①支持的图像分辨率最高,包括符合ITU-RRec.601(CCIR601)格式的标准分辨率的数字电视和更高分辨率的HDTV。②支持包括高速体育运动在内的各种活动图像。③支持的应用最为广泛,既包括存储媒体中的DVD,广播电视中的数字广播电视和HDTV,还可应用于交互式的视频点播(VOD)和准视频点播(NVOD)。④还能够适配ATM等宽带通信网。
4. ISO MPEG-4标准
MPEG-4于1998年10月定案,在1999年1月成为一个国际性标准,随后为扩展用途又进行了第二版的开发,于2001年有了其第二个版本。MPEG-4的国际标准编号为ISO/IEC14496。MPEG-4的特点是其更适于交互AV服务以及远程监控,是一个有交互性的动态图像标准。
(1)MPEG-4标准的构成
1) 多媒体传送整体框架(DMIF):主要解决交互网络中、广播环境下以及磁盘应用中多媒体应用的操作问题。通过DMIF,MPEG-4可以建立起具有特殊品质服务(QoS)的信道和面向每个基本流的带宽。
2) 数据平面:MPEG-4中的数据平面可以分为传输关系和媒体关系两部分,并引用了对象描述(OD)和流图桌面(SMT)的概念,使基本流和AV对象在同一场景中出现。
3) 缓冲区管理和实时识别:MPEG-4定义了一个系统解码模式(SDM),该解码模式描述了一种理想的处理比特流句法语义的解码装置,它要求特殊的缓冲区和实时模式。通过有效地管理,可以更好地利用有限的缓冲区空间。
4) 视频编码:MPEG-4支持对自然和合成的视觉 对象的编码,合成的视觉对象包括2D、3D动画和人面部表情动画等。
5) 音频编码:MPEG-4不仅支持自然声音,而且支持合成声音。它将音频的合成编码和自然声音的编码相结合,并支持音频的对象特征。
6) 场景描述:场景描述主要用于描述各AV对象在具体AV场景下,如何组织与同步等问题,同时还有AV对象与AV场景的知识产权保护等问题。
(2)MPEG-4编解码原理
a. 基本思想
MPEG-4编解码的基本思想是基于图像内容的第二代视频编解码方案,并将基于合成的编码方案也结合在标准中。它根据图像的内容将图像分割成不同的视频对象VO(Video Object),在编码过程中对前景对象和后景对象采用不同的编码策略,对于人们所关心的前景对象,则尽可能的保持对象的细节及平滑,而对不大关心的后景对象采用大压缩比的编码策略。
b. 编解码的数据结构
MPEG-4按照如下五个层次组织要编码的图像,从上至下依次为:视频段VS(Video Session)、视频对象VO(Video Object)、视频对象层VOL(Video Object Layer)、视频对象组层GOV(Group of Video Object Plane)、视频对象平面VOP(Video Object Plane)。
在MPEG-4中,VO主要被定义为画面中分割出来的不同物体,每个VO有三类信息来描述:运动信息、形状信息、纹理信息。VO的构成依赖于具体应用和系统实际所处环境,在要求超低比特率的情况下,VO可以是一个矩形帧(即传统MPEG-1中的矩形帧),从而与原来的标准兼容;对于基于内容的表示要求较高的应用来说,VO可能是场景中的某一物体或某一层面,如新闻节目中的解说员的头肩像 ;VO也可能是计算机产生的二维、三维图形等。
c. VOP编码器结构
编码器主要由两部分组成:形状编码和传统的运动纹理编码,其中形状编码是MPEG-4在编码任意形状的VOP时所必须的。
d. MPEG-4的编解码流程及框架
MPEG-4的编码流程:第一步是VO的形成(VO Formation),先要从原始视频流中分割出VO,之后由编码控制(Coding control)机制为不同的VO以及各个VO的三类信息分配码率,之后各个VO分别独立编码,最后将各个VO的码流复合成一个位流。其中,在编码控制和复合阶段可以加入用户的交互控制或由智能化的算法进行控制。现在的MPEG-4包含了基于网格模型的编码和Sprite技术。在进行图像分析后,先考察每个VO是否符合一个模型,典型的如人头肩像,如是就按模型编码;再考虑背景能否采用Sprite技术,如是则将背景生产一幅大图,为每帧产生一个仿射变换和一个位置信息即可;最后才对其余的VO按上述流程编码。MPEG-4的解码流程则基本上为编码器的反过程,这里不再赘述。
(3)MPEG-4中的Profile@Level
(4)MPEG-4的主要应用场合
从目前的情况看,MPEG-4主要被用于三个领域:数字电视、交互式的图形应用(包括内容上的合成技术)、交互式多媒体领域等。
(5)MPEG-4的特点及优势
1) MPEG-4是做为一个国际化的标准来制定研究的,因而具有很好的兼容性及开放性。
2) MPEG-4提供高压缩比的同时,对数据的损失很小,达到以最小的数据获得最佳的图像质量的目的。
3) MPEG-4是个开放标准,因其高质量的数字影像,以及允许内容创建者从MPEG-2质量一直到极低带宽的Internet流式内容全程进行品质和带宽的均衡,而被全世界的无线、电脑及娱乐 公司广泛采用。
4) 正如MPEG-2将使数字电视最终完全取代现有的模拟电视那样,随着MPEG-4新标准的不断推出,数据压缩和传输技术必将趋向更加规范化。
5. H.264/MPEG-4 AVC(ISO MPEG-4 Part 10)
H.264(ITU-T命名),或称之为MPEG-4 AVC(ISO/IEC命名),是一种由ITU-T与ISO/IEC正在联合进行开发的视频编解码方案,即将成为MPEG-4标准的第10部分(ISO MPEG-4 Part 10)。关于该技术的视频编码方案,现在正式命名为ITU-T H.264或“JVT/AVC草案”。H.264/MPEG-4 AVC作为MPEG-4标准的扩展(MPEG-4 Part 10),充分利用了现有MPEG-4标准中的各个环节。H.264/MPEG-4 AVC就在现有MPEG-4 Advanced Simple Profile的基础之上进行发展的。
H.264/MPEG-4 AVC的编解码方案流程主要包括如下5个部分:精密运动估计与帧内估计(Estimation)、变换(Transform)及逆变换、量化(Quantization)及逆量化、环路滤波器(Loop Filter)、熵编码(Entropy Coding)。
尽管H.264/MPEG-4 AVC这项技术虽然还没有得到正式批准,但是其可以降低50%或更多带宽的能力,能以少于1Mbps的数据率传输基于互联网协议(IP)的广播质量级的视频内容,这是目前正式颁布的ISO MPEG-4及MPEG-2编解码方案根本所不能比拟的。因而,H.264/MPEG-4 AVC将对所有要求高压缩率、高质量的应用领域产生深远的影响。
目前Amphion Semiconductor、Envivio、Equator Technologies、iVAST、德州仪器、UB Video和VideoLocus等芯片制造商以及软件技术供应商都对该项技术进行了相关的研究及产品开发,其中VideoLocus公司推出了VLP4000系统用于H.264/MPEG-4 AVC编解码、流媒体方案及性能的评估。
6. DV标准
数字摄像机记录视频不是以模拟信号,而是以压缩的数字信号的方式。为避免出现不兼容的情况,这种技术的主要产品都符合一个数字压缩标准:DV。很多国际知名的视频厂商都发展和提供DV格式的产品,这其中的传输标准被称为FireWire(IEEE 1394)。DV是一种将DCT压缩的数字视频信号记录到盒式录像带的方法。
(1)DV涉及的指标
1) 取样频率及取样比:DV使用的是4∶2∶0的数字分量记录系统,视频亮度取样频率为13.5MHz,色差信号取样频率是3.375MHz。
2) 量化深度:DV对取样后的亮度及色差信号进行8-bit量化。
3) 视频信号压缩比:DV格式采用的是帧内压缩方法,压缩比为5∶1,压缩后视频码流在进一步处理后记录在磁带上。
(2)DV(IEEE l394)接口
IEEE l394是标准的高速、短距数据传输交换协议。IEEE1394已经被数字VCR联盟确认为标准的数字接口,被数字视频协会确认为数字传输标准。VESA(视频专家标准协会)认同1394用于家庭网络,并且欧洲数字视频广播(DVB)也认同将IEEE1394用于数字电视接口。
(3)DV的特点
1) DV格式具有优异的图像质量,它具有高清晰度,宽色度带宽,能还原色彩绚丽的图像、无抖动的稳定画面等特点。
2) DV格式能对声音进行数字记录,为了与优越的图像相配合,DV格式提供了优质的PCM音频记录。
3) DV格式基于它的应用 特点,不能调整输出码率。
4) 支持DV的MiniDV盒带比VHS盒带小巧许多,使得MiniDV的带仓、磁鼓和带盘机构等也相应变得更加精巧。
7. MXF格式标准
素材交换格式(Media eXchange Format, MXF)是厂商之间和主要组织(如Pro-MPEG、EBU和AAF协会)之间合作的巨大进展。MXF是一种在服务器、数据流磁带机和数字档案之间交换节目素材的文件格式。其内容可能为完整的节目以及整套广播电视节目或片段。MXF可自成体系运用,无需外部素材即可保存完整的内容。目前素材交换格式(MXF)标准化工作已发展到第9版本。
(1)MXF文件格式
MXF把统称为实体的视频、音频和节目数据(如文本)与元数据捆绑在一起,并将它们置于一个包内,其主体基于码流并携带实体和某些元数据。它保存视频帧的一个片段,每个片段辅之于有关的音频和数据实体以及基于帧的元数据。后者一般包含时间码和每个视频帧的文件格式信息。主体可基于若干不同类型的素材(实体),包括MPEG、DV和非压缩视频/音频,它还使用SMPTE KLV数据编码系统,这使之具有成为公认标准的优势。
MXF是音频/视频/元数据的打包结构,由文件头、文件尾、文件体以及可选的索引部分组成。索引部分包括部分元数据和文件参数用于文件访问,文件体部分可以是多种视音频格式,如MPEG,DV和非压缩的AV数据。文件体由若干场景文件构成,每个场景文件都是由图像、声音和元数据组成的。
(2)MXF的元数据(Metadata)
1) 元数据的含义
元数据就是与视音频数据结合在一起的辅助信息,它记录了与节目制作相关的数据,如:拍摄时间、拍摄地点、人物、场景编号及其他相关信息。这些信息在节目制作、传送、复制及播出的各个阶段,始终与视音频信号密切结合。
2) 元数据的作用
元数据(Metadata)在日后的素材管理、资料查找、交互式节目制作与播出等应用中,将大大提高我们的工作效率,并起到举足轻重的作用。利用元数据,我们可以轻松的实现素材查找。除了可以直接观看视频画面之外,还可以通过元数据查看其他相关数据,获得更直观、更丰富、更形象的资讯。
(3)MXF与AAF的关系
AAF是Advanced Authoring Format的缩写,意为“先进制作格式”。AAF是一个协会,它包括了目前世界上主要的电子设备供应商、计算机软硬件厂家和一些广播机构。协会主要负责制定用于增强的编辑和制作的通用AV文件格式标准,即AAF格式。AAF格式是一种用于多媒体创作及后期制作、面向企业界的开放式标准。
AAF是一种带标签和地址的图像/声音/元数据打包方式, MXF与AAF这两种格式具有互补性。AAF可以对现有的各种媒体文件格式进行集成和补充;而MXF对AAF文件和现有的各种流媒体格式都有这样的效能。MXF和AAF都可以单独使用,它们在各自的应用领域各有所长;与此同时,用户对任何一者无须有依赖性。例如,一个单纯的广播系统可以使用MXF格式;一个后期制作室可以只使用AAF格式;而一个带有后期制作设施的广播机构,则可以同时使用这两种格式。
MXF与AAF这两种文件格式在很多方面非常相似,从这两种文件的关系上来看MXF是AAF的子集。
(4)MXF的作用
1) 使用MXF文件,我们可以利用成熟、实用且构造简单、价格并不昂贵的IT网络传送高质量的视音频数据。
2) 应用MXF文件技术,可以在所有支持即将成为国际标准的MXF文件格式的各个厂家设备(录像机、服务器、非线性制作设备)之间传送视频数据。
3) 除了提供更好的互操作性,即在不同的设备和不同的应用之间处理视频和音频。MXF另外的贡献是传送元数据。从一开始就把MXF作为一种新文件格式来开发,因此对元数据应用加以大量的关注。这不仅对MXF文件的恰当运行非常重要,而且还将导致功能强大的新型媒体管理工具的出现。
二 流媒体标准
1. ISMA MPEG-4流媒体标准
ISMA是国际互联网流媒体联盟(Internet Streaming Media Alliance)的简称,它是由苹果、思科、IBM、Sun、Philips、Kasenna等产业界巨人于2000年12月14日发起并宣布成立,目前其正式成员达到30家以上。ISMA联盟的宗旨为推动开发与使用IP端到端媒体流解决方案的国际开放性标准。其官方网站(www.ISM-Alliance.org)作用在于发表各项完成的规范并发布联盟的活动信息。
由于MPEG-4作为MPEG-1及MPEG-2的替代技术标准,可以将较大的流媒体文件在保证视音频质量情况下压缩的非常小,更利于在网络上传播。基于此,ISMA MPEG-4标准正是由ISMA制定并发布的基于ISO MPEG-4的流媒体新标准。
ISMA发布了新标准的第一个规范说明--ISMA 1.0。该规范说明允许用户仅下载一个插件,就可以使用不同公司的播放器欣赏网络音频与视频;而且使用范围不局限于PC机,还包括各种掌上无线设备(如PDA、手机等)。
ISMA 1.0目前有两个版本:Profile 0和Profile 1。前者是为了无线网络及带宽较窄的网络准备的,可以适用于手机、PDA等掌上无线设备;后者是为了宽带设计的,可以应用于机顶盒以及PC机。ISMA希望MPEG-4 能够最终代替MPEG-2标准,但是新标准在视频效果及交互性方面有待改进,目前仍在不断的发展及提高之中。
2. QuickTime
(1)QuickTime MOV格式
Apple公司的QuickTime MOV文件格式是数字媒体领域的工业标准。QuickTime MOV文件格式定义了存储数字媒体内容的标准方法,使用这种文件格式不仅可以存储单个的媒体内容(如视频帧或音频采样),而且能保存对该媒体作品的完整描述。
QuickTime MOV文件格式被设计用来适应为与数字化媒体一同工作需要存储的各种数据。它将媒体描述和媒体数据分开存储,媒体描述包含轨道数目、视频压缩格式和时间信息等,同时包含媒体数据存储区域的索引。媒体数据是指所有的采样数据,如视频帧和音频采样。由于这种文件格式能用来描述几乎所有的媒体结构,是应用程序间(不管运行平台如何)交换数据的理想格式。
(2)QuickTime支持的ISO/ISMA MPEG4流媒体格式
Apple公司的QuickTime从5.0版本开始采用MPEG-4相关的压缩技术,并且在其最新版本QuickTime 6中率先提出支持ISO/ISMA MPEG-4流媒体格式(mp4文件格式),而且是世界上用于创建、流化和观看MPEG-4内容的首款完全媒体解决方案。 QuickTime在ISO/ISMA MPEG-4的流媒体应用方面具有以下明显特征:
1) 采用完全符合ISO MPEG-4标准的视频编解码,用于MPEG-4影像内容的编码和解码。
2) 符合互联网流式媒体联盟(ISMA)的1.0规范,并全面支持ISMA 1.0标准中的两个版本:ISMA Profile 0 和ISMA Profile 1。
3) 采用Instant-On Streaming(即时通媒体流)技术,其特点是可消除缓冲延时,达到即时进退、帧进、帧退、拖动间播放、停止播放后还能进行自由定位浏览等功能,使用户能简捷快速地扫过流式媒体内容而定位到要观看的 特定部分。这是RealVideo和Windows Media目前根本不能达到的功能。
4) 在MPEG-4中采用高级音频编码(AAC)的音频编码技术,能够以小得多的文件提供比MP3好得多的音质,也比Windows Media Audio(WMA)更强。
3. Windows Media Technologies
Microsoft Windows Media 技术是一个能适应多种网络带宽条件的流式多媒体信息的发布平台,提供密切结合的一系列服务和工具用以创造、管理、广播和接收通过 Internet 和企业 Intranet 传送的极其丰富的流式化多媒体演示内容,包括了流式媒体的制作、发布、播放和管理的一整套解决方案。另外,还提供了开发工具包(SDK)供二次开发使用。
(1)Windows Media 9 Series Platform
Microsoft Windows Media 9 Series Platform是一套涉及编解码、服务器、播放器、软件开发包等各个方面的完整多媒体解决平台。它作为多媒体领域的最新核心技术,在编解码质量、稳定性、集成性、流媒体性能、功能等方面都有了较大的提高,同时该平台紧密的和Windows操作系统结合在一起,将在广播、电视、网络、远程教学、远程服务等方面有着广泛应用。
(2)Windows Media Video 9(WMV 9)
Windows Media Video 9(WMV 9)是Microsoft视频媒体技术的首要Codec,它派生于MPEG-4,几个专有扩展功能使其可在给定码率下提供更好的图像质量,在这种意义下,Windows Media Video 9是流式视频中质量最高的Codec之一。
WMV 9的主要优点包括:本地或网络回放、图像质量优秀、可扩充的媒体类型、部件下载、可伸缩的媒体类型、流的优先级化、多码率合成、多语言支持、环境独立性、丰富的流间关系以及扩展性等。但是WMV 9也具有一些缺陷,如系统平台只能采用Windows操作系统,跨平台支持能力差;转码生成WMV 9的效率较低;流式媒体内容的浏览没有采用QuickTime浏览 ISO/ISMA MPEG-4视频内容的方便等。
4. RealNetworks的RealVideo技术
RealNetworks公司所制定的视音频压缩规范称为RealMedia,是目前在Internet上相当流行的跨平台的、客户/服务器结构的多媒体应用标准,它采用音频/视频流和同步回放技术来实现在Internet上全带宽地提供优质的多媒体,同时也能够在Internet上以28.8kbit/s的传输速率提供立体声和连续视频。
RealVideo技术的整套流媒体解决方案主要包括:
1) 客户端播放软件RealPlayer,可以独立运行,也可以作为插件在浏览器中运行,目前最新版本为RealOne Player。 2) 制作端产品是内容制作软件RealProducer,它将其他各种媒体格式的文件压缩转换为Real流媒体格式文件,目前最新版本为Helix Producer Plus 9.0。第三方开发者可以通过RealNetworks公司提供的SDK将它们的媒体格式转换成RealMedia文件格式。
3) 服务器端软件RealServer用于提供流式服务,目前最新版本为Helix Server 9.0
5. DivX MPEG-4
DivX MPEG-4的基础技术来源于微软的MPEG-4 V3版本,由DivXNetworks发起一个开放源码项目ProjectMayo而开发出来的。
DivX MPEG-4具有以下特点:MPEG-4算法采用完全符合ISO MPEG -4标准的OpenDivX Codec;画质优秀、容量小;播放环境简单方便;直接可以采用AVI文件进行流媒体播放等应用。
三 音频编码标准
1. LPCM
LPCM(线性脉冲编码调制)是一种非压缩音频数字化技术,是一种未压缩的原音重现,在普通CD、DVD及其他各种要求最高音频质量的场合中已经得到广泛的应用。
各种应用场合中的LPCM原理是一样的,区别在于采样频率和量化精度不同。普通CD规格为16bit/44.1kHz,DVD的规格则有多种,量化精度可分为16bit、20bit、24bit,采样频率分为48kHz、96kHz。此外,LPCM信号中可录入杜比环绕声信息,供现有的杜比定向逻辑环绕声系统使用。
2. MP3(MPEG Audio Layer-3)
MP3是MPEG Audio Layer-3的简称,是从MPEG-1标准衍生的、开放的编码方案,1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。
MP3音频压缩技术是一种失真压缩,其原理是把声音频率中人耳几乎听不到的音域在音频中去除,采用高效率的变换编码音频压缩算法对声音进行压缩,从而使得文件体积大为缩小,可达到12∶1的压缩比。
MP3的频率范围最高为44kHz,最低为20Hz。在128Kbps的码率下,MP3可以达到接近CD音质的声音质量。但是由于损失了音频中的甚高、甚低音部分(尽管人耳不是非常敏感),使MP3毕竟要比CD稍逊一些。
3. WMA(Windows Media Audio)
WMA为Windows Media Audio的缩写,是微软公司制定的音乐文件格式。WMA Codec 是Microsoft音频技术的首要Codec。据微软自身发表的声明,目前最新的版本WMA 9.0相对于WMA 8,在压缩率上有着20%的提升。
WMA类似于MP3,同样是一种失真压缩,损失了声音中人耳极不敏感的甚高、甚低音部分。但与MP3相比较起来,仍然具有不少优势。
1) 它具有与MP3相当的音质,但容量更小。
2) 更先进的压缩算法在给定速率下可获得更好的质量。
3) 特别适合于低速率传输。
4) 除了损失了的音频成份外,WMA比起MP3在频谱结构上更接近于原始音频,因而相对起来具有更好的声音保真度。
4. AAC(Advanced Audio Coding)
AAC是高级音频编码(Advanced Audio Coding)的缩写。AAC是由动态图像专家组(MPEG)开发的,已经被国际标准化组织(ISO)讨论通过,成为了MPEG-2国际标准的一部分,同时它也是一种开放的音频编码标准。
(1)AAC的编码原理及特点
1) AAC是一种高压缩比的音频压缩算法,但它的压缩比要远超过较老的音频压缩算法,如AC-3、MP3等。并且其质量可以同未压缩的CD音质相媲美。
2) 同其他类似的音频编码算法一样,AAC也是采用了变换编码算法,但AAC使用了分辨率更高的滤波器组,因此它可以达到更高的压缩比。
3) AAC使用了临时噪声重整、后向自适应线性预测、联合立体声技术和量化哈夫曼编码等最新技术,这些新技术的使用都使压缩比得到进一步的提高。
4) AAC支持更多种采样率和比特率、支持1个到48个音轨、支持多达15个低频音轨、具有多种语言的兼容能力、还有多达15个内嵌数据流。
5) AAC支持更宽的声音频率范围,最高可达到96kHz,最低可达8Hz,远宽于MP3 20-44kHz的范围
6) 不同于MP3及WMA,AAC几乎不损失声音频率中的甚高、甚低频率成分,并且比WMA在频谱结构上更接近于原始音频,因而声音的保真度更好。专业评测中表明,AAC比WMA声音更清晰,而且更接近原音。
7) AAC采用优化的算法达到了更高的解码效率,解码时只需较少的处理能力。
(2)专业评价
1) AAC以128Kbps(立体声)的速率对音乐进行压缩,然后经由专家辨认,结论是其结果同原始未压缩时的声音“区别不出来”。
2) AAC以96Kbps的速度压缩音乐,通常其压缩后的质量比MP3在128Kbps压缩后的质量还要高。AAC在128Kbps压缩音乐后的性能比MP3在相同速度压缩音乐后得到的性能高很多。
3) AAC是唯一一个在欧洲广播联盟主办的64Kbps听力测试中被评为“优秀”的因特网音频数字多媒体编解码器。
4) 鉴于其卓越的性能和质量,AAC已成为MPEG-4规范的核心,同时它还是因特网、无线网以及数字广播网领域中的新一代音频数字解码器的选择。
四 静态图像压缩标准
1. JPEG标准
JPEG标准,即国际多灰度静止图像数字压缩编码标准,由JPEG专家组(Joint Photographic Experts Group)于1991年3月提出的ISO CD10918号建议草案而来,其标准号为ISO 10918-1。JPEG是一个适用于彩色和单色多灰度或连续色调静止数字图像的压缩标准。
(1)JPEG标准的组成部分
JPEG标准包括基于DPCM(差分脉冲编码调制)的无损压缩编码,基于DCT(离散余弦变换)和Fuffman编码的有损压缩算法两个部分。前者不会产生失真,但压缩比很小;后一种算法进行图像压缩信息虽有损失,但压缩比可以很大,例如压缩20倍左右时,人眼基本上看不出失真。目前我们对JPEG标准的应用主要是其高压缩比的有损压缩算法。
(2)JPEG算法的三个基本步骤
JPEG算法操作可分成以下三个基本步骤:
1) 通过离散余弦变换(DCT)去除数据冗余。
2) 使用量化表对DCT系数进行量化,量化表是根据人类视觉系统和压缩图像类型的特点进行优化的量化系数矩阵。
3) 对量化后的DCT系数进行编码使其熵达到最小,熵编码采用Fuffman可变字长编码。
(3)JPEG的应用
鉴于JPEG优良的品质,使得它在短短的几年内就获得极大的成功,目前绝大多数的图像都是采用JPEG的压缩标准,各类浏览器、图片浏览处理工具均支持JPEG图像格式。同时由于JPEG格式的文件尺寸较小,Web页有可能以较短的下载时间提供大量精美的图像,使得JPEG成为网络上最受欢迎的图像格式。
2. JPEG2000标准
随着多媒体应用领域的激增,传统JPEG压缩技术已无法满足人们对多媒体图像资料的要求。因此,更高压缩率以及更多新功能的新一代静态图像压缩技术 JPEG 2000 随之诞生。
JPEG2000标准同样由JPEG 组织负责制定。自1997年3月开始筹划,于2000年3月出台。其标准号为ISO 15444。
(1)JPEG2000编码原理
JPEG 2 000与传统 JPEG 最大的不同,在于它放弃了 JPEG 所采用的以离散馀弦转换(DCT)为主的区块编码方式,而改采用以小波转换(Wavelet transform)为主的多解析编码方式。小波转换的主要目的是要将图像的频率成分抽取出来,分别加以控制及编码。
(2)JPEG2000的优点:
1) JPEG2000作为JPEG升级标准,高压缩比(低码率)是其目标,其压缩率比JPEG高约 30%左右。
2) JPEG2000同时支持有损和无损压缩,其无损压缩具有很好的实用价值,因此它适合保存重要图片。
3) JPEG2000的一个极其重要的特征就是采用小波变换后,JPEG2000 能实现渐进传输,这也就是我们常说的“渐现”特性。它先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示,而不必是像现在的 JPEG 一样,由上到下慢慢显示。
4) JPEG2000能方便的实现对码流的随机存取与处理,保证位错误的鲁棒性。
5) JPEG2000支持所谓的“感兴趣区域”特性,你可以任意指定图像上你感兴趣区域的压缩质量,还可以选择指定的部份先解压缩,这样我们就可以很方便的突出图片中的重点进行浏览。
(3)JPEG2000图片的压缩
目前有很多公司、机构提供了JPEG2000的压缩工具及编解码器。主要有LuraWave SmartCompress Freeware for Windows、Elecard Wavelet Image Compressor等。其中以LuraTech的LuraWave SmartCompress 及相应编码器生成的LuraWave(lwf)格式最有名。
举报