|
一. 概述 关于图象视频压缩已有n×384kbps电视会议H.120建议、p×64kbps视频编码标准H.261、 连续色调静止图 象压缩标准JPEG、PSTN等低比特率活动图象压缩标准H.263。1988年ISO与CCITT成立活动图象专家组MPEG(MovingPictureExpertsGroup),研究数字存储媒体上的活动图象及其伴音的编码表示,1992年通过1.5Mbps编码标准MPEG-1,1994年通过2Mbps、30Mbps高质量视频音频编码标准MPEG-2。以上标准均偏重于某(几)个应用领域,交互性较差,至多允许视频序列可变速度的双向播放,可重用性只限于矩形视频区域及其相关音频的线性片段,无法在同一场景集成自然信息与合成信息,不能提供对各种网络的一致性访问,容错性、灵活性和可扩展性比较差。 MPEG于1991年5月提出关于视频音频编码的MPEG-4项目,设系统、音频、视频、需求、实现研究、测试及自然合成混合编码(SNHC)子组,1998年11月成为国际标准。MPEG-4提供更强的交互能力。场景中的每个对象独立编码,用户可以选择性地与其中某(几)个对象交互,具有良好的重用性。重新组合音视对象AVO(AudioVisualObject)构造新场景,可以集成各种对象,无缝地集成自然信息与合成信息,实时信息与存储信息,AVO可以是单/双/多声道音频信息、单/双/多镜头2D/3D视频信息。可以透明地访问信息,通过各种网络传输的信息最终映射为本地信息,整个过程给用户的感觉就如同访问本地信息。而且允许基于内容(比特率、分辨率、帧率、防错保护和解码优先级)的可伸缩性和服务质量(QoS)参数,更加灵活,可扩展,充分考虑未来技术的发展及应用需求,将解码器可编程能力分为:不可编程的标准工具集合(Flex-0);由标准化工具及其接口灵活配置的算法(Flex-1);多种工具构成可能算法的标准化可扩展机制(Flex-2)。 二. 技术部分 2.1 MPEG-4标准概要 MPEG-4引入了对象基表达(object-based representation)的概念,用来表达视听对象A VO(audio/visual objects);MPEG-4扩充了编码的数据类型,由自然数据对象扩展到计算机生成的合成数据对象,采用合成对象/自然对象混合编码SNHC(Synthetic/Natural Hybrid Coding)算法;在实现交互功能和重用对象中引入了组合、合成和编排等重要概念。MPEG-4中制定了一个称为传输多媒体集成框架DMIF(Delivery Multimedia Integration Framework)的会话协议,它用来管理多媒体数据流。该协议在原则上与文件传输协议FTP(File Transfer Protocol)类似,其差别是:FTP返回的是数据,而DMIF返回的是指向到何处获取数据流的指针。DMIF覆盖了三种主要技术:广播技术,交互网络技术和光盘技术。 MPEG-4将应用在移动通信和公用电话交换网PSTN(public switched telephone network )上,并支持可视电话(videophone)、电视邮件(video mail)、电子报纸(electronic newspapers)和其他低数据传输速率场合下的应用。 MPEG-4的标准名是Very-low bitrate audio-visual coding (甚低速率视听编码)。截止到1998年9月,已作为国际标准草案DIS (Draft International Standard)的MPEG-4文件有5个部分,它们是: ① MPEG-4系统标准,标准名是ISO/IEC DIS 14496-1 Very-low bitrate audio-visual coding - Part1: Systems。 ② MPEG-4电视图象标准,标准名是ISO/IEC DIS 14496-2 Very low bitrate audio-visual coding -Part 2: Video。 ③ MPEG-4声音标准,标准名是ISO/IEC DIS 14496-3 Very low bitrate audio-visual coding - Part3: Audio。 ④ MPEG-4一致性测试标准,标准名是ISO/IEC DIS 14496-4 Very-low bitrate audio-visual coding -Part 4: Conformance Testing。 ⑤ MPEG-4参考软件,标准名是ISO/IEC DIS 14496-5 Very-low bitrate audio-visual coding - Part5: Reference software ⑥ MPEG-4传输多媒体集成框架,标准名是ISO/IEC DIS 14496-6 Very-low bitrate audio-visual coding - Part 6: Delivery Multimedia Integration Framework (DMIF)。 2.2 MPEG-4 标准的范围和特点 MPEG-4标准提供了一整套技术来满足作者的需要、服务提供商和最终用户的偏好。 *对于作者来讲,MPEG-4使得基于内容的产品成为现实,这种产品具有大得多的可用性,具有比现在的独立技术例如数字电视、动态图象、WWW网页及其扩展技术所能提供的更大的灵活性。而且,现在有可能进行更好的管理和著作权的保护。 *对于网络服务提供商来说,MPEG-4提供了透明的信息,它能够在相对标准的实体的帮助下解释并翻译成每个网络相应的本地信号讯息。不仅预先考虑到服务质量(QoS),MPEG-4还为不同的媒介提供一个通用的QoS描述符。为每种媒质从QoS的参数设置到网络服务质量的精确翻译超出了MPEG-4的范围,留给了网络提供商。端到端的发送MPEG-4媒质 QoS描述符就能够在异种网络间进行传输优化。 * 对于最终用户来说,MPEG-4在作者所置的限制内提供更高水平的内容交互。它也为新兴网络,包括那些应用相对低速率的网络以及移动网络提供多媒体服务。MPEG主页上的一份MPEG-4应用文档描述了很多最终用户应用,包括交互式多媒体广播和移动通信。 对所有相关方面,MPEG力求避免大量的所有权、非交错格式和播放器的使用。为实现以上目标,MPEG-4提供标准化方式来: 1. 代表语音、视觉或语音视觉内容的单元,称为"媒体对象"。这些媒体对象可能来自自然或合成源;这就是说他们能够被相机或话筒所记录,或者由计算机产生; 2. 描述这些对象的组合以创建构成语音视频屏幕的组合媒体对象; 3. 复用和同步与媒体对象相关的数据,这样他们能在提供了适于特殊媒体对象特性的QoS的网络通道上传输;而且 4. 与接收端产生的语音视频景象交互。 2.2.1 媒体对象的编码表示 MPEG-4 语音视频场景由一些媒体对象组成,以分层方式组织起来。在这层次结构中,我们找到了基本的媒体对象,例如: * 静态图象(例如固定背景) * 视频对象(例如正在说话的人-没有背景) * 语音对象(例如和这个人相关的声音) MPEG-4把这样大量的能够表现2-D或3-D自然和合成内容类型的基本媒体对象标准化。附加在上面提到的、除媒体对象之外,MPEG-4定义了如下对象的编码表示法, * 文本和图形; * 文本和图形; * 用来合成语言和运动头部的正在讲话的合成的头部和相关的文本; * 合成的声音 编码形式的媒体对象是由在语音视频景象中处理该对象的描述元素和相关流数据组成。重要的是在编码形式下每个媒体对象都能独立与它的环境或背景独立表现。考虑到要求的功能,这种媒体对象的编码表示法是尽可能的高效的。这些功能包括差错鲁棒性、易释性和可编辑性。 2.2.2 媒体对象的组合 基本媒体对象相应于描述树中的叶子,而组合媒体对象包含了整个子树。例如:相应于正在说话的人的视频对象和相应的声音捆绑在一起形成一个新的组合媒体对象,包含了那个人的语音和视频部分。 * 这样的组成允许作者构建复杂的景象,使客户能处理有意义的对象。 * 更普遍地,MPEG-4提供了一种描述景象的标准化方式,例如允许: * 在给定坐标系内随处放置媒体对象; * 应用变换来改变媒体对象的几何和声学表现; * 整合基本媒体对象以形成组合媒体对象; * 应用流数据于媒体对象以更改属性(例如声音,属于某对象的移动中的文本,驱动合成面孔的动态参数成面孔的动态参数; * 交互式地改变用户在景象中的任何视听点。 景象描述是建立在来自于对象合成结点的结构和功能意义上的虚拟现实(VRML)的一些基本概念而且扩展为完全实现上述特点。 2.2.3 媒体对象流数据的描述和同步 一个MPEG-4影音场景的例子媒体对象可能需要在一个或多个基本流中传输的流数据。对象描述符把与媒体对象相关的所有流中区分开来。这就允许处理分层编码数据、内容变化信息的联系(称?quot;对象内容信息")和相关的知识产权。每个流自身由一套配置信息的描述符所区别,例如用来决定需要编码源和编码的时 间信息精度。而且描述符可以携带传输需要的QoS的线索(例如最大位速率、位差错速率、优先级等)。基本流的同步是通过基本流内单个访问单元的时标实现的。同步层管碚庋姆梦实ピ褪北甑氖侗稹6懒⒂诿教謇嘈椭猓貌阍市硎侗鸪龇梦实ピ睦嘈突指疵教宥韵蠡蚓跋竺枋龅氖被夷茉谄浼涫迪滞健8貌愕挠锓ǹ梢远嘀址绞脚渲茫市碓谛矶嘞低持惺褂谩? 2.2.4 流数据的传输 在不同QoS的网络中从源到目的的流信息的同步传输,是由上述的同步层和包含两子层的复合传输层确定的。第一个复用层根据MPEG-4标准的Part6中的DMIF规范进行管理。这种复用可在MPEG定义的FlexMux工具中体现,该工具允许以低复用费用组合基本流(ESS)。例如该层的复用可用来组合相似QoS需求的基本流,减少网络连接数或者端-端延迟,TransMux(传输复用)层搭建了提供匹配需求QoS的传输服务的层。MPEG-4仅确定了该层的接口而具体的数据包和控制信号的规划必须与各传输协议上有权的实体进行协商。任何现存的合适的传输协议栈,例如(RTP)/UDP/IP、(AAL5)/ATM或者MPEG-2在适合链路层上的传输流都可能成为TransMux的实例。选择权留给了最终用户和服务提供商,而允许MPEG-4用于广泛的运行环境中。 FlexMux复用工具的使用是可选的,如果下层的TransMux实例提供了所有要求的功能,该层必须为空。而同步层总是存在的。以下是可行的: 1. 识别访问单元,传输时标和时钟参考信息以及检测数据丢失; 2. 传输控制信息以实现: * 为每个基本流和FlexMux流指示需要的QoS; * 翻译这样的QoS需求为实际网络资源; * 连接基本流到媒体对象; * 转换基本流的映射为FlexMux和TransMux通道。 部分控制功能在和DMIF框架这样的传输控制实体联结后才可实现。 2.2.5 与媒体对象交互 总体来说用户看到的是依据作者设计组合而成的影象。然而,用户和影象交互的可能性依赖于作者所允许的自由度。用户可能被允许进行的操作包括: * 改变景象的视/听点,例如在景象中漫游; * 把景象中的对象拖到不同的位置上; * 点击特定对象以触发一系列事件,例如开始或终止视频流; * 多语言音轨时选择想要的语言。 更复杂的动作也能被触发,例如一个虚拟的电话铃响,用户接听并建立通信链路。 2.2.6 知识产权的管理和识别 能够在MPEG-4媒体对象中识别出知识产权是重要的。为支持这一点,MPEG与不同制造商的代表就语法定义和工具进行合作。MPEG-4通过存储唯一标识来实现识别,该标识由国际编号系统公布。该数字可用于识别媒体对象的当前所有者。因为并非所有的内容都由此数字识别,MPEG-4 Version1提供用关键值对来识别知识产权的可能。而且MPEG-4为想使用控制访问知识产权的系统的人提供一个紧密结合进系统层的标准化系统的人提供一个紧密结合进系统层的标准化接口。通过该接口,所有权控制系统可轻易地与解码器的标准化部分组合。 2.3 MPEG-4 标准的技术细节 显示了从网络(或存储设备)来的流作为TransMux流,复用为FlexMux流并传给适当的获取基本流的FlexMux解复器的。基本流(ES)被解析并传递给适当的解码器。解码是从编码形式中恢复出AV对象中的数据并进行必要的操作以重建初始的AV对象以备在适当设备上演示。重建的AV对象可为影象演示中的潜在需要组合成层。解码的AV对象和影象描述信息都被用来组合作者所描述的影象。用户可在作者允许的程度上与最终演示展现的影象交互。 2.3.1 传输多媒体集成框架DMIF 传输多媒体集成框架DMIF(Delivery Multimedia Integration Framework)是在通用传输技术上的管理多媒体流的会话协议。原理上与FTP相似,唯一也是基本的差别是FTP返回数据,DMIF返回获取(流)数据的指针。类似地,当DMIF运行时,第一个动作是和远端建立会话。然后,选择流并发要求(request)流注,DMIF对端将返回连接流注点的指针,并建立连接。 MPEG-4终端(接收侧)的主要部分与FTP相比,DMIF既是框架又是协议。DMIF提供的功能是由称为DMIF应用接口(DAI)的接口来表达,并翻译为协议消息。这些协议消息可能基于运行的网络而不同。服务质量同样为DMIF设计所考虑,DAI允许DMIF用户为所需的流指定要求。这样就要求DMIF执行时保证要求得以实现。DMIF规格提供了在几个新网络类型,例如Internet上实现该任务的线索。 DAI也用来访问广播介质和本地文件,这意味着在多传输技术上定义访问多媒体内容的单一、统一的接口 。 因此,我们适合这样说,DMIF的集成框架涵盖了三种主要技术,交互网络技术、广播技术和磁盘技术。DMIF如此以至依赖于DMIF通信的应用不必关心底层的通信方法。DMIF执行以处理关于简单应用接口的传输技术细节。应用通过DMIF应用接口访问数据,无论该数据来自广播源、本地存储器或远端服务器。在所有的情况下本地应用只通过统一接口(DAI)交互。不同的DMIF实例考虑到采用传输技术的特性把本地应用翻译为送至远端应用的特定消息。类似地,(从远端服务器、广播网络或消息。类似地,(从远端服务器、广播网络或本地文件)进入终端的数据通过DAI统一地传给本地应用。不同的、特定的DMIF实例被管理各种特定传输技术的应用唤醒,虽然这对于应用是通明的,它只是和单一的"DMIF过滤器"交互。该过滤器负责为特定DAI向正确的实例粗定向。DMIF不规定该机制,只假设它是运行的。这在该图的阴影框内有所强调,目的是澄清DMIF应用的边界,此时DMIF通信构架定义了若干模块,实际的DMIF应用只需要在边界上保持他们的表现。这样,通过例如基于IP的或ATM的网络访问的"真实的"远程应用,和从广播源或磁盘获取内容的模拟远端制造者应用。然而在前一种情况中,两实体间交换的信息必须规范定义以确保互操作性。在后一种情况中,两个DMIF实体间的接口和模拟远端应用在单一实现中不需考虑该规范。对于广播和本地存储,该图展示了一条"本地DMIF、远端DMIF(模拟)、远端应用(模拟)"的链条。该链条只表达概念化模型而不需对应为实际实现(全部在阴影区内)。 DMIF构架考虑广播和本地存储时,假设模拟远端应用了解数据如何发送和存储。如何可以得到处理中的应用种类的信息。对于MPEG-4,这实际就是如基本流ID、首对象描述符、服务名之类的概念。虽然DMIF层理论上不了解正提供支持的应用,由于(模拟)远端应用的存在,对广播和本地存储等特殊情况该概念并不完全正确 。因为(模拟)远端应用不了解数据是如何传送/存储的,对于这样的DMIF应用数据传送/存储的细致描述是无意义的。 而当考虑远端交互时,DMIF层是完全不了解应用的。引入附加接口-DMIF网络接口(DNI )以确定DMIF对需要交换何种信息。该附加模块负责把DNI原语映射为特定网络使用的消息。应当注意DNI原语只是为信息目的所指定,并不需要在实际应用中表现DNI接口。为了支持相同的终端多传输技术甚至多场景(广播、本地存储器、远端交互),DMIF支持允许一个或多个DMIF实例同时出现,每个面对特定的传输技术。多传输技术可被相同应用激活,这样就能够管理被广播网络、本地文件系统和远端交互点传送的数据。
|