5.MPEG

2024-07-14 14:25| 来源: 网络整理| 查看: 265

3.MPEG-4标准构成

MPEG-4 提供自然和合成的音频、视频以及图形的基于对象的编码工具。类似于以前标准，MPEG-4 由若干部分组成，主要部分为系统、视频和音频。 MPEG-4 码流主要包括基本码流和系统流，基本码流包括音视频和场景描述的编码流表示，每个基本码流只包含一种数据类型，并通过各自的解码器解码；系统流则指定根据编码视听信息和相关场景描述信息产生交互方式的方法，并描述其交互通信系统。

3.1.系统

MPEG-4 系统把音视频对象及其组合复用成一个场景，提供与场景互相作用的工具，使用户具有交互能力。 MPEG-4 的系统终端模型如下图所示

（1）压缩层，执行媒体解码的系统组件。媒体是通过基本码流接口从同步层提取的。（2）同步层，负责各个压缩媒体的同步和缓冲。它接收来自传输层的同步层包（SL），根据基本码流的时间标志进行拆包，并转发到压缩层。（3）传输层，对已经存在的各种传输协议描述。这些协议能够用来传输和存储符合 MPEG-4标准的视听内容。系统解码器模型包括定时模型和缓冲模型两种。如下图所示，每个基本码流都有一个单独的解码缓冲区，单个解码器可以解码多个基本码流（如扩展的视听对象解码）。

3.2.音频与 MPEG-1、 MPEG-2 相比， MPEG-4 不仅支持自然声音（如语音和音乐），还支持合成声音（如MIDI）。 MPEG-4 音频部分将音频的合成编码和自然声音的编码相结合，并支持音频的对象特征。 1.自然声音编码 MPEG-4 支持 2Kbps～64 Kbps 的自然声音编码。如 8KHz采样频率的 2Kbps～4 Kbps 的语音编码，以及 8KHz 或 16KHz 采样频率 4Kbps～16 Kbps 的语音编码，一般采用参数编码；而 6Kbps～24 Kbps 的语音编码，一般采用码激励线性预测 CELP（CodeExcited Linear Predictive）编码技术；而从 16Kbps 以上码率的编码，则采用视频变换编码技术。 2.合成语音编码 MPEG-4 引入两个有力的编码技术：文本到语音编码（TTS， Text-to-Speech）和乐谱驱动合成编码。事实上，合成语音编码技术是一种基于知识库的参数编码。 3.3.视频

MPEG-4 支持对自然和合成视觉对象的编码。合成的视觉对象包括 2D、 3D 动画和人面部表情动画等。对于静止图像， MPEG-4 采用零树小波算法（Zerotree Wavelet Algorithm），以提高压缩比，同时还提供多达 11 级的空间分辨率和质量的可伸缩性。对于运动视频对象的编码， MPEG-4 采用了如下图所示编码框图，以支持对象的编码。

MPEG-4 相对 MPEG-1、 MPEG-2 而言，编码效率显著提高除了因为基于内容的性质外，还因为引入了以下的编码工具。 DC 预测，可选择当前块的前一块或者后一块作为当前 DC 值AC 预测， DCT 系数的 AC 预测在 MPEG-4 中是新的。选择用来预测 DC 系数的块也用于预测一行 AC 系数。AC 预测对于具有粗糙纹理、对角边缘或水平以及垂直边缘的块效果不佳。在块级切换 AC 预测的通断是所希望的，但这代价太大，一般在宏块级作出交替水平扫描，这种扫描被添加到 MPEG-2 的两种扫描中。 MPEG-2 的交替扫描在 MPEG-4中被称为交替垂直扫描三维 VLC， DCT 系数编码与 H.263 类似四个运动矢量，允许宏块的四个运动矢量，与 H.263 类似无约束运动矢量，与 H.263 相比，可以使用宽得多的±048 像素的运动矢量范围子图形，子图形基本上是一个传输到解码器的大背景图像，为了显示，编码器传送该图像的一部分并映射到屏幕上仿射映射参数。通过改变映射，解码器可以放大和缩小子图形，以及向左或向右。全局运动补偿，为了补偿由于摄像机运动、摄像机变焦或者大运动物体引起的全局运动，按照下列公式的八参数运动模型进行补偿：

全局运动补偿有助于改善最挑剔的场景中的图像质量四分之一像素运动补偿，主要目的是以小的语法和计算上代价来提高运动补偿的分辨率，得到更精确的运动描述和较小的预测误差。四分之一像素运动补偿只用于亮度像素，色度像素则是用半像素精度运动补偿。 1.基于VOP的编码某一时刻 VO 以 VOP 的形式出现，编码也主要针对这个时刻 VO 的形状、运动、纹理这三类信息进行。形状编码：相对以前标准而言， MPEG-4 第一次引入形状编码的压缩算法。编码的形状信息有两种：二值形状信息（Binary Shape Information）和灰度级形状信息（Grey Scale Shape Information）。二值形状信息为用 0、 1 的方式表示编码 VOP 形状， 0 表示非 VOP 区域， 1 表示 VOP 区域；灰度级形状信息可取值 0～255， 0 表示非 VOP 区域（即透明区域）， 1～255 表示透明度不同的区域， 255 表示完全不透明。灰度级形状信息的引入主要为了使前景物体叠加到背景上时，边界不至于太明显、生硬，进行“模糊”处理。MPEG-4 采用位图法表示这两种形状信息。 VOP 被一个“边框”框住，如下图所示

位图表示法实际就是一个边框矩阵，取值为 0～255（或 0、1），编码变为对该矩阵的编码。矩阵倍分为 16×16 的形状块，允许进行有损编码，这要通过对边界信息子采样实现，同时允许使用宏块运动矢量作形状块的运动补偿。为了得到语义上更方便的描述，以支持基于内容的操作， MPEG-4 还引入基于上下文的算术编码。运动估计和运动补偿：类似于以前的压缩标准（MPEG-1、 H.263 等）的三种帧格式： I、 P、 B， MPEG-4 的 VOP 也有三种相应的帧格式： I-VOP、 P-VOP、 B-VOP，表示运动补偿类型的不同。运动估计和补偿可以基于宏块，也可基于块。

纹理编码：纹理信息可能有两种：内部编码的 I-VOP 像素值和帧间编码的 P-VOP、 B-VOP 的运动估计残差值。 MPEG-4 采用基于分块的纹理编码， VOP 边框仍分为 16×16 的宏块。 2.VOP编解码结构框图 VOP 编解码器主要由两部分组成：形状编解码和传统运动纹理编解码。重构的 VOP 由形状、纹理和运动信息正确组合而成

【本文地址】

公司简介

联系我们