|
MPEG o MPEG-1
- Motion Picture Experts Group (Unión de Expertos en
Imágenes en Movimiento). MPEG es un grupo de estándares de
codificación de audio y vídeo.
El estándar MPEG-1 nació en 1992 para
permitir el almacenamiento de vídeo y sonido estéreo en CD-ROM a
velocidad máxima de 1'5 Mb/s (1,14 Mb/s para el vídeo y 350 kB/s
para el audio asociado). Está basado en el algoritmo de
compresión de imagen fija JPEG pero se aprovecha de la alta
redundancia temporal entre cuadros consecutivos para mejorar la
tasa de compresión.
MPEG-1 consiste en diferentes
partes que definen la codificación de vídeo, de audio y la
denominada parte de sistema que define cómo multiplexar en el
tiempo los distintos tipos de información..
MPEG-1 no es adecuado para
aplicaciones de radiodifusión ya que no tiene en cuenta el
entrelazados de imágenes o la evolución prevista a TV de alta
definición (HDTV), que acabaría siendo el estándar MPEG-2
publicado en 1994. El MPEG-2 es el método de compresión empleado
en los DVD y en todas las variantes de DVB(Digital Video
Broadcasting).
Actualmente se emplea, por
ejemplo, para comprimir la información de vídeo en los
VCD con resolución SIF (360x288 @ 25 fps
en PAL y 360x240 @ 30 fps en NTSC), consiguiendo de ese modo una
calidad de imagen similar a la del VHS doméstico. Para el audio,
están definidas tres capas, que definen tres niveles de
compresión y complejidad:
- MP1 o MPEG Layer I
- MP2 o MPEG Layer I
- MP3 o MPEG Layer I
Si bien el tercero sólo se emplea
en Internet y dispositivos portátiles, el audio de algunos DVD
está comprimido usando una de las dos primeras capas.
Las capas de audio en MPEG
En 1988, la ISO (International
Standardization Organization) y la IEC (International
Electrotechnical Commision) crearon el ISO/IEC/MPEG (Moving
Picture Experts Group), un grupo destinado a comparar y
valorar distintos esquemas de reducci6n de datos para video
digital. Pronto el campo se amplió para incluir compresi6n de
audio dando lugar al grupo MPEG/Audio.
Este estándar tiene tres
diferentes capas para la compresión. La capa o layer I conforma
el algoritmo más básico, mientras que las capas II y III son
mejores que usan algunos de los elementos de la capa 1. Cada
capa, sucesivamente, va mejorando la compresión, a costa de una
mayor complejidad en la codificación.
El MPEG/Audio permite usar las
capas en cuatro modos:
- Estéreo. Codificación
independiente de cada canal.
- Estéreo Conjunto. Hace uso de
la redundancia o información correlada entre los canales
izquierdo y derecho buscando reducir el flujo binario.
- Dual. Dos canales
independientes tanto en codificación como en la propia
información.
- Mono. Un único canal de
audio.
Layer I. En un primer paso
la señal de audio es dividida en 32 sub-bandas para las cuales
se definen distintos parámetros de cuantificación y curvas de
enmascaramiento en función de la sensibilidad relativa del oído
humano al sonido procesado. Las contribuciones frecuenciales
donde el oído es más sensible son cuantificadas con mayor
precisión que aquellas donde el oído es menos sensible, pudiendo
incluso llegarse a descartar bandas completas ya que
directamente no serían percibidas por el oído humano.
La capa I emplea máscaras de
cuantificación a marcos o frames de audio, que consisten en un
número de 12 grupos consecutivos de 384 muestras de audio. En la
capa más básica se usan 6 bits para codificar el factor de
escala (un multiplicador que indica el tamaño de las muestras
para rellenar toda la
profundidad de bits del cuantificador) y de 0 a 15 bits para
cada subbanda. Está basado en el algoritmo PASC (Precision
adaptative sub-band coding) de Philips, y su gran ventaja es
la sencillez de implementación.
Layer II. Basado en el
algoritmo MUSICAM requiere flujos binarios un 30-50% menores que
el layer I para la misma calidad, empleando para ello dos
principales mejoras para disminuir el flujo de bits.
- Usa el mismo modelo psico-acústico
que el anterior pero aplicado a frames de mayor duración, de
tres conjuntos de 1152 muestras de audio por cada 12 grupos
en cada marco.
- En lugar de usar 6 bits para
la cuantificación de cada banda (factor de escala) usa un modelo variable en
función de la banda de frecuencia, con el fin de disminuir
la distorsión audible.
- Cuando codifica tres, cinco o
niveles en cada subbanda de cuantización, la capa II
representa tres valores consecutivos cuantizados en una
única y más compacta palabra de código.
Layer III. Deriva del ASPEC (Adaptive
Spectral Perceptual Entropy Coding) y el OCF (Optimal
Coding in the Frecuency domain). Aunque está basado en los
mismos bancos de filtros de MPEG Layer I y Layer II, compensa
las principales deficiencias procesando las salidas de los
filtros en una DCT (Transformada discreta del coseno)
modificada, denominada MDCT.
Fundamentalmente, subdivide las
salidas de cada subbanda en frecuencia para ofrecer una mejor
resolución espectral. Una vez hecho este proceso, el layer III
puede cancelar los solapamientos causados por el banco de
filtros. Esta operación tiene que ser invertible de tal modo que
la MDCT inversa pueda reconstruir cada subbanda en su
solapamiento original, a través del banco de filtros de
reconstrucción. En resumen, el MPEG Layer III mejora a los
anteriores:
- Reducción del solapamiento,
especificando un método de procesar los valores de la MDCT
para eliminar artefactos causados por las bandas
superpuestas procedentes del banco de filtros.
- Cuantificación no uniforme,
disminuyendo a 3/4 la potencia antes del proceso de
cuantificación para ofrecer una relación señal/ruido más
consistente sobre el rango de valores cuantificados. El
reecualizador del decodificador de MPEG/audio incrementará
los valores a la salida aumentando 4/3 la potencia.
- Bandas de factores de escala.
A diferencia de las capas I y II donde cada banda puede
tener un diferente factor de escala, la capa II usa bandas
de factores de escala. Estas bandas cubren varios
coeficientes de la MDCT. De este modo, se colorea el ruido
de cuantificación para corregir las variaciones en el umbral
de enmascaramiento.
- Codificación de entropía en
los valores de los datos. Para conseguir una mejor
compresión de datos, la capa III usa códigos variables
Huffman para codificar las muestras cuantificadas.
- Uso de un bit de reserva. El
diseño de la capa III mejora la variación en el tiempo en el
codificador ofrecida por los bits de código. Como en la capa
II, la capa III procesa los datos de audio en marcos de 1152
muestras. Pero a diferencia de ella, no necesariamente son
marcos de longitud fija. Existe una especie de depósito
donde se almacenan bits al necesitarse un número menor para
codificar un marco. Después, si el codificador necesita un
número mayor que la media de bits, puede extraerlos de ese
depósito. Sólo se puede hacer este proceso a partir de
marcos pasados, no futuros.
|