Formatos Video Digital

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 39

1

FORMATOS DE VIDEO
DIGITAL

Antonio Salavert Casamor


http://www.tonet.jazztel.es

Pgina en blanco

ndice
1.Introduccin.......................................................................................................................................4
2.Formatos de vdeo digital..................................................................................................................5
2.1.Codificadores.............................................................................................................................6
2.2.Descodificadores........................................................................................................................6
2.3.Formato MOV............................................................................................................................6
2.4.Formato AVI............................................................................................................................10
2.5.Formato MPEG........................................................................................................................12
2.6.Formato MPEG-2....................................................................................................................20
2.7.Formato MPEG-4....................................................................................................................22
2.8.Formato WMV.........................................................................................................................24
2.9.Formato H.261.........................................................................................................................25
2.10.Formato H.262.......................................................................................................................26
2.11.Formato H.263.......................................................................................................................27
2.12.Formato H.264.......................................................................................................................27
2.13.DivX.......................................................................................................................................33
2.14.Formato VOB........................................................................................................................34
2.15.Formato MOD........................................................................................................................34
2.16.Formato ASF..........................................................................................................................36
2.17.Formato 3G2/3GP..................................................................................................................36

1. Introduccin
Este captulo corresponde al libro ALMACENAMIENTO DE LA INFORMACIN
EN LOS ORDENADORES editado en www.bubok.com

2. Formatos de vdeo digital


El vdeo es la tecnologa de la captacin, grabacin, procesamiento, almacenamiento, transmisin y
reconstruccin por medios electrnicos digitales o analgicos de una secuencia de imgenes que
representan escenas en movimiento.
La tecnologa de vdeo fue desarrollada por primera vez para los sistemas de televisin, pero ha
derivado en muchos formatos para permitir la grabacin de vdeo de los consumidores y que
adems pueda ser visto a travs de Internet.
Inicialmente la seal de vdeo est formada por un nmero de lneas agrupadas en varios cuadros y
estos a la vez divididos en dos campos portan la informacin de luz y color de la imagen. El nmero
de lneas, de cuadros y la forma de portar la informacin del color depende del estndar de
televisin concreto. La imagen esta formada por luz y color; la luz define la imagen en blanco y
negro (es la informacin que se utiliza en sistemas de blanco y negro) y a esta parte de la seal de
vdeo se la llama luminancia.
En formato analgico, se trata de visualizar ms de 24 imgenes por segundo, para darnos una
agradable sensacin de movimiento. Cuando trasladamos esto al formato digital, se tratara de
visualizar ms de 24 imgenes digitales por segundo. Esto implica que si usamos imgenes con
formato tipo BMP, el tamao del fichero de vdeo digital sea enorme e inmanejable. As nos vamos
a las dos soluciones ms utilizadas en la actualidad:

Una es la de comprimir las imgenes, pero no solo como una compresin de bits, sino como
algo ms como por ejemplo, reduciendo el espectro y solo transmitiendo las diferencias de
imagen entre una y la siguiente.

Otra es reducir el tamao de visualizacin, es decir, si lo queremos ver en una gran pantalla,
se necesitar ms resolucin y por lo tanto transmitir ms datos. En el caso de Internet, con
velocidades de transmisin reducidas, el tamao de la visualizacin acostumbra a ser una
porcin de la pantalla.

Por otro lado, como el vdeo est formado por imgenes y sonido, cada uno tiene su formato, pero
cuando se ha de reproducir, tiene que haber una sincronizacin en el tiempo de las imgenes y el
sonido.
El formato de ficheros de vdeo digital es en que forma se guardan los datos de un fichero de vdeo
con el fin de que puedan ser interpretados por un ordenador o dispositivo anlogo. Para transformar
la informacin analgica de las imgenes en digital se usan los cdec, acrnimo de
codificador/descodificador. En muchos casos estos codecs analizan los fotogramas y emplean
algoritmos para comprimir sus datos. La compresin puede ser

temporal, en la que se analiza un fotograma y se guarda la diferencia entre un fotograma y el


fotograma anterior, o

espacial, en la que se eliminan los datos de los pixels que no cambian en cada fotograma.

Existen tres formatos de vdeo de gran implantacin: el MOV de QuickTime, el AVI (Audio Video
Interleaved) y el estndar MPEG (Moving Pictures Experts Group). El formato MOV de
QuickTime, creado por Apple, es multiplataforma y en sus versiones ms recientes permite
interactuar con pelculas en 3D y de realidad virtual. El formato AVI es un formato propio de
Windows, y por lo tanto est diseado para ejecutarse principalmente en sus sistemas operativos. El
formato correspondiente al estndar MPEG produce una compresin de los datos con una pequea
prdida de la calidad; desde su creacin, se ha definido el MPEG-1, utilizado en CD-ROM y Vdeo
CD, el MPEG-2, usado en los DVD-ROM y la televisin digital, y el MPEG-4, que se emplea para

6
transmitir vdeo e imgenes en ancho de banda reducido.

2.1. Codificadores
Todas las aplicaciones que graban vdeo, deben incorporar los codificadores necesarios para los
formatos de salida. As cada aplicacin cuando se guarda una grabacin, visualizar aquellos
formatos de salida que incorpora. Algunas aplicaciones permite aadir otros codificadores para
ampliar la gama de formatos de salida. Todas las aplicaciones de edicin de vdeo digital tambin
estn en esta tesitura.
La razn por la que codifican unos formatos y no todos, es porque hay formatos propietarios y que
por lo tanto para poderlos incorporar se tienen que pagar las licencias correspondientes.

2.2. Descodificadores
En cuanto a los descodificadores, los requieren todas las aplicaciones que reproducen los vdeos,
que estn almacenados en formato digital. Tambin en este caso, los reproductores necesitan el pago
de licencias para poder reproducir los formatos propietarios.
As no todos los reproductores permiten el acceso a todos los formatos, aunque hay reproductores
que permiten aadir descodificadores una vez instalado el reproductor.

2.3. Formato MOV


El formato MOV de QuickTime, creado por Apple, es multiplataforma y en sus versiones ms
recientes permite interactuar con pelculas en 3D y realidad virtual.
Las funciones del formato MOV de QuickTime son las propias de un fichero contenedor
multimedia que contiene una o ms pistas, cada una de cuales almacena un determinado tipo de
datos, ya sea audio, vdeo, efectos, o texto, por ejemplo, los subttulos. Cada pista contiene un flujo
determinado de informacin codificado digitalmente con un determinado cdec o una referencia de
los datos almacenado en otro fichero. Las pistas se mantienen segn una estructura jerrquica de
datos que consiste en objetos llamados tomos. Un tomo puede ser el padre de otros tomos o
puede contener informacin, pero no puede hacer ambas funciones.
La capacidad de contener referencias abstractas de datos de los medios de comunicacin, y la
separacin de los datos de las direcciones donde estn almacenados, indica que el QuickTime es
especialmente adecuado para la edicin, ya que es capaz de importar y editar in situ, es decir, sin
necesidad de crear una copia. Otros formatos de contenedor de vdeo desarrollados posteriormente
como el ASF (Advanced Systems Format) de Microsoft o los contenedores de cdigo abierto Ogg y
Matroska carecen de esta abstraccin, y exigen que todos los datos se vuelvan a escribir despus de
la edicin.
El QuickTime 6 aadi soporte limitado para MPEG-4, especficamente la codificacin y la
descodificacin de Perfil Simple (SP). Las caractersticas del ASP (Advanced Simple Profile), como
las B-frames, no eran soportadas a diferencia de los codificadores, como XviD o 3ivx. QuickTime 7
es compatible con el codificador y el decodificador H.264.
Dado que tanto los contenedores MOV y MP4 pueden usar los mismos codecs MPEG-4, en su
mayora son intercambiables en un entorno de slo QuickTime. Esto es especialmente cierto en los
dispositivos de hardware, como la Sony PSP y varios reproductores de DVD. Por el lado del
software, la mayora de los codecs DirectShow/Video de Windows incluyen un analizador de MP4,
pero ninguno para el formato MOV.

2.3.1.Historia
Apple lanz la primera versin de QuickTime el 2 de Diciembre de 1991 como una extensin
multimedia para el System Software 6 y posteriores. El desarrollador principal de QuickTime,
Bruce Leak, hizo la primera demostracin pblica en Mayo de 1991 en la Conferencia Mundial de
Desarrolladores. La tecnologa competidora de Microsoft, el Video para Windows, empleaba varias
miles de lneas de cdigo fuente presuntamente robados de Quicktime y no apareci hasta
Noviembre de 1992.

QuickTime 1.x
Los codecs originales de vdeo incluan:
el cdec Apple Video, tambin conocido como Road Pizza, adaptado al vdeo normal de
accin en vivo

el cdec Animation, que utilizaba codificacin 'run-length' y se adaptaba muy bien a las
imgenes tipo de dibujos animados con grandes reas de color

el cdec Graphics, para imgenes de 8 bits, incluyendo las que se haban sometido a
'dithering'
Apple public QuickTime 1.5 para Mac OS a finales de 1992. En esta versin agreg el Compact
Video, que gestionaba la reproduccin de vdeo con la resolucin 320 x 240 a 30 fotogramas por
segundo. Tambin agreg pistas de texto, lo que permiti cosas tales como subttulos, letras, etc,
con un pequeo aumento del tamao de la pelcula.

En un esfuerzo por aumentar la adopcin del QuickTime, Apple contrat a una empresa externa,
San Francisco Canyon Company, para llevar QuickTime a la plataforma Windows. La versin 1.0
de QuickTime para Windows proporcionaba slo un subconjunto de la API completa de QuickTime,
incluyendo slo las funciones de reproduccin de pelculas realizadas con el controlador de
pelculas estndar.
QuickTime 2.x

Apple public QuickTime 2.0 para Mac OS en Febrero de 1994. Se aadi soporte para las pistas de
msica, que contenan datos MIDI y que poda hacer que el QuickTime funcionara como un
sintetizador.
El QuickTime 2.0 para Windows apareci en Noviembre de 1994 bajo la direccin de Paul
Charlton. Con Charlton como arquitecto y director tcnico junto con el colaborador Michael Kellner
a ttulo individual y un pequeo equipo altamente efectivo con Keith Gurganus, port un
subconjunto del Macintosh Toolbox a Intel y a otras plataformas como las variantes de UNIX,
MIPS y SGI. La primera demostracin del QuickTime Media Layer (QTML) fue en la Apple
Worldwide Developers Conference (WWDC), en Mayo de 1996.
Las siguientes versiones, 2.1 y 2.5, volvieron al modelo anterior de QuickTime. Mejoraron el
soporte de la msica y aadi pistas que permitan la creacin de animaciones complejas con la
adicin de un poco ms que las imgenes estticas al tamao de la pelcula. QuickTime 2.5 tambin
integr totalmente el QuickTime VR en QuickTime 2.0.1. El 16 de Enero de 1997, Apple lanz la
extensin MPEG en QuickTime y lo aadi al QuickTime 2.5, lo que aada capacidades de
software MPEG-1 a la reproduccin de QuickTime.
QuickTime 3.x

El lanzamiento de QuickTime 3.0 para Mac OS el 30 de Marzo de 1998 introdujo las nuevas
caractersticas de la aplicacin MoviePlayer de Apple de forma que los usuarios finales slo podan

8
desbloquearla mediante la compra de QuickTime Pro. Dado que las caractersticas del QuickTime
Pro eran las mismas que las de QuickTime 2.5, cualquier usuario anterior de QuickTime podra
seguir utilizando una versin anterior de la aplicacin MoviePlayer para el tiempo que le queda de
Mac OS hasta 2002.
QuickTime 3.0 aadi soporte para los componentes grficos que podan leer las imgenes GIF,
JPEG, TIFF y otros formatos, y los componentes de salida de vdeo que servan principalmente para
exportar los datos de la pelcula a travs de una conexin FireWire. Apple tambin licenci varias
tecnologas de terceros para su inclusin en QuickTime 3.0, incluyendo el cdec Sorenson Video
con compresin avanzada de vdeo y el cdec QDesign Music para la compresin sustancial de
audio. Tambin agreg los efectos de vdeo que los programadores podan aplicar en tiempo real a
las pistas de vdeo. Algunos de estos efectos incluso podan responder a los clics del ratn por el
usuario, como parte del nuevo soporte a la interaccin con la pelcula.
QuickTime 4.x

Apple liber el QuickTime 4.0 el 8 de Junio de 1999 para Mac OS 7.5.5 y Windows 95, Windows
98 y Windows NT. Introdujo las siguientes caractersticas bsicas:
Componentes grficos para la exportacin, lo que permita escribir en los mismos formatos
que previamente haba leido.

Soporte a los formatos Qdesign Music 2 y audio MPEG-1 Layer 3 (MP3)

QuickTime 4 fue la primera versin que soportaba 'streaming'. Fue acompaado por el
lanzamiento de la versin gratuita de QuickTime Streaming Server 1.0.
El 17 de Diciembre de 1999, Apple liber QuickTime 4.1, con las siguientes mejoras:

Soporte para ficheros de ms de 2,0 GB en el Mac OS 9.


Soporte VBR para el audio MPEG-1 Layer 3 (MP3)
Soporte para SMIL (Synchronized Multimedia Integration Language)
Introduccin de AppleScript en Mac OS

QuickTime 5.x

QuickTime 5 fue una de las versiones ms cortas en cuanto a duracin de QuickTime. Lanzado en
Abril de 2001, fue sustituido por QuickTime 6 un poco ms de un ao despus. Esta versin fue la
ltimo en tener ms capacidades bajo Mac OS 9 que bajo Mac OS X, y la ltima versin de
QuickTime que soportaba las versiones de Mac OS 7.5.5 a 8.5.1 en un PowerPC Mac y Windows
95. La versin 5.0 fue lanzado inicialmente slo para Mac OS y Mac OS X el 14 de Abril de 2001,
y la versin 5.0.1 que sigui despus el 23 de Abril de 2001 que soportaba el Mac OS, el Mac OS X
y el Windows.
El QuickTime 5 introdujo las siguientes mejoras:

Reproduccin de MPEG-1 para Windows, y actualizado el soporte de audio de MPEG-1


Layer 3 para todos los sistemas de audio.
La reproduccin y exportacin de Sorenson Video 3 aadido con la actualizacin 5.0.2.
Efectos de 'rendering' y transiciones en tiempo real en los ficheros DV.
La reproduccin y la exportacin de Flash 4.
Un nuevo motor QuickTime VR, aadiendo soporte para panoramas cbicos VR.

QuickTime 6.x

El 15 de Julio de 2002, Apple liber el QuickTime 6.0, que ofrece las caractersticas siguientes:

La reproduccin, importacin y exportacin del formato MPEG-4, incluyendo el formato

9
MPEG-4 Parte 2 de vdeo y el AAC Audio.

Soporte para Flash 5, JPEG 2000, y mejora del manejo de Exif

La reproduccin 'streaming'

La reproduccin de MPEG-2 a travs de la compra de MPEG-2 Playback Component de


Apple

El control del ActiveX mediante scripts


QuickTime 6 estuvo inicialmente disponible para Mac OS 8.6 - 9.x, Mac OS X (mnimo 10.1.5), y
Windows 98, Me, 2000 y XP. Sin embargo el desarrollo de QuickTime 6 para Mac OS se ralentiz
considerablemente a principios del ao 2003, despus del lanzamiento de Mac OS X v10.2 en
Agosto de 2002.
QuickTime 6.1 y 6.1.1 para Mac OS X v10.1 y Mac OS X v10.2 y QuickTime 6.1 para Windows
ofreci la creacin de ficheros ISO-Compliant MPEG-4.
Apple liber el QuickTime 6.2 exclusivamente para Mac OS X el 29 de Abril de 2003 para
proporcionar soporte a iTunes 4, y permita la codificacin AAC de las canciones de la biblioteca de
iTunes. El 3 de Junio de 2003, Apple liber el QuickTime 6.3 con las siguientes caractersticas:
Soporte para 3GPP, incluyendo 3G Text, vdeo y audio (codecs AAC y AMR)

Soporte a los formatos .3gp, . amr, y .sdv con componentes separados.


QuickTime 6.4 liberado el 16 de Octubre 2003 para Mac OS X v10.2, Mac OS X 10.3 y Windows,
aadi lo siguiente:

La adicin del cdec Apple Pixlet slo para Mac OS X 10.3 y posteriores
Soporte ColorSync

El 3GPP integrado
El 18 de diciembre de 2003, Apple lanz el QuickTime 6.5, soportando los mismos sistemas que la
versin 6.4. Las versiones 6.5.1 y 6.5.2 aparecieron el 28 de Abril de 2004 y el 27 de Octubre 2004
respectivamente. Esta ltima versin sera compatible con Windows 98 y Windows Me.La familia
6.5 aadi las siguientes caractersticas:

Soporte de los formatos multimedia mvil 3GPP2 y AMC

Cdigo de voz QCELP

Empleo del Apple Lossless en la versin 6.5.1


El QuickTime 6.5.3 fue lanzado el 12 de Octubre de 2005 para Mac OS X v10.2.8

QuickTime 7.x

Inicialmente lanzado el 29 de Abril 2005 junto con el Mac OS X 10.4, el QuickTime 7.0 se
caracteriza por lo siguiente:
Mejora el cumplimiento de MPEG-4
Tiene el cdec H.264/MPEG-4 AVC

Tiene Core Graphics (Quartz) para dibujar la pantalla, lo que permite cambiar el tamao en
vivo y la reproduccin en una superficie OpenGL

El Core Audio reemplaza el Sound Manager, soportando sonido de alta resolucin

Soporte para el uso de filtros de Core Image en Mac OS X 10.4 en vdeo en vivo.

Soporte a las animaciones de Quartz Composer

El QTKit, un marco de Cocoa para QuickTime


Apple elimin el soporte para Windows 2000 con el lanzamiento de QuickTime 7.2 el 11 de Julio
de 2007. La ltima versin disponible para Windows 2000, la versin 7.1.6, contiene numerosas
vulnerabilidades de seguridad. QuickTime 7.2 es la primera versin para Windows Vista.

Apple elimin el soporte para el contenido de Flash en QuickTime 7.3, rompiendo el contenido en
que se basaba el Flash para las pistas de interactividad o animacin. Sin embargo con el plugin

10
gratuito Perian se pueden reproducir los ficheros flv de Flash en QuickTime.

2.4. Formato AVI


El formato AVI (Audio Video Interleave) es un formato de contenedor multimedia introducido por
Microsoft en Noviembre de 1992 como parte de su vdeo para la tecnologa Windows. Los ficheros
AVI puede contener tanto datos de audio y como de vdeo en un contenedor de ficheros que permite
la sincronizacin del audio con la reproduccin del vdeo. Al igual que el formato de vdeo DVD, el
formato AVI soporta mltiples flujos de audio y vdeo, aunque estas caractersticas raramente se
utilizan. La mayora de ficheros AVI tambin usan las extensiones de fichero del formato
desarrollado por el grupo de OpenDML Matrox en Febrero de 1996.
El formato AVI definido por Microsoft para Windows en 1992, fue majorado posteriormente
mediante las extensiones del formato del grupo OpenDML de la compaa Matrox. Estas
extensiones estn soportadas por Microsoft, aunque no de manera oficial y se conocen como AVI
2.0. Los contenidos de audio y vdeo en el contenedor AVI pueden tener otros formatos, como por
ejemplo los formatos AC3, DivX, MP3 y Xvid.
Para que todos la informacin pueda ser reproducida simultneamente, es necesario que se
almacene de manera entrelazada. De esta manera, cada fragmento del formato debe tener la
suficiente informacin como para reproducir unos pocos fotogramas junto con el sonido
correspondiente.
Obsrvese que el formato AVI admite varios flujos de datos de audio, lo que en la prctica significa
que puede contener varias bandas sonoras en distintos idiomas. El reproductor multimedia es el que
decide cul de estos flujos debe ser reproducido de acuerdo con las preferencias del usuario.
Los ficheros AVI se dividen en fragmentos bien diferenciados denominados 'chunks'. Cada
fragmento tiene asociado un identificador denominado etiqueta FourCC. El primer fragmento se
denomina cabecera y su papel es describir la metainformacin con respecto al fichero, por ejemplo,
las dimensiones de la imagen y la velocidad en fotogramas por segundo. El segundo fragmento
contiene los flujos entrelazados de audio y vdeo. Opcionalmente puede existir un tercer fragmento
que acta a modo de ndice para el resto de fragmentos.
Para reproducir un fichero con formato AVI es necesario lo siguiente:

Un reproductor de vdeo capaz de interpretar el formato AVI.

El cdec de vdeo para interpretar el flujo de vdeo.

El cdec de audio para interpretar el flujo de audio.

La etiqueta FourCC permite identificar el cdec necesario para interpretar un flujo de audio o vdeo.
Cada cdec tiene asociado el conjunto de etiquetas que es capaz de reproducir. De esta manera, el
reproductor de vdeo es capaz de elegir el cdec pertinente sin intervencin del usuario.
El reproductor lee de forma consecutiva los fragmentos del fichero con formato AVI. A
continuacin separa cada uno de los flujos de audio y vdeo que se encuentran entrelazados en el
fichero. Cada uno de estos flujos, una vez separados, se almacenan en un buffer de memoria y se
pasan al cdec correspondiente. El cdec de vdeo devuelve los fotogramas a reproducir en otro
buffer. El cdec de audio retorna en otro buffer la muestra digital de sonido a reproducir. Con esta
informacin, el reproductor solamente tiene que sincronizar los fotogramas y el sonido y
reproducirlos a la velocidad adecuada.

11

2.4.1.Formato
El formato AVI es un derivado del formato RIFF (Resource Interchange File Format), que divide los
datos de un fichero en bloques, o 'chunks'. Cada bloque es identificado por una etiqueta FourCC. Un
fichero con formato AVI toma la forma de un nico bloque con formato RIFF, que a continuacin se
subdivide en dos bloques obligatorios y otro opcional.
El primer bloque se identifica por la etiqueta 'hdrl'. Este bloque es la cabecera del fichero y contiene
los metadatos del vdeo, tales como el ancho, la altura y la velocidad de los fotogramas. El segundo
bloque se identifica por la etiqueta 'movi'. Este bloque contiene los datos actuales de audio/vdeo
que conforman la pelcula AVI. El tercer bloque opcional identificado por la etiqueta 'idx1' indexa
las direcciones de los bloques de datos dentro del fichero.
Por medio del formato RIFF, los datos de audio/vdeo contenidos en el bloque 'movi' se pueden
codificar o decodificar por software con un cdec. Un fichero con formato AVI puede contener
datos de audio/vdeo dentro de los bloques en cualquier sistema de compresin, incluido el Full
Frame (sin comprimir), el Intel Real Time (Indeo), el Cinepak, el Motion JPEG, el MPEG, el
VDOWave, el ClearVideo/RealVideo, el QPEG y el vdeo MPEG-4.

2.4.2.Usos
Cuando se utilizan los codecs MPEG-4 como por ejemplo Xvid y DivX, aumentando el tamao de
fichero ms de lo necesario. El contenedor AVI no tiene soporte nativo para las caractersticas
modernas del formato MPEG-4 como las B-frames.
Los ficheros con formato AVI no contienen la informacin de la relacin del aspecto de los pixels.
Microsoft confirma que muchos reproductores, incluyendo el Windows Media Player, visualiza
todos los ficheros AVI con pixels cuadrados. Por lo tanto, el cuadro aparece estirado o exprimido
horizontalmente cuando se reproduce el fichero. Existen otros formatos de contenedor de vdeo que
permiten especificar la relacin del aspecto de los pixels.
Sin embargo los contenedores como QuickTime, Matroska, Ogg y MP4, y los proyectos basados en
el proyecto Ffmpeg incluyendo ffdshow, MPlayer, Xine y VLC, han resuelto la mayora de los
problemas con la visualizacin de ficheros de vdeo en formato AVI.
En Junio del 2005, DivX, Inc. lanz su propio formato de contenedor llamado DivX Media Format,
con extensin .divx, para suceder al AVI DivX+combo. Sin embargo, este formato es bsicamente
un formato AVI mejorado, basado en la estructura del mismo RIFF, para mantener la compatibilidad
con los reproductores y aparatos existentes, y as hasta la fecha, no ha ganado la atraccin de los
consumidores, an cuando el cdec DivX fue muy popular en su da.

2.4.3.DV-AVI
DV-AVI es un tipo de fichero con formato AVI donde el vdeo ha sido comprimido de acuerdo con
el estndar DV. La especificacin original de DV (Digital Video), conocido como Blue Book, se ha
estandarizado dentro de la familia del estndar IEC 61834. Estos estndares definen las
caractersticas comunes, tales como casetes, mtodo de modulacin de la grabacin, magnetizacin
y datos bsicos del sistema en la parte 1, y profundizar en los detalles en la parte 2.
Hay dos tipos de ficheros DV-AVI:

Tipo 1: El multiplexado audio-vdeo se guarda en su multiplexado original y guardado junto


con la seccin de vdeo del fichero AVI. No emplea demasiado espacio aunque el audio est
descomprimido, pero las aplicaciones Windows basadas en el API VfW no lo soportan.

12

Tipo 2 : Como el tipo 1, pero el audio tambin se guarda en un flujo de audio adicional en el
fichero. Soportado por las aplicaciones VfW pero al precio de un mayor tamao del fichero.

Actualmente el tipo 1 es el ms reciente de los dos tipos. Microsoft hizo las denominaciones de
tipo, y decidi nombrar a su versin ms vieja compatible VfW como tipo 2. A finales de los aos
1990 hasta principios de los aos 2000, la mayora del software DV de nivel profesional,
incluyendo programas de edicin no lineales, slo admitan el tipo 1. Una excepcin notable fue el
Adobe Premiere, que slo soportaba el tipo 2. Normalmente los controladores FireWire de alta
gama solo capturan el tipo 1. Hay software para la conversin de AVI de tipo 1 al tipo 2, y
viceversa, pero este es un proceso que consume tiempo.
Muchos controladores FireWire actuales an slo capturan uno u otro tipo. Sin embargo, casi todo
el software DV actual admite la edicin y la renderizacin de tipo 1 y tipo 2. As muchos de los
usuarios son conscientes del hecho de que hay dos tipos de ficheros DV-AVI.

2.5. Formato MPEG


El formato MPEG (Moving Pictures Experts Group) es un formato de almacenamiento de vdeo
digital con una compresin de los datos con una pequea prdida de la calidad. Desde su creacin,
se ha definido el MPEG-1 utilizado en Audio CD y Vdeo CD, el MPEG-2, usado en los DVD y la
televisin digital, y el MPEG-4, que se emplea para transmitir vdeo e imgenes con un ancho de
banda reducido.
El formato MPEG-1 se public como un estndar ISO/IEC 11172 con el ttulo 'Information
technology -- Coding of moving pictures and associated audio for digital storage media at up to
about 1,5 Mbps'. El estndar consta de un documento con cinco partes:
1.
2.
3.
4.

Sistemas. Almacenamiento y sincronizacin de vdeo, audio, y otros datos juntos.


vdeo. Contenido del vdeo comprimido.
Audio. Su descripcin est en el apartado de audio. Ver formatos MPG y MP3.
Prueba de conformidad, comprobando el cumplimiento del estndar por parte de las
implementaciones.
5. Software de referencia. Ejemplo de software mostrando como codificar y descodificar de
acuerdo con el estndar.

2.5.1.Parte 1: Sistemas
La parte 1 del formato MPEG-1 cubre los sistemas, y se define como ISO/IEC-11172-1. Esta parte
especifica el diseo lgico y los mtodos utilizados para almacenar el audio, el vdeo y otros datos
codificados en una secuencia de bits, y para mantener la sincronizacin entre los diferentes
contenidos. Este formato de fichero est diseado especficamente para el almacenamiento de la
informacin, y la transmisin por los canales de datos, que se consideran relativamente fiables. Slo
se define en el estndar la proteccin limitada de error, y los pequeos errores en el flujo de bits que
pueden causar defectos notables.
Flujos elementales y del programa

Los flujos elementales son los flujos de bits de audio y vdeo del formato MPEG-1 obtenidos
mediante un codificador. Adems los flujos elementales se puede hacer ms robustos
empaquetndolos, es decir, dividindolos en bloques independientes, y aadiendo una
comprobacin de redundancia cclica (CRC) a cada segmento para la deteccin de errores. Esta es
la estructura PES ( Packetized Elementary Stream).
Los flujos de programa (PS) se refieren a la combinacin de mltiples flujos elementales de

13
paquetes, generalmente slo uno de audio y uno de vdeo. La existencia de un nico flujo garantiza
la entrega simultnea, y mantiene la sincronizacin. La estructura de los flujos de programa (PS) es
conocido como un multiplexador, o un formato de contenedor.
Relojes y marcas de tiempo

El reloj de referencia del sistema (SCR) es un valor del tiempo almacenado en un cabecera de 33
bits en cada flujo elemental, con una frecuencia/precisin de 90 kHz, con una extensin extra de 9
bits que almacena los datos de tiempo adicionales con una precisin de 27 Mhz. Estos son
insertados por el codificador derivado del reloj del sistema (STC). Al mismo tiempo los flujos de
audio y vdeo codificados no tienen idnticos valores del reloj de referencia del sistema (SCR)
debido al buffering de la codificacin, al jitter y a otros retardos.
Las marcas del tiempo de presentacin (PTS) existen en los flujos del programa para corregir la
disparidad inevitable entre los valores del reloj de referencia del sistema de audio y de vdeo. Los
valores de las marcas del tiempo de presentacin a 90 kHz en la cabecera de los flujos de programa
dicen al descodificador que los valores del reloj de referencia del sistema de vdeo coinciden con los
valores del reloj de referencia del sistema de audio. Las marcas del tiempo de presentacin
determinan cuando se tiene que visualizar una parte del fichero con formato MPEG, y tambin es
utilizado por el descodificador para determinar cuando los datos se pueden descargar del bffer. El
vdeo y el audio se retrasarn por el descodificador hasta que el segmento correspondiente del otro
llegue y puede ser decodificado.
El manejo de los flujos de programa puede ser problemtico. Los decodificadores deben aceptar
mltiples flujos de programa que han sido concatenados, es decir, unidos secuencialmente. Esto
hace que los valores de las marcas de tiempo de presentacin del vdeo se restablecezcan a cero, y
que empiece a incrementarlo de nuevo. As las disparidades de las marcas de tiempo de
presentacin pueden causar problemas de tiempo que debe ser manejados especialmente por el
descodificador.
Adems las marcas de tiempo del descodificador (DTS) son necesarias debido a la existencia de las
B-frames. Con las B-frames en el flujo de vdeo, los fotogramas adyacentes tienen que ser
codificados y descodificados desordenadamente. Las marcas de tiempo del descodificador son muy
similares a las marcas de tiempo de presentacin, pero en lugar de manipular los fotogramas
secuenciales, contiene las marcas de tiempo apropiadas para decir al descodificador cuando
descodificar y mostrar la siguiente B-frame, por delante de su anclaje (P- o y I-)frame. Si no hay Bframes en el vdeo, los valores de las marcas de tiempo de presentacin y del descodificador son
idnticas.
Multiplexacin

Para generar los flujos de programa, el multiplexador intercalar dos o ms flujos elementales
paquetizados. Esto se hace as para que los paquetes de los flujos simultneos puedan ser
transferidos por el mismo canal y se les garantiza que ambos lleguen al descodificador precisamente
al mismo tiempo. Este es un caso de multiplexin por divisin de tiempo.
Determinar la cantidad de datos de cada flujo en cada segmento de entrelazado es complicado,
aunque es un requisito importante. Un intercalado inadecuado dar lugar a desbordamientos de
buffer, a medida que el receptor recibe ms de un flujo de lo que puede almacenar, antes de que
llegue suficiente informacin para descodificar el otro flujo simultneo. Uno ser el audio y el otro
el vdeo. El verificador del buffer de vdeo MPEG (VBV) ayuda a determinar si un flujo de
programa multiplexado puede ser decodificado por un dispositivo con unos datos determinados a la
velocidad establecida y con el tamao de buffer en cuestin. Esto ofrece informacin al multiplexor

14
y al descodificador, por lo que puede cambiar el tamao del buffer o ajustar las tasas de bits
necesarios para el cumplimiento.

2.5.2.Parte 2: Vdeo
La parte 2 del formato MPEG-1 cubre la parte de vdeo y se define en ISO/IEC-11172-2. El diseo
fue fuertemente influenciado por el formato estndar H.261.
El vdeo del formato MPEG-1 explota los mtodos de compresin de percepcin para reducir
significativamente la cantidad de datos requeridos por un flujo de vdeo. Reduce o descarta
totalmente la informacin en determinadas frecuencias y reas de la imagen en que el ojo humano
tiene una capacidad limitada para percibir plenamente. Tambin utiliza mtodos eficaces para
explotar la redundancia temporal y espacial en vdeo para lograr una mayor compresin de datos.
Espacio de color

Antes de la codificacin del vdeo al formato MPEG-1, el espacio de color se transforma al Y'CbCr
= (Y' Luma, Cb = Chroma blue, Cr = Chroma Red). La luminancia se define como una tupla de dos
valores: el brillo y la resolucin, y la crominancia como una tupla de tres valores: color, matiz y
fase. La luminancia (brillo, resolucin) se almacena separadamente de la crominancia (color, matiz,
fase) y adems se separa en sus componentes rojo y azul. La crominancia tambin es muestreada a
4:2:0, lo que significa que es dividido por la mitad en sentido vertical y la otra mitad en sentido
horizontal, a slo un cuarto de la resolucin del vdeo.
Debido a que el ojo humano es mucho menos sensible a pequeos cambios de color que del brillo,
el muestreo de la crominancia es una forma muy eficaz de reducir la cantidad de datos de vdeo que
deben ser comprimidos. En los vdeos con detalle fino, de alta complejidad espacial, esto puede dar
lugar a defectos de 'aliasing' de crominancia. En comparacin con otros defectos de compresin
digital, esta cuestin raramente puede ser una molestia.
A causa del muestreo, el vdeo con el espacio de color Y'CbCr siempre debe ser almacenado
utilizando incluso las dimensiones, divisible por 2, de lo contrario se producir un desajuste de la
crominancia, y aparecer como si el color estuviera delante o detrs del resto del vdeo, como una
sombra. El espacio de color Y'CbCr se denomina a menudo errneamente espacio de color YUV
que slo se utiliza en el dominio de las seales de vdeo analgico.
Resolucin/Tasas de bit

El formato MPEG-1 soporta resoluciones de hasta 40954095 (12 bits), y tasas de hasta 100 Mbps.
Normalmente los vdeos con formato MPEG-1 se visualizan utilizando alguna de las resoluciones
siguientes: 352x240, 352x288, o 320x240. Estas bajas resoluciones, combinadas con una tasa de
bits inferior a 1,5 Mbps, forman lo que se conoce como CPB (Constrained Parameters Bitstream),
es decir, los parmetros restringidos del flujo de bits. Posteriormente esto se rebautiz como perfil
bajo (Low Level) en el formato MPEG-2. Son las especificaciones mnimas de vdeo que cualquier
descodificador de vdeo debe ser capaz de manejar para ser considerado compatible con el formato
MPEG-1. Estas especificaciones fueron seleccionadas para ofrecer un buen equilibrio entre la
calidad y el rendimiento, permitiendo el uso de hardware de bajo costo.
Tipos de fotograma/imagen/bloque

El formato MPEG-1 tiene varios tipos de fotogramas/imgenes que sirven a propsitos diferentes y
son las siguientes:

15

I-frames

P-frames

B-frames

D.frames

A continuacin se detalla cada una de ellas,


I-frames
I-frame es la abreviatura de Intra-frame, denominado as porque se pueden descodificar de forma
independiente de cualesquiera otros fotogramas. Tambin pueden conocidas como I-pictures o
fotogramas clave debido a su funcin, en cierto modo, similar a las fotogramas clave que se
utilizan en la animacin. Las I-frames se pueden considerar efectivamente idnticas a las imgenes
JPEG de referencia.
La bsqueda de alta velocidad a travs de un vdeo con formato MPEG-1 slo es posible con la Iframe ms cercana. Cuando se corta un vdeo, no es posible iniciar la reproduccin de un segmento
de vdeo antes de de la primera I-frame del segmento, al menos sin recodificar el vdeo con un alto
coste de computacin. Por esta razn, en las aplicaciones de edicin, los vdeos con formato MPEG
solo utilizan I-frames.
Los vdeos que solo tienen I-frames tienen una compresin muy rpida, pero producen tamaos de
fichero muy grandes: un factor de 3x o ms, mayor que el vdeo con formato MPEG-1 codificado
normalmente. Los vdeos con formato MPEG-1 con solo I-frames son muy similares al vdeo
MJPEG.
La longitud entre I-frames se conoce como el tamao GOP (Group Of Pictures). Habitualmente el
formato MPEG-1 utiliza un tamao GOP de 15-18, es decir, una I-frame por cada 14-17 no I-frames
(una combinacin de P-frames y B-frames). Con los codificadores ms inteligentes, el tamao del
GOP es elegido de forma dinmica, hasta el lmite mximo preseleccionado.
Se establecen lmites en el nmero mximo de fotogramas entre I-frames debido a la complejidad
de la descodificacin, el tamao de bfer del descodificador, el tiempo de recuperacin despus de
los errores de datos, la capacidad de bsqueda y la acumulacin de errores IDCT en las
implementaciones de baja precisin ms comunes en los descodificadores de hardware.
P-frames
P-frame es una abreviatura de Predicted-frame, es decir, fotograma previsto. Las B-frames son
tambin inter-frames. Las P-frames existen para mejorar la compresin mediante la explotacin de
la redundancia temporal en un vdeo. Las P-frames almacenan slo las diferencias en cuanto a la
imagen del fotograma inmediatamente anterior, ya sea una I-frame o una P-frame. Esta fotograma
de referencia se llama fotograma anclaje.
La diferencia entre una P-frame y su fotograma anclaje se calcula utilizando los vectores de
movimiento en cada macrobloque del fotograma. Los datos del vector de movimiento se integrarn
en la P-frame para el uso por el descodificador.
Un P-frame puede contener cualquier nmero de cdigo dentro de los bloques, adems de cualquier
bloques previsto hacia delante. Si un vdeo cambia drsticamente de un fotograma a otro, como un
corte, es ms eficiente codificarlo como una I-frame.
B-frames
Una B-frame es un fotograma bidireccional. Las B-frames son bastante similares a las P-frames,
excepto a que pueden hacer predicciones utilizando tanto las fotogramas anteriores como las

16
posteriores, es decir, tienen dos fotogramas anclaje.
Por lo tanto es necesario para el reproductor, primero descodificar secuencialmente el siguiente
fotograma anclaje I- o P- despus de la B-frame, antes de que la B-frame puede ser descodificada y
visualizada. Esto hace que las B-frames sean computacionalmente muy complejas, requiera grandes
buffers de datos, y cause un retraso mayor tanto en la descodificacin como durante la codificacin.
Esto hace que se necesiten marcas de tiempo de visualizacin (DTS - Display Time Stamps) en el
flujo de datos. De esta manera las B-frames han sido tema de mucha controversia durante mucho
tiempo, razn por la cual se han evitado muchas veces en los vdeos, y en ocasiones no son
soportadas completamente por los descodificadores de hardware.
No se prevn otros tipos de fotogramas distintos de las B-frame. Debido a esto en caso necesario, se
puede insertar una tasa muy baja de bits de B-frame para ayudar a controlar dicha tasa. Si esto se
hizo con una P-frame, las futuras P-frames precederan de la B-frame y bajara la calidad de toda la
secuencia. Sin embargo y de manera similar, la futura P-frame an debe codificar todos los cambios
entre ella y el fotograma anclaje anterior I- o P- , adems que gran parte de los cambios estn
codificados en las B-frames. Las B-frames tambin se pueden beneficiar en los vdeos donde el
fondo detrs de un objeto que se est revelando en varias fotogramas, o en las transiciones de
'fading', como los cambios de escena.
D-frames
El formato MPEG-1 tiene un tipo de fotograma nico que no se encuentra en los ltimos estndares
de vdeo. Las D-frames o DC-pictures son imgenes independientes (intra-frames) que han sido
codificadas DC-slo (los coeficientes AC-DCT se eliminan) y por lo tanto, son de muy baja
cualidad. Las D-frames nunca son referenciadas por los fotogramas I-, P o B-frames. Las D-frames
slo se utilizan para las vistas rpidas previas de vdeo, por ejemplo, cuando se busca a travs de un
vdeo a alta velocidad.
La existencia de D-frames permite previsualizaciones de alta calidad, y sin la necesidad de las Dframes que ocupan espacio en el flujo, no mejora la calidad de vdeo.
Macrobloques

El formato MPEG-1 opera en vdeo con una serie de bloques de 8x8 pixels para la cuantificacin.
Sin embargo debido a la crominancia, se muestrea con un factor de 4. As cada par de bloques de
crominancia (rojo y azul) corresponde a 4 bloques diferentes de luminancia. Este conjunto de 6
bloques, con una resolucin de 16x16 pixels, se llama macrobloque.
Un macrobloque es la unidad independiente ms pequea de vdeo en color. Los vectores de
movimiento operan exclusivamente en el nivel macrobloque. Si la altura y/o la anchura del vdeo no
es exactamente un mltiplo de 16, a pesar de esto se debe codificar una fila completa de
macrobloques para almacenar el resto de la imagen. Es un despilfarro de una cantidad significativa
de datos en el flujo de bits, y tiene que ser evitado.
Algunos descodificadores tambin manejan inadecuadamente los vdeos con macrobloques
parciales, con el resultado de una visualizacin defectuosa.
Vectores de movimiento

Para disminuir la cantidad de redundancia espacial en un vdeo, slo se actualizan los bloques que
tienen cambios, hasta el tamao GOP (Group Of Pictures) mximo. Esto se conoce como reposicin
condicional. Los movimientos de los objetos, y/o de la cmara puede consumir grandes porciones
del fotograma que se necesita para su actualizacin, a pesar de que slo ha cambiado la posicin de
los objetos previamente codificados. A travs de la estimacin del movimiento, el codificador

17
puede compensar este movimiento y eliminar una gran cantidad de informacin redundante.
El codificador compara el fotograma actual con las partes adyacentes del fotograma anclaje (la
previa I-frame o P-frame) del vdeo segn un patrn en forma de diamante, hasta una zona limitada
por un radio predefinido de la zona del macrobloque actual. Si se encuentra una coincidencia, slo
la direccin y la distancia, es decir, el vector de movimiento de la zona de vdeo anterior al
macrobloque actual deben ser codificadas en el inter-frame (P- o B-frame). El proceso inverso,
realizado por el descodificador para reconstruir la imagen, se llama compensacin del movimiento.
Rara vez un macrobloque coincide con la imagen actual a la perfeccin, sin embargo las diferencias
entre la zona de coincidencia estimada y el fotograma o el macrobloque real se denominan errores
de prediccin. Cuanto mayor es el error, ms datos se deben aadir en la codificacin del
fotograma. Para la compresin eficaz de vdeo, es muy importante que el codificador sea capaz de
realizar con eficacia y precisin la estimacin del movimiento.
Los vectores de movimiento registran la distancia entre dos zonas en la pantalla en funcin del
nmero de pixels. El vdeo con formato MPEG-1 utiliza una precisin del vector de movimiento de
medio pxel. La precisin ms fina del vector de movimiento se corresponde con una mayor
coincidencia, y por tanto a una mejor compresin. As se debe calcular el mejor valor para
conseguir una buena relacin entre la compresin y las prdidas de coincidencia. Cuanto menor sea
el vector de movimiento, se consigue mejor resultado, pero se debe almacenar mayor cantidad de
datos en el fotograma, y tambin aumenta la complejidad de la codificacin as como el aumento de
los niveles de la interpolacin por macrobloque tanto para el codificador y como para el
descodificador, y los rendimientos son decrecientes con una mayor precisin del vector de
movimiento. Se eligi el medio pxel como el equilibrio perfecto.
Debido a que los macrobloques vecinos tienen probablemente vectores de movimiento muy
similares, esta informacin redundante se puede comprimir de manera bastante efectiva. Slo se
tiene que almacenar la menor cantidad de diferencia entre el vector de movimiento de cada
macrobloque en el flujo final de bits.
Las P-frames tienen un vector de movimiento por macrobloque en relacin al fotograma de anclaje
anterior. Sin embargo las B-frames puede utilizar dos vectores de movimiento: uno desde el
fotograma de anclaje anterior, y otro del fotograma de anclaje siguiente.
Los macrobloques parciales y los bordes negros y las barras codificadas en el vdeo que no caen
exactamente en el lmite de macrobloque, distorsionan la prediccin de movimiento. La
informacin de relleno y el borde del bloque impiden la mayor coincidencia del macrobloque con
cualquier otra rea del vdeo, y as se debe codificar una significativa mayor cantidad de
informacin sobre el error de prediccin por cada una de las docenas de macrobloques parciales a lo
largo del borde de la pantalla. La codificacin DCT y la cuantificacin tampoco son efectivas en
cuanto al contraste, si la imagen es grande y hay grandes contrastes en un bloque.
Otro problema importante existe con los macrobloques que contienen ruido significativo y aleatorio
en los bordes, donde normalmente hay las transiciones al negro. Adems la aleatoriedad aadida
dificulta una eficiente compresin. Todos estos efectos disminuyen la calidad y aumentan la
cantidad necesaria de bits del vdeo de forma importante.
Transformacin DCT (Discrete Cosine Transform)

La codificacin de cada bloque de 8x8 pixels consiste en aplicar primero una transformacin FDCT
(Forward Discrete Cosine Transform) y luego un proceso de cuantificacin. El proceso de
transformacin FDCT es tericamente sin prdidas, y puede ser revertido mediante la aplicacin de
una transformacin DCT inversa (IDCT) para reproducir los valores originales en ausencia de

18
cualquier cuantificacin y errores de redondeo. En realidad hay algunos errores de redondeo, a
veces grandes, introducidos tanto por la cuantificacin en el codificador como por el error de
aproximacin IDCT en el descodificador. La precisin mnima permitida de una aproximacin
IDCT del descodificador est definida en ISO/IEC 23002-1.
El proceso de transformacin FDCT convierte el bloque de 8x8 pixels sin compresin en una matriz
indexada de 8x8 pixels. Uno de estos valores es el coeficiente DC, que representa el valor medio de
todo el bloque de 8x8 pixels. Los otros 63 coeficientes son los coeficientes AC estadsticamente
ms pequeos, que son valores positivos o negativos que representan las desviaciones sinusoidales
del valor de bloque plano representado por el coeficiente DC.
Dado que el valor del coeficiente DC de un bloque est correlacionado estadsticamente con el del
bloque siguiente, este se comprime utilizando la codificacin DPCM. Slo se necesita representar la
cantidad ms pequea de la diferencia entre cada valor DC y el valor del coeficiente DC en el
bloque a su izquierda en el flujo final de bits.
Cuantificacin

La cuantificacin de datos digitales es esencialmente un proceso de reduccin de la exactitud de una


seal, dividindola en tamaos de paso ms grande, es decir, se trata de encontrar el mltiplo ms
cercano, y descartar el resto/mdulo.
El cuantificador a nivel de fotograma es un nmero de 0 a 31, aunque generalmente los
codificadores omitirn algunos de los valores extremos. Esto determina cunta informacin se
eliminar de un fotograma determinado. El cuantificador a nivel de fotograma

se selecciona dinmicamente por el codificador para mantener una determinada tasa de bits
especificada por el usuario, o

lo especifica directamente el usuario, cosa poco frecuente.

Una matriz de cuantificacin es una cadena de 64 nmeros (0-255) que dice al codificador la
importancia relativa de cada pieza de la informacin visual. Cada nmero en la matriz corresponde
a un determinado componente de la frecuencia de la imagen de vdeo.
La cuantificacin se realizan tomando cada uno de los 64 valores de frecuencia del bloque DCT,
dividindolos por el cuantificador a nivel de fotograma, y luego se dividen por sus correspondientes
valores en la matriz de cuantificacin. Por ltimo, el resultado se redondea por abajo. Esto reduce
significativamente o la elimina por completo la informacin de algunos componentes de la
frecuencia de la imagen. Normalmente es menos importante visualmente la informacin de la alta
frecuencia, por lo que las frecuencias altas son cuantificadas mucho ms fuertemente. Actualmente
el formato MPEG-1 utiliza dos matrices de cuantificacin separadas, uno para los I-frames y otro
para los P- y B-frames as la cuantificacin de los diferentes tipos de bloque se puede hacer de
forma independiente, y por lo tanto, ms eficazmente.
Generalmente este proceso de cuantificacin reduce un nmero significativo de los coeficientes AC
a cero, con lo que pueden ser ms eficientemente comprimidos por la codificacin entrpica, sin
prdidas, en el paso siguiente.
La cuantificacin elimina una gran cantidad de datos, y es el principal paso del procesado con
prdidas en la codificacin del vdeo con formato MPEG-1. Esto tambin hace que sea la principal
fuente de la mayora de defectos de compresin del vdeo con formato MPEG-1, como cintas de
color, ruido, sonido malo, decoloracin, etc. Esto ocurre cuando el vdeo se codifica con un tasa de
bit insuficiente, y por lo tanto el codificador se ve forzado a usar altos cuantificadores a nivel de
fotograma travs de gran parte del vdeo.

19
Codificacin entrpica

Varios pasos en la codificacin de vdeo con formato MPEG-1 son sin prdidas, lo que significa que
en la descodificacin se reproducen exactamente los mismos valores que los originales. Dado que
estos pasos de compresin de datos sin prdidas no aaden ruido a veces se le denomina
codificacin sin ruido. Dado que la compresin sin prdidas se propone suprimir tanta redundancia
como sea posible, se conoce como codificacin entrpica en el campo de la teora de la
informacin.
El bloque DCT tiende a tener las frecuencias ms importantes hacia la esquina superior izquierda.
Los coeficientes tienden a cero hacia la parte inferior derecha. La mxima compresin se puede
alcanzar mediante un escaneo en zig-zag del bloque DCT empezando por la esquina superior
izquierda y utilizando las tcnicas de codificacin Run-length. Los coeficientes DC y los vectores
de movimiento se codifican con DPCM.
La codificacin Run-length (RLE) es un mtodo muy simple de repeticin de la compresin. Una
cadena secuencial de caracteres, no importa su duracin en tiempo, pueden ser sustituidos por unos
pocos octetos, teniendo en cuenta el valor que se repite, y cuntas veces se repite. Por ejemplo, si
alguien dijera cinco nueves, usted sabe que significa el nmero 99999.
La codificacin RLE es particularmente eficaz despus de la cuantificacin, porque un nmero
significativo de los coeficientes AC son cero, y se pueden representar con slo un par de octetos.
Esto se almacena en una tabla Huffman de dos dimensiones que codifica el carcter run-length y el
carcter run-ending.
La codificacin Huffman es un mtodo muy popular de la codificacin entrpica, y se utiliza en el
vdeo con formato MPEG-1 para reducir el tamao de los datos. Los datos se analizan para
encontrar que cadenas se repiten a menudo. A continuacin estas cadenas se ponen en una tabla
especial, con los datos que se repiten con mayor frecuencia asignndole el cdigo ms corto. Esto
mantiene los datos con el menor tamao con esta forma de compresin. Una vez que se ha
construido la tabla, estas cadenas de datos son reemplazadas por sus cdigos mucho ms pequeos,
con la referencia de la apropiada entrada en la tabla. Simplemente el descodificador invierte este
proceso para reproducir los datos originales. Este es el paso final en el proceso de codificacin de
vdeo.
Configuraciones del GOP para determinadas aplicaciones

Las I-frames almacenan la informacin completa del fotograma y por lo tanto son adecuadas para el
empleo de las bsquedas con acceso aleatorio. Las P-frames suministran la compresin usando los
vectores de movimiento en relacin con el fotograma anterior (I o P). Las B-frames proporcionan
compresin mxima pero requieren para la computacin el fotograma anterior y el fotograma
siguiente. Por lo tanto el procesado de las B-frames requiere ms bffer en el lado de la
descodificacin. Se debe seleccionar una configuracin del GOP(Group Of Pictures) sobre la base
de estos factores. Solo la secuencia de las I-frames da menos compresin, pero es til para el acceso
aleatorio, la funcionalidad FF/FR y la capacidad de edicin. Las secuencias de las I-frame y las Pframe dan una compresin moderada y un cierto grado de acceso aleatorio y la funcionalidad
FF/FR. Las secuencias de I, P y B-frames dan una compresin muy alta, pero tambin aumenta el
retardo de la codificacin/descodificacin de forma significativa. Por lo tanto estas configuraciones
no son apropiadas para las aplicaciones de vdeo-telefona o vdeo-conferencia.
La velocidad normal de una I-frame es de 1 bit por pxel mientras que la de una P-frame es de 0,1
bits por pxel y el de un B-frame, 0.015 bits por pxel.
Estas tasas de muestreo son exactamente la mitad de las inicialmente definidas para MPEG-1

20
Audio. Fueron introducidos para mantener la mayor calidad de sonido cuando se codifica audio en
tasas de bits ms bajas. Las tasas de bits an ms bajas fueron introducidas porque las pruebas
mostraron que MPEG-1 Audio podra proporcionar una mayor calidad que los codificadores
existentes con tasas de bits muy bajas.

2.6. Formato MPEG-2


MPEG-2 es un formato estndar para el cdigo genrico de informacin de imgenes en
movimiento y el audio asociado. Describe una combinacin de mtodos de compresin de vdeo y
audio con prdida que permiten el almacenamiento y la transmisin de pelculas usando
normalmente el ancho de banda disponible para su almacenamiento y su transmisin. MPEG-2 se
usa ampliamente como el formato de las seales de televisin digital que son transmitidas mediante
sistemas terrestres, por cable o por satlite. Tambin especifica el formato de las pelculas y otros
programas que se distribuyen mediante DVD y discos similares. As las estaciones de TV, los
receptores de TV, los reproductores de DVD y otros equipos se disean a menudo para este formato.
El formato MPEG-2 fue el segundo de los estndares desarrollados por el MPEG (Moving Pictures
Expert Group) y es el estndar internacional ISO/IEC 13818. Las partes 1 y 2 de MPEG-2 fueron
desarrolladas en colaboracin con ITU-T.
El documento con las especificaciones del formato MPEG-2 incluye una parte 1, Sistemas, que
define dos formatos de contenedor que estn relacionados entre si. Uno es el Transport Stream,
diseado para transportar vdeo y audio sobre medios con prdidas. El otro es el Program Stream,
un formato de contenedor diseado para una transmisin con fiabilidad razonable como los discos
pticos, los DVDs y los SVCDs.
La parte 2, vdeo, del documento es similar al formato estndar MPEG-1, pero ahora suministra
vdeo entrelazado, que es el formato usado por los sistemas de TV analgicos. El vdeo con el
formato MPEG-2 no est optimizado para bajas velocidades, es decir, hasta 1 Mbps no es mejor que
el MPEG-1. Sin embargo si lo es a 3 Mbps y superiores. Todos los descodificadores que cumplen el
estndar MPEG-2 Video son capaces de descodificar el MPEG-1 Video.
Con algunas mejoras, el vdeo y los sistemas MPEG-2 Video tambin se usan en algunos sistemas
de transmisin HDTV.
La parte 3, Audio, mejora el audio del formato MPEG-1 ya que permite la codificacin de los
programas de audio con ms de dos canales. Este mtodo es compatible con los descodificadores de
audio de MPEG-1.
Codificacin de vdeo

Una cmara HDTV genera un flujo de bits a una velocidad superior a 1 Mbps. Este flujo debe ser
comprimido para que no sea necesario este ancho de banda, y en consecuencia sea menos costoso
econmicamente. Las cmaras de TV usan normalmente para transmitir 50 fotogramas por segundo
en Europe o 59,94 fotogramas por segundo en Norteamrica. La televisin digital requiere que se
digitalicen estos fotogramas de forma que se pueden procesar en un ordenador. A continuacin cada
elemento del fotograma, es decir, un pxel, se representa por un nmero que corresponde a la
luminancia y por dos nmeros de crominancia. La crominancia describe el brillo y el color del
pxel. As cada fotograma digitalizado se puede representar inicialmente por tres matrices
rectangulares de valores.
Un truco comn para reducir la cantidad de datos es separar la imagen en dos campos: la parte
superior, que son las filas impares, y la parte inferior, que son las filas pares. Los dos campos se
visualizan de forma alterna. Esto se conoce como vdeo entrelazado. El fotograma estar compuesto
por el conjunto de estos campos entrelazados. La velocidad de visualizacin de los fotogramas es de

21
25 o 29,97 fotogramas por segundo. Si el vdeo no es entrelazado, entonces se dice que es vdeo
progresivo y cada imagen es un fotograma. El formato MPEG-2 soporta ambas opciones.
Otro truco para reducir la cantidad de datos es adelgazar las dos matrices de crominancia. En efecto,
los valores de crominancia restantes representan los valores de las inmediaciones que se eliminan.
El adelgazamiento funciona porque el ojo es ms sensible al brillo que al color. El formato de
crominancia 4:2:2 indica que la mitad de los valores de crominancia se han suprimido. El formato
de crominancia 4:2:0 indica que tres cuartas partes de los valores de crominancia se han suprimido.
Si ningn valor de crominancia se ha suprimido, el formato de crominancia es 4:4:4. El formato
MPEG-2 permite las tres opciones.
Como se ha detallado cuando se ha explicado el formato MPEG-1. El MPEG-2 tambin tiene los
tres tipos de fotogramas bsicos: I-frames, P-frames 0y B-frames, que funcionan de la misma
forma. As I-frame es una versin comprimida de un fotograma nico sin compresin.
En cuanto a la compresin, se utiliza tambin la transformada DCT, la cuantificacin y la
codificacin entrpica.
Codificacin de audio

MPEG-2 tambin introduce nuevos mtodos de codificacin de audio. Estos son

La codificacin con una tasa de bit baja y con tasa de muestreo a la mitad (MPEG-1 Layer
1/2/3 LSF)

La codificacin multicanal con hasta 5.1 canales

MPEG-2 AAC

Perfiles y niveles

El formato MPEG-2 soporta una amplia gama de aplicaciones desde mviles hasta la edicin HD de
alta calidad. Para muchas aplicaciones, es poco realista y demasiado caro soportar el estndar
completo. Para permitir que estas aplicaciones slo soporten subconjuntos del estndar, define los
perfiles y los niveles.
El perfil define el subconjunto de caractersticas que soporta tales como el algoritmo de
compresin, el formato de crominancia, etc. El nivel define el subconjunto de capacidades
cuantitativas, tales como la tasa de bits mxima, el tamao mximo de fotograma, etc
Una aplicacin MPEG debe especificar que perfiles y niveles soporta. La tabla siguiente resume las
limitaciones de cada perfil y cada nivel.

Abrev.
LL
ML
H-14
HL

Nombre
Low Level
Main Level
High 1440
High Level

pxel/linea
352
720
1440
1920

Lineas
288
576
1152
1152

Tasa de
fotograma
(Hz)
30
30
30
30

Tasa de bit
(Mbit/s)

Aplicaciones

El estndar DVD usa el formato de vdeo MPEG-2, pero con las restricciones siguientes:

4
15
60
80

22

Resoluciones permitidas
720 480, 704 480, 352 480, 352 240 pxel (NTSC)
720 576, 704 576, 352 576, 352 288 pxel (PAL)
Relaciones de visualizacin permitidas (Display AR): 4:3, 16:9, las 1.85:1 y 2.35:1
Tasas de fotograma permitidas: 29.97 fotogramas/seg (NTSC) y 25 fotogramas/seg (PAL)
Tasas de bit
Mxima de vdeo 9.8 Mbps
Mxima total 10.08 Mbps
Mnimo 300 kbps
YUV 4:2:0
Subttulos adicionales posibles
Audio: Linear Pulse Code Modulation (LPCM): 48 kHz o 96 kHz; 16- o 24-bit; hasta 6
canales
MPEG Layer 2 (MP2): 48 kHz, hasta 5.1 canales
Dolby Digital (DD, tambin conocido como AC-3): 48 kHz, 32448 kbit/s, hasta 5.1 canales
Digital Theater Systems (DTS): 754 kbps o 1510 kbps
Los DVDs NTSC deben contener al menos una pista de audio LPCM o Dolby Digital.
Los DVDs PAL deben contener al menos una pista de audio MPEG Layer 2, LPCM, o
Dolby Digital.
Los reproductores no requieren playback de audio con ms de 2 canales, pero pueden
mezclar audio multicanal de 2 canales.
Estructura GOP: La cabecera de secuencia debe estar al principio de cada GOP
Fotogramas mximas por GOP: 18 (NTSC) / 15 (PAL)

En el estndar DVB, las restricciones relativas a la aplicacin en el caso del formato de vdeo
MPEG-2 son:
Las resoluciones permitidas para SDTV son:

720, 640, 544, 480 or 352 480 pxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/seg.
352 240 pxel, 24/1.001, 24, 30/1.001 o 30 fotogramas/seg.
720, 704, 544, 480 or 352 576 pxel, 25 fotograma/seg.
352 288 pxel, 25 fotograma/seg.

Para HDTV:

720 x 576 x 50 fotogramas/seg progresivo (576p50)


1280 x 720 x 25 or 50 fotogramas/seg progresivo (720p50)
1440 or 1920 x 1080 x 25 fotogramas/seg progresivo (1080p25)
1440 or 1920 x 1080 x 25 fotogramas/seg entrelazado (1080i25)
1920 x 1080 x 50 fotogramas/seg progresivo (1080p50)

2.7. Formato MPEG-4


El formato MPEG-4 es una versin mejorada del formato MPEG-2. Se introdujo a finales de 1998 y
este estndar fue diseado por el grupo MPEG bajo el nombre de ISO/IEC 14496.
El formato MPEG-4 toma muchas de las caractersticas de MPEG-1 y MPEG-2 y otros estndares
relacionados, aadiendo nuevas caractersticas, tales como el soporte VRML para rendering 3D,
ficheros compuestos orientado a objetos (incluidos objetos de audio, vdeo y VRML), soporte para
la gestin de derechos digitales y diversos tipos de interactividad.
La mayora de las caractersticas incluidas en el formato MPEG-4 son dejadas a los desarrolladores
individuales para decidir si las implementan. Esto significa que probablemente no hay ninguna

23
implementacin completa de la especificacin MPEG-4 con todo el conjunto de normas. Para hacer
frente a esto y lo mismo que sucede con el formato MPEG-2, el estndar MPEG-4 incluye el
concepto de perfiles y niveles, lo que permite definir un conjunto especfico de capacidades de una
manera apropiada para un subconjunto de aplicaciones.
Inicialmente el formato MPEG-4 fue dirigido principalmente a las comunicaciones de vdeo de baja
velocidad. Sin embargo su mbito como estndar que es de codificacin multimedia se ampli ms
tarde. El formato MPEG-4 ofrece las siguientes funcionalidades:

Mejora de la eficiencia de la codificacin

Posibilidad de codificar datos mezclados de vdeo, audio y voz

Error de resiliencia que permite una transmisin robusta

Posibilidad de interactuar con la escena audiovisual generada en el receptor

2.7.1.Visin general
El formato MPEG-4 suministra una serie de tecnologas para los desarrolladores, los proveedores de
servicios y los usuarios finales:
MPEG-4 permite a los diferentes desarrolladores de programas crear objetos multimedia que
poseen una mejor capacidad de adaptabilidad y de flexibilidad para mejorar la calidad de
dichos servicios y tecnologas como la televisin digital, los grficos de animacin, las
webs y sus extensiones. Este estndar permite a los desarrolladores un mejor control de su
contenido y luchar ms eficazmente contra violacines de los derechos de autor.
Los proveedores de servicios pueden utilizar el formato MPEG-4 para la transparencia de
sus datos. Con la ayuda de los procedimientos estndar, los datos en formato MPEG-4 se
pueden interpretar y transformar en otros tipos de seales compatibles con cualquier red
disponible.
El formato MPEG-4 proporciona a los usuarios finales una amplia gama de interaccin con
diferentes objetos animados.
La sealizacin de la gestin estandarizada de los derechos digitales, tambin conocido en la
comunidad MPEG como IPMP (Intellectual Property Management and Protection).
El formato MPEG-4 puede realizar varias funciones, entre las que podemos destacar las siguientes:

Multiplexa y sincroniza los datos de vdeo y audio, asociados con los objetos de los medios
de comunicacin, de tal manera que puedan ser transportados ms eficientemente a travs de
canales de la red.
La interaccin con la escena audiovisual, que se forma en el lado del receptor.

2.7.2.Perfiles y niveles
El formato MPEG-4 ofrece un conjunto amplio de herramientas para la codificacin. Los
subconjuntos de las herramientas de MPEG-4 se han previsto para su uso en determinadas
aplicaciones. Estos subconjuntos, denominados perfiles, limitan el tamao de la herramienta de
forma que el descodificador solo implementa lo que requiere. A fin de limitar la complejidad
computacional, se establecen uno o varios niveles por cada perfil. Un perfil y una combinacin de
niveles permite que:

Un codificador solo implemente el subconjunto del estndar que necesita, mientras mantiene
la interconexin con otros dispositivos MPEG-4 que implementan la misma combinacin.
La comprobacin de que los dispositivos MPEG-4 cumplen con el estndar, denominado
prueba de conformidad.

24

2.8. Formato WMV


Windows Media Video (WMV) es un formato de fichero de vdeo comprimido propietario
desarrollado por Microsoft. El cdec original, conocido como WMV, fue originalmente diseado
para aplicaciones de streaming de Internet, como un competidor del formato RealVideo. Los otros
codecs, como los WMV Screen y WMV Image, atienden a contenidos especializados.
La versin 9 del formato utilizado por Microsoft fue remitida a la SMPTE (Society Motion Picture
and Televisin Engineers) para su aprobacin como estndar, bajo el nombre en clave VC-1. Este
cdec es tambin utilizado en la distribucin de vdeo de alta definicin sobre DVD estndar en un
formato que Microsoft ha denominado WMV HD, el cual puede ser reproducido tanto en
ordenadores como en reproductores de sobremesa.

2.8.1.Formato del contenedor


Un fichero WMV se encapsula en general en un contenedor ASF (Advanced Systems Format).
Normalmente la extensin de fichero .wmv describe los ficheros ASF que usan los codecs de
Windows Media Video. El codec de audio usado junto con Windows Media Video es normalmente
alguna versin del Windows Media Audio, o en raros casos, el cdec de audio obsoleto Sipro
ACELP.net. Microsoft recomienda que los ficheros ASF que no son Windows Media, usen la
extensin de fichero .asf.
El contenedor ASF puede opcionalmente soportar la gestin de los derechos digitales utilizando una
combinacin de un intercambio de claves de criptografa de curva elptica, el cifrado en bloque
DES, un cifrado de bloques personalizado, el cifrado RC4 y la funcin de hashing SHA-1.
Aunque el formaro WMV es generalmente empaquetado en el contenedor ASF, tambin se puede
poner en formato AVI o en el contenedor Matroska. Los ficheros resultantes tendrn las
extensiones .avi o .mkv respectivamente. El formato WMV se pueden almacenar en un fichero AVI
cuando se utiliza la implementacin del cdec VCM (WMV 9 Video Compression Manager). Otra
forma comn para almacenar WMV en un fichero AVI es utilizar el codificador VirtualDub.

2.8.2.Cdec Windows Media Video


Windows Media Video (WMV) es el cdec ms reconocido dentro de la familia WMV. El uso del
trmino WMV se refiere a menudo solamente a este cdec. Sus principales competidores son
MPEG-4 AVC, AVS, RealVideo, DivX y Xvid. La primera versin del cdec, la WMV 7, se liber
en 1999, y se construy de acuerdo con la implementacin de la Parte 2 del formato MPEG-4.
Siguiendo con su desarrollo propietario, se liberaron nuevas versiones del cdec, pero la sintaxis del
flujo de bits no fue congelado hasta la versin WMV 9. Mientras todas las versiones de WMV
soportan la tasa de bits variable, la tasa de bits media y la tasa de bits constante, la versin WMV 9
introdujo varias caractersticas importantes como la inclusin de soporte nativo para el vdeo
entrelazado, los pixels no cuadrados, y la interpolacin de los fotogramas. Tambin el WMV 9
introdujo un nuevo perfil llamado Windows Media Video 9 Professional, que se activa
automticamente cada vez que la resolucin de vdeo excede los 300.000 pixels, por ejemplo,
528x576, 640480 o 768x432 y la tasa de bits de 1000 kbps. Su objetivo es que el contenido del
vdeo de alta definicin alcance resoluciones de 720p y 1080p.
Los niveles de perfil Simple y Main del formato WMV 9 cumplen con los mismos niveles de perfil
de la especificacin CV-1. El perfil Advanced en VC-1 est implementado en un nuevo cdec
llamado WMV Windows Media Video 9 Advanced Profile. Mejora la eficiencia de compresin con
contenido entrelazado y se hace independiente del transporte, lo que permite que sea capaz de ser
encapsulado en un flujo de transporte MPEG o en el formato de paquetes RTP. Sin embargo el

25
cdec no es compatible con los codecs anteriores al WMV 9.

2.8.3.Cdec Windows Media Video Screen


Windows Media Video Screen (Pantalla WMV) es un cdec que puede capturar contenido de la
pantalla en vivo, y convertir el vdeo de la pantalla mediante el uso de programas de terceros en
ficheros WMV 9 Screen. Funciona mejor cuando el material de origen es principalmente esttico y
contiene una paleta pequea de colores. Dependiendo de la complejidad del material de origen, el
cdec puede conmutar entre la codificacin con prdidas y sin prdidas para mejorar la eficiencia
de la compresin.
La primera versin del cdec fue la WMV 7 Screen, y la versin actual la WMV 9 Screen, que
soporta codificacin VBR, adems de CBR.

2.8.4.Cdec Windows Media Video Image


Windows Media Video Image es un cdec de presentacin de diapositivas a vdeo. El cdec trabaja
por la aplicacin de los efectos de tiempo, movimiento y transicin a una serie de imgenes durante
la reproduccin. El cdec logra una ms alta relacin de compresin y calidad de imagen que el
WMV 9 para imgenes fijas como los ficheros codificados con imgenes estticas almacenadas con
WMV Image en lugar de vdeo de movimiento completo.
Dado que el cdec se basa en el descodificador para generar los fotogramas de vdeo en tiempo real,
la reproduccin de los ficheros WMV Image incluso a resoluciones moderadas, por ejemplo, 30
fotogramas por segundo con una resolucin de 1024 768, requiere mucho procesamiento de la
computadora. La ltima versin del cdec WMV 9,1 Image utilizado por Photo Story 3, cuenta con
efectos de transformacin adicionales, pero no es compatible con el cdec original WMV 9 Image.

2.8.5. Calidad de vdeo


Microsoft dice que el formato WMV 9 establece una relacin de compresin que es dos veces mejor
que la del formato MPEG-4 y tres veces mejor que el formato MPEG-2; tambin dice que el
formato WMV 9 es de 15-50% mejor que WMV 8 en trminos de eficiencia de compresin. Sin
embargo un informe del ensayo publicado en Enero de 2005 demostr que el WMV 9 tena una
peor eficiencia de compresin que el WMV 8. Muchos compiladores WMV de terceros han tenido
peor rendimiento que Windows Movie Maker.

2.9. Formato H.261


El formato H.261 es un estndar de codificacin de vdeo de la ITU (International
Telecommunication Union) (http://www.itu.int) del ao 1990, diseado originalmente para la
transmisin a travs de lneas RDSI en el que las velocidades de transmisin son mltiplos de 64
kbps. Es un miembro de la familia H.26x de los estndares de codificacin de vdeo en el dominio
del VCEG (Video Coding Experts Group) de la ITU. El algoritmo de codificacin fue diseado para
poder operar a velocidades de vdeo de 40 kbps y 2 Mbps. El estndar soporta dos tamaos de
fotograma de vdeo: CIF (352x288 luminancia con 176x144 crominancia) y QCIF (176x144
luminancia con 88x72 crominancia) utilizando un sistema de muestreo 4:2:0.

2.9.1.Historia
Mientras que el formato H.261 fue precedido en 1984 por el H.120 como un estndar de
codificacin de vdeo digital, el H.261 fue el primer estndar de codificacin de vdeo digital

26
verdaderamente prctico. De hecho todos los estndares internacionales posteriores de codificacin
de vdeo como los MPEG-1 Parte 2, H.262/MPEG-2 Part 2, H.263, MPEG-4 Parte 2, y
H.264/MPEG-4 parte 10, se han basado en el diseo del H.261. Adems los mtodos utilizados por
el comit de desarrollo del H.261 han permanecido en el proceso bsico de operacin para el trabajo
de estandarizacin subsiguiente. El algoritmo de codificacin utiliza un hbrido de la prediccin de
la compensacin del movimiento entre imgenes y la codificacin de la transformacin espacial con
cuantificacin escalar, escaneo en zig-zag y codificacin entrpica.

2.9.2.Diseo
La unidad bsica de procesamiento del diseo se llama macrobloque, y el formato H.261 fue el
primer estndar en el que apareci el concepto de macrobloque. Cada macrobloque consiste en una
matriz de muestras de luminancia de 16x16 pixels y las dos matrices correspondientes de las
muestras de crominancia de 8x8 pixels, utilizando un muestreo de 4:2:0 y un espacio de color
YCbCr.
La prediccin inter-fotograma reduce la redundancia temporal con los vectores de movimiento
usados que ayudan al cdec a compensar el movimiento. Mientras que slo los vectores de
movimiento con valores enteros son compatibles con el H.261, se puede aplicar un filtro de
desenfoque a la seal de prediccin, mitigando parcialmente la falta de precisin del vector de
movimiento de la muestra fraccional. La codificacin de transformacin DCT (Discrete Cosine
Transform) con 8x8 pixels reduce la redundancia espacial. A continuacin se aplica la
cuantificacin escalar para redondear los coeficientes de la transformacin a la precisin adecuada
fijada por un parmetro de control de tamao del paso y los coeficientes de la transformacin
cuantificada son escaneados en zig-zag y codificados entropicamente para eliminar la redundancia
estadstica.
Actualmente el estndar H.261 slo especifica como descodificar el vdeo. Los diseadores del
codificador tienen libertad para disear sus propios algoritmos de codificacin, siempre y cuando su
salida se restringiera adecuadamente para permitir que pueda ser decodificado por cualquier
decodificador de acuerdo con el estndar. Los codificadores son tambin libres para realizar
cualquier tratamiento previo que quieran a su vdeo de entrada, y los descodificadores estn
autorizados a realizar cualquier procesamiento posterior. Una de las tcnicas efectivas de procesado
posterior que se convirti en un elemento clave de los mejores sistemas basados en H.261 se llama
filtrado de desbloqueo. Esto reduce la aparicin de errores molestos en forma de bloques
producidos por la compensacin del movimiento basado en el bloque y las partes de transformacin
espacial del diseo. De hecho, estos errores son probablemente un fenmeno familiar para casi
todos los que han visto el vdeo digital. El filtrado de desbloqueo se ha convertido en una parte
integral del estndar ms reciente el H.264.
Las mejoras de diseo introducidas en la ltima estandarizacin se han traducido en mejoras
significativas en la capacidad de compresin en relacin con el diseo del H.261.Esto ha hecho que
el H.261 sea esencialmente obsoleto, aunque todava se utiliza como un modo de compatibilidad
hacia atrs en algunos sistemas de videoconferencia y para algunos tipos de vdeo de Internet. Sin
embargo el formato H.261 sigue siendo un hito histrico fundamental en el desarrollo del campo de
la codificacin de vdeo.

2.10.

Formato H.262

El formato H.262 es una compresin de vdeo digital y una codificacin estndar desarrollada y
mantenida conjuntamente por el VCEG de la ITU y el MPEG del ISO/IEC. Se trata de la segunda
parte del estndar MPEG-2 de la ISO/IEC. Los documentos de la Recomendacin H.262 de la UIT-

27
T y el ISO / IEC 13818-2 son idnticos.

2.11.

Formato H.263

El formato H.263 es un cdec de vdeo estndar diseado originalmente como un formato de


compresin con una tasa baja de bits para videoconferencias. Ha sido desarrollado por la VCEG de
la ITU en un proyecto que termin en los aos 1995/1996 como uno de los miembros de la familia
H.26x de los estndares de codificacin de vdeo en el dominio de la ITU.
El formato H.263 ha encontrado muchas aplicaciones en Internet, as gran parte del contenido de
Flash Video suele ser codificado en formato Sorenson Spark, una aplicacin incompleta de H.263,
aunque muchos sitios utilizan ahora VP6 o codificacin H.264. La versin original del cdec
RealVideo se basa en H.263 hasta la liberacin de RealVideo 8.
El formato H.263 fue desarrollado como una mejora evolutiva basada en la experiencia del formato
H.261, el estndar anterior de la ITU para la compresin de vdeo, y de los estndares MPEG-1 y
MPEG-2. Su primera versin se termin en el ao 1995 y proporcionaba un sustituto adecuado para
el H.261 a cualquier velocidad. Se mejor an ms en los proyectos conocidos como H.263v2 y
H.263v3.

2.12.

Formato H.264

El formato H.264 es un estndar para la compresin de vdeo, cuyo borrador final en la primera
versin del estndar se complet en Mayo del 2003.
El cdec H.264/AVC es el ltimo orientado al bloque y basado en la compensacin del movimiento
desarrollado por el VCEG (Video Coding Experts Group) de la ITU, junto con el MPEG (Moving
Picture Experts Group) de ISO/IEC. El formato H.264 de la ITU y el formato MPEG-4 AVC de la
ISO/ IEC son gestionados de forma conjunta para que tengan un contenido tcnico idntico.

2.12.1.

Visin general

La intencin del formato H.264/AVC fue crear un estndar capaz de proporcionar buena calidad de
vdeo con tasas de bits sustancialmente ms bajas que los estndares anteriores, por ejemplo, la
mitad o menos que la tasa de bits de vdeo MPEG-2, H.263 o MPEG-4, esto sin aumentar la
complejidad del diseo de tal manera que sera poco prctico o demasiado costoso su
implementacin. Un objetivo adicional es proporcionar la suficiente flexibilidad para que el formato
H.264 se aplique a una amplia variedad de aplicaciones en una amplia variedad de redes y sistemas,
incluyendo las tasas de bits bajas y altas, la resolucin de vdeo alta y baja, la difusin, el
almacenamiento DVD, las redes de paquetes RTP/IP, y los sistemas de telefona multimedia de la
ITU.
El formato H.264 es una familia de estndares basado en perfiles, cuya filosofa es similar a los
formatos de versiones anteriores. Un decodificador especfico es para utilizarlo con uno o ms
perfiles, pero no necesariamente todos. La especificacin del descodificador describe cuales de los
perfiles estn implementados.
La primera versin del formato H.264/AVC fue completado en Mayo de 2003. A continuacin se
desarrollaron las extensiones que se conocen como las Fidelity Range Extensions (FRExt). Estas
extensiones permiten una mayor calidad de vdeo con la codificacin, con una mayor profundidad
de bits de la muestra y de una mayor resolucin de la informacin del color, incluyendo estructuras
de muestreo conocidas como YUV 4:2:2 y YUV 4:4:4. Tambin se incluyen otras caractersticas
tales como la conmutacin adaptativa entre las transformaciones de los enteros 4x4 y 8x8 pixels, las

28
matrices de ponderacin con cuantificacin basada en la percepcin y especificada en el
codificador, la eficiente codificacin sin prdidas y con la interrelacin de la imagen, y el soporte de
espacios adicionales de color. El trabajo de diseo de las Fidelity Range Extensions se complet en
Julio del 2004, y el borrador se complet en Septiembre de 2004.
Con posteridad se han aadido cinco nuevos perfiles destinados principalmente para las
aplicaciones profesionales. Se aade soporte del espacio de color con gama ampliada, se definen
indicadores adicionales de la relacin de aspecto, se definen dos tipos adicionales de informacin
suplementaria mejorada.
La codificacin SVC (Scalable Video Coding) como se especifica en el anexo G del formato H.264/
AVC permite la construccin de la secuencia de bits que contiene una subsecuencia de bits que se
ajusta al formato H.264/AVC. Para la escalabilidad temporal de la secuencia de bits, es decir, la
presencia de una subsecuencia de bits con una tasa de muestreo temporal ms pequea que el flujo
de bits, las unidades de acceso completas se eliminan del flujo de bits cuando se deriva la
subsecuencia de bits. En este caso, la sintaxis de alto nivel y las imgenes de referencia interprediccin en la secuencia de bits se construyen de acuerdo con ello. Para la escalabilidad espacial y
la cualidad del flujo de bits, es decir, la presencia de una subsecuencia de bits con una resolucin
espacial ms baja o la calidad que el flujo de bits, el NAL (Network Abstraction Layer) elimina del
flujo de bits cuando se deriva la subsecuencia de bits. En este caso, la prediccin dentro de la capa,
es decir, la prediccin de la resolucin espacial ms alta o la seal de calidad por los datos de la
resolucin espacial ms baja o la seal de calidad, normalmente es utilizada para la codificacin
eficiente. La extensin SVC (Scalable Video Coding) se complet en Noviembre de 2007.

2.12.2.

Caractersticas

La parte 10 del formato H.264 contiene una serie de nuevas caractersticas que le permiten
comprimir el vdeo de forma mucho ms eficaz que los antiguos formatos y proporcionan una
mayor flexibilidad para su aplicacin en una amplia variedad de entornos de red. Las principales
caractersticas son:

La prediccin multi-imagen inter-imagen incluye las caractersticas siguientes:

Uso de imgenes previamente codificadas como referencias de una manera mucho


ms flexible que en los formatos anteriores, permitiendo hasta 16 fotogramas de
referencia o 32 campos de referencia en el caso de la codificacin entrelazada. Esto
est en contraste con los formatos anteriores, donde normalmente el lmite era uno; o,
en el caso de las B-frames eran dos. Esta caracterstica permite en general modestas
mejoras en la tasa de bits y de calidad en la mayora de las escenas. Pero en ciertos
tipos de escenas, tales como aquellas con los movimientos repetitivos o escenas hacia
atrs y hacia adelante que cortan o descubren reas de fondo, permite una reduccin
significativa en la tasa de bits manteniendo la claridad.

La compensacin VBSMC (Variable block-size motion compensation) con tamaos


de bloque tan grandes como 16x16 pixels y tan pequeos como 4x4 pixels, permiten
la segmentacin precisa de regiones en movimiento. Los tamaos de bloque
soportados de prediccin de luminancia incluyen 16x16, 16x8, 8x16, 8x8, 8x4, 4x8 y
4x4 pixels, muchos de los cuales se pueden utilizar juntos en un macrobloque nico.
Los tamaos de bloque de la prediccin de crominancia son proporcionalmente
menores segn el submuestreo de crominancia usado.

La capacidad de usar mltiples vectores de movimiento por macrobloque, uno o dos


por particin, con un mximo de 32 en el caso de un B-frame construido con 16
particiones de 4x4 pixels.

29

La capacidad de utilizar cualquier tipo de macrobloque en las B-frames, incluyendo


las I-frames, permite una codificacin mucho ms eficiente que cuando se utiliza
solo las B-frames.

La precisin de un cuarto de pxel para la compensacin del movimiento, permite la


precisa descripcin de los desplazamientos de las zonas en movimiento. Para la
crominancia, normalmente la resolucin suele reducirse a la mitad tanto vertical
como horizontalmente, por lo que la compensacin de movimiento de la crominancia
utiliza unidades de un octavo de pxel.

La prediccin ponderada, que permite a un codificador especificar el uso de una


escala y el offset cuando se realiza la compensacin de movimiento, y proporciona
un beneficio significativo en el rendimiento en casos especiales tales como las
transiciones de fade a negro, de fade-in, y de crossfade. Esto incluye la prediccin
ponderada implcita de B-frames, y la prediccin ponderada explcita para P-frames.

La prediccin espacial de los bordes de los bloques vecinos para la codificacin interna, en
lugar de la prediccin solo DC encontrada en el formato MPEG-2 y la prediccin del
coeficiente de transformacin encontrado en H.263v2 y MPEG-4. Esto incluye los tamaos
del bloque de prediccin de luminancia de 16x16, 8x8, y 4x4 pixels, de los cuales slo un
tipo puede ser utilizado dentro de cada macrobloque.

Las caractersticas de la codificacin del macrobloque sin prdidas incluyen:

Un modo de representacin de un macrobloque PCM sin prdidas en que las


muestras de datos de vdeo estn representadas directamente, permitiedo la
representacin perfecta de determinadas regiones y permitiendo un lmite estricto a
ser puestos en la cantidad de datos codificados de cada macrobloque.

Un modo mejorado de representacin del macrobloque sin prdidas permitiendo la


representacin perfecta de determinadas regiones mientras se usa normalmente pocos
bits menos que el modo PCM.

Las caractersticas de la codificacin flexible de vdeo de escaneo entrelazado incluyen:

La codificacin MBAFF (Macroblock-adaptive frame-field), empleando una


estructura par de macrobloque para las imgenes codificadas como fotogramas,
permitiendo macrobloques de 16x16 pixels en modo campo, en comparacin con los
macrobloques de 16x8 pixels en MPEG-2.

La codificacin PAFF o PicAFF (Picture-adaptive frame-field) permite una mezcla


libremente elegida de imgenes codificadas como fotogramas MBAFF con imgenes
codificadas como campos nicos individuales de vdeo entrelazado.

Las nuevas caractersticas del diseo de transformacin incluyen:

Una transformacin del bloque espacial de 4x4 pixels con una concordancia exacta,
lo que permite la colocacin precisa de las seales residuales con poco error. Esto es
conceptualmente similar al diseo del DCT pero simplificado y hecho para
proporcionar exactamente la descodificacin especificada.

Una transformacin del bloque espacial de 8x8 pixels con una concordancia exacta,
lo que permite que las regiones altamente correlacionados se compriman ms
eficientemente que con la transformacin 4x4. Esto es conceptualmente similar al
diseo del DCT pero simplificado y hecho para proporcionar exactamente la
descodificacin especificada.

Seleccin del codificador de adaptacin entre el tamao de los bloques de

30
transformacin de 4x4 y 8x8 para la operacin de transformacin el entero.

Una transformacin Hadamard secundaria realizada con coeficientes DC de la


transformacin espacial primaria aplicada a los coeficientes DC de la crominancia
para obtener an ms compresin en las regiones suaves.

Un diseo de cuantificacin que incluye:


Control logartmico del tamao del paso para facilitar la gestin de la tasa de bits por
los codificadores y amplificar el escalado de la cuantificacin inversa.

Matrices de escalado de la cuantificacin a medida de la frecuencia seleccionadas por


el codificador para la optimizacin de la cuantificacin basada en la percepcin.

Un filtro de desbloqueo in-loop que ayuda a prevenir los errores del bloqueo a otras tcnicas
de compresin de imagen basadas en DCT, resultando una mejor apariencia visual y mayor
eficiencia de compresin.

Un diseo de codificacin entrpica que incluye:

CABAC (Context-adaptive binary arithmetic coding), un algoritmo de compresin


sin prdidas. CABAC comprime los datos de manera ms eficiente que CAVLC pero
requiere ms procesamiento en la descodificacin.

CAVL (Context-adaptive variable-length coding), que es una alternativa de menor


complejidad que el CABAC para la codificacin de los valores de los coeficientes de
la transformacin cuantificada. A pesar de la menor complejidad que CABAC,
CAVLC es ms elaborado y ms eficaz que los mtodos normalmente utilizados para
codificar los coeficientes en otros diseos.

Una tcnica de codificacin simple y de longitud de variable altamente estructurada


para muchos de los elementos de sintaxis no codificadas por CABAC o CAVLC, que
se conoce como la codificacin Exponential-Golomb.

Las caractersticas de la prdida de capacidad incluyen:

Una definicin de NAL (Network Abstraction Layer) que permita la misma sintaxis
de vdeo para ser utilizado en muchos entornos de red. Un concepto de diseo muy
fundamental de H.264 es generar paquetes autocontenidos para eliminar la
duplicacin de la cabecera como en el HEC (Header Extension Code ) de MPEG-4.
Esto se logr desacoplando la informacin relevante para ms de un tramo del flujo.
La especificacin H.264 incluye dos tipos de conjuntos de parmetros: SPS
(Sequence Parameter Set) y PPS (Picture Parameter Set). Un conjunto activo y
secuencial de parmetros (SPS) se mantiene sin cambios en toda una secuencia de
vdeo codificado, y un conjunto activo de parmetros de imagen (PPS) se mantiene
sin cambios dentro de una imagen codificada. Las estructuras del conjunto de
parmetros de secuencia e imagen contienen informacin como el tamao de la
imagen, los modos opcionales de codificacin empleado, y el macrobloque para
cortar el mapa de grupo.

FMO (Flexible Macroblock Ordering), tambin conocido como grupos de corte y


ASO (Arbitrary Slice Ordering), que son tcnicas para la reestructuracin del orden
de la representacin de las regiones fundamentales (macrobloques) de las imgenes.
Normalmente se considera una caracterstica de la robustez del error/prdidas.

Particionamiento de datos (DP), una caracterstica que ofrece la capacidad de separar


los elementos de sintaxis ms y menos importantes en diferentes paquetes de datos,
permitiendo la aplicacin de la proteccin de error desigual (UEP) y otros tipos de

31
mejora de la robustez de error/prdida.

RS(Redundant slices), una caracterstica de la robustez de error/prdida que permite


que un codificador enve una representacin adicional de una regin de imagen,
normalmente una menor fidelidad, que puede ser utilizado si la representacin
principal est daada o corrupta.

Marco de numeracin, una caracterstica que permite la creacin de subsecuencias,


que permite una escalabilidad temporal mediante la inclusin opcional de imgenes
adicionales entre otras imgenes, y la deteccin y el ocultamiento de las prdidas de
imgenes completas, que puede producirse debido a las prdidas de paquetes de la
red o los errores de canal.

Un proceso automtico simple para la prevencin de la emulacin accidental de los cdigos


de inicio, que son secuencias especiales de bits en los datos codificados que permiten el
acceso aleatorio en el flujo de bits y la recuperacin de la alineacin del octeto en los
sistemas que pueden perder la sincronizacin.

Informacin mejorada suplementaria (SEI) e informacin de la usabilidad del vdeo (VUI),


que es informacin extra que puede ser insertada en el flujo de bits para mejorar el uso del
vdeo para una amplia variedad de fines.

Imgenes auxiliares, que pueden ser utilizadas para fines tales como la composicin alfa.

Soporte de monocromo, submuestreo de crominancia 4:2:0, 4:2:2, y 4:4:4, dependiendo del


modo seleccionado.

Soporte de la precisin de la profundidad del bit de muestreo de 8 a 14 bits por muestra en


funcin del perfil seleccionado.

Contar el orden de las imgenes, una caracterstica que sirve para mantener el orden de las
imgenes y los valores de las muestras en las imgenes descodificadas aisladas de la
informacin de tiempo, permitiendo que la informacin de tiempo sea transportada y
controlada/cambiada por separado por un sistema sin afectar el contenido de la imagen
descodificada.

Estas tcnicas, junto con otras varias, hacen que el H.264 sea mucho mejor que cualquier formato
anterior bajo una amplia variedad de circunstancias en una amplia variedad de entornos de
aplicaciones. A menudo el H.264 puede ser mejor que el MPEG-2 Video. Normalmente se obtiene
la misma calidad a mitad de la tasa de bits o menos, sobre todo en la tasa de bits alta y situaciones
de alta resolucin.

2.12.3.

Perfiles

Un perfil de un cdec es un conjunto de caractersticas de este cdec identificadas para cumplir con
un determinado conjunto de especificaciones de las aplicaciones previstas. Esto significa que
muchas de las caractersticas enumeradas no son compatibles en algunos perfiles. El formato H.264
incluye los siguientes perfiles (profile):

Constrained Baseline Profile (CBP). Perfil usado principalmente para aplicaciones de bajo
coste, como por ejemplo videoconferencias y aplicaciones de mviles. Se corresponde con
el subconjunto de caractersticas que son comunes a los perfiles Baseline, Main y High
descritos a continuacin.

Baseline Profile (BP). Usado principalmente para aplicaciones de bajo coste que requiere
una robustez adicional de error. Este perfil se usa raramente en videoconferencia y
aplicaciones de mviles. Aade herramientas adicionales de capacidad de recuperacin de

32
error. La importancia de este perfil se desvanece despus de haberse definido el CBP
(Constrained Baseline Profile).

Main Profile (MP). Originalmente concebido como el perfil del consumidor general para las
aplicaciones de difusin y almacenamiento, la importancia de este perfil se desvaneci
cuando se desarroll el perfil High para estas aplicaciones.

Extended Profile (XP). Previsto como el perfil de vdeo streaming, tiene una capacidad de
compresin relativamente alta y algunos trucos adicionales para la robustez de las prdidas
de datos y la conmutacin de flujo del servidor.

High Profile (HiP). El perfil principal para las aplicaciones de difusin y almacenamiento en
disco, especialmente para aplicaciones de televisin de alta definicin, Este es el perfil
adoptado en HD DVD y Blu-ray Disc.

High 10 Profile (Hi10P). Este perfil se basa en el perfil High, pero con soporte para hasta 10
bits por muestra de precisin de la imagen descodificada.

High 4:2:2 Profile (Hi422P). Fundamentalmente dirigido a las aplicaciones profesionales de


vdeo que utiliza vdeo entrelazado. Este perfil se basa en el perfil High 10, pero con soporte
para el formato de submuestreo de crominancia 4:2:2 mientras se usan hasta 10 bits por
muestra de precisin de la imagen descodificada.

High 4:4:4 Predictive Profile (Hi444PP). Este perfil se basa en el perfil High 4:2:2, pero con
soporte para el muestreo de crominancia 4:4:4, de hasta 14 bits por muestra, y, adems da
soporte eficiciente a la codificacin regional sin prdidas y a la codificacin de cada imagen
en tres planos de colores distintos.

High Stereo Profile. Este perfil esta dirigido al vdeo 3D estereoscpico y combina las
herramientas del perfil High con capacidad de prediccin inter-vista de la extensin
Multiview Video Coding.

Adems, la norma contiene otros cuatro perfiles 'all-intra', que se definen como subconjuntos
simples de otros perfiles correspondientes, y que en su mayora se usan en las aplicaciones
profesionales, y son:

High 10 Intra Profile.


High 4:2:2 Intra Profile.
High 4:4:4 Intra Profile.
CAVLC 4:4:4 Intra Profile. Se basa en el High 4:4:4 Intra Profile, al que se le aade la
codificacin entrpica CAVLC. No soporta CABAC.

Como resultado de la ampliacin de la codificacin SVC (Scalable Video Coding), este formato
H.264 contiene tres perfiles escalables adicionales, que se definen como una combinacin del perfil
H.264/AVC para el nivel base y que son los siguientes:

Scalable Baseline Profile. Perfil fundamentalmente dirigido a las aplicaciones de


videoconferencia, de mviles y de vigilancia. Se basa en el perfil CBP (Constrained
Baseline Profile), y se le dota de un conjunto de las herramientas para facilitar la
escalabilidad.

Scalable High Profile. Perfil fundamentalmente dirigido a aplicaciones de difusin y


streaming. Se basa en el perfil High.

Scalable High Intra Profile. Fundamentalmente dirigido a las aplicaciones de produccin,


este perfil est restringido al uso 'all-Intra'.

33

2.13.

DivX

DivX es una marca de productos creada por DivX, Inc. que incluye el DivX Cdec que se ha
popularizado debido a su capacidad de comprimir los largos segmentos de vdeo en tamaos
pequeos manteniendo la calidad visual relativamente alta.
Hay dos codecs DivX: el cdec DivX MPEG-4 Parte 2 y el cdec DivX H.264/MPEG-4 AVC. Es
uno de los distintos codecs comnmente asociados con el 'ripping', es decir, la transferencia de
audio y vdeo a un disco duro y codificado.

2.13.1.

DivX Media Format (DMF)

DivX 6 ampli el alcance de DivX de incluir slo un cdec y un reproductor mediante la adicin de
un formato opcional de contenedor llamado DivX Media Format (DMF) con una extensin .divx
que incluye soporte para lel DVD-Video y el contenedor VOB. Este formato de contenedor se
utiliza para el cdec MPEG-4 Parte 2.
Las caractersticas principales del DivX Media Format (DMF) son:

Mens de vdeo interactivos


Mltiples subttulos (XSUB)
Mltiples pistas de audio
Mltiples secuencias de vdeo
Puntos de captulo
Otros metadatos (xTAG)
Mltiples formatos
Compatibilidad parcial con AVI

Este nuevo DivX Media Format", tambin viene con una Certificacin DivX Ultra, y todos los
reproductores con certificado Ultra deben soportar todas las caractersticas DivX Media Format.
Mientras que el vdeo codificado con el cdec DivX es una secuencia de vdeo con formato MPEG4, el DivX Media Format es anlogo a los formatos de contenedores como el QuickTime de Apple.
De la misma manera que los formatos tales como el DVD especifican el vdeo MPEG-2 como parte
de su especificacin, el DivX Media Format especifica el vdeo MPEG-4-compatible como parte de
su especificacin. Sin embargo, a pesar de la utilizacin de el "." en la extensin, este formato es
una extensin del formato AVI. Los mtodos de la inclusin de mltiples pistas de audio y
subttulos implican el almacenamiento de los datos en cabeceras RIFF y otras AVI que se conocen
desde hace bastante tiempo, y que VirtualDubMod an los soporta. DivX, Inc. hizo esto con el
propsito de mantener al menos parcialmente la compatibilidad con AVI, para que los reproductores
que no son soportan las nuevas caractersticas disponibles al formato .divx., como mens
interactivos, puntos de captulos y subttulos XSUB, al menos puedan reproducir el vdeo principal.
Por supuesto, el cdec DivX y las herramientas como el Dr.DivX todava soportan el mtodo
tradicional de creacin de ficheros estndar AVI.

2.13.2.

DivX Plus HD

DivX Plus HD es un nombre comercial de un tipo de fichero que utiliza el formato de conetenedor
Matroska (.mkv) en lugar del formato propietario de DivX Media. Los ficheros DivX Plus HD
contienen una secuencia de vdeo H.264, sonido de audio envolvente AAC y varios accesorios
basados en XML que definen captulos, subttulos y metadatos. Este formato de contenedor
multimedia se utiliza para el cdec H.264/MPEG-4 AVC.

34

2.13.3.

Perfiles DivX

DivX ha definido muchos perfiles, que son conjuntos de caractersticas MPEG-4 segn lo
determinado por DivX. Debido a que la agrupacin es diferente de lo especificado en el estndar
MPEG-4, hay un proceso de certificacin de dispositivos especficos de DivX para fabricantes de
dispositivos. Los perfiles de DivX difieren de los perfiles estandarizados del estndar internacional
ISO / IEC MPEG-4.

2.13.4.

vdeo DivX a la demanda

DivX Video on Demand (VOD DivX) es la versin DivX de gestin de los derechos digitales
(DRM), que permite a los propietarios de contenido el control de la distribucin en un esfuerzo por
frustrar la piratera. DivX, Inc. ha recibido la aprobacin del formato de los grandes estudios de
Hollywood incluyendo Sony, Paramount y Lionsgate, que han permitido a los minoristas vender
contenidos protegidos de vdeos que se reproducirn en en las generaciones actuales y anteriores de
dispositivos certificados DivX.

2.14.

Formato VOB

El formato VOB (Video Object) es un formato contenedor en medios vdeo con DVD. El formato
VOB puede contener vdeo, audio, subttulos y contenido del men, todo multiplexado en un nico
flujo. El formato VOB se basa en el formato MPEG, pero con limitaciones y especificaciones
adicionales en los flujos privados. El formato tiene provisiones para datos no estndar en forma de
flujos privados. Mientras que el formato VOB consta de flujos con formato MPEG, no todos los
flujos MPEG cumplen con el estndar VOB.
El formato VOB puede contener los estndares de vdeo H.262/MPEG-2 Parte 2 o MPEG-1 Parte 2,
y los estndares de audio MPEG-1 Audio Layer II o MPEG-2 Audio Layer II, pero el uso de estos
formatos de compresin en un archivo VOB tiene algunas restricciones en comparacin con el flujo
MPEG. Adems el formato VOB puede contener Linear PCM, AC-3 o DTS y subimgenes
(subttulos), pero no puede contener el estndar de audio AAC (MPEG-2 Parte 7), formatos de
compresin MPEG-4 y otros que estn autorizados en el estndar MPEG.
En el DVD, todos los contenidos para un grupo de un ttulo (VTS) son contiguos, pero divididos en
ficheros de 1 GB en el sistema de ficheros del sistema para la comodidad de los diferentes sistemas
operativos diferentes. Cada archivo con formato VOB debe ser inferior a o igual a 1GB.
Los DVD con ficheros VOB incluyen tambin ficheros IFO y BUP. Los ficheros IFO (Info)
contienen toda la informacin que un reproductor de DVD necesita saber acerca de un DVD para
que el usuario puede navegar y reproducir todo su contenido, por ejemplo, donde comienza un
captulo, donde est determinado audio o subttulo, la informacin sobre las funciones de men y
navegacin, etc. Los ficheros BUP (Backup) son una copia exacta y una copia de seguridad de los
ficheros IFO en caso de corrupcin. Los ficheros con formato VOB sin los ficheros IFO o BUP no
permiten la navegacin por el DVD. Las imgenes, el vdeo y el sonido utilizados en los mens del
DVD se almacenan en ficheros con formato VOB.

2.15.

Formato MOD

MOD y TOD son nombres informales de formatos de vdeo sin cinta utilizados por JVC (MOD y
TOD), Panasonic (solamente MOD) y Canon (solamente MOD) en algunos modelos de
videocmaras digitales. Los nombres del formato corresponden a las extensiones de los ficheros de
vdeo. Ni JVC ni Panasonic, que fueron los pionero del formato, han explicado el sentido de las

35
extensiones de fichero y los formatos nunca se les dio un nombre oficial. MOD se utiliza
exclusivamente para los ficheros de vdeo de definicin normal, mientras que TOD se utiliza para
los ficheros de alta definicin.
Las primeras cmaras de vdeo que utilizaban el formato MOD aparecieron en 2003. JVC introdujo
el Everio GZ-MG30, que grababa directamente en el disco duro interno. Panasonic lanz el SDRS100 donde grababa en tarjetas SD. El tipo de codec, las tasas de datos, la velocidad de fotogramas
y el tamao de la trama eran muy igualados a los parmetros de DVD-vdeo.
En enero de 2007, JVC anunci su primera videocmara de alta definicin sin cinta, Everio GZHD7, que podra grabar 1080i MPEG-2 de vdeo ya sea en la unidad de disco duro integrada o una
tarjeta de memoria SD. Las tasas de datos, la tasa de fotograma y el tamao de trama iguales o
mayores que los parmetros de HDV 1080i de vdeo. Este formato se conoce como TOD.
Ni Panasonic ni Canon han lanzado una videocmara de consumo de alta definicin con formato de
grabacin TOD. En su lugar, Panasonic se uni a Sony para desarrollar AVCHD. La primera
videocmara AVCHD, Sony Handycam HDR-SR1, sali a la venta en Septiembre de 2006.
Panasonic sigui con el lanzamiento de la HDC-SD1 en Noviembre de 2006. Canon soporta el
formato AVCHD mediante la liberacin de su primera videocmara AVCHD en 2007.
En Enero de 2008 Canon dio a conocer una familia de videocmaras de consumo con definicin
estndar sin cinta: los modelos FS100, FS10 y FS11. Todas estas videocmaras graban en formato
MOD.
Ambos MOD y TOD son formatos basados en ficheros que se almacenan en un soporte de acceso
aleatorio. La estructura de directorios y la convencin de nombres son idnticas, excepto para las
extensiones de los ficheros multimedia.
El vdeo con definicin estndar se almacena en los ficheros con contenedor de flujo del programa
MPEG con extensin MOD; en la mayora de los otros sistemas, estos ficheros tienen extensin
MPG o MPEG. El vdeo de alta definicin se almacena en los ficheros con contenedor de flujo de
transporte MPEG con extensin TOD; en la mayora de los otros sistemas, estos ficheros tienen
extensin M2T. Los ficheros de flujo de transporte se pueden convertir en ficheros de flujo de
programas ms comunes sin volver a comprimir el propio vdeo. Por ejemplo, FFmpeg, un
programa de software libre, realiza la conversin en los sistemas Windows y Linux con el siguiente
comando: ffmpeg-i-myclip.TOD -acodec copy -vcodec copy myclip.mpg. El software, incluido con
las cmaras de vdeo TOD, realiza esta conversin como parte del proceso de captura. Se usa un
comando similar para los ficheros MOD: ffmpeg-i myClip.MOD -vcodec copy -acodec ac3 -ab
384K myClip.mpg -acodec mp2-ab 192k-newaudio.
A pesar de que la estructura de ficheros es nica a este formato de grabacin de vdeo, la ubicacin
de las imgenes fijas sigue el estndar acordado por muchos fabricantes de cmaras.
El vdeo de definicin estndar se pueden grabar en los formatos 4:3 y 16:9, pero este ltimo no
est correctamente identificado en la cabecera del fichero, as el vdeo puede aparecer apretado
horizontalmente. El software que se suministra con las cmaras de vdeo es capaz de procesar
relaciones de aspecto correctamente utilizando los metadatos almacenados en los ficheros MOI.
Tambin hay herramientas de terceros para el establecimiento de la etiqueta del ancho de pantalla en
la cabecera del fichero.
El vdeo MOD se puede ver en un ordenador con un reproductor que sea capaz de reproducir vdeo
MPEG-2. Este vdeo puede ser fcilmente creado para ver en un reproductor de DVD sin
recompresin, ya que es totalmente compatible con el estndar DVD-vdeo.
El formato TOD es comparable con el AVCHD, pero no pueden ser directamente reproducido
equipos de vdeo de consumo. Los ficheros TOD deben ser envasados en formatos de distribucin
como HD DVD o Blu-ray Disc, utilizando el software de edicin. Uno de los modos de grabacin
TOD, el 1440CBR, tiene el mismo tamao de trama, la relacin de aspecto y la velocidad de
fotogramas que el 1080i HDV.

36

2.16.

Formato ASF

El formato ASF (Advanced Systems Format) es un formato de almacenamiento de vdeo digital,


propiedad de Microsoft y es parte del marco de Windows Media. ASF se basa en objetos
serializados que son esencialmente secuencias de octetos identificados por un marcador de GUID.
El formato no especifica cmo se debe codificar el vdeo o el audio, slo especifica la estructura del
flujo de vdeo/audio. Esto es similar a la funcin realizada por los formatos de contenedor como
QuickTime, AVI, o Ogg. Uno de los objetivos del formato ASF es dar soporte a la reproduccin de
los servidores de medios digitales, los servidores HTTP, y los dispositivos locales de
almacenamiento, como unidades de disco duro.
Los tipos de fichero ms comunes contenidos en un fichero ASF son los formatos WMA y WMV.
Tener en cuenta que las abreviaturas de la extensin del fichero son diferentes de los codecs que
tienen el mismo nombre. Los ficheros que contienen slo audio WMA pueden ser nombrados
usando una extensin .wma y los ficheros de contenido de audio y vdeo pueden tener la
extensin .wmv. Ambos pueden usar la extensin .asf si lo desea.
Los ficheros ASF tambin pueden contener objetos que representan los metadatos, como el artista,
el ttulo, el lbum y el gnero de una pista de audio, o el director de una pista de vdeo, muy similar
a las etiquetas ID3 de los ficheros MP3. Soporta los tipos de medios escalables y la priorizacin del
flujo y, como tal, es un formato optimizado para el streaming.
El contenedor ASF proporciona el marco para la gestin de los derechos digitales de Windows
Media Audio y Windows Media Video. Un anlisis de un esquema anterior utilizado en WMA
revela que est usando una combinacin de criptografa de curva elptica con intercambio de claves,
el cifrado en bloque DES, un cifrado de bloques personalizados, cifrado de flujo RC4 y la funcin
hash SHA-1.
Para la transmisin de los datos normalmente se utilizan los protocolos MMS o RTSP.

2.17.

Formato 3G2/3GP

El formato 3GP (3GPP) es un formato de contenedor multimedia definido por el Third Generation
Partnership Project (3GPP) para los servicios multimedia de 3G UMTS.
El formato 3G2 (3GPP2) es un formato de contenedor multimedia definido por el 3GPP2 para los
servicios multimedia de 3G CDMA2000. Es muy similar al formato 3GP, pero tiene algunas
ampliaciones y limitaciones en comparacin con el formato 3GP.
Las especificaciones tcnicas del formato 3GP est, estandarizadas en el ETSI 3GPP. El formato
3GP es un formato requerido para el vdeo y asociado al audio y al texto temporizado.
Los formatos 3GP y 3G2 estn basados estructuralmente basado en el formato de media de ISO
definido en ISO / IEC 14496-12 - MPEG-4 Parte 12, pero las versiones anteriores del formato 3GP
no utiliz algunas de sus caractersticas. 3GP y 3G2 son formatos de contenedor similares al
MPEG-4. Los formatos 3GP y 3G2 fueron diseados para disminuir el almacenamiento y la
necesidad de ancho de banda con el fin de acomodarlo a los telfonos mviles.
Las diferencias bsicas de los formatos 3GP y 3G2 son:

El formato 3GPP fue diseado para los telfonos basados en GSM y pueden tener la
extensin .3gp

El formato 3GPP2 fue diseado para los telfonos basados en CDMA y pueden tener la
extensin .3g2

El formato 3GP almacena los flujos de vdeo como MPEG-4 o H.263, y los flujos de audio como

37
AMR-NB, AMR WB, AMR-WB +, AAC-LC, HE-AAC v1 o Enhanced aacPlus (HE-AAC v2). El
formato 3GPP permite el uso de llos codecs de AMR y H.263 en los medios basados en MPEG-4,
porque el formato 3GPP especifica el uso de la Sample Entry y los campos de plantilla.
El formato 3G2 puede almacenar los mismos flujos de vdeo y la mayora de los flujos de audio
utilizados en el formato 3GP. Adems el 3G2 almacena los flujos de audio como EVRC, EVRC-B,
EVRC-WB, 13K (QCELP), SMV o VMR BM, que fue especificad por el formato 3GPP2 para su
uso en los medios con el formato con base ISO. La especificacin del formato 3G2 tambin define
algunas mejoras al texto temporizado del formato 3GPP.
Algunos telfonos mviles utilizan la extensin .mp4 para el vdeo 3GP.

38

ndice de contenidos
1.Introduccin.......................................................................................................................................4
2.Formatos de vdeo digital..................................................................................................................5
2.1.Codificadores.............................................................................................................................6
2.2.Descodificadores........................................................................................................................6
2.3.Formato MOV............................................................................................................................6
2.3.1.Historia...............................................................................................................................7
QuickTime 1.x........................................................................................................................7
QuickTime 2.x........................................................................................................................7
QuickTime 3.x........................................................................................................................7
QuickTime 4.x........................................................................................................................8
QuickTime 5.x........................................................................................................................8
QuickTime 6.x........................................................................................................................8
QuickTime 7.x........................................................................................................................9
2.4.Formato AVI............................................................................................................................10
2.4.1.Formato............................................................................................................................11
2.4.2.Usos..................................................................................................................................11
2.4.3.DV-AVI.............................................................................................................................11
2.5.Formato MPEG........................................................................................................................12
2.5.1.Parte 1: Sistemas..............................................................................................................12
Flujos elementales y del programa.......................................................................................12
Relojes y marcas de tiempo..................................................................................................13
Multiplexacin......................................................................................................................13
2.5.2.Parte 2: Vdeo...................................................................................................................14
Espacio de color...................................................................................................................14
Resolucin/Tasas de bit........................................................................................................14
Tipos de fotograma/imagen/bloque......................................................................................14
Macrobloques.......................................................................................................................16
Vectores de movimiento.......................................................................................................16
Transformacin DCT (Discrete Cosine Transform).............................................................17
Cuantificacin......................................................................................................................18
Codificacin entrpica.........................................................................................................19
Configuraciones del GOP para determinadas aplicaciones..................................................19
2.6.Formato MPEG-2....................................................................................................................20
Codificacin de vdeo...........................................................................................................20
Codificacin de audio...........................................................................................................21
Perfiles y niveles..................................................................................................................21
Aplicaciones.........................................................................................................................21
2.7.Formato MPEG-4....................................................................................................................22
2.7.1.Visin general...................................................................................................................23
2.7.2.Perfiles y niveles..............................................................................................................23
2.8.Formato WMV.........................................................................................................................24
2.8.1.Formato del contenedor...................................................................................................24
2.8.2.Cdec Windows Media Video..........................................................................................24
2.8.3.Cdec Windows Media Video Screen..............................................................................25
2.8.4.Cdec Windows Media Video Image...............................................................................25
2.8.5. Calidad de vdeo..............................................................................................................25
2.9.Formato H.261.........................................................................................................................25

39
2.9.1.Historia.............................................................................................................................25
2.9.2.Diseo .............................................................................................................................26
2.10.Formato H.262.......................................................................................................................26
2.11.Formato H.263.......................................................................................................................27
2.12.Formato H.264.......................................................................................................................27
2.12.1.Visin general.................................................................................................................27
2.12.2.Caractersticas................................................................................................................28
2.12.3.Perfiles...........................................................................................................................31
2.13.DivX.......................................................................................................................................33
2.13.1.DivX Media Format (DMF)...........................................................................................33
2.13.2.DivX Plus HD................................................................................................................33
2.13.3.Perfiles DivX..................................................................................................................34
2.13.4.vdeo DivX a la demanda...............................................................................................34
2.14.Formato VOB........................................................................................................................34
2.15.Formato MOD........................................................................................................................34
2.16.Formato ASF..........................................................................................................................36
2.17.Formato 3G2/3GP..................................................................................................................36

También podría gustarte