Acerca de la codificación de audio y vídeo



La grabación de vídeo y audio en formato digital conlleva un equilibrio entre la calidad y el tamaño del archivo y la velocidad de bits. La mayoría de los formatos utilizan la compresión para disminuir el tamaño del archivo y la velocidad de bits, para lo cual reducen la calidad de forma selectiva. La compresión es esencial para reducir el tamaño de las películas de forma que se puedan almacenar, transmitir y reproducir con eficacia. Sin comprimir, un único fotograma de vídeo de definición estándar utiliza casi 1 MB (megabyte) de almacenamiento. Con una velocidad de fotogramas NTSC de 30 fotogramas por segundo, el vídeo sin comprimir se reproduce a una velocidad de datos de casi 30 MB por segundo, y 35 segundos de secuencia consumen cerca de 1 GB de almacenamiento. En comparación, un archivo NTSC comprimido en formato DV guarda 5 minutos de secuencia en 1 GB de almacenamiento a una velocidad de bits de aproximadamente 3,6 MB por segundo. Al comprimir vídeo para distribuirlo con la mayor calidad posible, seleccione la proporción de compresión más pequeña que permita distribuir el vídeo dentro de los límites del tamaño del archivo y según las restricciones de velocidad de bits del medio de distribución de destino y los dispositivos de reproducción finales.

Al exportar un archivo de película para reproducirlo en un tipo de dispositivo específico con un ancho de banda determinado, se elige un compresor/descompresor (también denominado codificador/descodificador, o códec), para comprimir la información y generar un archivo que se pueda leer en ese tipo de dispositivo con ese ancho de banda.

Hay una gran variedad de códecs disponibles; no hay un único códec adecuado para todas las situaciones. Por ejemplo, el mejor códec para comprimir dibujos animados no suele ser el más adecuado para comprimir vídeos de acción. Al comprimir un archivo de película, puede afinarlo para una reproducción de mejor calidad en un ordenador, en un dispositivo móvil, en la Web o en un reproductor de DVD. Dependiendo del codificador que utilice, puede reducir el tamaño de los archivos comprimidos mediante la eliminación de artefactos que interfieren en la compresión, como pueden ser un movimiento aleatorio de cámara y una película muy granulada.

Si no tiene experiencia en vídeo digital o desea aprender más sobre ello y sobre la codificación de contenido de vídeo de alta calidad, esta información puede ayudarle a comprender los equilibrios relacionados con la codificación de vídeo para diferentes aplicaciones y entornos de visualización.

Velocidad de fotogramas

Se denomina vídeo a una secuencia de imágenes que aparece en pantalla en sucesión rápida, ofreciendo la impresión de movimiento. El número de fotogramas que aparece cada segundo se denomina velocidad de fotogramas y se mide en fotogramas por segundo (fps). Cuanto más elevada sea la velocidad de fotogramas, más fotogramas por segundo se utilizan para presentar la secuencia de imágenes, lo que produce un movimiento más suave. No obstante, el equilibrio necesario para obtener una mayor calidad reside en que las velocidades de fotogramas más elevadas requieren una mayor cantidad de datos para mostrar el vídeo, con lo que se utiliza más ancho de banda.

Al trabajar con vídeo comprimido digitalmente, cuanto mayor es la velocidad de fotogramas mayor es el tamaño del archivo. Para reducir el tamaño de archivo, disminuya la velocidad de fotogramas o la velocidad de bits. Si disminuye la velocidad de bits y no modifica la velocidad de los fotogramas, la calidad de la imagen se reduce. Si reduce la velocidad de los fotogramas y no modifica la velocidad de bits, el movimiento del vídeo puede parecer menos suave de lo previsto.

Debido a que el aspecto del vídeo es mucho mejor con velocidades de fotogramas nativas (velocidad con la que el vídeo se filmó en un principio), Adobe recomienda dejar una velocidad de fotogramas alta si los canales de distribución y las plataformas de reproducción lo permiten. Para NTSC de movimiento total (estándar definido por la Comisión Nacional de Sistemas de Televisión, National Television System Committee, en EE.UU.), utilice 29,97 fps; para el formato PAL (Phase Alternating Line) (Línea con alternancias de fase, el estándar de televisión dominante en Europa), utilice 25 fps. Si disminuye la velocidad de fotogramas (lo cual puede reducir considerablemente los datos de vídeo que se deben codificar), Adobe® Media Encoder CS4 elimina fotogramas con una velocidad lineal para obtener la nueva velocidad en fps. No obstante, si debe reducir la velocidad de fotogramas, los mejores resultados se obtienen de una división equitativa. Por ejemplo, si el origen tiene una velocidad de 24 fps, reduzca la velocidad de los fotogramas a 12 fps, 8 fps, 6 fps, 4 fps, 3 fps o 2 fps. Si la velocidad de los fotogramas de origen es de 30 fps, en la mayoría de los casos puede ajustarla a 15 fps, 10 fps, 6 fps, etc.

Nota: Si la duración de un clip de vídeo es superior a 10 minutos, el audio dejará de sincronizarse considerablemente si no se adapta a la velocidad de 29,97 fps o a una división equitativa y precisa para velocidades de fotogramas más bajas (por ejemplo, 14,98 fps, que es la mitad de 29,97).

Si el clip de vídeo se codifica con una velocidad de bits mayor, una velocidad de fotogramas más baja puede mejorar la reproducción en equipos inferiores. Por ejemplo, si comprime un clip de vídeo con mucha conversación y poco movimiento, al reducir la velocidad de fotogramas a la mitad sólo ahorraría un 20% en la velocidad de bits. Sin embargo, si comprime vídeo con mucho movimiento, la reducción de la velocidad de fotogramas tendrá un efecto mucho mayor en la velocidad de bits.

Velocidad de bits

La velocidad de bits (también denominada velocidad de datos) afecta a la calidad de un clip de vídeo y a la audiencia que puede descargar el archivo considerando sus limitaciones de ancho de banda.

Si publica vídeos a través de Internet, debe crear archivos a velocidades de bits bajas. Los usuarios que disponen de conexiones rápidas a Internet pueden ver los archivos sin necesidad de esperar (o esperar poco tiempo), pero los usuarios que se conectan a Internet mediante marcación telefónica deben esperar a que los archivos se descarguen. Si prevé que la audiencia sea del tipo de usuarios que utilizan marcación telefónica, cree clips cortos de vídeo para que el tiempo de descarga sea moderado.

Fotogramas clave

Los fotogramas clave son fotogramas de vídeo completos (o imágenes) que se insertan en intervalos constantes en un clip de vídeo. Los fotogramas entre los fotogramas clave contienen información sobre el movimiento y los cambios de escena que se producen entre fotogramas clave. Por ejemplo, si un vídeo muestra a una persona entrando por una puerta, los fotogramas clave contendrán la imagen completa de la persona y la puerta en el fondo, mientras que los fotogramas de intervalo incluirán información que describa el movimiento de la persona conforme camina delante de la puerta.

De forma predeterminada, Adobe Media Encoder define automáticamente el intervalo del fotograma clave que se utilizará en función de la velocidad de fotogramas del clip de vídeo. El valor del intervalo del fotograma clave transmite al codificador la frecuencia con la que se debe volver a evaluar la imagen de vídeo y grabar un fotograma completo, o fotograma clave, en un archivo. En Adobe Media Encoder , este ajuste es el valor del intervalo del fotograma clave, el cual representa el número de fotogramas entre fotogramas clave. Adobe Media Encoder aproxima los fotogramas que residen entre fotogramas clave, calculando el valor completo de todos los píxeles en pantalla mediante la comparación de varios fotogramas y la eliminación de información redundante.

En general, el valor predeterminado del intervalo de fotograma clave proporciona un nivel de control razonable cuando se realizan búsquedas en un clip de vídeo. Si se selecciona un valor de colocación de fotograma clave personalizado, se debe tener en cuenta que cuanto menor sea el intervalo entre fotogramas clave, mayor será el tamaño del archivo.

Si la secuencia cuenta con muchos cambios de escena o animaciones y movimientos rápidos, la calidad global de la imagen puede beneficiarse de un intervalo menor entre fotogramas clave. En general, un intervalo de fotograma clave superior genera una mejor calidad de imagen, ya que no se desperdician datos al describir las áreas de una imagen que permanecen sin cambios de un fotograma a otro.

Proporciones de aspecto (tamaño del fotograma)

Al igual que sucede con la velocidad de fotogramas, la proporción de aspecto (o el tamaño del fotograma) para su archivo es importante para obtener vídeo de alta calidad. A una determinada velocidad de bits (velocidad de conexión), al aumentar el tamaño de fotograma disminuye la calidad de vídeo. Cuando seleccione el tamaño de fotograma para su documento, tenga en cuenta la velocidad de fotogramas, la proporción de aspecto del clip de vídeo de origen y sus preferencias personales para crear una presentación de vídeo correcta. Entre las resoluciones de visualización estándar en Internet se incluyen 640 x 480, 512 x 384, 320 x 240 y 160 x 120 píxeles.

La proporción de aspecto más común es 4:3 (televisión estándar). Las proporciones de aspecto 16:9 y 2:1 (pantalla ancha) cada vez se están utilizando más. Generalmente el vídeo se debe codificar utilizando la misma proporción de aspecto con la que se capturó en un principio. La modificación de la proporción de aspecto de un clip de vídeo puede producir que aparezcan barras negras (o máscaras) en los laterales o en la parte superior e inferior de la imagen. Las barras negras son necesarias cuando el vídeo que no se diseñó originalmente para la visualización en pantalla ancha se muestra en un monitor de este tipo, o bien, cuando se visualiza una imagen de pantalla ancha más estrecha en una proporción de aspecto más amplia. El vídeo original se encoge y se sitúa en mitad del fotograma de pantalla ancha. Una excepción a esta práctica se produce cuando se codifican formatos de vídeo digital (DV), cuya proporción de aspecto es algo diferente a la de 4:3, ya que el DV utiliza píxeles rectangulares. Al codificar contenido de vídeo capturado con una cámara de vídeo digital, especifique manualmente el tamaño de fotograma del formato DV que esté utilizando para conservar la proporción de aspecto del vídeo, o bien, seleccione un ajuste preestablecido apropiado (NTSC o PAL, por ejemplo).

La siguiente lista de tamaños de fotograma estándar se puede utilizar como pauta. Puede hacer pruebas para comprobar qué configuración es la mejor para su proyecto.

Tamaños de fotograma para vídeo de proporción de aspecto 4:3:

  • Módem (56k): 160 x 120

  • DSL: 320 x 240

  • Cable: 512 x 384

  • LAN corporativa/cable: 640 x 480

    Tamaños de fotograma para vídeo de proporción de aspecto de 16:9:

  • Módem (56k): 192 x 108

  • DSL: 384 x 216

  • Cable: 448 x 252

  • LAN corporativa/cable: 704 x 396

Vídeo con píxeles no cuadrados

La mayoría de los gráficos informáticos estáticos utilizan píxeles cuadrados, que tiene una proporción entre anchura y altura de 1:1. Al trabajar con vídeo digital, los píxeles suelen tener una proporción entre anchura y altura distinta y se les hace referencia como píxeles rectangulares. El motivo de este comportamiento es el de permitir la coexistencia de vídeo analógico (por ejemplo, emisión de televisión) y vídeo digital (por ejemplo, vídeo DVD). Al codificar formatos de vídeo con píxeles no cuadrados (también denominados vídeo anamórfico), vuelva a muestrear la imagen de vídeo con la relación de aspecto de visualización (DAR) correcta.

Por ejemplo, el vídeo digital (DV) NTSC estándar, tiene un tamaño de fotograma de 720 x 480 píxeles y se visualiza con una proporción de aspecto de 4:3. Esto significa que cada píxel es rectangular, con una proporción de aspecto de píxeles (PAR) de 10:11 (un píxel alto y estrecho). El vídeo MPEG 1 y 2 también se produce en distintos tamaños (son comunes 720 x 480 ó 480 x 480), aunque se suelen visualizar con una proporción de aspecto de 4:3 ó 16:9 (pantalla ancha).

Para calcular el tamaño de fotograma de imagen que se utilizará al codificar vídeo utilizando píxeles no cuadrados, en primer lugar decida qué dimensión (anchura o altura) es la dimensión maestra preferida y, a continuación, calcule la otra dimensión del siguiente modo:

Si la altura es la dimensión maestra, calcule la anchura utilizando la siguiente fórmula:


Por ejemplo, si el vídeo utiliza una proporción de aspecto de 4:3, la ecuación aparecería del siguiente modo:


Si la anchura es la dimensión maestra, calcule la altura utilizando la siguiente fórmula:


Por ejemplo, si el vídeo usa una proporción de aspecto de 4:3, la ecuación aparecería del siguiente modo:


Por ejemplo, si va a codificar un vídeo cuyo tamaño de fotograma es de 720 x 480 píxeles y desea codificarlo con una proporción de aspecto de 4:3, en primer lugar determine la anchura con la que codificar el fotograma de vídeo en píxeles:


El resultado es una altura de imagen de vídeo de 640 píxeles.

De este modo, debe codificar la imagen de 720 x 480 en 640 x 480, una proporción de aspecto estándar de 4:3.

Vídeo entrelazado frente a vídeo no entrelazado

Adobe Media Encoder desentrelaza el vídeo antes de codificarlo siempre que vaya a codificar un origen entrelazado en una salida no entrelazada.

La mayor parte del vídeo de difusión es entrelazado, aunque los nuevos estándares de televisión de alta definición tienen variantes entrelazadas y no entrelazadas. El vídeo entrelazado consta de dos campos que conforman cada fotograma de vídeo. Cada campo contiene la mitad del número de líneas horizontales del fotograma; el campo superior (o Campo 1) contiene todas las líneas con numeración impar y el campo inferior (o Campo 2) incluye todas las líneas con numeración par. Un monitor de vídeo entrelazado (como una televisión) muestra cada fotograma, dibujando en primer lugar todas las líneas en un campo y, a continuación, dibujando todas las líneas en el otro campo. El orden de los campos especifica qué campo se dibuja en primer lugar. En el vídeo NTSC, se dibujan nuevos campos en la pantalla 60 veces por segundo aproximadamente, lo que corresponde más o menos a una velocidad de 30 fotogramas por segundo.

Los fotogramas de vídeo no entrelazados no se separan en campos. Un monitor de búsqueda progresiva muestra un fotograma de vídeo no entrelazado mediante el dibujo de todas las líneas horizontales, de arriba a abajo, en un pase. Por ello, los dos campos que conforman un fotograma de vídeo se muestran de forma simultánea. De este modo, el monitor de un equipo muestra vídeo a 30 fps y la mayor parte del vídeo de estos monitores es no entrelazado.