Guia 01 - referencia conceptos teoria del video
←
→
Transcripción del contenido de la página
Si su navegador no muestra la página correctamente, lea el contenido de la página a continuación
Guia 01 - referencia conceptos teoria del video, Curso Edición I; profesor: hector capossiello bibliografia obligatoria : Harry Mathias-Richard Patterson “Cinematografia electronica”, 1985 bibliografia auxiliar para teoria del color (fotografía) Blain Brown, “Iluminación para cine y TV”, 1992 bibliografia recomendada: Ron Brinkmann “The art and science of Digital Compositing”, 1999
1. Resolución El tamaño de una imagen de vídeo se mide en píxeles para vídeo digital, o en líneas de barrido horizontal y vertical para vídeo analógico. En el dominio digital, (por ejemplo DVD) la televisión de definición estándar (SDTV) se especifica como 720/704/640 × 480i60 para NTSC y 768/720 × 576i50 para resolución PAL o SECAM. Sin embargo, en el dominio analógico, el número de líneas activas de barrido sigue siendo constante (486 NTSC/576 PAL), mientras que el número de líneas horizontal varía de acuerdo con la medición de la calidad de la señal: aproximadamente 320 píxeles por línea para calidad VCR, 400 píxeles para las emisiones de televisión, y 720 píxeles para DVD. Se conserva la relación de aspecto por falta de píxeles «cuadrados». Los nuevos televisores de alta definición (HDTV) son capaces de resoluciones de hasta 1920 × 1080p60, es decir, 1920 píxeles por línea de barrido por 1080 líneas, a 60 fotogramas por segundo. La resolución de vídeo en 3D para vídeo se mide en voxels (elementos de volumen de imagen, que representan un valor en el espacio tridimensional). Por ejemplo, 512 × 512 × 512 voxels, de resolución, se utilizan ahora para vídeo 3D simple, que pue den ser mostrados incluso en algunas PDA. 2. Relación de aspecto La relación de aspecto, proporción de aspecto o razón de aspecto (traducciones literales de la expresión en inglés aspect ratio) de una imagen es la proporción entre su ancho y su altura. Se calcula dividiendo el ancho por la altura de la imagen visible en pantalla, y se expresa normalmente como «X:Y». La relación de aspecto de una pantalla de televisión tradicional es de 4:3, que también se puede expresar como 1,33:1. Los televisores panorámicos (incluyendo los de alta definición) suelen tener una relación de aspecto de 16:9 (o 1,78:1). Esta es la relación utilizada por los DVD, lo que en una pantalla tradicional deja dos franjas negras arriba y abajo de la imagen. En el cine las relaciones de aspecto más usadas son 1.85:1 (35mm) y 2.39:1 (panavision). El formato estándar hasta el momento en que se comenzó con la estandalización de la televisión de Alta resolución tenía una relación de aspecto de 4/3. El adoptado es de 16/9. La compatibilidad entre ambas relaciones de aspecto se puede realizar de diferentes formas. Una imagen de 4/3 que se vaya a ver en una pantalla de 16/9 puede presentarse de tres formas diferentes: • Con barras negra verticales a cada lado (letterbox). Manteniendo la relación de 4/3 pero perdiendo parte de la zona activa de la pantalla. • Agrandando la imagen hasta que ocupe toda la pantalla horizontalmente. Se pierde parte de la imagen por la parte superior e inferior de la misma.
• Deformando la imagen para adaptarla al formato de la pantalla. Se usa toda la pantalla y se ve toda la imagen, pero con la geometría alterada (los círculos se ven elipses con el diámetro mayor orientado de derecha a izquierda). Una imagen de 16/9 que se vaya a ver en una pantalla de 4/3, de forma similar, tiene tres formas de verse: • Con barras horizontales arriba y abajo de la imagen (letterbox). Se ve toda la imagen pero se pierde tamaño de pantalla (hay varios formatos de letterbox dependiendo de la parte visible de la imagen que se vea (cuanto más grande se haga más se recorta), se usan el 13/9 y el 14/9). • Agrandando la imagen hasta ocupar toda la pantalla verticalmente, perdiéndose las partes laterales la imagen. • Deformando la imagen para adaptarla a la relación de aspecto de la pantalla. se ve toda la imagen en toda la pantalla, pero con la geometría alterada (los círculos se ven elipses con el diámetro mayor orientado de arriba a abajo). 3. relación de aspecto de pixel – pixel aspect ratio Proporción de píxeles (a menudo abreviado PAR) es una relación matemática que describe cómo el ancho de un pixel en una imagen digital se compara con la altura de ese píxel. La mayoría de los sistemas de imágenes digitales de describir una imagen como una cuadrícula de píxeles muy pequeños, pero sin embargo cuadrados. Sin embargo, algunos sistemas de imágenes, especialmente las que debe mantener la compatibilidad con la definición estándar de televisión imágenes de movimiento, definir una imagen como una cuadrícula de píxeles rectangulares en las que el ancho del píxel es un poco diferente de la de su altura. Proporción de píxeles describe esta diferencia. El uso de proporción de píxeles en su mayoría consiste en imágenes relacionadas con televisión de definición estándar y en algunos casos excepcionales. La mayoría de los sistemas de imágenes, incluyendo aquellos que cumplan las normas SMPTE y prácticas, utilizan píxeles cuadrados. La relación entre el ancho y la altura de una imagen que se conoce como la relación de aspecto, o más precisamente la relación de aspecto de pantalla (DAR) - la relación de aspecto de la imagen que se muestra, para la televisión, es tradicionalmente DAR 4:3 (tanto analógicos y digitales), con 16:9 (pantalla ancha ), ahora también son comunes. En las imágenes digitales, existe una diferencia con la relación de aspecto de almacenamiento (SAR), que es la relación de las dimensiones en píxeles. Si se muestra una imagen con píxeles cuadrados, a continuación, estas relaciones están de acuerdo, si no, que no son cuadrados, "rectangular" píxeles se utilizan, y estas relaciones no están de acuerdo. La relación de aspecto de los píxeles se se conoce como la relación de aspecto de píxel (PAR) - para esta píxeles cuadrados de 1:1 - y estos están relacionados por la
identidad: SAR x = PAR DAR. Reorganizar (para resolver PAR) se obtiene: PAR = DAR / SAR. Por ejemplo, una imagen de 640 × 480 VGA tiene un SAR de 640/480 = 4:3, y si se muestra en una pantalla de 4:3 (DAR = 4:3) tiene píxeles cuadrados, por lo tanto, un PAR de 1:1. Por el contrario, una imagen de 720 × 576 PAL D-1 tiene un SAR de 720/576 = 5:4, pero se muestra en una pantalla de 4:3 (DAR = 4:3). En las imágenes analógicas como el cine no existe el concepto de pixel, ni idea de SAR o PAR, pero en la digitalización de imágenes analógicas de la imagen digital resultante tiene píxeles, por lo tanto, SAR (PAR y en consecuencia, si se muestra en la misma relación de aspecto como el original). Píxeles no cuadrados surgen a menudo a principios de los estándares de televisión digital, relacionados con la digitalización de las señales de TV analógica - cuya vertical y "eficaz" resoluciones horizontales diferentes y por tanto son mejor descritas por los píxeles no cuadrados - y también en algunas cámaras de vídeo digitales y los modos de visualización de computadora , como Color Graphics Adapter (CGA). Hoy se presentan también en la transcodificación entre diferentes resoluciones con el SARS. Muestra real de lo general no tienen los píxeles no cuadrados, aunque los sensores digitales pueden, sino que son más bien una abstracción matemática utilizada en el muestreo para convertir las imágenes entre las resoluciones. Hay varios factores que complican la comprensión PAR, especialmente en lo que respecta a la digitalización de vídeo analógico: • En primer vídeo, analógicos no tiene píxeles, sino más bien una exploración de trama, y por lo tanto tiene una resolución vertical bien definida (las líneas de la retícula), pero no una resolución horizontal bien definida, ya que cada línea es una señal analógica. Sin embargo, por una frecuencia de muestreo estandarizado, la resolución horizontal efectiva puede ser determinada por el teorema de muestreo, como se hace a continuación. • En segundo lugar, debido al overscan, algunas de las líneas en la parte superior e inferior de la trama no son visibles, como son algunas de las imágenes posibles de la izquierda y la derecha - ver Overscan: Analógico a problemas de resolución digital. Además, la resolución puede ser redondeada (DV NTSC utiliza 480 líneas, en lugar de los 486 que son posibles). • En tercer lugar las señales, vídeo analógico se entrelazan - cada imagen (frame) se enviarán en dos "campos", cada uno con la mitad de las líneas.
Así píxeles son dos veces más alto que sería sin entrelazado, o la imagen es desentrelazado. 4. Frecuencia de fotogramas (fps) "Cuadros por segundo" vuelve a dirigir aquí. Para el sitio web de animación del mismo nombre, vea la revista Fps. Velocidad de cuadro (también conocida como frecuencia de cuadro) es la frecuencia (velocidad) en la que un dispositivo de imágenes produce imágenes únicas consecutivas llamadas marcos. El término se aplica igualmente bien a los gráficos de ordenador, cámaras de video, filmadoras, y sistemas de captura de movimiento. Velocidad de cuadro es lo más a menudo expresada en fotogramas por segundo (FPS), y se expresa también en los monitores de escaneo progresivo como hertz (Hz). El sistema visual humano, puede procesar 10 a 12 imágenes por segundo por separado, la corteza visual se aferra a una imagen de una quinceava parte de un segundo, así que si otra imagen se recibe durante ese período, la ilusión de continuidad se crea, lo que permite una secuencia de imágenes fijas para dar la impresión de un movimiento suave. Las tasas de fotogramas de cine y televisión en la actualidad hay tres estándares de frecuencia de fotogranmas en el negocio de televisión y películas de vídeo: 24p, 25p y 30p. Sin embargo, hay muchas variaciones de estos, así como las nuevas normas emergentes. • 24p es un formato progresivo y ahora es ampliamente adoptado por aquellos que planean sobre la transferencia de una señal de vídeo a la película. Directores de cine y video usan 24p, aunque sus producciones no van a ser transferidos a la película, simplemente por el de la pantalla "look" de la velocidad de cuadro (bajo), que coincide con la película de origen. Cuando se transfiere a la televisión NTSC, la tasa es efectiva se redujo a 23.976 FPS (24 × 1000 ÷ 1001 para ser exactos), y cuando se transfiere a PAL o SECAM que se acelera a 25 FPS. Las cámaras de 35 mm de cine utilizar un tipo de exposición estándar de 24 fotogramas por segundo, aunque muchas cámaras ofrecen tasas de 23,976 FPS para la televisión NTSC y 25 fps para PAL / SECAM. La tasa de 24 fps se convirtió en el estándar de facto para las películas de sonido a mediados de la década de 1920. Casi toda la animación dibujada a mano está diseñado para ser jugado en 24 fotogramas por segundo. En realidad, dibujo a mano: 24 fotogramas por segundo única ("1") es costoso. Incluso películas de gran presupuesto general de mano dibujar animación rodaje de "dos de" (una a mano del cuadro se muestra dos veces, por lo que sólo 12 fotogramas únicos por segundo) y un montón de animación se dibuja en "4 de" (uno dibujado a mano cuadro se muestra a 4 veces, por lo que sólo son 6 cuadros por segundo). • 25p es un formato progresivo y corre 25 cuadros progresivos por segundo.
Esta velocidad de fotogramas se deriva de la norma de televisión PAL de 50i (o 50 campos entrelazados por segundo). Compañías de cine y televisión usan este ritmo en 50 regiones Hz para compatibilidad directa con el campo de la televisión y la velocidad de fotogramas. Conversión de 60 países Hz se activa al disminuir los medios de comunicación a 24p se convierten en sistemas de 60 Hz mediante telecine. Mientras que 25p captura la mitad de la resolución temporal o movimiento que lo normal PAL 50i registros, se produce una resolución espacial más alta verticales por cuadro. Como 24p, 25p se utiliza a menudo para lograr "cine"-mira, aunque con prácticamente el mismo los artefactos de movimiento. También se adapta mejor a la salida de escaneo progresivo (por ejemplo, en las pantallas LCD, monitores de computadoras y proyectores), ya que el entrelazado está ausente. • 30p es un formato progresivo y produce vídeo a 30 fotogramas por segundo. Progresivo (no entrelazado) de exploración imita una cámara de fotograma a fotograma de captura de imágenes. Los efectos de la inter- frame vibraciones se notan menos que 24p aún conserva un aspecto cinematográfico-como. Grabación de vídeo en modo 30p no da ninguna impureza entrelazada, pero puede introducir vibraciones en el movimiento de la imagen y en algunos movimientos de cámara. • 50i (50 campos entrelazados = 25 cuadros) es un formato entrelazado y es el tipo de campo estándar de vídeo por segundo para PAL y SECAM TV. • 60i (en realidad, 59,94, o 60 x 1000 / 1001 para ser más precisos, 60 campos entrelazados = 30 fotogramas) es un formato entrelazado y es el tipo de campo estándar de vídeo por segundo para NTSC de televisión (por ejemplo, en los EE.UU.), ya sea de una difusión de la señal, un DVD o videocámara en casa. Este tipo de campo entrelazado fue desarrollado por separado por Farnsworth y Zworykin en 1934 [6], y fue parte de los estándares de televisión NTSC mandato de la FCC en 1941. Cuando NTSC color fue introducido en 1953, la tasa de mayores de 60 campos por segundo se redujo en un factor de 1000/1001 para evitar la interferencia entre la subportadora de croma y la compañía de radiodifusión sonora. • 50p/60p es un formato progresivo y se utiliza en sistemas de televisión de alta definición de gama alta. Si bien no es técnicamente parte de la ATSC o DVB normas de emisión, que está ganando terreno rápidamente en las áreas de set-top boxes y grabaciones de vídeo. • 72p es un formato progresivo y actualmente está en fase experimental. Instituciones más importantes, como Snell ha demostrado imágenes 720p72 como resultado de los experimentos anteriores analógica, la televisión, donde 768 líneas a 75 FPS parecía subjetivamente mejor de 1150 la línea 50 FPS imágenes progresivas con velocidades de obturación más alta disponible (y la correspondiente tasa más baja de datos). Las cámaras modernas, tales como la Red Uno puede usar esta velocidad de fotogramas para producir las repeticiones en cámara lenta a 24 fps. Douglas Trumbull, que llevaron a cabo experimentos con distintos valores de cuadro que llevó
a la película de formato Showscan, encontró que el impacto emocional que alcanzó un máximo de 72 FPS para los espectadores. 72 FPS es la velocidad máxima disponible en el formato de archivo de vídeo WMV. • Mayor velocidad de fotogramas, incluyendo a 300 FPS, han sido probados por la BBC de Investigación sobre las preocupaciones de los deportes y otras transmisiones en movimiento rápido con grandes pantallas de alta definición podría tener un efecto desorientador en los espectadores. 300 FPS se puede convertir en 50 y 60 FPS formatos de transmisión sin problemas importantes. • Debido a su flexibilidad, el software basado en formatos de vídeo puede especificar tasas de frames arbitrariamente alto, y muchos (tubo de rayos catódicos) monitores de PC de consumo operar a cientos de fotogramas por segundo, dependiendo del modo de video seleccionado. Las pantallas LCD son por lo general 24, 25, 50, 60 o 120 FPS. El director James Cameron manifestó su intención de filmar las dos secuelas de la película Avatar a una velocidad superior a 24 fotogramas por segundo, con el fin de añadir un mayor sentido de la realidad. Peter Jackson en el rodaje de El Hobbit uso 48 fotogramas por segundo.
5. video interlaciado y progresivo La exploración entrelazada (interlaced scanning) es un sistema de captación y representación de imágenes utilizado en televisión para evitar el parpadeo o «fliker» que se producía en la representación de las imágenes de televisión sobre pantallas de TRC (tubo de rayos catódicos o tubo de imagen). La exploración entrelazada 2/1, característica de los sistemas de televisión PAL, NTSC y SECAM así como de algunos otros desarrollados posteriormente, consiste en analizar cada cuadro («frame») de la imagen en dos semicuadros iguales denominados campos (field), de forma que las líneas resultantes estén imbricadas entre si alternadamente por superposición. Uno de los campos contiene las líneas pares; se lo denomina «campo par», mientras que el otro contiene la impares y se lo denomina «campo impar» al comienzo de cada uno de ellos se sitúa el sincronismo vertical. Hay un desfase de media línea entre un campo y otro para que así el campo par explore la franja de imagen que dejó libre el campo impar. La exploración entrelazada de un cuadro de dos campos exige que el número de lineas de del cuadro sea impar para que la línea de transición de un campo al otro sea divisible en dos mitades.Fue patentado por el ingeniero alemán de Telefunken Fritz Schröter en 1930. La exploración progresiva de una imagen se realiza de la misma manera que se lee un libro, se divide la imagen en líneas y se leen de izquierda a derecha y de arriba abajo. En cambio, cuando se realiza una exploración entrelazada exploramos alternativamente las líneas pares e impares, dividiendo la imagen que se quiere transmitir en dos campos o cuadros. La proximidad entre las líneas consecutivas y las limitaciones del sistema visual humano, hacen que el ojo del espectador integre los dos campos como una imagen completa (un cuadro), obteniendo la sensación que estas se van refrescando al doble de la frecuencia real. Con este método se consigue mantener un caudal de información reducido, es decir, un menor ancho de banda a transmitir, pero suficiente para que en recepción tengamos la representación de las imágenes sin que aparezca el fenómeno de parpadeo o flicker. Aplicación y detalles técnicos La exploración entrelazada es utilizada en la mayoría de definiciones estándar de TV y en el estándar de emisión de 1080i HDTV. No es utilizado en pantallas LCD, DLP o pantallas de plasma. Estas pantallas no usan tramas de barrido para crear una imagen por lo cual, no se pueden beneficiar de las ventajas del entrelazado. Para conseguir un correcto entrelazado de los cuadros, es necesario utilizar una señal que controle con precisión la desviación del haz en el tubo de rayos catódicos. Es por esto por lo que se utilizan las señales “diente de sierra”, muy sencillas de implementar cuando se diseñó este método, para controlar el haz horizontal y vertical. Esta desviación del haz de luz del tubo de rayos catódicos es
de izquierda a derecha y de arriba hacia abajo. Para mantener la periodicidad de la señal de barrido que controla el haz, se decidió que el número de líneas que debería tener una imagen debería ser un número impar. Así, cada cuadro debería tener un número par de líneas enteras más media línea adicional. Gracias a esto se consiguió simplificar las señales de barrido, debido a que no tenían que dar saltos espaciales a la hora de cambiar de cuadro. Ventajas e inconvenientes de la exploración entrelazada Con la entrada de la “era digital” la exploración entrelazada esta perdiendo terreno frente a la progresiva. A continuación detallaremos las principales ventajas e inconvenientes de este sistema. Ventajas • Uno de los factores más importantes es el ancho de banda (medido en Mhz en caso de vídeo analógico y tasa de bits en el caso de digital). Cuanto mayor sea este ancho de banda, más caro y complejo será el sistema (ya sean sistemas de almacenamiento como discos duros o grabadoras, cámaras, sistemas de transmisión, etc.).El vídeo entrelazado reduce el ancho de banda por un factor de dos, para una determinada línea y tasa de refresco. • La otra ventaja es la fluidez del movimiento, el contenido interlineal puede mostrar 50 diferentes imágenes por segundo para PAL (50 campos) y 60 para NTSC (60 campos) (720x480 60i - 720x576 50i - 1280x720 60i - etc) utilizando menor ancho de banda, esto puede ser una gran diferencia sobre todo cuando miramos videos por ejemplo de deportes, lo que notaríamos si lo desentrelazamos es que el movimiento ya no es tan suave debido a que después de las técnicas de desentrelazado más usadas solo se mantiene la información de 25 cuadros para PAL y 30 para NTSC, sin embargo hay técnicas que mantienen esta información y se pueden crear videos con 50 cuadros progresivos individuales para PAL y 60 para NTSC (720x480 60p - 720x576 50p - 1280x720 60p - etc) aunque a costa de un mayor ancho de banda. Inconvenientes Al descomponer un cuadro en dos campos, es decir en dos imágenes tomadas en tiempos diferentes, se producen algunas deficiencias que perjudican a la representación, rompiendo el concepto de lo que se conoce como "imagen nítica". Cuando la escena a representar es muy viva, con figuras con mucho movimiento, se dan desenfoques debido a las diferencias entre un campo y otro. Luego en imágenes con bordes de luminancia variable en sentido vertical o con filigranas verticales se produce el llamado "titileo interlíneas al que dos líneas sucesivas pertenecen al diferente campos. También se producen aberraciones cuando hay fuertes cambios cromáticos. Otros inconvenientes son:
• Aparición del efecto peine al ser mostrado en un sistema progresivo. • En las transiciones verticales se aprecia un ligero parpadeo, este efecto se conoce como vibración interlínea (Interline Twister), que consiste en que en los extremos horizontales se aprecie un efecto de parpadeo de frecuencia mitad de cuadro. • Otro efecto también creado por la exploración entrelazada es el desplazamiento de línea, (Line Crawl) y consiste en la visualización de unas líneas gruesas que se desplazan en sentido vertical en el momento que hay desplazamiento vertical en la escena. • El principal inconveniente es la perdida de resolución vertical respecto de la que se obtiene con el mismo número de líneas si se utiliza el escaneo progresivo. Esta situación fue comprobada experimentalmente por Kell. Situación actual Actualmente, el problema del parpadeo se ha solucionado de una manera diferente, se utilizan memorias que almacenan la imagen completa y posteriormente, la repite las veces que sean necesarios, consiguiendo así un mayor refresco de la imagen. Dos técnicas que se hacen servir dentro del ámbito doméstico son: • La primera consiste en repetir dos veces cada cuadro pero continuando con la exploración entrelazada, por tanto, en un sistema como el PAL donde se reproducen 50 cuadros por segundo, llegaríamos a obtener 100 cuadros por segundo. • La segunda técnica consiste en almacenar la imagen entera para representarla posteriormente sin efectuar exploración entrelazada, es decir, almacenamos los dos cuadros entrelazados y los juntamos para representarlos dos veces, por tanto, obtenemos 50 imágenes por segundo. No es, empero, una buena solución porque la imagen está explorada de manera entrelazada y no evitamos esta limitación. 6. Codigo de tiempo (TC) El Código SMPTE/EBU (o simplemente "time code") es una palabra digital de ocho dígitos que permite especificar con precisión absoluta los puntos de edición de video y audio. Un punto cualquiera designado en términos de time code no puede variar de una sesión a otra, de una máquina a otra, y ni siquiera de un país a otro. Las decisiones de edición como "corta la escena en cuanto Whitney sonríe a cámara" dejan mucho espacio para la interpretación -- particularmente si esta Whitney tiene la costumbre de sonreír con frecuencia. Además, hay una gran posibilidad de confundir diferentes tomas de la misma escena.
Pero aunque una cinta dure 4 horas, "00:01:16:12" es un punto específico de esa cinta. aunque una cadena de 8 números como 02:54:48:17, pareciera una imposición, su significado es muy sencillo: 2 horas, 54 minutos, 48 segundos y 17 cuadros. Como los números de código se mueven de derecha a izquierda cuando se teclean en el computador de edición, debe escribirlos en orden de horas, minutos, segundo, y cuadros. Si coloca sólo seis números en vez de ocho, la máquina asumirá "00 horas," en virtud de que la combinación de números tecleados apenas habrá llegado hasta minutos. Si hay algo complejo con el time code, es el hecho de que no puede sumarse o restarse en base 10 al igual que la mayoría de los problemas matemáticos. Los primeros dos dígitos son en base a 24 (hora militar). Los minutos y segundos van de 00 a 59, igual que en reloj digital, pero los cuadros van de 00 hasta 29. Treinta cuadros, al igual que 5/5 de milla, sería imposible de escribir porque 30 cuadros son 1 segundo. De igual forma, "60 minutos" son un número imposible en código de tiempo. Así, que como ejemplo, el cuadro que sigue a 04 horas, 59 minutos, 59 segundos y 29 cuadros cambiaría el contador a: 05:00:00:00. Veamos algunos problemas. Si un segmento dura 8 segundos, 20 cuadros, y otro 6 segundos, 19 cuadros, la duración de conjunta de los dos segmentos es de 15:09. Fíjese como en este ejemplo a medida que sume el total de cuadros obtendrá 39. Pero, como sólo podemos tener 30 cuadros en un segundo, debemos agregar un segundo a la columna de segundos y dejar sólo 9 cuadros. (39 menos 30 = 09 cuadros). Sumando 9 segundos (8 más el 1 que llevamos) más 6 resulta en 15 segundos, para un total de 15:09. 8 seconds, 20 frames, plus 6 seconds, 19 frames = 15:09 Veamos esta otra pregunta. Si el punto de entrada de video es 01:22:38:25 y la salida 01:24:45:10 cual es la duración del segmento?
segment out-point - 01:24:45:10 segment in-point - 01:22:38:25 = total segment time - 00:02:06:15 La respuesta se obtiene simplemente sustrayendo la cifra menor de la mayor. Note que como no es posible sustraer 25 cuadros de 10 cuadros tenemos que cambiar el 10 a 40 tomando prestado un segundo de 45. Para aquéllos que tienen que hacer estos cálculos constantemente, existen programas de computadora y calculadoras dedicadas que simplifican estas tareas. Código de Tiempo Drop-Frame El código SMPTE/EBU asume una resolución temporal de 30 cuadros por segundo. Aunque suena lindo, esto solo funciona así en la televisión en blanco y negro. Por razones técnicas, cuando el estándar NTSC de color y HDTV/DTV fueron establecidos, se decidió trabajar con una resolución temporal de 29.97 cuadros por segundo. A pesar de que la diferencia entre 30 y 29.97 pareciera insignificante, en algunas aplicaciones puede resultar en imprecisiones tremendas. Si toma una velocidad de 30 cuadros por segundo en vez de 29.97, tendrá un error de a 3.6 segundos cada 60 minutos. Como la televisión es un negocio que se mide en segundos, hubo que diseñar un método para compensar este error en la lectura del código. Eliminar 3.6 segundo al final de cada hora, no resolvía el problema (en particular si uno era el patrocinados al final de la hora al cual le cortaban 3.6 segundos de su anuncio). La Solución Así que ¿cómo se resuelve este problema? Bien, 3.6 segundos equivalen a 108 cuadros de video adicionales cada hora (3.6 multiplicado por 30 cuadros por segundo). Para mantener la precisión de lectura, 108 cuadros deben ser eliminados de la cuenta cada hora, y esto debe de hacerse de manera que evite confusiones. Lamentablemente, no estamos operando con números redondos. En primer lugar, se decidió que la compensación de los 108 cuadros 108-frame tenía que ser distribuido homogéneamente a través de la hora. Mejor descontar aquí y allá que todo de una sola vez. Si usted descuenta 2 cuadros por minuto, terminaría descontando un total de 120 cuadros por hora en vez de 108. Sería de lo más sencillo pero agrega un error en
la dirección contraria de 12 cuadros. Pero, como no podemos descontar medios cuadros de la cuenta del código, esto es tan cerca como podemos estar de compensar la lectura cada minuto. ¿Y qué hacer con los restantes 12 cuadros? La solución es no descontar 2 cuadros cada 10 minutos. Eso, por supuesto suma en una hora los 12 cuadros, puesto que hay seis intervalos de 10 minutos en cada hora. Así, utilizando esta fórmula terminamos descontando 108 cuadros cada hora -- justo lo que estábamos buscando. Como el descuento ocurre exactamente en el momento en que cambiamos de un minuto a otro, verá que el contador de time code literalmente y de manera automática salta los cuadros descontados cada vez que la corrección se ejecuta. Aunque no parece la solución más elegante del mundo, funciona. También es obvio por que lo llamamos código drop-frame (elimina cuadros). Para aplicaciones no críticas, como noticias, televisión industrial y comerciales, no suele usarse código drop-frame. Sin embargo, si usted produce programas de más de 15 minutos para ser transmitidos al aire deberá usar un editor con manejo de código en modo drop-frame. La mayoría de los controladores de edición tienen un conmutador que permite seleccionar el tipo de código bien sea no-drop o drop frame. Los programas de computadora típicamente incluyen una caja de selección en pantalla. Cuando su utiliza el modo drop frame se añade una señal adicional que conmuta automáticamente el equipo y advierte la presencia de código en esta modalidad. Agregando el Código El código de tiempo no es parte inherente de la señal de video; debe ser grabado en el video-tape durante la producción o después, mientras se visualiza el material o durante el proceso de bajada desde el computador a la cinta. Una vez grabados, estos ocho dígitos serán extremadamente útiles en todo el proceso de post-producción. Puede usar el código de tiempo para organizar los segmentos necesarios en una cinta y calcular sus duraciones específicas. Y el equipo de edición usará esos números para ubicar con absoluta precisión los puntos de edición y realizar las ediciones en esos puntos - y si fuese necesario, retornar a esos puntos más en el futuro para hacer nuevas ediciones. Métodos de Grabación del Código El código de tiempo puede ser grabado en la cinta de dos maneras posibles: como una señal de audio o como una señal de video.
Audio Track Time Code El código de tiempo consiste de 2.400 bits de información por segundo. Aunque es información digital, puede ser grabada en un canal analógico de audio en la cinta de video. Cuando se graba de esta manera se le conoce con el nombre de código longitudinal. Los pulsos digitales se convierten a una señal de audio de la misma forma en la que un módem convierte los pulsos digitales a sonido para la transmisión por vía telefónica. Aunque el sistema longitudinal de código es el más fácil de grabar, tiene dos desventajas importantes. En primer lugar, puede leer confiablemente de la cinta en movimiento. Esto puede representar un problema cuando se arranca y detiene constantemente la cinta durante la edición. En segundo lugar, cuando una cinta de video de duplica, el canal de audio puede sufrir cierta pérdida de calidad de la señal que deriva en una pérdida de información en los pulsos digitales de alta frecuencia - especialmente cuando la cinta se mueve en ambas direcciones a velocidades variables en un sistema de edición. Para resolver este inconveniente un procedimiento de enganche de código - jam sync - puede ser utilizado para regenerar el código longitudinal cuando se realiza una nueva copia. Sin embargo, ello requiere de un equipo adicional. Aunque el código longitudinal puede funcionar en las circunstancias adecuadas, hay un método de trabajo más confiable. El Código como Parte de la Señal de Video VITC (vertical-interval time code en Inglés o código de tiempo de intervalo vertical ) y otros sistemas que graban el código de tiempo con los cabezales de video, tienen varias ventajas. En primer lugar, grabar el código con el video, no ocupa un canal de video que podría necesitarse para otras cosas. Segundo, en más confiable y menos susceptible a ser afectado por problemas técnicos. Y por último el código está siempre visible- aún cuando la cinta no se está moviendo. El código grabado en un canal de audio (longitudinal) puede ser grabado mientras se graba el material en cámara, o luego a medida que se visualiza. Cuando el material se graba como parte del video (VITC), tiene que ser grabado a medida que el video se graba en la cinta. De otra forma, habría que copiar toda la cinta
para agregarle código. Muchos sistemas de edición tienen pequeñas pantallas de lectura de código el la parte superior del controlador de edición, tal como vemos aquí. Sistemas más sofisticados superimponen los números de código sobre el mismo video, tal como mostramos en la fotografía de la dama sobre el caballo. En este caso, los números de código pueden ser superpuestos temporalmente sobre la imagen (código desplegado), o puede ser permanentemente insertados en la imagen (copias manchadas o con código a la vista). En el primer caso, un equipo electrónico lee la información digital del código de la cinta y genera los números para ser insertados por key sobre la imagen. La desventaja de este procedimiento es que sólo puede verse el código cuando se utiliza equipo especial, o un controlador de edición adecuado. Una vez que los números de código han sido manchados sobre la imagen permanentemente el video y el código pueden ser visualizados en cualquier VCR y monitor. Aunque esto requiere la preparación de copias especiales, puede ser ventajoso si desea utilizar un videoreproductor convencional para visualizar las copias en casa o en una locación mientras toma nota de los segmentos que va a incluir en la edición final. La evaluación de una cinta de esta forma, es lo que llamamos una edición en papel y puede ahorrar mucho tiempo una vez que se encuentre frente al editor.
7. Caracteristicas video digital Tasa de bits (sólo digital) La tasa de bits es una medida de la tasa de información contenida en un flujo o secuencia de video. La unidad en la que se mide es bits por segundo (bit/s o bps) o también Megabits por segundo (Mbit/s o Mbps). Una mayor tasa de bits permite mejor calidad de video. Por ejemplo, el VideoCD, con una tasa de bits de cerca de 1Mbps, posee menos calidad que un DVD que tiene una tasa de alrededor de 20Mbps. La VBR (Variable Bit Rate – Tase de Bits Variable) es una estrategia para maximizar la calidad visual del vídeo y minimizar la tasa de bits. En las escenas con movimiento rápido, la tasa variable de bits usa más bits que los que usaría en escenas con movimiento lento pero de duración similar logrando una calidad visual consistente. En los casos de vídeo streaming en tiempo real y sin buffer, cuando el ancho de banda es fijo (por ejemplo en videoconferencia emitida por canales de ancho de banda constante) se debe usar CBR (Constant Bit Rate – Tasa de Bits Constante). Espacio de color y bits por píxel El nombre del modelo del color describe la representación de color de video. El sistema YIQ se utilizó en la televisión NTSC. Se corresponde estrechamente con el sistema YUV utilizado en la televisión NTSC y PAL; y con el sistema YDbDr utilizado por la televisión SECAM. El número de colores distintos que pueden ser representados por un pixel depende del número de bits por pixel (bpp). Una forma de reducir el número de bits por píxel en vídeo digital se puede realizar por submuestreo de croma (por ejemplo, 4:2:2, 4:1:1, 4:2:0). Formato Contenedor Un formato contenedor es un tipo de formato de archivo que almacena información de vídeo, audio, subtítulos, capítulos, meta-datos e información de sincronización siguiendo un formato preestablecido en su especificación. Algunos contenedores multimedia son: AVI, MPG, MOV (Contenedor de QuickTime ), ASF (Contenedor de WMV y WMA), Ogg, OGM, RMVB y Matroska. Las pistas de vídeo y audio suelen ir comprimidas, siendo distintos los códecs utilizados dentro de cada uno de los contenedores los encargados de descomprimir la información en aras a su reproducción. Cuando se crea un contenedor, en primer lugar se produce la codificación de las pistas y posteriormente son "unidas" (multiplexadas) siguiendo un patrón típico de cada formato. Cuando un archivo debe ser reproducido, en primer lugar actúa un divisor (splitter ), el cual conoce el patrón del contenedor, y "separa" (desmultiplexa) las pistas de audio y vídeo. Una vez separadas, cada una de ellas es interpretada por el decodificador y reproducida.
En aquellos contenedores con más de una pista, es el reproductor (esto es, el usuario) el que selecciona la que se va a reproducir. Es pues imprescindible que el reproductor cuente con los decodificadores necesarios para reproducir tanto el vídeo como el audio, ya que de lo contrario la información no puede ser interpretada de forma correcta. En resumen, no sólo es necesario conocer el formato del contenedor para poder separar las pistas, sino que también es necesario poder decodificarlas. En teoría, un formato contenedor podría recapitular cualquier especie de datos. Aunque existen pocos ejemplos de este tipo de formatos de archivo (un ejemplo son las bibliotecas de enlace dinámico de Windows), la mayoría de los contenedores existen para determinados grupos de datos. Esto se debe a las necesidades específicas de la información deseada. Lo más relevante es la familia de los envoltorios, que se encuentran en los formatos de archivos multimedia, donde el audio y/o video pueden ser codificados con cientos de algoritmos de diferentes alternativas. Que se almacenan en un menor número de formato de archivos. En este caso, el algoritmo o algoritmos que se utilizan para almacenar los datos en realidad se llama códec. MXF Material Exchange Format (MXF) es un formato abierto de fichero desarrollado para el intercambio de esencia (material de audio y video) y sus metadatos asociados, entre distintas estaciones de trabajo con diversas aplicaciones y equipos, o incluso distintas tecnologías. Deriva del modelo de datos AAF (Advanced Authoring Format) y es un formato contenedor que facilita la interoperabilidad de contenidos entre distintas aplicaciones utilizadas en la cadena de producción de televisión, ofreciendo eficiencia operacional. Surge a causa de la poca funcionalidad e interoperabilidad entre servidores de archivos, plataformas de edición de trabajo y otros dispositivos de creación de contenidos en el intercambio audiovisual en entornos de producción profesional. MXF ha sido desarrollado por las principales empresas y fabricantes de las industria de broadcast y las organizaciones más importantes como Pro-MPEG, EBU y la asociación AAF. Se ha completado con las entradas de la comunidad usuaria para asegurar que el formato cumple con sus necesidades reales. Las tecnologías cambiantes en la producción de televisión o en la transmisión de media provoca la necesidad de mejorar los flujos de trabajo y hacer las prácticas de trabajo más eficientes de lo que actualmente es posible con la mezcla de formatos propietarios de ficheros. La transferencia de ficheros debe ser independiente del contenido, tiene que transportar metadatos y ser capaz de reproducir en tiempo real. Así pues, conseguir la interoperabilidad es el objetivo principal de Pro-MPEG i MXF, por lo que se ha implementado en tres áreas: • Puede trabajar con distintos protocolos de red y a través de distintos sistemas operativos (Windows, Mac, Unix, …) • Es independiente del formato de compresión usado ya que puede transportar distintos formatos como MPEG, DV o video sin comprimir.
• Tiene que soportar tanto la transferencia de archivos como de streaming. La aportación decisiva de MXF es que permite guardar e intercambiar no sólo el contenido o esencia, sino también los metadatos asociados. Actualmente los metadatos se encuentran en cualquier sistema, pero a menudo esta información se pierde en el traspaso entre sistemas debido a incompatibilidades. Los metadatos pueden contener información sobre el timecode, la estructura de archivos, subtítulos, notas de edición, … así que pueden llegar a superar el contenido de audio y video, resultando imprescindible un buen uso. MXF mejora la gestión de la información audiovisual y permite mejorar los flujos de creación de contenidos eliminando las reentradas de metadatos repetidos. MXF es un formato de fichero versátil que guarda datos con cualquier formato de compresión con los metadatos asociados, guarda ficheros de streaming que se visualicen durante la transferencia, contiene un listado de ficheros y guarda la información sincronizada. La estructura de un fichero MXF consiste en una cabecera, un cuerpo que contiene la esencia y un pie. Para una estandarización rápida MXF se ha adherido a las guías SMPTE KVL (Key Length Value). MXF está compuesto por una secuencia continua de paquetes KVL de diversos tipos: audio, video, taulas índice, cabeceras de partición y metadatos. Cada ítem del fichero se codifica en KVL, es decir, cada uno se identifica con una única llave de 16 bytes y su longitud. Cada una de estas secciones contiene una o más particiones, permitiendo separar la esencia de los metadatos. De esta forma permite que el formato de fichero pueda crecer y añadir nuevas características con nuevas técnicas de compresión y esquemas de metadatos que se vayan definiendo. MXF deriva del modelo de datos AAF, así que los dos formatos son complementarios. Los archivos creados de acuerdo a las reglas MXF pueden abrirse por aplicaciones que soporten AAF. Además, los archivos MXF pueden incrustarse en archivos AAF. De momento MXF no sustituirá los formatos existentes. Se usa en diseños de nuevos equipos, en versiones de actualizaciones de servidores A/V y NLEs, y como archivos de formato. Su difusión costará un cierto tiempo en el que tendrá que coexistir con los formatos existentes. Actualmente todos los archivos MXF no son totalmente compatibles entre ellos y no hay garantía que un archivo MXF pueda usarse en cualquier decodificador dado. Para una verdadera interoperabilidad el emisor y el receptor tienen que soportar la misma compresión A/V y formatos metadatos. MXF especifica los modelos operacionales que definen las características, tipo de compresión y estructuras de metadatos de MXF que soportan. A través del SMPTE aparecerán los nuevos modelos que la industria necesita. En la actualidad MXF es bastante efectivo en el intercambio de material D10 (IMX), sobre todo debido al éxito del sistema eVTR de Sony y el eVTR RDD de Sony. Es posible combinar los flujos del eVTR, sistemas Avid NLE y servidores de de broadcast usando MXF en coordinación con AAF. También está mejorando el intercambio de material MPEG-2 Long-GOP entre servidores de video. Desde el otoño de 2005 hay más problemas en la interoperabilidad con MXF en su
uso en post-producción de broadcast. Hay dos sistemas de cámaras de grabación que producen MXF, la XDCAM de Sony y la DVCPRO P2 de Panasonic, que producen archivos mutuamente incompatibles en opciones de subformato opaco poco claro en la extensión del fichero MXF. Y sin herramientas avanzadas es imposible distinguir entre ellos. Además, muchos sistemas MXF producen ficheros que almacenan el audio y el video por separado y usan una convención para nombrarlos que depende de nombre de fichero aleatoriamente generados y unidos. No sólo agrava la cuestión de conocer exactamente cuál es un fichero MXF sin herramientas especializadas, si no que también rompe la funcionalidad de las técnicas de computación estándares que se usan habitualmente para manipular los datos sobre niveles fundamentales como mover, copiar, renombrar y borrar. Usando un nombre de fichero generado aleatoriamente el usuario está desinformado, pero cambiando el nombre se rompe la estructura de la base de datos entre ficheros. Los fixeros MXF grabados sobre tarjeta P2 de Panasonic son compatibles con sistemas de edición importantes como Autodesk Smoke, Adobe After Effects ,Adobe Premiere Pro y Final Cut Pro. La implementación en otros productos, incluyendo Avid Newscutter, es particularmente deficiente y destaca en cuestiones de identificación opciones de XDCAM y P2 MXF fácilmente confundibles. Aunque el propósito de MXF es ser un formato fácilmente archivable, importar ficheros divididos MXF con metadatos externos XML puede resultar muy complicado. La extensión para los ficheros MXF es “.mxf”, aunque para Macintosh File Type Code registrado por Apple es “mxf ” (darse cuenta del espacio posterior). Método de compresión de vídeo - Codec (sólo digital) Se usa una amplia variedad de métodos para comprimir secuencias de vídeo. Los datos de vídeo contienen redundancia temporal, espacial y espectral. En términos generales, se reduce la redundancia espacial registrando diferencias entre las partes de una misma imagen (frame); esta tarea es conocida como compresión intraframe y está estrechamente relacionada con la compresión de imágenes. Así mismo, la redundancia temporal puede ser reducida registrando diferencias entre imágenes (frames); esta tarea es conocida como compresión interframe e incluye la compensación de movimiento y otras técnicas. Los estándares mor satélite, y MPEG-4 usado para los sistemas de vídeo domésticos. 9. Modelos de color Modelo aditivo de colores rojo, verde, azul. La descripción RGB (del inglés Red, Green, Blue; "rojo, verde, azul") de un color hace referencia a la composición del color en términos de la intensidad de los colores primarios con que se forma: el rojo, el verde y el azul. Es un modelo de color basado en la síntesis aditiva, con el que es posible representar un color mediante la mezcla por adición de los tres colores luz primarios. El modelo de color RGB no define por sí mismo lo que significa exactamente rojo, verde o azul,
por lo que los mismos valores RGB pueden mostrar colores notablemente diferentes en diferentes dispositivos que usen este modelo de color. Aunque utilicen un mismo modelo de color, sus espacios de color pueden variar considerablemente. Para indicar con qué proporción mezclamos cada color, se asigna un valor a cada uno de los colores primarios, de manera, por ejemplo, que el valor 0 significa que no interviene en la mezcla y, a medida que ese valor aumenta, se entiende que aporta más intensidad a la mezcla. Aunque el intervalo de valores podría ser cualquiera (valores reales entre 0 y 1, valores enteros entre 0 y 37, etc.), es frecuente que cada color primario se codifique con un byte (8 bits). Así, de manera usual, la intensidad de cada una de las componentes se mide según una escala que va del 0 al 255. Por lo tanto, el rojo se obtiene con (255,0,0), el verde con (0,255,0) y el azul con (0,0,255), obteniendo, en cada caso un color resultante monocromático. La ausencia de color —lo que nosotros conocemos como color negro— se obtiene cuando las tres componentes son 0, (0,0,0). La combinación de dos colores a nivel 255 con un tercero en nivel 0 da lugar a tres colores intermedios. De esta forma el amarillo es (255,255,0), el cyan (0,255,255) y el magenta (255,0,255). Obviamente, el color blanco se forma con los tres colores primarios a su máximo nivel (255,255,255). El conjunto de todos los colores se puede representar en forma de cubo. Cada color es un punto de la superficie o del interior de éste. La escala de grises estaría situada en la diagonal que une al color blanco con el negro. Modelo de color HSL El modelo HSL (del inglés Hue, Saturation, Lightness – Matiz, Saturación, Luminosidad), que es similar a HSV o HSI (del inglés Hue, Saturation, Intensity – Matiz, Saturación, Intensidad), define un modelo de color en términos de sus componentes constituyentes. El modelo HSL se representa gráficamente como un cono doble o un doble hexágono. Los dos vértices en el modelo HSL se corresponden con el blanco y el negro, el ángulo se corresponde con el matiz, la distancia al eje con la saturación y la distancia al eje blanco-negro se corresponde a la luminancia. Como los modelos HSI y el HSV, es una deformación no lineal del espacio de color RGB. Saturación Para calcular la saturación, simplemente divida el croma por el mayor croma para esa luminosidad.
Luminosidad En este modelo, la luminosidad se define como el promedio entre el mayor y el menor componente de color RGB. Esta definición pone los colores primarios y secundarios en un plano que pasa a mitad de camino entre el blanco y el negro. El sólido de color resultante es un cono doble similar al de Ostwald.[1] Conversión desde RGB a HSL Los valores (R, G, B) deben ser expresados como números del 0 al 1. MAX equivale al máximo de los valores (R, G, B), y MIN equivale al mínimo de esos valores. La fórmula puede ser escrita como Comparación entre HSL y HSV HSL es similar al modelo HSV pero refleja mejor la noción intuitiva de la saturación y la luminancia como dos parámetros independientes, y por tanto es un modelo más adecuado para los artistas. La especificación de las hojas de estilo en cascada (CSS) en su versión 3 prefieren HSL porque es simétrico al eje luz- oscuridad, lo que no sucede con el modelo HSV ("Advantages of HSL are that it is symmetrical to lightness and darkness (which is not the case with HSV for example)..."). Significa que: • En HSL, la componente de la saturación va desde el completamente saturado hasta el gris equivalente, mientras que en HSV, con V al máximo, va desde el color saturado hasta el blanco, lo que no es muy intuitivo. •
Graduaciones de saturación en el modelo HSL matiz 100% 75% de saturación 25% de 0 de puro saturación media saturación saturación Graduaciones de saturación en el modelo HSV matiz 100% 75% de saturación 25% de 0 de puro saturación media saturación saturación • La luminancia en HSL siempre va desde el negro hasta el blanco pasando por la tonalidad deseada, mientras que en HSV la componente V se queda a mitad camino, entre el negro y la tonalidad escogida. YUV
Una imagen junto con sus componentes Y', U, y V YUV es un espacio de color típicamente usado como parte de un conducto de imagen en color. Codifica una imagen o video en color teniendo en cuenta la percepción humana, permite utilizar ancho de banda reducido para los componentes de crominancia, de esta forma, hace que los errores de transmisión o las imperfecciones de compresión se oculten más eficientemente a la percepción humana que usando una representación RGB "directa". Otros espacios de color tienen propiedades similares, y la principal razón para implementar o investigar propiedades de Y'UV sería para interactuar con televisión analógica o digital o equipamiento fotográfico que se ajusta a ciertos estándares Y'UV. El modelo YUV define un espacio de color en términos de una componente de luminancia y dos componentes de crominancia. El modelo YUV es usado en los sistemas PAL y NTSC de difusión de televisión, el cual es el estándar en la mayoría del mundo. El modelo YUV está más próximo al modelo humano de percepción que el estándar RGB usado en el hardware de gráficos por ordenador, pero no tan cerca como el espacio de color HSL y espacio de color HSV. Las siguientes ecuaciones se usan para calcular Y, U y V a partir de R, G y B: = 0,299R + 0,587G + Y 0,114B U = 0,492(B − Y) = − 0,147R − 0,289G + 0,436B V = 0,877(R − Y) = 0,615R − 0,515G − 0,100B o usando las matrices Se asume que R, G yB están en el rango 0 a 1, con 0 representando la intensidad mínima y 1 la máxima. Y está en el rango 0 a 1, U está en el rango -0,436 a 0,436 y V está en el rango -0,615 a 0,615. Normalmente la conversión RGB->YUV son en matemática entera, por lo que suele ser conveniente usar una aproximación en [coma fija]. Y := min(abs(r * 2104 + g * 4130 + b * 802 + 4096 + 131072) >> 13; 235) U := min(abs(r * -1214 + g * -2384 + b * 3598 + 4096 + 1048576) >> 13; 240) V := min(abs(r * 3598 + g * -3013 + b * -585 + 4096 + 1048576) >> 13; 240)
También puede leer