Sonido
Sonido
Sonido
Sonido
El sonido se produce por la interaccin de un objeto que vibra, un medio de transmisin y un receptor. Para que el sonido sea percibido por el ser humano, el objeto debe vibrar con una frecuencia de entre 20 Hz. y 20 KHz. La vibracin produce una compresin y rarefaccin alternativa del aire que se transmite en forma de ondas sonoras. Estas ondas llegan al odo, donde se producen unos estmulos elctricos que el cerebro interpreta como sonidos. Las ondas sonoras se atenan con la distancia y pueden ser absorbidas o reflejadas por los obstculos que encuentran a su paso.
2 = 1,05946. Las notas correspondientes a las teclas blancas del piano se denominan
Terminologa europea Terminologa anglosajona Do C Re D Mi E Fa F Sol G La A Si B
Las notas correspondientes a las teclas negras del piano se denominan con el nombre de la tecla blanca situada a la izquierda aadindole el smbolo # (sostenido), o con el nombre de la tecla blanca situada a la derecha, aadindole el smbolo b (bemol). As, la tecla negra que est entre el Do y el Re ser indistintamente Do# o Re b. El timbre es la personalidad de un sonido y permite distinguir, por ejemplo, el sonido de un piano y de una trompeta con igual duracin, intensidad y tono. Grficamente, el timbre se caracteriza por la forma de la onda. Las ondas sinusoidales puras solo se obtienen electrnicamente, pero en la naturaleza, los sonidos son ms complejos. La frecuencia de vibracin ms grave (frecuencia base) es la que determina el periodo y la amplitud. Las restantes frecuencias, que suelen ser mltiplos de la frecuencia base, son los armnicos. La intensidad de un sonido depende de la amplitud de onda. Las intensidades de los sonidos que podemos percibir tienen un rango de ms de 15 rdenes de magnitud por lo que para su medicin se usa una escala logartmica (decibelios)
dB = 10 log10
a2 2 aref
donde a es la amplitud de onda del sonido que se est midiendo, y aref es la amplitud de referencia (la del sonido con el cual se compara). As los decibelios son una relacin entre dos amplitudes de onda. Si se toma como amplitud de referencia el umbral de audicin, la siguiente tabla muestra la intensidad en dB de algunos sonidos representativos: Descripcin Umbral del dolor Concierto heavy metal Martillazos sobre metal Trfico de vehculos Conversacin normal Restaurante concurrido Casa en la ciudad Iglesia vaca Estudio de grabacin Umbral de audicin Nivel (dB) Intensidad 130 1013 120 1012 110 1011 70 107 60 106 50 105 40 104 30 103 20 102 0 1 4-1
Relacionado con la intensidad est el concepto de rango dinmico, que es la diferencia en decibelios entre el sonido ms fuerte y ms dbil que un sistema puede producir. En un aparato de sonido, este valor indica la diferencia entre el volumen mximo y el ruido de fondo que se emite cuando no hay seal. En los equipos de sonido de cierta calidad el rango dinmico oscila entre los 80 dB y los 95 dB
Rd = 10 log10
(2 )
1
n 2
En un sistema con 8 bits el rango dinmico mximo ser de unos 48 dB y con 16 bits, de 96 dB. La calidad del sonido digital (y tambin el tamao que ocupa) depende de la frecuencia de muestreo y los bits de cuantizacin: Calidad CD: 44,1 KHz., 16 bits y estreo. Esto implica que los lectores de CD audio deben tener una velocidad de transferencia mnima de unos 172 KB/seg. (la llamada velocidad simple). La velocidad de los lectores de CD ROM se suele medir en mltiplos de esta cantidad. Un minuto de sonido digitalizado en calidad CD ocupa unos 10 Mb. Calidad musical: si hay que ahorrar espacio se puede reducir el muestreo a 22,05 KHz. y eliminar uno de los canales estreo, con lo que se llega a 43 KB/seg, el mnimo recomendable para reproducir msica. Calidad telefnica: a 11,025 KHz. y 8 bits el sonido ocupa unos 11KB/seg. Sin embargo, los parmetros de digitalizacin no son los nicos factores que afectan la calidad del sonido digital. El diseo de los conversores A/D y D/A y del resto de la circuitera asociada son tambin factores decisivos.
4-2
Eliminar silencios: se define una amplitud por debajo de la cual el sonido se considera silencio, y se eliminan esos fragmentos. Puede servir para quitar las porciones inicial y final de una grabacin, as como para eliminar las porciones de silencio entre sonidos. Insertar silencios de una duracin determinada a partir de la posicin del cursor. Las tcnicas que modifican la amplitud consisten bsicamente en multiplicar las muestras de sonido por distintos valores: Modificar el nivel sonoro: multiplicar las muestras por un nmero real. Al multiplicar por un valor entre 0 y 1 el nivel sonoro disminuye y si el valor es mayor que 1, aumenta. Silenciar: multiplicar por cero las muestras de la zona seleccionada. Umbral de ruido (noise gate): silencia las muestras por debajo de un determinado valor umbral. Permite eliminar el ruido de fondo, pero solo en aquellas porciones en las que no hay otros sonidos. Tambin consigue que los ataques y decaimientos de los sonidos sean ms bruscos. Normalizar: es un caso particular de modificacin de la ganancia que obtiene la mxima amplitud posible sin que se produzca distorsin. Para ello, se recorre todo el fragmento de sonido y se registra la mayor amplitud de onda. Se calcula el cociente entre la mayor amplitud de onda posible y la mayor amplitud registrada. Finalmente, se multiplican todas las muestras por dicho cociente. Aplicacin de envolventes: las envolventes son curvas que determinan la evolucin temporal de la amplitud. Una envolvente puede especificar, por ejemplo, un aumento gradual del volumen al principio de un sonido, y una disminucin brusca del mismo al final. Fundido de entrada y de salida (fade in y fade out): son dos envolventes muy utilizadas. El fundido de entrada tiene valor inicial cero, y valor final uno y se usa para darle un comienzo progresivo al sonido. El fundido de salida tiene un valor inicial 1 y valor final 0 y sirve para darle un final progresivo al sonido. Modulacin de la amplitud con una seal peridica. El efecto sonoro que se consigue es una variacin cclica del volumen (trmolo) Inversin: hacer una reflexin de las muestras con respecto al eje horizontal, con lo que los valores positivos pasan a ser negativos y viceversa (cambio de fase). Se trata de un efecto sutil que se percibe mejor cuando se aplica a uno de los dos canales de un sonido estreo. Tambin hay algunas tcnicas de edicin de sonido digital que modifican la amplitud mediante operaciones de suma: Mezclar: se suman los valores de dos fragmentos de sonido. Desplazamiento del cero (DC Bias Offset): algunas tarjetas de sonido tienen un error constante al digitalizar, con lo que el cero queda desplazado. Si se graba un fragmento de silencio, la lnea horizontal queda por debajo o por encima del eje horizontal. Hay programas de edicin de sonido que pueden detectar y corregir este error. Las tcnicas de edicin ms importantes basadas en la modificacin de la frecuencia son: Cambio de la frecuencia de reproduccin: si un sonido muestreado a 44,1 KHz. se reproduce a 22,05 KHz. sonar una octava ms grave y durar el doble de tiempo. El fichero original no se modifica. Remuestreo: a partir de las muestras de un sonido digital, aumentar o disminuir su frecuencia de muestreo, aadiendo o eliminando muestras respectivamente. Para pasar de 44,1 KHz. a 22,05 KHz. se elimina una muestra de cada dos. Antes de remuestrear a una frecuencia ms baja, conviene filtrar el sonido original y eliminar las frecuencias superiores a la mitad de la nueva frecuencia de muestreo. Para pasar de 22,05 KHz. 44,1 KHz., se crea por interpolacin una nueva muestra entre cada dos. Hay que aclarar que este proceso no mejora la calidad del sonido, pero puede ser necesario por razones de compatibilidad entre programas o ficheros de sonido. Transposicin: es un trmino musical que significa subir o bajar la altura de una meloda uno o ms semitonos. Se puede realizar la transposicin del sonido variando su duracin o sin variarla. El pitch bend o modificacin continua de la frecuencia es similar a la transposicin, pero en vez de realizarse en intervalos discretos (semitonos) se lleva a cabo de forma continua. Se puede definir la evolucin de la frecuencia en el tiempo mediante una envolvente. El efecto musical as obtenido se llama glissando y equivale a desplazar la mano izquierda sobre el mstil de una guitarra mientras suena una cuerda.
El estndar MIDI data del ao 1983 y fue tal su xito que se mantiene con pocos cambios desde entonces. Su meta inicial era conseguir que desde un teclado central se pudieran controlar distintos instrumentos musicales electrnicos interconectados, pero con el uso de ordenadores, el MIDI se convierte adems en una herramienta para distintas aplicaciones musicales: ayuda a la composicin, docencia, edicin de partituras...
4-4
Los siete primeros se llaman genricamente mensajes de canal, porque actan sobre un nico canal a la vez (el codificado en los cuatro bits menos significativos del byte de estatus. Los mensajes de sistema tienen una estructura diferente y no se aplican a ningn canal en concreto. Un dispositivo MIDI no tiene porqu generar o entender todos los mensajes. Cuando un dispositivo MIDI recibe un mensaje que no entiende, simplemente lo ignora, y lo reenva por el puerto MIDI THRU. A continuacin se describen las caractersticas ms importantes de los mensajes de canal: Note On: se genera al pulsar una tecla en el teclado, e indica que debe comenzar la reproduccin de esa nota. El primer byte de datos indica la altura, desde 0 (la nota ms grave) hasta 127 (la ms aguda). As pues el estndar MIDI tiene una extensin de ms de 10 octavas (un piano tiene poco ms de 7). La nota 60 corresponde al Do central del piano. El segundo byte de datos indica la velocidad de ataque, que depende de la fuerza con la que se pulsa la tecla. Este parmetro se asocia normalmente con la intensidad sonora. La velocidad cero se usa para desactivar la nota si est sonando. Los teclados que no detectan la velocidad de ataque generan siempre un valor de velocidad de 64. Note Off: sirve para desactivar una nota que est sonando, y se genera al soltar una tecla del teclado. El primer byte de datos contiene la nota soltada, y el segundo la velocidad de liberacin, pero se usa ms el mensaje Note On con velocidad cero. Polyphonic Aftertouch: algunos teclados detectan la presin ejercida sobre cada tecla en cada momento. Cuando se produce un cambio de presin se produce este mensaje. En el primer byte de datos se almacena la nota, y en el segundo, la presin. El sintetizador suele utilizar el parmetro de presin para modificar el nivel sonoro y el timbre. Como este mensaje se genera en grandes cantidades (varias decenas por segundo por cada tecla pulsada) es habitual poder desactivarlo para evitar exceso de trfico. Channel Aftertouch: es una versin simplificada del Polyphonic Aftertouch. En vez de generar un mensaje por cada nota, se genera un solo mensaje para todo el canal, cuyo valor es la mayor presin de todas las detectadas. Pitch Bend: con este mensaje se desafinan momentneamente las notas ( 2 semitonos segn el estndar General MIDI). El control que suele generar estos mensajes (varias decenas por segundo) en los teclados es una rueda giratoria que vuelve sola a su posicin inicial. Los dos bytes de datos definen un valor de 14 bits (ente 8192 y 8191) que especifica la magnitud de la desafinacin. Program Change: Los distintos sonidos o instrumentos que puede reproducir un sintetizador se denominan parches, programas o voces. Este mensaje se puede generar desde botones en el teclado o desde el propio programa secuenciador. El nico byte de datos indica el programa o instrumento (de 0 a 127). Cuando un sintetizador tiene ms de 128 programas, stos se agrupan en bancos de hasta 128 programas cada uno. Para acceder a todos estos sonidos se utiliza un mensaje de Control Change llamado Cambio de Banco. Control Change: Es un tipo de mensaje de canal muy flexible ya que engloba 128 posibles mensajes diferentes (no todos estn asignados), para modificar distintos aspectos del sonido. El primer byte de datos indica el tipo de control (modulacin, volumen, etc.) y el segundo byte de datos, el valor asignado a dicho control. Algunos de los tipos de control ms usados por este mensaje son: 4-5
Tipo 0 (cambio de banco): si un sintetizador tiene varios bancos de sonido, con este mensaje se puede acceder a todos ellos. El segundo byte de datos contiene el nmero de banco deseado. Este mensaje suele ir seguido de otro de cambio de programa. En algunos sintetizadores, el cambio de banco se hace con Control Change 32. Tipo 1 (modulacin): este mensaje se suele mandar con la segunda de las ruedas de los teclados (la primera era el pitch bend). Su efecto suele ser programable, y se puede usar para modular la amplitud (trmolo), la frecuencia (vibrato), la frecuencia de corte del filtro... Tipo 7 (volumen): controla el volumen del canal en su conjunto, como un mezclador. Tipo 10 (panorama): un valor de 0 hace que el sonido se emita por el altavoz izquierdo, 64 por los dos y 127 por el derecho. Valores intermedios generan mezclas intermedias entre el altavoz izquierdo y derecho. Tipo 121 a 127: son unos mensajes especiales denominados de modo. El 121 devuelve todos los controles a sus valores por defecto. El 123 apaga todas las notas, lo que resulta til si alguna sigue sonando por haber perdido su mensaje Note Off. Existen otros controles denominados genricamente RPN (Registered Parameter Number) y NRPN (Non-Registered Parameter Number). En ellos se combinan varios mensajes de Control Change para modificar parmetros especficos de un sintetizador. Estos mensajes no estn estandarizados, y exigen consultar la documentacin de cada sintetizador. Los mensajes de sistema no son especficos de canal y afectan al comportamiento global del dispositivo que los recibe. Su byte de estatus comienza por 1111 y los otros cuatro bits definen el tipo de mensaje de sistema. Son 16 en total y se clasifican en tres grupos: Comunes: suelen enviarse a secuenciadores, para situarlos en un posicin determinada de una pieza. El ms importante es el MTC (Midi Time Code), que se usa para sincronizar secuenciadores con otros dispositivos. De tiempo real: sirven para sincronizar dispositivos MIDI que normalmente funcionan cada uno con su reloj interno. Se puede configurar uno como maestro y otro como esclavo y mandar seales de sincronizacin. Exclusivos: son mensajes especficos de cada fabricante para controlar aspectos particulares del hardware de sus modelos.
4.5.1. MP3
Dentro de los estndares de vdeo MPEG (de los que hablaremos) hay tambin creados estndares de compresin de audio. Como se permiten distintas calidades existen tres "capas" con distintos esquemas de compresin: la capa 1, la 2 y la 3 (de forma que la complejidad es progresiva y un decodificador funciona tambin con las capas anteriores), y esta ltima se conoce por MP3 o MPEG Audio Layer-3. El MP3 permite comprimir en un factor aproximado de 12 la informacin original muestreada (unos 120 Kbits por segundo, es decir, ms o menos 1 Mb por minuto) sin perder calidad de sonido de forma apreciable (por un oido no entrenado... y de hecho los estudios de percepcin de calidad de mp3 se han hecho con oyentes opinando sobre las diferencias). El formato mp3 utiliza unos cuantos trucos para comprimir el sonido, fundamentalmente tcnicas de codificacin de percepcin que aprovechan la manera en la que el oido humano percibe el sonido. Veamos algunas de las claves:
4-6
Umbral mnimo de audicin El umbral mnimo de audicin humano (minimal audition threshold) no es lineal. De acuerdo a la ley de Fletcher y Munsen, se representa por una curva entre 2 y 5 KHz. Cualquier sonido situado fuera de este margen puede no codificarse, ya que no ser percibido de cualquier modo. Efecto mscara Hay una serie de propiedades de ocultacin (masking effect) del odo humano. De la misma forma que al mirar a un objeto muy brillante se anula la percepcin de otros objetos que puedan cruzarlo, en audio los sonidos fuertes no dejan oir a los dbiles. Para conseguir aprovechar esta caracterstica mp3 usa un modelo psicoacstico del comportamiento del oido humano, que filtra los sonidos ms dbiles cuando hay sonidos muy fuertes a la vez. Reserva de bytes Partes de una obra pueden no ser codificados por debajo de un nmero de bytes por segundo para mantener la calidad. En estos casos, mp3 usa partes que s pueden codificarse en un tamao inferior para almacenar parte de los otros, de modo que acta como una especie de buffer de las partes ms exigentes. Fusin de estreo En muchas msicas, en frecuencias determinadas, el odo humano no puede distinguir el origen espacial de los sonidos de un canal u otro del estreo. En este caso mp3 puede fusionar las dos seales en una nica (mono) aadiendo quizs alguna informacin de diferenciacin de canales para disminuir al mnimo la informacin determinada por la diferencia entre uno y otro canal. Codificacin de Huffman El cdigo Huffman se aplica al final de la compresin. En cierto modo complementa a las otras partes de la codificacin mp3: en algunas partes polifnicas se puede reducir mucha informacin enmascarada o de estreo, y en ese caso habr poca redundancia (y por ello poca reduccin por codificacin Huffman); mientras que en partes de solos se podrn aplicar pocos efectos de mscara pero habr muchos bytes redundantes (mucha reduccin por Huffman).
4-7
En el proceso de sntesis de sonidos se pueden distinguir tres etapas: La creacin de una onda ms o menos compleja, con un tono determinado. La modificacin de los parmetros fundamentales de ese sonido inicial (intensidad, tono y timbre) a lo largo del tiempo mediante envolventes. La modificacin del sonido para simular un entorno acstico determinado. Los dos mtodos fundamentales de generacin de sonidos son: Sntesis FM (modulacin de frecuencia): consiste en combinar una onda portadora, que proporciona el tono bsico del sonido, y una onda moduladora, que modifica la frecuencia de la portadora a lo largo del tiempo. Con esta tcnica se pueden generar sonidos interesantes, pero no reproducir con precisin el sonido de los instrumentos musicales. Sntesis por tabla de onda: consiste en almacenar en memoria una serie de muestras de sonidos reales digitalizados, y como respuesta a un determinado mensaje MIDI, se reproduce repetidamente una de las muestras. El sonido generado por una tarjeta puede tener distinto nmero de canales: 1 (sonido monoaural, como en las primeras tarjetas que se comercializaron). 2 (estreo). 4 (cuadrafnico) 6 (estndar Dolby Digital 5.1: sonido cinematogrfico con cuatro canales delante y dos detrs)
4-8