Vocoders LPC
Vocoders LPC
Vocoders LPC
Definición
Este codificador describe el tracto vocal como un filtro todo polos de respuesta impulsiva infinita (filtro
IIR). Cada muestra es calculada como una combinación lineal de las muestras anteriores. Los
coeficientes del filtro se calculan para minimizar el error entre la muestra actual y su predicción.
[ CITATION Lui1 \l 3082 ]
El vocoder LPC es lineal debido a que el siguiente valor de salida del sistema se determina a partir de
una suma de valores de salidas anteriores más un valor de entrada nuevo. Esta es una característica de
un filtro de respuesta a impulso finita. De este filtro, se genera una versión predictiva de la señal y
tomada de la señal actual genera a su vez una señal de error.[ CITATION Lui1 \l 3082 ]
Figura 2. Codificador LPC
Todo lo que se necesita para caracterizar una señal de una muestra de voz dada, son los coeficientes del
filtro de síntesis, el factor de ganancia, el periodo de tono, y saber si la voz es sonora o sorda.
[ CITATION Lui1 \l 3082 ]
Para reproducir correctamente la voz en el receptor, la señal de error se debe usar como la señal de
excitación. Ya que esto rompe el propósito de lograr tasas de bit más bajas, la excitación de la señal
también se caracteriza y se envía junto con los otros parámetros para la síntesis en el receptor.
[ CITATION Lui1 \l 3082 ]
Las muchas diferentes formas en que se puede dar el LPC, varía, en la manera, la excitación de la
señal, la representación, cuantificación y transmisión de los otros parámetros.
Características
Ecuación
La idea principal se basa en que la señal de voz puede modelarse a través de una combinación lineal de
p muestras anteriores más una señal de excitación o ruido blanco.
p
s [ n ] =∑ a k s [ n−k ] +e [ n ]
k=1
Para determinar los coeficientes del LPC se pueden deducir las ecuaciones de Yule-Walker a partir de
la minimización del error cuadrático medio.[ CITATION Pro \l 3082 ]
∞ ∞ p
E= ∑ e (n)=
n=−∞
2
∑
n=−∞
[ s ( n )−∑ ∝k s [ n−k ]
k=1
]
δE
=0 k =1,2,3 ,… .. , p
δ ∝k
Ventajas
Desventajas
La señal de excitación periódica, añade un aspecto "metálico" a la señal sintetizada en el
receptor.
En función del tipo de trama (sonora/sorda) se elige o bien un tren de impulsos o bien una señal
aleatoria, como consecuencia, las fricativas sonoras ("v", "z") son modeladas incorrectamente
porque la excitación correspondiente debería ser una señal aleatoria con envolvente periódica.
Aplicaciones
La mayoría de los sistemas de codificación están diseñados para soportar aplicaciones de
telecomunicaciones, con un rango de frecuencia entre 300 y 3400 Hz.
La DTAD (Digital Telephone Answering Device) y las grabadoras de estado sólido
Características
Opera con tramas vocales de 10 ms correspondientes a 80 muestras a una velocidad de
muestreo de 8000 muestras por segundo.
En cada trama de 10 ms se analiza la señal vocal para extraer los parámetros del modelo CELP
(coeficientes del filtro de predicción lineal, ganancias e índices de las tablas de códigos
adaptativos y fijos).
En esta codificación las tramas de la señal excitación se modelan por un vector gaussiano
elegido de una tabla de códigos gaussianos minimizando el error ponderado perceptual entre la
señal de voz original y la sintetizada.
Los codecs CELP generalmente crean un retardo mayor que los codecs de forma de onda.
Se utiliza un codebook de señales de excitación para usar como corrección en la estimación de
periodicidad.
La secuencia de excitación del filtro de pitch se elige de lo que se conoce como “diccionario”,
el diccionario está formado por un conjunto de secuencias de ruido blanco gaussiano, cada una
identificada por un índice dentro del mismo.
Al receptor, por tanto, sólo se le envía el índice del diccionario y la ganancia.
En el decodificador, se usan los datos recibidos para recuperar los parámetros de excitación y
del filtro de síntesis.[ CITATION Lui1 \l 3082 ]
En el procedimiento de análisis por síntesis se filtran secuencialmente todas las señales de excitación
posibles y se escoge aquella que proporcione el menor error. Por tanto, la única información que deberá
enviarse al decodificador es e! índice del vector seleccionado (la posición de dicho vector en la tabla o
registro). Como es lógico tanto el codificador como el decodificador deberán disponer del mismo
codebook de excitaciones.[ CITATION Lui1 \l 3082 ]
Ecuación
La señal de excitación de una trama de voz de longitud N se elige mediante una búsqueda exhaustiva
de la tabla de códigos después de escalar los vectores gaussianos por un factor de ganancia β.
Desventajas
La complejidad del códec CELP era demasiado elevada para ser implementada en tiempo real
(llevó 125 segundos a un ordenador Cray procesar un segundo de la señal de voz).[ CITATION
Lui1 \l 3082 ]
Aplicaciones
Utilizados en algunos casos como instrumentos musicales dependiendo de su utilidad.
Puede ser utilizado para lograr un efecto de una voz susurrada o whisperization
Sus aplicaciones engloban desde las telecomunicaciones hasta la música.
ANEXOS
Decisión de sonido
sordo o sonoro, en caso
de ser sonoro,
Describe el tracto vocal frecuencia fundamental
como un filtro todo polos (F0 o pitch).
de respuesta impulsiva
infinita (filtro IIR).
Factor de ganancia.
VOCODER
CELP Ventajas
Bibliografia
Bibliografía
[1] L. A. C. P., «Características estadísticas de la señal de voz,» Mexico.
[2] P. N. B. Yoma, «Codificaciion de Voz,» 2015, Chile.