Vocoders LPC

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

VOCODERS

LPC (Vocoder por Predicción Lineal)

Definición

Este codificador describe el tracto vocal como un filtro todo polos de respuesta impulsiva infinita (filtro
IIR). Cada muestra es calculada como una combinación lineal de las muestras anteriores. Los
coeficientes del filtro se calculan para minimizar el error entre la muestra actual y su predicción.
[ CITATION Lui1 \l 3082 ]

Este codificador analiza la señal de voz de la que extrae 3 tipos de parámetros:

 Coeficientes LPC (Relacionados con los formantes: F1, F2, …).


 Decisión de sonido sordo o sonoro, en caso de ser sonoro, frecuencia fundamental (F0 o pitch).
 Factor de ganancia.
[ CITATION Lui1 \l 3082 ]

Figura 1. Vocoder LPC

El vocoder LPC es lineal debido a que el siguiente valor de salida del sistema se determina a partir de
una suma de valores de salidas anteriores más un valor de entrada nuevo. Esta es una característica de
un filtro de respuesta a impulso finita. De este filtro, se genera una versión predictiva de la señal y
tomada de la señal actual genera a su vez una señal de error.[ CITATION Lui1 \l 3082 ]
Figura 2. Codificador LPC

Todo lo que se necesita para caracterizar una señal de una muestra de voz dada, son los coeficientes del
filtro de síntesis, el factor de ganancia, el periodo de tono, y saber si la voz es sonora o sorda.
[ CITATION Lui1 \l 3082 ]

Para reproducir correctamente la voz en el receptor, la señal de error se debe usar como la señal de
excitación. Ya que esto rompe el propósito de lograr tasas de bit más bajas, la excitación de la señal
también se caracteriza y se envía junto con los otros parámetros para la síntesis en el receptor.
[ CITATION Lui1 \l 3082 ]

Las muchas diferentes formas en que se puede dar el LPC, varía, en la manera, la excitación de la
señal, la representación, cuantificación y transmisión de los otros parámetros.

Figura 3. Decodificador LPC

 En este vocoder, se trabaja sobre bloques de 10-30mseg de voz.


 Se trabaja sobre lo que se conoce como modelo corto, las características de la voz se suponen
que no varían con el tiempo en intervalos pequeños.
 Esos bloques se analizan para determinar los coeficientes de predicción.
 Estos se cuantifican y se envían al receptor junto a otros parámetros.
La popularidad de este vocoder viene de que el modelo todo polos del tracto vocal funciona
muy bien y es posible alcanzar una señal de voz sintetizada muy inteligible a bit-rates del orden
de 2.4 Kbps.[ CITATION Lui1 \l 3082 ]

Características

 El codificador trabaja por segmentos:


 Frecuencia fundamental (F0 o pitch)
 Decisión sonoro/sordo (incluido en pitch)
 Coeficientes LPC
 Factor de Ganancia
 El decodificador sintetiza la voz empleando los parámetros
 Un vocoder LPC consigue tasas binarias muy bajas (2.4 kbs) pero la voz transmitida resulta
poco natural

Ecuación

La idea principal se basa en que la señal de voz puede modelarse a través de una combinación lineal de
p muestras anteriores más una señal de excitación o ruido blanco.

p
s [ n ] =∑ a k s [ n−k ] +e [ n ]
k=1

Para determinar los coeficientes del LPC se pueden deducir las ecuaciones de Yule-Walker a partir de
la minimización del error cuadrático medio.[ CITATION Pro \l 3082 ]

∞ ∞ p
E= ∑ e (n)=
n=−∞
2

n=−∞
[ s ( n )−∑ ∝k s [ n−k ]
k=1
]
δE
=0 k =1,2,3 ,… .. , p
δ ∝k

Ventajas

 LPC aproxima los parámetros básicos de la voz.


 Las características de la voz se suponen que no varian con el tiempo en ntervalos pequeños.
 Posible alcanzar una señal de voz sintetizada muy inteligible a bit-rates del orden 24 Kbps

Desventajas
 La señal de excitación periódica, añade un aspecto "metálico" a la señal sintetizada en el
receptor.
 En función del tipo de trama (sonora/sorda) se elige o bien un tren de impulsos o bien una señal
aleatoria, como consecuencia, las fricativas sonoras ("v", "z") son modeladas incorrectamente
porque la excitación correspondiente debería ser una señal aleatoria con envolvente periódica.
Aplicaciones
 La mayoría de los sistemas de codificación están diseñados para soportar aplicaciones de
telecomunicaciones, con un rango de frecuencia entre 300 y 3400 Hz.
 La DTAD (Digital Telephone Answering Device) y las grabadoras de estado sólido

CELP (Code Excited Linear Prediction)


Definición
Los codes CELP trabajan dividiendo la señal en segmentos del habla, denominados tramas, usan un
modelo del sistema vocal para remover la redundancia de la señal, permitiendo la transmisión a una
tasa de datos más baja (típicamente entre 4 y 16 Kbps para aplicaciones telefónicas).[ CITATION
Pro \l 3082 ]

Características
 Opera con tramas vocales de 10 ms correspondientes a 80 muestras a una velocidad de
muestreo de 8000 muestras por segundo.
 En cada trama de 10 ms se analiza la señal vocal para extraer los parámetros del modelo CELP
(coeficientes del filtro de predicción lineal, ganancias e índices de las tablas de códigos
adaptativos y fijos).
 En esta codificación las tramas de la señal excitación se modelan por un vector gaussiano
elegido de una tabla de códigos gaussianos minimizando el error ponderado perceptual entre la
señal de voz original y la sintetizada.
 Los codecs CELP generalmente crean un retardo mayor que los codecs de forma de onda.
 Se utiliza un codebook de señales de excitación para usar como corrección en la estimación de
periodicidad.
 La secuencia de excitación del filtro de pitch se elige de lo que se conoce como “diccionario”,
el diccionario está formado por un conjunto de secuencias de ruido blanco gaussiano, cada una
identificada por un índice dentro del mismo.
 Al receptor, por tanto, sólo se le envía el índice del diccionario y la ganancia.
 En el decodificador, se usan los datos recibidos para recuperar los parámetros de excitación y
del filtro de síntesis.[ CITATION Lui1 \l 3082 ]

Análisis del CELP

En el procedimiento de análisis por síntesis se filtran secuencialmente todas las señales de excitación
posibles y se escoge aquella que proporcione el menor error. Por tanto, la única información que deberá
enviarse al decodificador es e! índice del vector seleccionado (la posición de dicho vector en la tabla o
registro). Como es lógico tanto el codificador como el decodificador deberán disponer del mismo
codebook de excitaciones.[ CITATION Lui1 \l 3082 ]

Figura 4. Procedimiento de búsqueda para determinar el mejor código estocástico

Ecuación
La señal de excitación de una trama de voz de longitud N se elige mediante una búsqueda exhaustiva
de la tabla de códigos después de escalar los vectores gaussianos por un factor de ganancia β.

El filtro W (z) es el filtro de síntesis ponderado dado por:

El error ponderado entre la señal original y la sintetizada es:


Ventajas
 Este tipo de codificadores consigue buena calidad de voz a 4,8 kbit/s, aunque presenta el
inconveniente de que la búsqueda en el diccionario requiere mucha carga computacional.
 En la actualidad es relativamente sencillo implementar un códec CELP en tiempo real en un
solo DSP de bajo coste.
 Bastantes estándares de codificación de voz se han definido basándose en CELP, por ejemplo el
G.728, G.729 e iLBC.[ CITATION Pro \l 3082 ]

Desventajas
 La complejidad del códec CELP era demasiado elevada para ser implementada en tiempo real
(llevó 125 segundos a un ordenador Cray procesar un segundo de la señal de voz).[ CITATION
Lui1 \l 3082 ]

Aplicaciones
 Utilizados en algunos casos como instrumentos musicales dependiendo de su utilidad.
 Puede ser utilizado para lograr un efecto de una voz susurrada o whisperization
 Sus aplicaciones engloban desde las telecomunicaciones hasta la música.

ANEXOS
Decisión de sonido
sordo o sonoro, en caso
de ser sonoro,
Describe el tracto vocal frecuencia fundamental
como un filtro todo polos (F0 o pitch).
de respuesta impulsiva
infinita (filtro IIR).
Factor de ganancia. 

Los coeficientes del filtro Coeficientes LPC


se calculan para minimizar (Relacionados con
Vocoder LPC el error entre la muestra los formantes: F1,
actual y su predicción F2, …).

La idea principal se basa


en que la señal de voz
puede modelarse a través
de una combinación lineal
de p muestras anteriores
más una señal de
excitación o ruido blanco.

CELP trabajan Caracteristicas


dividiendo la señal en Opera con tramas vocales En la actualidad es
segmentos del habla, de 10 ms correspondientes relativamente sencillo
a 80 muestras a una implementar un códec
denominados tramas velocidad de muestreo de CELP en tiempo real en
8000 muestras por un solo DSP de bajo
segundo.
coste.

VOCODER
CELP Ventajas

Bibliografia

Bibliografía
[1] L. A. C. P., «Características estadísticas de la señal de voz,» Mexico.
[2] P. N. B. Yoma, «Codificaciion de Voz,» 2015, Chile.

También podría gustarte