AFA Con Praat Versus Dr. Speech
AFA Con Praat Versus Dr. Speech
AFA Con Praat Versus Dr. Speech
Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.
www.elsevier.es/otorrino
ARTCULO ORIGINAL
PALABRAS CLAVE
Espectrograma;
Anlisis acstico;
Praat;
Dr. Speech
Resumen
Introduccin y objetivos: El protocolo de la European Laringological Society (ELS) para la
valoracin funcional de la disfona incluye 5 dimensiones: percepcin, anlisis acstico, videoestroboscopia, aerodinmica y autovaloracin del paciente.
El objetivo de este trabajo es correlacionar los resultados obtenidos con el programa comercial Dr. Speech con los obtenidos con el programa gratuito Praat en 2 mbitos:
1. Espectrograma de banda estrecha (presencia de ruido segn Yanagihara y presencia de
subarmnicos) (semicuantitativo).
2. Parmetros acsticos de la voz (jitter, shimmer, relacin armnico-ruido, frecuencia fundamental) (cuantitativo).
Material y mtodos: Se estudiaron un total de 99 muestras de voz diagnosticadas mediante
videoestroboscopia de edema de Reinke. En este estudio un observador independiente utiliz
el Dr. Speech 3.0 y otro el Praat (Phonetic Sciences, University of Amsterdam).
El anlisis espectrogrco consisti en obtener un espectrograma de banda estrecha a partir
de las anteriores voces digitalizadas por parte de los 2 observadores independientes. Despus
determinaron la presencia de ruido en el espectrograma siguiendo los grados de Yanagihara y
la presencia de subarmnicos. Por ltimo, se obtuvieron los siguientes parmetros acsticos:
jitter, shimmer, relacin armnico-ruido (HNR) y el valor de la frecuencia fundamental (Fo).
Resultados: Los resultados indican que el espectrograma y el parmetro de perturbacin de la
frecuencia jitter son comparables en los 2 programas. Tambin es comparable el parmetro de
perturbacin de la amplitud shimmer, a pesar de haber analizado tanto voces de tipo 1, como
de tipo 2 y de tipo 3.
Conclusiones: Los programas Praat y Dr. Speech ofrecen similares resultados en el anlisis
acstico de las voces patolgicas.
2013 Elsevier Espaa, S.L. Todos los derechos reservados.
0001-6519/$ see front matter 2013 Elsevier Espaa, S.L. Todos los derechos reservados.
http://dx.doi.org/10.1016/j.otorri.2013.12.004
Documento descargado de http://www.elsevier.es el 20/01/2016. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.
KEYWORDS
Sound spectrogram;
Acoustic analysis;
Praat;
Dr. Speech
171
Acoustic voice analysis using the Praat program: Comparative study with the Dr.
Speech program
Abstract
Introduction and objectives: The European Laryngological Society (ELS) basic protocol for
functional assessment of voice pathology includes 5 different approaches: perception, videostroboscopy, acoustics, aerodynamics and subjective rating by the patient. In this study we
focused on acoustic voice analysis.
The purpose of the present study was to correlate the results obtained by the commercial
software Dr. Speech and the free software Praat in 2 elds:
1. Narrow-band spectrogram (the presence of noise according to Yanagihara, and the presence
of subharmonics) (semi-quantitative).
2. Voice acoustic parameters (jitter, shimmer, harmonics-to-noise ratio, fundamental frequency) (quantitative).
Material and methods: We studied a total of 99 voice samples from individuals with Reinkes
oedema diagnosed using videostroboscopy. One independent observer used Dr. Speech 3.0 and
a second one used the Praat program (Phonetic Sciences, University of Amsterdam).
The spectrographic analysis consisted of obtaining a narrow-band spectrogram from the previous digitalised voice samples by the 2 independent observers. They then determined the
presence of noise in the spectrogram, using the Yanagihara grades, as well as the presence of
subharmonics. As a nal result, the acoustic parameters of jitter, shimmer, harmonics-to-noise
ratio and fundamental frequency were obtained from the 2 acoustic analysis programs.
Results: The results indicated that the sound spectrogram and the numerical values obtained
for shimmer and jitter were similar for both computer programs, even though types 1, 2 and 3
voice samples were analysed.
Conclusions: The Praat and Dr. Speech programs provide similar results in the acoustic analysis
of pathological voices.
2013 Elsevier Espa
na, S.L. All rights reserved.
Introduccin
El anlisis acstico de la voz basado en las medidas de la
perturbacin ha sido objeto de largo debate, especialmente
en lo que respecta a su validez, fundamentalmente con la
validez de criterio con la evaluacin perceptual, punto de
referencia para la valoracin de la calidad vocal. Numerosos estudios han demostrado la relacin que tienen los
parmetros de perturbacin con los correlatos perceptuales
de disfona que se calican conforme al sistema GRABS1---3 ,
dejando tambin demostrado que estos parmetros permiten documentar la severidad de una disfona sin que se haya
podido demostrar una utilidad para el diagnstico etiolgico
del trastorno vocal4,5 .
A pesar de ser un tema de intensa actividad investigadora, no se ha logrado extender el uso de estos parmetros
de forma rutinaria en la clnica. Una de las causas sin duda ha
sido el coste de los sistemas y programas de anlisis acstico
de la voz. Sin embargo, en la actualidad estamos asistiendo a
la aparicin de aplicaciones informticas gratuitas que pueden ser utilizadas para este cometido. Uno de los programas
que ms amplia difusin est teniendo es el programa Praat,
dise
nado en principio para usos relacionados con la fontica
nales
instrumental, pero con gran capacidad de anlisis de se
acsticas y espectrografa. En este trabajo se presenta una
comparacin de los resultados de anlisis acstico de la perturbacin y espectrogrcos entre un programa comercial y
el Praat utilizando las mismas grabaciones de voces disfnicas, con el objeto de conocer si existen diferencias entre los
mismos y aportar evidencias que apoyen la aplicacin en la
Material y mtodos
Muestras vocales
Se estudiaron de forma retrospectiva un total de 99 muestras
de voz correspondientes a otros tantos pacientes, diagnosticados mediante videoestroboscopia de edema de Reinke.
Grabacin
La se
nal acstica se registr mediante el uso de la aplicacin
Voice Assessment del programa Dr. Speech 3.0 para Windows
95. El ordenador utilizado fue un PC compatible Pentium-100
con una memoria RAM de 16 Mb. Para la digitalizacin de la
se
nal vocal se instal una tarjeta de sonido compatible con
Windows de 16 bit de resolucin y frecuencias de registro
de 44.100 (Sound Blaster 16). El micrfono es unidireccional
dinmico. La frecuencia de muestreo fue de 44.100 Hz y se
utiliz un micrfono de alta resolucin frecuencial que se
coloc a 10 cm de la boca del paciente mientras realizaba
la fonacin de una vocal /e/ a intensidad y tonos cmodos
en una cmara sonoamortiguada. De la emisin el ordenador
capta 3 seg. Se siguieron las recomendaciones del National
Center for Voice and Speech6 .
Documento descargado de http://www.elsevier.es el 20/01/2016. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.
172
Anlisis espectrogrco
El anlisis espectrogrco consisti en la realizacin de un
espectrograma de banda estrecha con ambos programas
a partir de las voces digitalizadas que fueron entregadas a cada observador; se clasic esas voces segn la
escala de Yanagihara7 y se determin la presencia o no de
subarmnicos8 .
Anlisis de la perturbacin
Para el anlisis acstico se determinaron los valores jitter, shimmer, relacin armnico-ruido (HNR) y el valor de la
frecuencia fundamental (F0) proporcionados por cada programa. En este trabajo se considera el jitter medio relativo
y el shimmer medio porcentual.
F. N
nez Batalla et al
Tabla 1
Jitter (DS) %
Jitter (P) %
Shimmer (DS) %
Shimmer (P) %
HNR (DS)
HNR (P)
F0 (DS) Hz
F0 (P) Hz
Media
Desviacin
estndar
Mximo
Mnimo
0,72
0,59
3,8
3,8
20,3
20,3
175,1
169,9
1,0
0,7
3,4
3,4
6,4
6,1
48,1
49,2
5,7
17,7
23,7
21,9
31,8
30,4
289,9
282,6
0,0
0,1
0,0
0,7
0,0
1,8
86,5
84,4
Anlisis estadstico
Las variables continuas se describen mediante media y desviacin estndar (parmetros del anlisis acstico) y las
categricas mediante frecuencias relativas (parmetros del
espectrograma).
Para estudiar la diferencia entre las variables continuas
se utiliz el ndice de correlacin intraclase (ICC), que permite ver el grado de concordancia entre las medidas. Dicho
ndice se considera como buena correlacin cuando el
valor obtenido supera 0,8.
En las variables categricas se emple el ndice kappa
para descartar coincidencias por azar (si es + 1 hay total
acuerdo, si es --- 1 hay total desacuerdo, si es 0 indica total
independencia).
Las 2 muestras que indicaron resultados del anlisis de
la perturbacin que superan el 5% fueron eliminadas del
estudio estadstico por considerarse poco ables10,11 .
El anlisis estadstico (previa elaboracin de una base de
datos) se llev a cabo mediante el programa SPSS versin
15.0 para Windows (SPSS Inc., Chicago, IL).
Resultados
Anlisis acstico
En todas las variables estudiadas se encuentra un elevado
ICC, siendo el mnimo el obtenido para F0 (0,740) y el
mximo el obtenido para el shimmer (0,903). Las diferencias obtenidas entre los resultados suministrados por ambos
programas no son signicativas, exceptuando el caso de
la variable jitter (p = 0,005). Sin embargo, esta diferencia
podra deberse a lo elevado de la correlacin entre ambos
programas, que hara signicativas mnimas diferencias en
los resultados. Tambin podra deberse a la utilizacin de
diferentes algoritmos por cada programa para calcular este
parmetro.
Documento descargado de http://www.elsevier.es el 20/01/2016. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.
173
Resultados estadsticos
Dr. Speech
Jitter (%)
Shimmer (%)
HNR
F0 (Hz)
Praat
Media
DS
Media
DS
0,722
3,810
20,35
175,15
1,0
3,433
6,430
48,10
0,595
3,820
20,39
169,95
0,786
3,412
6,152
49,26
Valor p
0,005
0,926
0,911
0,092
0,856
0,903
0,784
0,740
(,2-,7)
(,7-,9)
(,7-,8)
(,6-,9)
Tabla 3
Dr. Speech
Praat
Grado I
Grado II
Grado III
Grado IV
Subarmnicos
41,1%
40,2%
25,2%
26,2%
24,3%
23,4%
7,5%
6,5%
38,3%
41,7%
Anlisis espectrogrco
Discusin
En la tabla 3 se exponen la estadstica descriptiva de los
hallazgos espectrogrcos de ambos programas.
En la clasicacin de las voces en la escala de Yanagihara
hubo concordancia entre ambos observadores en 94 de los
99 casos (96%), con un ndice kappa de 0,940 (p = 0,03). Este
20
5
Shimmer (P)
Jitter (P)
4
3
15
10
2
5
1
0
0
0
3
4
Jitter (DS)
10
15
Shimmer (DS)
20
30
250
25
20
F0 (P)
HNR (P)
200
15
150
10
5
100
5
Figura 1
10
15
20
HNR (DS)
25
30
100
150
200
F0 (DS)
250
Documento descargado de http://www.elsevier.es el 20/01/2016. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.
174
F. N
nez Batalla et al
Shimmer
Jitter
2
4
2
Differences
Differences
4
2
0
3
Means
10
15
Means
20
F0
HNR
20
20
10
Differences
Differences
10
10
10
20
20
5
10
15
20
25
30
Means
100
150
200
250
Means
Figura 2 Grcos de Bland-Altman para las variables acsticas, que muestran la concordancia entre los datos obtenidos mediante
ambos programas.
Documento descargado de http://www.elsevier.es el 20/01/2016. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.
175
con mnimos requisitos de equipamiento y fcilmente manejables contribuye a la mejora de la calidad de la asistencia
al paciente.
Derivado de este trabajo, y para poder emplear en el
mbito clnico el programa Praat, es necesario que se estudien series de personas sanas con el objeto de establecer los
valores normativos del mismo, tarea que no ha sido hasta el
momento llevada a cabo.
Conclusiones
El espectrograma obtenido con el programa Praat es comparable al hallado con el programa Dr. Speech.
Se encuentran correlaciones dbiles o moderadas en la
perturbacin de frecuencia, y moderadas o fuertes en la
perturbacin de amplitud.
Conicto de intereses
Los autores declaran no tener ningn conicto de intereses.
Bibliografa
1. Eskenazi L, Childers DG, Hicks DM. Acoustic correlates of vocal
quality. J Speech Hear Res. 1990;33:298---306.
2. Dejonckere PH, Remacle M, Fresnel-Elbaz E, Woisard V, CrevierBuchman L, Millet B. Differentiated perceptual evaluation
of pathological voice quality: Reliability and correlations
with acoustic measurements. Rev Laryngol Otol Rhinol.
1996;117:219---24.
3. Hirano M. Clinical examination of voice. Vienna: Springer; 1981.
4. Kreiman J, Gerratt B. Measuring vocal quality. En: Kent RD, Ball
MJ, editores. Voice quality measurement. San Diego: Singular
Publishing Group; 2000. p. 73---101.
5. Werth K, Voigt D, Dllinger M, Eysholdt U, Lohscheller J. Clinical
value of acoustic voice measures: A retrospective study. Eur
Arch Otorhinolaryngol. 2010;267:1261---71.
6. Titze IR. National Center for Voice and Speech. Denver: Workshop on acoustic voice analysis. Summary statement; 1994.
7. Yanagihara N. Signicance of harmonic changes and noise
components in hoarseness. J Speech Hear Res. 1967;10:
531---41.
8. N
nez Batalla N, Suarez Nieto C. Espectrografa clnica de
la voz. Universidad de Oviedo. Servicio de Publicaciones;
1999.
9. Boersma P, Weenink D. Phonetic Sciences Holanda: University of Amsterdam [consultado 9 Dic 2013]. Disponible en:
http://www.fon.hum.uva.nl/praat/
10. Titze IR, Liang H. Comparison of F0 extraction methods for highprecision voice perturbation measurements. J Speech Hear Res.
1993;36:1120---33.
11. Awan SN, Scarpino SE. Measures of vocal F0 from continuous
speech samples: An interprogram comparison. J Speech Lang
Pathol Audiol. 2004;28:122---31.
12. Bielamowicz S, Kreiman J, Gerratt BR, Dauer MS, Berke GS.
Comparison of voice analysis systems for perturbation measurement. J Speech Hear Res. 1993;39:126---34.
13. Karnell MP, Hall KD, Landahl KL. Comparison of fundamental frequency and perturbation measurements among three analysis
systems. J Voice. 1995;9:383---93.
14. Smits I, Ceuppens P, de Bodt MS. Comparative study of acoustic
voice measurements by means of Dr. Speech and computerized
speech lab. J Voice. 2005;19:187---96.
Documento descargado de http://www.elsevier.es el 20/01/2016. Copia para uso personal, se prohbe la transmisin de este documento por cualquier medio o formato.
176
15. Maryn Y, Corthals P, de Bodt M, Van Cauwenberge P, Deliyski
D. Perturbation measures of voice: A comparative study between multi-dimensional voice program and Praat. Folia Phoniatr
Logop. 2009;61:217---26.
16. N
nez Batalla F, Santos Corte P, Sequeiros Santiago G, Se
naris
Gonzlez B, Surez Nieto C. Evaluacin perceptual de la disfona: correlacin con los parmetros acsticos y abilidad. Acta
Otorrinolaringol Esp. 2004;55:282---7.
17. Rodrguez-Parra MJ, Casado JC, Adrin JA, Buiza JJ. Estado
actual de los servicios ORL espa
noles. Heterogeneidad en el
F. N
nez Batalla et al
manejo de los problemas de la voz. Acta Otorrinolaringol Esp.
2006;57:109---14.
18. Dejonckere PH. Valoracin perceptual y de laboratorio de la
disfona. Otolaryngol Clin North Am. 2000;33:677---94.
19. Dejonckere PH, Crevier-Buchman L, Marie JP, Moerman M,
Remacle M, Woisard V. European Research Group on the Larynx.
Implementation of the European Laringological Society (ELS)
basic protocol for assessing voice treatment effect. Rev Laringol
Otol Rhinol (Bord). 2003;124:279---83.