2016PA066223
2016PA066223
2016PA066223
Spécialité
Electronique
Ecole doctorale informatique, télécommunications et électronique
Présentée par
Sujet de la thèse :
Nous avons étudié dans un premier temps un seul type de données issues de nos corpora : des
séquences d’images échographiques. Les images de la langue apportent des informations
cruciales sur l’articulation, mais sont peu lisibles sans connaissance dans le domaine de
l’échographie. Nous avons donc employé ces méthodes d’apprentissage statistique afin
d’extraire de façon automatique le contour supérieur de la langue montré par les images
échographiques. En effet, l’utilisation d’informations visuelles sur les mouvements de la
langue, en complément d’un retour audio, permet d’améliorer l’efficacité d’un entraînement,
3
dans le cadre de l’apprentissage de langues étrangères, ou pour apprendre à chanter. Nos
travaux ont donné des résultats d’extraction du contour de la langue comparables à ceux
décrits par d’autres auteurs.
Ensuite, nous avons cherché à prédire les propriétés du conduit vocal à partir d’images des
articulateurs, en utilisant ces modèles d’apprentissage statistique. Pour la détermination du
contour de la langue, nous avons établi des critères d’évaluation des résultats qui nous ont
permis des comparaisons entre étiquetage automatique, étiquetage manuel et résultats
proposés dans la littérature. Nous avons cherché à prédire l’évolution des paramètres du filtre
qu’est le conduit vocal à partir de séquences d’images de langue et de lèvres, sur des bases de
données constituées de voyelles isolées puis de chants traditionnels corses. Nous avons
ensuite utilisé des critères d’évaluation permettant de comparer notre méthode de conversion
et synthèse de données articulatoires en données acoustiques à celles rapportées dans la
littérature. L’utilisation des paramètres du filtre du conduit vocal, combinés avec le
développement d’un modèle acoustique de source vocale dont les paramètres sont extraits en
utilisant l’enregistrement électroglottographique, permet de synthétiser des extraits de voix
chantée en utilisant les images articulatoires (de la langue et des lèvres) et l’activité glottique.
Mots clés
4
Abstract
This work presents new feature extraction methods on lips and tongue images, and their
application to voice synthesis. It was funded by the i-Treasures project (FP7-ICT-2011-
600676). The aim of this project is to preserve intangible cultural heritage by using
information and communication technologies. The work of our team focuses on capturing the
movements of the articulators, in particular lips and tongue, involved in practicing rare
singing and proposing tools for learning singing techniques. The work presented in this
manuscript deals with the development of algorithms able to extract relevant features from
articulator images. In this manuscript, we introduce a study of the state of the art about rare
singing techniques involved in the project, namely Corsican, Sardinian traditional singing,
Byzantine Music and a recent technique named Human Beat Box. We also propose a review
of imaging technologies and sensing, and particularly ultrasound techniques. The i-Treasures
project also implied the development and improving of an acquisition system and the
organization of several recording sessions. After data acquisition, our work consisted in
processing data, build feature extraction techniques and comparisons with state of the art. In
our work, methods employed for feature extraction are based on machine learning techniques,
and in particular recent methods of Deep Learning. The aim of this type of method is to learn
a hidden representation of the data by finding some regularities in inputs. These methods use
a hierarchical structure which recalls the information processing structure in the brain. We
first focused on the study of one single type of data acquired: ultrasound sequences. Tongue
images provide crucial information on articulation, but cannot be interpreted easily without
experience in ultrasound. Machine learning methods were employed in order to extract the
tongue upper contour from ultrasound images. Visual information about tongue movements
provide additional information to audio and can improve the efficiency of vocal training, in
the context of second language learning or singing practice. We obtained tongue contour
extraction results than can be compared to those reported in the literature. We also wanted to
predict vocal tract properties using articulatory images and machine learning models.
Assessment criteria were defined for both tongue contour extraction and vocal tract properties
prediction. Our results were compared to state-of-the art methods. Tongue and lips images
were combined to predict the evolution of vocal tract parameters on isolated vowels and
Corsican singing datasets. Articulatory features provided us with a vocal tract model, which
was combined with a glottal source model to produce synthesized singing voice.
5
Keywords
6
Remerciements
Je souhaite premièrement remercier Monsieur Bruce Denby, qui a dirigé cette thèse. Je le
remercie sincèrement de m’avoir permis d’évoluer dans le monde de la communication
silencieuse et des techniques d’échographie appliquées à l’étude de la voix humaine. Je le
remercie également pour ses précieux conseils et qualités scientifiques.
Un grand merci aux membres actuels et passés du laboratoire, en particulier Pierre Roussel-
Ragot pour son soutien, son humour, sa patience et sa disponibilité. Je remercie Arthur Duprat
pour sa bonne humeur, Ye Tian pour ses sages conseils et son soutien, Khaled Boukharouba
et François Vialatte pour les chaleureuses pauses café au début de ma thèse. Je remercie
également Samer Al Kork, Quoc Tuong Ngo, Kele Xu et Clémence Leboullenger pour avoir
apporté du dynamisme à l’équipe. Je n’oublie pas non plus Antoine Gaume, que je remercie
pour sa patience et ses interludes musicaux et Nesma Houmani pour son soutien sans faille.
7
Merci également à Maureen Stone pour ses précieux conseils sur l’imagerie échographique et
ses visites au laboratoire.
Je souhaite formuler des remerciements spéciaux à François, qui m’apporte chaque jour tant
et plus. Merci également à Agathe et Jean pour vos sourires si tendres. Je terminerai en
dédiant ce manuscrit à ma petite Morgane, « bébé bonheur » au caractère merveilleux, pleine
de joie et dont les sourires sont aussi agréables que communicatifs.
8
Table des matières
Introduction générale................................................................................................................ 23
1 Contexte ........................................................................................................................... 27
1.5.2 L’échographie..................................................................................................... 72
10
3.1 Introduction ............................................................................................................. 107
3.2 Calcul des variables à prédire : prétraitements du signal acoustique ...................... 109
3.2.2 Calcul des LSF de référence à partir du signal acoustique .............................. 111
3.3.1 Une approche linéaire : projection dans l’espace des EigenLips et EigenTongues
.......................................................................................................................... 113
11
12
Table des illustrations
Figure 1 - Anatomie de l'appareil phonatoire, d'après [8]. ....................................................... 28
Figure 2 - Vues antérieures et postérieures du larynx, d’après [9]. ......................................... 29
Figure 3 - Représentation des principaux cartilages et muscles du larynx. (a) vue de côté, (b)
vue de dessus. D'après [10]. ..................................................................................................... 29
Figure 4 - Vue du dessus des plis vocaux au cours d'un cycle d’ouverture-fermeture glottique.
D'après [11]. ............................................................................................................................. 30
Figure 5 - Représentation des voyelles en fonction des fréquences des deux premiers
formants. Cette représentation, de forme triangulaire, est nommée triangle vocalique. D'après
[13]. .......................................................................................................................................... 32
Figure 6 - Étendue vocale moyenne de la voix parlée et de la voix chantée pour les hommes et
les femmes. D'après [18]. ......................................................................................................... 35
Figure 7 - Spectrogrammes (voir section 1.3.1.1) de glissandos effectués par une chanteuse
(soprano légère) couvrant l'ensemble des mécanismes laryngés. D'après [17]. ....................... 36
Figure 8 - Groupe de chanteurs de Cantu in paghjella, d’après [19]. ...................................... 37
Figure 9 - Groupe de chanteurs de Canto a Tenore, d’après [19]. ........................................... 38
Figure 10 - Les positions des plis vocaux, désignés par les initiales « pv » et des bandes
ventriculaires, désignées par les initiales « bv ». (a). Vue frontale du larynx. (b). Image du
larynx au cours de la phonation obtenue par laryngoscopie. (c). Illustration du larynx au cours
de la respiration obtenue par laryngoscopie, d’après [21]. ...................................................... 38
Figure 11 - Un ensemble vocal de musique byzantine, d'après [19]. ....................................... 39
Figure 12 - Signal temporel et variations de la fréquence fondamentale au cours du temps. En
haut, un exemple de signal temporel complet. En bas, les variations de la fréquence
fondamentale de ce signal au cours du temps. Les silences ont été exclus du calcul. ............. 42
Figure 13 - Une trame de signal et le spectre calculé sur cette trame. ..................................... 42
Figure 14 - Spectrogramme d'une portion de signal faisant apparaître les quatre premiers
formants. ................................................................................................................................... 43
Figure 15 - Illustration du modèle source-filtre. Le produit des transformées de Fourier de la
source glottique Ug(f), de la transformée de Fourier du conduit vocal H(f) et de la
transformée de Fourier du rayonnement aux lèvres L(f) donne un signal acoustique de
représentation fréquentielle Sf. D'après [17]. ........................................................................... 44
13
Figure 16 - Illustration du modèle source-filtre en tenant compte du rayonnement aux lèvres
par dérivation du signal de source. Le produit de la transformées de Fourier de la source
glottique dérivée Ug'f par la transformée de Fourier du conduit vocal H(f) produit le même
signal acoustique de représentation fréquentielle Sf que celui montré. D’après [17]. ............ 45
Figure 17 - Comparaison entre une trame de signal original (en noir) et l'estimation de cette
trame par prédiction LPC (en rouge)........................................................................................ 46
Figure 18 - Signal de résidu correspondant à la prédiction LPC montrée Figure 17. .............. 46
Figure 19 - Comparaison entre le spectre FFT (en gris) et le spectre LPC (en noir) d'une trame
d'un extrait de chant. Tandis que le spectre FFT fait apparaître les harmoniques de la
fréquence fondamentale, le spectre LPC donne accès aux valeurs des formants. ................... 47
Figure 20 - Zéros des fonctions polynomiales P(z) et Q(z) sur le cercle unité calculées sur la
portion de signal présentée Figure 17. Les LSF correspondent à l’argument des racines de P et
Q. Il est à noter que puisque les coefficients de P et de Q sont réels, chaque racine est associée
à une racine conjuguée et ainsi, seule la moitié des coefficients permet de coder l’information
contenue dans les LPC. Par convention, les LSF correspondent aux coefficients compris entre
0 et π......................................................................................................................................... 48
Figure 21 - Représentation d'une période de l'ODG et de sa dérivée. Le paramètre de source
Av désigne l'amplitude de voisement, T0 la période fondamentale, Oq le quotient ouvert, αm
le coefficient d'asymétrie, Qa le quotient de phase de retour et E la vitesse de fermeture. Leur
interprétation est donnée dans le Tableau 1. D’après [17]. ...................................................... 49
Figure 22 - Représentations de l'ODG et de sa dérivée décrites par le modèle LF et ses
paramètres. D'après [42]........................................................................................................... 52
Figure 23 - Comparaison entre les modèles LF, Klatt, R++ et Rosenberg C, d’après [42]. .... 53
Figure 24 - Illustration d'une machine de Boltzmann. Dans une machine de Boltzmann, des
connexions existent entre les différentes unités cachées et les différentes unités visibles,
d’après [78]. Les unités visibles sont les unités dont l’état peut être observé. L’état des unités
cachées n’est pas spécifié par les données observables. .......................................................... 64
Figure 25 – Un RBM avec I unités visibles et J unités cachées, I et J pouvant prendre des
valeurs distinctes, d’après [18]. ................................................................................................ 65
Figure 26 – Processus d’apprentissage d’une RBM. Il est possible de calculer une
approximation de la divergence contrastive à partir des deux premières itérations. Le vecteur
v désigne l’estimation du vecteur v, le vecteur h désigne l’estimation du vecteur h. .............. 68
14
Figure 27 – Un exemple d’autoencodeur. Sa sortie x est la reconstruction de l’entrée x à partir
de la représentation cachée h.................................................................................................... 69
Figure 28 - Un exemple d'image ultrasonore de la langue. L'utilisation d'une sonde
échographique placée sous le menton permet d'obtenir une coupe sagittale de la langue. ...... 72
Figure 29 - Illustration des principes de réflexion et de réfraction de l’onde ultrasonore. A
l’interface entre les deux milieux, une onde incidente d’intensité I0 est réfléchie en une onde
Ir et réfractée en une onde It, d’après [84]............................................................................... 74
Figure 30 - Les deux électrodes d'un électroglottographe. Ces électrodes sont maintenues en
position sur le cou du locuteur par un collier élastique. ........................................................... 76
Figure 31 - Le casque d'acquisition des données du conduit vocal. 1. Casque permettant de
fixer les capteurs. 2. Capteur piézoélectrique, placé sur le nez du sujet. 3. Caméra. 4. Sonde
ultrasonore. 5. Electroglottographe 6. Microphone 7. Ceinture de respiration. ....................... 77
Figure 32 – Prétraitements effectués sur les images échographiques afin de réduire la taille
des entrées. Pour une image initiale (a) de taille 240x320 pixels, nous sélectionnons une
région d’intérêt de 100x170 pixels comme montré en (b). Ensuite, l’image est redimensionnée
en une image de 30x33 pixels. L’image est ensuite binarisée comme montré en (d). Ensuite,
les points isolés, considérés comme du bruit, sont supprimés comme montré sur la figure (e).
Finalement, afin d’éviter les sauts dans l’image à cause de la binarisation, les pixels voisins
sont reconnectés entre eux comme montré en (f). Ces images sont ensuite représentées comme
des vecteurs ligne. .................................................................................................................... 88
Figure 33 – Exemple d’image utilisée en entrée de l’algorithme automatique de détection de
contours dont la sortie est utilisée comme contour initial. Cette image est obtenue après
découpage de l’image, seuillage et filtrage. La sélection des régions recherchées pour
l’extraction du contour utilise des connaissances a priori sur la physiologie de la langue. ..... 90
Figure 34 – Un exemple de cas où plusieurs pixels (en vert) sont candidats à l’appartenance
au contour (pixels bleus). Par la suite, l’image courante sera nommée i. ................................ 90
Figure 35 – Deux exemples d’images précédentes possibles pour l’image i montrée Figure 34.
Sur la colonne qui nous intéresse, les pixels candidats pour l’image i sont affichés en vert sur
les images i – 1. Le pixel marqué d’une croix rouge est le pixel appartenant au contour de
l’image i – 1 pour la colonne qui nous intéresse. Dans le cas présenté en (a), une décision peut
être prise grâce au contour de l’image i – 1 car un des pixels candidats pour le contour de
l’image i appartenait au contour de l’image i – 1. En revanche, dans le cas proposé en (b),
15
aucun des pixels candidats en i ne faisait partie du contour de l’image i – 1. D’autres critères
sont alors pris en compte pour la décision. .............................................................................. 91
Figure 36 – Sélection du pixel appartenant au contour de l’image i si plusieurs pixels sont
candidats mais qu’aucun d’entre eux n’appartient au contour de l’image précédente i – 1.
Dans le cas (a), le pixel choisi comme appartenant au contour de l’image i, marqué d’une
croix rouge, est prédit par rapport à la position des pixels précédents du contour de l’image i
(en bleu) par régression linéaire. Il n’appartient pas à la sélection des pixels candidats,
marqués en vert. Dans le cas (b), le pixel choisi comme appartenant au contour de l’image i,
marqué d’une croix rouge, est choisi comme étant le pixel candidat (en vert) le plus proche du
pixel sélectionné pour la colonne précédente. En pratique, la décision est faite comme montré
en (a) sauf si une régression linéaire n’est pas possible. Dans ce cas, la décision est prise
comme en (b). ........................................................................................................................... 91
Figure 37 – Conversion des coordonnées des contours en images binaires. La première image
(a) montre les coordonnées des contours utilisés comme étiquetage pour la base
d’apprentissage. Ces contours correspondent à une région d’intérêt de 100x170 pixels obtenus
à partir de l’algorithme automatique. Ensuite, les coordonnées des contours sont sous-
échantillonnés pour correspondre au changement d’échelle (30x33 pixels) et affichés figure
(b). Enfin, l’image (c) est une image de taille 30x33 pixels où la valeur 1 a été affectée aux
pixels appartenant au contour défini par les coordonnées de la figure (b). .............................. 92
Figure 38 – Exemple d’entrées et de sorties de l’autoencodeur au cours de la première phase
d’apprentissage. ........................................................................................................................ 92
Figure 39 – Exemple d’entrées et de sorties de l’autoencodeur modifié utilisé pour la
deuxième phase de l’apprentissage. ......................................................................................... 93
Figure 40 – Autoencodeur d’origine (à gauche) et autoencodeur modifié (à droite) pour
extraire automatiquement les contours de langue à partir d’une image échographique
prétraitée. La partie inférieure désigne l’encodeur, alors que la partie supérieure désigne le
décodeur. .................................................................................................................................. 94
Figure 41 – Les différentes étapes du post-traitement effectué pour la conversion des images
de contours en coordonnées. L’image (a) montre une figure obtenue en sortie de
l’autoencodeur, de 30x33 pixels. La figure (b) montre cette sortie nettoyée après différents
traitements. Après redimensionnement et mise à l’échelle, nous obtenons la figure (c) de
240x320 pixels. Les pixels sont ensuite convertis en coordonnées de points par rapport à
16
l’image échographique d’origine (d). Enfin, la figure (e) montre le contour obtenu après
lissage. ...................................................................................................................................... 96
Figure 42 – Comparaison entre une courbe de contour extrait manuellement (en bleu),
l’algorithme de Deep Learning (en rouge) et le contour initial (référence) pour
l’apprentissage. ......................................................................................................................... 97
Figure 43 – Représentation simplifiée de deux sous-parties de deux contours. Les quatre
grandeurs u1, u2, u3 et u4 représentent les coordonnées (x, y) de trois points adjacents du
contour gris. De même, les trois grandeurs v1, v2 et v3 représentent les coordonnées (x, y) de
trois points adjacents du contour noir. La comparaison de deux courbes de contour en utilisant
le MSD permet de comparer ces contours même s’ils n’ont pas le même nombre de points. . 98
Figure 44 – Exemples d’images échographiques provenant de trois locuteurs différents. La
figure (a) ainsi que la figure (c) correspondent à des locuteurs, tandis que la figure (b)
correspond à une locutrice. Sur ces images, nous pouvons voir que chaque locuteur a une
forme de langue différente. De plus, d’un locuteur à l’autre, les amplitudes de mouvement
ainsi que les régions d’intérêt sont différentes. Ces différences rendent impossible l’utilisation
directe de notre outil d’extraction du contour initial pour l’apprentissage, qui nécessite une
calibration pour chaque locuteur. ............................................................................................. 99
Figure 45 - Quelques exemples de contours extraits en utilisant notre autoencodeur profond.
................................................................................................................................................ 102
Figure 46 - Spectre FFT (en gris) et enveloppe LPC (en noir) calculée sur une trame de signal
en utilisant un ordre de prédiction LPC 12. ........................................................................... 110
Figure 47 - Spectre FFT (en gris) et enveloppe LPC (en noir) calculée sur une trame de signal
en utilisant un ordre de prédiction LPC 48. ........................................................................... 111
Figure 48 - Représentations des espaces des EigenLips et des EigenTongues. Sur la ligne du
haut, de gauche à droite, les quatre premiers EigenLips. Sur la ligne du bas, de gauche à
droite, les quatre premiers EigenTongues. ............................................................................. 114
Figure 49 - Exemples d'images et de leur reconstruction en utilisant les 100 premiers
descripteurs. Sur la ligne du haut, une image de lèvres issue de la base de validation (à
gauche) et sa reconstruction utilisant les 100 premiers EigenLips (à droite). Sur la ligne du
bas, une image ultrasonore issue de la base de validation (à gauche) et sa reconstruction
utilisant les 100 premiers EigenTongues (à droite). ............................................................... 115
Figure 50 - L'architecture débruitante, d’après [123]. Un exemple x est corrompu en x.
L'autoencodeur associe x à y via la fonction d'encodage fθ et vise à reconstruire x via la
17
fonction de décodage gθ'. La reconstruction z est censée être la plus proche possible de
l’entrée non corrompue x. Les unités barrées dans x représentent la corruption des données
(dans cet exemple par suppression de certaines unités). ........................................................ 116
Figure 51 - Les deux RBM permettant d'extraire des descripteurs de la langue et des lèvres
utilisés séparément, d’après [125]. ......................................................................................... 117
Figure 52 - RBM permettant d'extraire des descripteurs issus de la langue et des lèvres par
concaténation des entrées de chaque modalité, d’après [125]. .............................................. 118
Figure 53 - Exemple de réseau de neurones profond bimodal. Chaque entrée est d'abord
traitée séparément à l'aide de RBM séparés puis les couches cachées ainsi extraites servent
d'entrée à un RBM dont le but est d'extraire une représentation commune des données, d’après
[125]. ...................................................................................................................................... 118
Figure 54 - Un exemple d'autoencodeur profond multimodal permettant d'extraire une
représentation conjointe à partir des deux types d'entrées différentes à l'aide d'un premier
étage de RBM séparés, d’après [125]..................................................................................... 119
Figure 55 - Projection des descripteurs Fi orthogonalement au descripteur le mieux classé. 121
Figure 56 - Illustration des 12 réseaux de neurones de type perceptrons multicouches dont la
fonction est de prédire la valeur des LSF à partir des descripteurs sélectionnés par OFR.
Chaque perceptron possède une couche cachée avec une fonction d'activation sigmoïde puis
une sortie linéaire. .................................................................................................................. 122
Figure 57 - En vert, un exemple de signal EGG et sa dérivée en bleu. Les pics positifs de la
dérivée de l'EGG correspondent à des fermetures glottiques tandis que les pics négatifs du
signal de dEGG correspondent à des ouvertures glottiques. L'identification des instants
d’ouverture et de fermeture glottique permet de déterminer la période fondamentale ainsi que
le quotient ouvert. ................................................................................................................... 124
Figure 58 – Modèle d’onde de débit glottique dérivée. Sur cette figure sont représentés les
paramètres du modèle CALM. ............................................................................................... 125
Figure 59 - Comparaison entre les valeurs de référence et les estimations des six premiers LSF
en utilisant l'autoencodeur multimodal sur la base de voyelles isolées. Ces figures indiquent
une bonne prédiction des LSF et donc des pertes de qualité vocaliques faibles. ................... 127
Figure 60 - Comparaison entre les six derniers LSF de référence et les LSF estimés par
l'autoencodeur multimodal sur la base de voyelles isolées. La prédiction des six derniers LSF
est un peu moins précise que celle des six premiers. ............................................................. 128
18
Figure 61 - Illustration schématique de la méthode de synthèse vocale à partir des données
articulatoires et glottiques. ..................................................................................................... 137
Figure 62 - Comparaison entre les six premiers LSF de référence et les LSF estimés par le
modèle EigenLips/EigenTongues sur la base de chants traditionnels. ................................... 139
Figure 63 - Comparaison entre les six derniers LSF de référence et les LSF estimés par le
modèle EigenLips/EigenTongues sur la base de chants traditionnels. ................................... 140
Figure 64 - Comparaison entre les six premiers LSF de référence et les LSF estimés par
l'autoencodeur multimodal sur la base de chants traditionnels. ............................................. 141
Figure 65 - Comparaison entre les six derniers LSF de référence et les LSF estimés par
l'autoencodeur multimodal sur la base de chants traditionnels. ............................................. 142
Figure 66 - Evaluation de la naturalité en fonction du type de source et de l'origine du calcul
des LSF. La valeur 1 représente les LSF calculés à partir du signal acoustique, la valeur 2
représente les LSF estimés en utilisant l'autoencodeur profond et la valeur 3 représente les
LSF estimés en utilisant les EigenLips et EigenTongues. L’erreur type de la moyenne est
représentée sur le haut de chaque barre du diagramme. +écarts marginalement significatifs, *
écarts significatifs, **écarts très significatifs, voir aussi Tableau 18. ................................... 146
Figure 67 - Evaluation de la compréhensibilité en fonction du type de source et de l'origine du
calcul des LSF. La valeur 1 représente les LSF calculés à partir du signal acoustique, la valeur
2 représente les LSF estimés en utilisant l'autoencodeur profond et la valeur 3 représente les
LSF estimés en utilisant les EigenLips et EigenTongues. . L’erreur type de la moyenne est
représentée sur le haut de chaque barre du diagramme. **écarts très significatifs, voir aussi
Tableau 19. ............................................................................................................................. 147
19
20
Liste des acronymes utilisés dans le manuscrit
21
22
Introduction générale
Dans ce but, nous étudierons l’application des techniques d’ingénierie biomédicale pour
l’apprentissage et la sauvegarde des techniques de chant rares. Nous nous intéressons en
particulier aux mouvements des articulateurs impliqués dans la production vocale. Afin de
visualiser les mouvements de la langue de façon non invasive, nous utilisons une sonde
échographique placée sous la mâchoire inférieure. Avec ce dispositif nous obtenons une vue
sagittale et temps réel de la langue d’un chanteur. Par ailleurs, nous avons souhaité multiplier
les modalités d’enregistrement de données sur ces techniques de chant et les combiner par
diverses méthodes de traitement du signal et de modélisation. Cependant, les images
échographiques sont des images sombres, bruitées et illisibles pour une personne
inexpérimentée en lecture d’images échographiques. Nous souhaitons par conséquent fournir
une version augmentée de l’image échographique de la langue, plus lisble que l’image brute à
un élève chanteur, dans un contexte de protocole d’apprentissage par retour visuel
articulatoire (biofeedback). En premier lieu, notre approche consiste à extraire ded façon
automatique le contour de la surface supérieure de la langue observable dans des images
échographiques, ce qui nous permet d’obtenir des informations plus lisibles sur la position de
la langue. Ces informations sont utiles, et pourraient trouver des applications pédagogiques
pour une personne désireuse d’apprendre à positionner sa langue correctement. Dans [1], les
auteurs présentent en effet un programme de rééducation utilisant des images échographiques
pour des enfants atteints d’apraxie verbale, c’est-à-dire un trouble de l’acquisition des gestes
permettant l’articulation du langage et des difficultés à la planification des mouvements
impliqués dans la parole. Cette étude montre une amélioration des performances articulatoires
des enfants testés pendant et deux mois après les sessions d’entraînement. Ce type de
méthodes pédagogiques d’apprentissage de la prononciation par retour visuel échographique a
23
également été présenté dans [2] et [3]. Pour des questions de temps de traitement, nous
souhaitons déterminer le contour de la langue de façon automatique. Cependant, la plupart des
méthodes d’extraction de contour automatique voient leurs performances se dégrader au cours
du temps. Notre intuition est qu’une méthode utilisant un apprentissage statistique permettrait
de s’affranchir de ce problème. En particulier, nous supposons qu’un apprentissage sur une
base de données de grande taille fournirait une information suffisante pour modéliser la
position de la langue et extraire les paramètres du conduit vocal. Nous avons donc utilisé des
bases de données avec plusieurs milliers d’images. Compte tenu de la diversité des
informations contenues dans les images échographiques, nous faisons l’hypothèse que
l’apprentissage profond (deep learning) nous permettra d’extraire des descripteurs
synthétisant la complexité de la base d’images pour effectuer cette modélisation. Nous avons
par ailleurs émis l’hypothèse assez forte que la base d’apprentissage pourrait être
automatiquement étiquetée par un outil paramétrable détectant les contours de la langue en
utilisant le contraste dans l’image. Cet outil possède de bonnes qualités de détection de
contour, à condition d’effectuer un seuillage adapté à la qualité des images. Une des
perspectives de ce travail est d’appliquer ces méthodes de retour visuel échographique au
domaine de l’apprentissage du chant. Une autre approche pédagogique en termes de
biofeedback vocal consiste à piloter une tête parlante, comme décrit dans les travaux de [4],
[5], [6] et [7].
24
qu’un modèle linéaire. Par conséquent, nous avons comparé deux méthodes de prédiction des
coefficients du filtre du conduit vocal : la première utilise un autoencodeur permettant
d’extraire des descripteurs issus de la combinaison des deux modalités que sont les images de
langue et de lèvres, tandis que la seconde utilise une représentation des données obtenues par
projection dans un sous-espace en utilisant un modèle linéaire. Nous avons souhaité comparer
les spectres reconstruits ainsi que l’audio synthétisé à l’aide des données articulatoires. Notre
travail présente donc une méthode complète de synthèse de voix chantée à partir des données
d’imagerie articulatoires et les signaux glottiques.
Ce manuscrit est organisé en trois parties. Nous présentons dans un premier temps le contexte
de la thèse : les mécanismes de production vocale, des modèles de synthèse vocale, les
méthodes d’enregistrements de données articulatoires, les techniques de chants rares étudiés
dans le cadre du projet, des notions d’apprentissage statistique et nos outils d’acquisition de
données. Ensuite, nous présentons une première méthode permettant d’utiliser les
informations articulatoires à des fins pédagogiques en extrayant de façon automatique le
contour de la langue à partir des images échographiques. Nous détaillons dans un premier
temps quelques techniques semi-automatiques et automatiques d’extraction du contour de
langue à partir des images échographiques. Ensuite, nous mettons en œuvre une méthode
reposant sur des principes d’apprentissage statistique et comparons la qualité du contour
extrait à ce qu’un étiquetage manuel ou automatique permettrait d’obtenir. Dans notre
troisième partie, nous combinons des informations extraites des images de la langue à des
informations extraites des images des lèvres afin de proposer un nouveau modèle de synthèse
vocale en voix chantée. Dans cette partie, nous détaillons la nature et le calcul des variables à
prédire, l’utilisation de l’apprentissage statistique pour l’extraction multimodale de
descripteurs et la prédiction des paramètres articulatoires, puis les méthodes de synthèse
vocale que nous utilisons et enfin les résultats obtenus sur différents types de données. Nous
présentons les résultats et les comparaisons entre les différentes méthodes en combinant
mesures objectives et résultats perceptifs sur des sujets.
25
26
1 Contexte
27
Figure 1 - Anatomie de l'appareil phonatoire, d'après [8].
Le larynx occupe une place centrale dans la production vocale. C’est au niveau du larynx que
sont situés les plis vocaux (plus communément appelés cordes vocales, bien que cette image
ne soit pas en accord avec la réalité anatomique, comme le montrent la Figure 2 et la Figure
3). Le larynx est constitué de cartilages recouverts de tissus mous. Parmi ces cartilages, le
cartilage cricoïde, en forme d’anneau, se trouve dans le prolongement de la trachée. Les
cartilages aryténoïdes et le cartilage thyroïde sont reliés au cartilage cricoïde. La fermeture du
larynx est contrôlée par l’abaissement du cartilage épiglottique (aussi appelé épiglotte), lui-
même relié au cartilage thyroïde. Les plis vocaux sont attachés à la fois à la base de l’épiglotte
et aux pointes intérieures des cartilages aryténoïdes. L’air expulsé par les poumons provoque
la vibration des plis vocaux, ce qui permet de produire les sons de la voix. Ces sons résonnent
ensuite au niveau des cavités buccale et nasale. Les mouvements de ces résonateurs
permettent de produire des modes d’articulation différents donnant accès à une grande variété
de sons. Nous utiliserons le terme conduit vocal pour nous référer au larynx, ainsi qu’aux
différents résonateurs et articulateurs. L’espace situé entre les plis vocaux se nomme glotte.
28
Figure 2 - Vues antérieures et postérieures du larynx, d’après [9].
Figure 3 - Représentation des principaux cartilages et muscles du larynx. (a) vue de côté, (b) vue de
dessus. D'après [10].
29
Figure 4 - Vue du dessus des plis vocaux au cours d'un cycle d’ouverture-fermeture glottique. D'après
[11].
Au-dessus des plis vocaux se trouvent les bandes ventriculaires, bourrelets qui ont une
apparence semblable aux plis vocaux mais ne possèdent pas de muscle interne. Les bandes
ventriculaires interviennent dans certains types de chant, notamment le chant sarde mais aussi
certains chants d’Asie (Tibet, Mongolie). La maîtrise du geste vocal implique un contrôle sur
les différents muscles et cartilages présentés ci-dessus, afin d’adapter la géométrie du conduit
vocal à la production vocale souhaitée.
1
Nous utilisons ici le jeu de caractères phonétiques SAMPA (Speech Assessment Methods Phonetic Alphabet)
fondé sur l’alphabet phonétique international mais n’utilisant que des caractères ASCII.
31
Figure 5 - Représentation des voyelles en fonction des fréquences des deux premiers formants. Cette
représentation, de forme triangulaire, est nommée triangle vocalique. D'après [13].
32
1.1.2.3 Articulation et coarticulation
L’articulation et la coarticulation jouent un rôle central dans la production d’une consonne.
L’articulation d’une consonne peut être décomposée en trois phases [15] : la phase de
déclenchement, la phase médiane et la phase de fin. Au cours de la phase de déclenchement,
les articulateurs se déplacent vers la position de constriction dominante. Ce maximum de
constriction est atteint au cours de la phase médiane. La phase de fin correspond à la phase au
cours de laquelle les articulateurs s’éloignent les uns des autres. Suivant le type de consonne,
la phase médiane correspondra à un arrêt du flux d’air (occlusive), un écoulement turbulent
d’air (fricative) ou un écoulement du flux d’air plus libre (approximante). Selon la contrainte
articulatoire, c’est-à-dire la durée minimale requise pour passer d’une configuration à une
autre, et les contraintes expressives, la durée de chacune de ces phases est variable. Par
ailleurs, il peut arriver qu’un segment de parole influence les segments suivants ou
précédents. C’est ce que l’on appelle la coarticulation. Dans ce cas, une configuration
articulatoire peut entraîner la modification des articulations pour les phonèmes adjacents.
33
à une fermeture abrupte des plis vocaux. À cela vient s’ajouter la notion d’effort vocal,
impliquée par exemple dans la voix criée. Des paramètres du signal de source, définis section
3.3, permettent de décrire de façon quantitative la qualité vocale et d’expliquer son lien avec
les cycles d’ouverture et de fermeture glottique. Ces critères de qualité vocale s’appliquent
aussi bien dans le domaine de la voix parlée que dans le domaine de la voix chantée. A la
différence de la voix parlée, la voix chantée évolue dans une plage de fréquences plutôt large,
ce qui nécessite une adaptation de la configuration du larynx.
Le mécanisme 0 (fry voice) est employé dans la production de sons plutôt graves, il
correspond à des plis vocaux courts, épais et peu tendus. La durée d’ouverture est faible en
comparaison avec la durée d’une période de vibration.
Le mécanisme 1 correspond à des plis vocaux épais, qui vibrent sur toute leur longueur, avec
une vibration très importante. Le rapport entre la durée d’ouverture glottique et la période est
supérieur à celui du mécanisme 0 mais reste toujours inférieur à 0,5. Ce mécanisme est le
mécanisme le plus utilisé en voix parlée pour les hommes, ainsi qu’en voix chantée pour les
chanteurs basses, barytons, ténors et alti ainsi que des chanteurs de variété.
Le mécanisme 2 est caractérisé par une vibration des plis vocaux sur les deux tiers de leur
longueur uniquement, car les cartilages aryténoïdes sont davantage comprimés. Le rapport
entre ouverture glottique et période est plus élevé que dans le mécanisme 1, en général
supérieur à 0,5. Ce mécanisme est utilisé par les femmes en voix parlée, les hommes
lorsqu’ils souhaitent émettre un son aigu. Les chanteurs mezzo-soprano, soprano, altos et
haute-contre utilisent presque exclusivement ce mécanisme. Le mécanisme 2 est plus utilisé
en voix parlée par les hommes dans d’autres cultures (Asie, Afrique).
34
Le mécanisme 3 correspond à une voix dite de sifflet. Les plis vocaux sont très fins, allongés
et tendus. L’amplitude de leur vibration est très faible. La durée de fermeture complète est
presque nulle.
Figure 6 - Étendue vocale moyenne de la voix parlée et de la voix chantée pour les hommes et les
femmes. D'après [18].
35
La Figure 7 illustre les différences du point de vue fréquentiel entre les différents mécanismes
laryngés utilisés au cours d’un glissando2. Nous détaillerons en section 1.3 différents modèles
permettant de représenter et analyser le signal acoustique.
Figure 7 - Spectrogrammes (voir section 1.3.1.1) de glissandos effectués par une chanteuse (soprano
légère) couvrant l'ensemble des mécanismes laryngés. D'après [17].
Chaque technique de chant possède ses spécificités en termes de rythmes mais également en
termes d’articulation et de qualité vocale. Nous présentons en section 1.2 les différentes
techniques de chant concernées par le projet.
2
En musique, un glissando désigne le passage d’une note à une autre, en général assez éloignées, de manière
la plus continue possible, en faisant entendre rapidement les sons compris entre ces deux notes.
36
1.2.1 Le Cantu in paghjella (chant traditionnel de Corse)
Le Cantu in paghjella est une technique de chant polyphonique (voir Figure 8) comprenant
trois voix d’hommes a capella. La voix principale, qui chante la mélodie, est appelée a
seconda, la voix grave est nommée bassu et la voix aigüe est nommée a terza. Ce type de
chant utilise des ornementations. Traditionnellement, la transmission des techniques de chant
se fait de façon orale. Le répertoire du Cantu in paghjella comprend aussi bien de la musique
profane que de la musique sacrée, mais le chant corse s’inspire traditionnellement de messes
et psalmodies. Les textes de leurs chants sont soit en latin, soit en corse. Comme ces
chanteurs n’utilisent ni partitions ni références de hauteur comme on peut le trouver en
musique classique, les chanteurs utilisent principalement leurs yeux, leurs oreilles et leurs
bouches pour communiquer entre eux. Le respect de la musicalité requiert ainsi une grande
complicité et une forte interaction entre les chanteurs dont les interprétations s’influencent les
unes les autres [20].
Le Canto a tenore de Sardaigne est, de même que le chant corse, un style de chant
polyphonique composé de voix d’hommes uniquement (voir Figure 9), mais dont la tessiture
est plus basse que dans le chant corse. La qualité vocale est également différente. Le Canto a
tenore regroupe quatre voix d’hommes. Deux d’entre elles utilisent une phonation normale
tandis que les deux autres utilisent davantage le larynx. La voix soliste est appelée oche ou
37
boche et utilise une phonation normale. L’autre voix utilisant ce mécanisme est appelée mesu
oche ou mesu boche, ce qui signifie « demi-voix ». La voix grave est appelée bassu et l’autre
voix utilisant le même mécanisme, chantant une quinte au-dessus du bassu, est appelée
contra.
La technique de Bassu et de Contra nécessite une interaction entre les cordes vocales et les
bandes ventriculaires [21], dont l’anatomie est détaillée Figure 10. Les bandes ventriculaires
ne sont pas couramment utilisées dans le cadre d’une phonation normale. Cependant, leur
utilisation a été observée dans certains chants gutturaux comme dans certaines cultures
asiatiques. Cette technique de chant est associée avec un phénomène de doublement de
période qui est à l’origine de la voix grave perçue [22]. De plus, un quatuor de chanteurs
masculins produit perceptivement une cinquième voix. La hauteur résultante ressemble à une
voix de femme [23].
Figure 10 - Les positions des plis vocaux, désignés par les initiales « pv » et des bandes ventriculaires,
désignées par les initiales « bv ». (a). Vue frontale du larynx. (b). Image du larynx au cours de la
phonation obtenue par laryngoscopie. (c). Illustration du larynx au cours de la respiration obtenue
par laryngoscopie, d’après [21].
38
1.2.3 La musique byzantine
Le Human Beat Box (HBB) est une technique de chant qui consiste à reproduire différents
sons (rythmiques, instrumentaux, vocaux) avec la bouche [24]. Dans la musique
contemporaine, le Beat Box, inspiré de la culture hip-hop, est pratiqué aussi bien dans le cadre
de l’accompagnement de chant ou de rap que seul comme expression artistique à part entière.
Les beat boxers adoptent des attitudes laryngo-pharyngées et posturales très complexes. Ils
39
pratiquent leur technique en utilisant des configurations articulatoires extrêmes et investissent
tout leur corps dans le but d’imiter très précisément la géométrie de l’instrument qu’ils
cherchent à reproduire [25]. Les beat boxers sont capables de produire une très grande variété
de sons qui surpasse les combinaisons articulatoires de la plupart des langues. Cependant,
l’ensemble de ces sons peuvent être décrits en utilisant l’Alphabet Phonétique International,
alphabet dédié à la description des sons de parole. Ainsi, même si l’objectif du Human Beat
Box est de produire des sons extralinguistiques, les Beat-boxers utilisent des combinaisons
articulatoires qui existent parmi les langages humains [25].
Ces types de chant mettent en œuvre des techniques variées et complexes qui nécessitent une
description multimodale. Nous détaillerons des méthodes d’analyse et synthèse adaptées au
signal vocal en section 1.3, puis nous proposerons des méthodes permettant de traiter d’autres
informations articulatoires en section 1.4.
Modéliser le conduit vocal permet de mieux comprendre ses propriétés, mais aussi d’en imiter
le fonctionnement pour des applications comme la synthèse vocale. Dans le présent travail,
nous avons besoin d’un modèle du conduit vocal à la fois réaliste et facile à implémenter pour
modéliser les mécanismes de la voix chantée. Deux principaux modèles sont utilisés pour
décrire la production de la voix humaine : les modèles issus de la théorie du signal et les
modèles physiques. Les modèles des signaux utilisent souvent des méthodes d’inversion
(estimation des paramètres du modèle à partir d’un son de référence) permettant des
implémentations efficaces, mais dont le réalisme est limité. En particulier, si l’on connaît la
fonction de transfert du filtre du conduit vocal, il est possible de construire l’inverse de ce
filtre et ainsi de retrouver l’excitation glottique à l’origine de ce son. Les modèles physiques
sont relativement faciles à interpréter mais ces modèles sont difficiles à inverser. La synthèse
vocale, reposant sur l’un ou l’autre de ces modèles, peut être divisée en cinq grandes
familles : la synthèse par concaténation, la synthèse additive, les modèles source-filtre, les
modèles physiques simples et les modèles physiques complexes. La synthèse concaténative
est fondée sur la concaténation d’unités préenregistrées de taille variable. Cette technique est
à l’origine de nombreuses applications, en synthèse comme en modification de la parole,
40
comme par exemple la méthode PSOLA (Pitch Synchronous Overlap and Add) et ses
variantes [26]. La synthèse additive a pour but de reconstruire le spectre d’un signal de parole
en utilisant des informations sinusoïdales ou formantiques [27]. Les modèles source-filtre,
que nous présenterons dans la section 1.3.1.3, reposent sur la modélisation des
caractéristiques à la fois temporelles et fréquentielles du signal vocal. Les modèles source-
filtre sont centrés sur le résultat de la phonation (le son produit), tandis que la particularité des
modèles physiques est qu’ils sont centrés sur les causes de la phonation (mouvements
laryngés et articulation). Les modèles physiques, qui sont détaillés en section 1.3.1.2, sont
fondés sur l’activité du larynx, la configuration du conduit vocal et leur influence sur la
production du son. Les modèles de traitement de la parole supposent qu’un segment de parole
est stationnaire sur une fenêtre d’environ 15 à 20 ms, ce qui revient à considérer les
mouvements des articulateurs négligeables au cours de cette durée. Ces hypothèses permettent
des analyses spectrales trame (portion de signal d’une durée de l’ordre de la dizaine de
millisecondes) par trame.
41
Figure 12 - Signal temporel et variations de la fréquence fondamentale au cours du temps. En haut,
un exemple de signal temporel complet. En bas, les variations de la fréquence fondamentale de ce
signal au cours du temps. Les silences ont été exclus du calcul.
Figure 14 - Spectrogramme d'une portion de signal faisant apparaître les quatre premiers formants.
Nous souhaitons développer des modèles d’analyse du geste vocal et privilégions donc des
descripteurs qui pourraient être extraits à partir d’informations visuelles. Il existe des modèles
permettant de décrire le mécanisme de production de la parole en tenant compte de l’influence
des différentes parties du conduit vocal.
43
par le modèle. Ainsi, les grandeurs acoustiques comme la pression et le débit au niveau de la
glotte, dans le conduit vocal ainsi qu’au niveau des lèvres et des narines sont calculées en
utilisant des équations acoustiques (modèles de conduits) à partir des données géométriques
du conduit vocal, qui peuvent varier au cours du temps. Cependant, il est délicat de modéliser
comment les mouvements des articulateurs influencent les interactions entre les différentes
parties du conduit vocal.
44
Figure 16 - Illustration du modèle source-filtre en tenant compte du rayonnement aux lèvres par
dérivation du signal de source. Le produit de la transformées de Fourier de la source glottique
dérivée 𝑈𝑔′ (𝑓) par la transformée de Fourier du conduit vocal 𝐻(𝑓) produit le même signal
acoustique de représentation fréquentielle 𝑆(𝑓) que celui montré. D’après [17].
45
Figure 17 - Comparaison entre une trame de signal original (en noir) et l'estimation de cette trame
par prédiction LPC (en rouge).
La prédiction linéaire permet d’accéder à l’enveloppe spectrale d’une trame de parole. Cette
enveloppe spectrale permet de situer les formants, dont la fréquence est donnée par les
46
maxima de l’enveloppe du spectre à un instant donné. La Figure 19 montre le spectre FFT
d'une trame audio ainsi que son spectre obtenu par LPC.
Figure 19 - Comparaison entre le spectre FFT (en gris) et le spectre LPC (en noir) d'une trame d'un
extrait de chant. Tandis que le spectre FFT fait apparaître les harmoniques de la fréquence
fondamentale, le spectre LPC donne accès aux valeurs des formants.
Les LSF (Line Spectral Frequencies, aussi connus sous le nom Line Spectral Pairs) sont
déduits des coefficients LPC. Les LSF ont la propriété d’être plus robustes aux distorsions et
en particulier aux erreurs de quantification que les LPC [37]. Soit 𝐴(𝑧) la fonction
polynômiale de prédiction linéaire. 𝐴(𝑧) s’écrit sous la forme :
𝑁
𝐴(𝑧) = 1 − ∑ 𝑎𝑘 𝑧 −𝑘 (1)
𝑘=1
Les LSF sont les arguments des racines des polynômes 𝑃 et 𝑄 compris entre 0 et 𝜋. Les zéros
des fonctions polynomiales 𝑃(𝑧) et 𝑄(𝑧) associées à 𝑃 et 𝑄 sont dessinés sur le cercle unité
Figure 20.
47
Figure 20 - Zéros des fonctions polynomiales 𝑃(𝑧) et 𝑄(𝑧) sur le cercle unité calculées sur la portion
de signal présentée Figure 17. Les LSF correspondent à l’argument des racines de 𝑃 et 𝑄. Il est à
noter que puisque les coefficients de 𝑃 et de 𝑄 sont réels, chaque racine est associée à une racine
conjuguée et ainsi, seule la moitié des coefficients permet de coder l’information contenue dans les
LPC. Par convention, les LSF correspondent aux coefficients compris entre 0 et 𝜋.
48
Figure 21 - Représentation d'une période de l'ODG et de sa dérivée. Le paramètre de source
𝐴𝑣 désigne l'amplitude de voisement, 𝑇0 la période fondamentale, 𝑂𝑞 le quotient ouvert, 𝛼𝑚 le
coefficient d'asymétrie, 𝑄𝑎 le quotient de phase de retour et 𝐸 la vitesse de fermeture. Leur
interprétation est donnée dans le Tableau 1. D’après [17].
Les modèles d’ODG vérifient les critères suivants, décrits dans [17] : en premier lieu, l’onde
de débit glottique est toujours positive ou nulle, avec une croissance pendant l’ouverture et
une décroissance pendant la fermeture. De plus, l’ODG sera constante ou nulle si la glotte est
fermée. En outre, la vitesse de la fermeture glottique étant généralement supérieure à la
vitesse d’ouverture glottique, la forme de l’ODG est asymétrique. Les différents paramètres
de source glottique que nous utilisons proviennent du modèle décrit dans [38] et sont les
suivants : l’amplitude de voisement 𝐴𝑣 , la période fondamentale de l’ODG 𝑇0 , le quotient
ouvert 𝑂𝑞 , le coefficient d’asymétrie 𝛼𝑚 , la durée de phase retour 𝑇𝑎 et la vitesse de fermeture
𝐸. La durée de la phase ouverte est 𝑇𝑒 = 𝑂𝑞 𝑇0 et la durée de la phase d’écartement des plis
vocaux est 𝑇𝑝 = 𝛼𝑚 𝑂𝑞 𝑇0 . La durée de phase retour 𝑇𝑎 correspond à la durée entre l'instant de
fermeture glottique (noté GCI pour Glottal Closure Instant) et la fermeture effective.
L’amplitude de voisement correspond à l’amplitude entre la valeur minimale et la valeur
maximale du débit glottique. Le quotient ouvert correspond au rapport entre la durée de la
phase ouverte 𝑇𝑒 et la période fondamentale 𝑇0 . Le coefficient d’asymétrie correspond au
rapport entre la durée de la phase d’écartement des plis vocaux et la durée de la phase ouverte.
Le quotient de phase retour correspond au rapport entre la durée effective de retour et la durée
de la phase fermée. La vitesse de fermeture décrit la vitesse du débit glottique à l’instant de
49
fermeture. Sa valeur est déterminée par l’amplitude du minimum de la dérivée du débit
glottique. Le tableau ci-dessous rassemble ces différents paramètres ainsi que leur définition,
détermination et valeurs typiques.
Tableau 1 - Les différents paramètres permettant de définir un modèle d'onde de débit glottique.
Paramètre Nom Interprétation Valeurs typiques
𝐴𝑣 Amplitude de voisement Amplitude entre la valeur Exprimé en l/s
minimale et la valeur maximale
du débit glottique
𝑇0 Période fondamentale 1
𝑇0 =
𝑓0
𝑂𝑞 Quotient ouvert Rapport entre la durée de la 0,3 < 𝑂𝑞 < 1
phase ouverte et la période
fondamentale
𝛼𝑚 Coefficient d’asymétrie Rapport entre la durée de la 0,5 < 𝛼𝑚 < 1
phase d’écartement des plis
vocaux et la durée de la phase
ouverte
𝑇𝑝
𝛼𝑚 =
𝑇𝑒
𝑄𝑎 Coefficient de phase Rapport entre la durée de phase
retour de retour et la phase fermée
𝑇𝑎 𝑇𝑎
𝑄𝑎 = =
𝑇0 − 𝑇𝑒 (1 − 𝑂𝑞 )𝑇0
Ces paramètres de source peuvent avoir une influence sur la qualité vocale, décrite section
1.1.3.1. Il existe des modèles paramétriques de la source glottique, qui permettent de générer
une forme d’onde. C’est le cas par exemple du modèle LF [39] (voir section 1.3.1.5.3). Ces
paramètres de la source peuvent également être obtenus par filtrage inverse. Il est aussi
possible de concevoir la source glottique elle aussi comme un filtre appliqué à un train
d’impulsions de Dirac, comme dans le modèle CALM (Causal-Anticausal Linear Model, voir
50
section 3.5.2). Ainsi, un train d’impulsion pseudo-périodique est filtré par un filtre glottique,
ce qui permet d’obtenir un modèle de l’onde de débit glottique.
51
Figure 22 - Représentations de l'ODG et de sa dérivée décrites par le modèle LF et ses paramètres.
D'après [42].
𝜋𝑡
𝑠𝑖𝑛 (𝑇 )
𝑈𝑔′ (𝑡) = −𝐸𝑒 𝑒 𝑎(𝑡−𝑇𝑒 )
𝑝
𝑝𝑜𝑢𝑟 0 ≤ 𝑡 ≤ 𝑇𝑒 (5)
𝜋𝑇
𝑠𝑖𝑛 ( 𝑇 𝑒 )
𝑝
𝐸𝑒 −𝜀(𝑡−𝑇 )
𝑈𝑔′ (t) = − (𝑒 𝑒 − 𝑒 −𝜀(𝑇0 −𝑇𝑒 ) ) pour 𝑇 ≤ 𝑡 ≤ 𝑇 (6)
𝑒 0
𝜀𝑇𝑐
Ces équations sont obtenues par continuité de l’onde de débit glottique dérivée au point de
fermeture glottique en utilisant la nullité de l’intégrale de l’onde de débit glottique sur un
cycle.
En dehors du modèle LF, d’autres modèles ayant chacun leur ensemble de paramètres ont été
proposés. Parmi ces modèles, les plus répandus sont le modèle KLGLOTT88 [43], R++ [44]
52
ou Rosenberg-B [45]. Une comparaison temporelle entre ces modèles est proposée Figure 23.
Ces différents modèles ont un nombre variable de paramètres de forme, allant de 4 paramètres
pour le modèle LF à 2 paramètres pour le modèles KLGLOTT88 et Rosenberg-B, en passant
par 3 paramètres pour le modèle R++. Le modèle LF ainsi que sa réduction LF-Rd à un
modèle à un paramètre sont encore très largement utilisés. Le succès du modèle LF s’explique
par la grande diversité des formes d’onde qu’il permet d’obtenir grâce à son grand nombre de
degrés de liberté. D’autres méthodes permettent de concevoir l’onde de débit glottique comme
la réponse impulsionnelle d’un filtre linéaire.
Figure 23 - Comparaison entre les modèles LF, Klatt, R++ et Rosenberg C, d’après [42].
53
Soit 𝐻1 le filtre anticausal et 𝐻2 le filtre causal. Le filtre passe-bas d’ordre 2 𝐻1 est défini
comme suit :
𝑏1𝑧
𝐻1 (z) = (9)
1 + 𝑎1 𝑧 + 𝑎2 𝑧 2
avec
𝑎1 = −2𝑒 −𝑎𝑝𝑇𝑒 cos(𝑏𝑝 𝑇𝑒 ), (10)
avec :
𝑎 𝑇𝑙 = 𝜈 − √𝜈 2 − 1, (16)
𝑏𝑇𝑙 = 1 − 𝑎 𝑇𝑙 , (17)
1
avec 𝜈 = 1 − , (18)
𝜇
1
𝑒 −𝑇𝑙⁄10 ln 10 − 1
et 𝜇 = . (19)
3000
cos (2𝜋 )−1
𝑓𝑒
Ce modèle permet de faire la synthèse entre des modèles temporels et des modèles
fréquentiels, par l’intermédiaire d’un modèle alliant des filtres causaux et anti-causaux.
L’association de ce modèle de source glottique avec un modèle du conduit vocal permet de
développer des méthodes de synthèse vocale. Différentes méthodes de synthèse vocale,
fondée ou non sur le modèle source-filtre, sont détaillées en section 1.3.2.
54
1.3.2 La synthèse vocale
1.3.2.1 Généralités
La synthèse vocale permet de produire, à partir de moyens électro-acoustiques, des sons
imitant la voix parlée ou chantée. On distingue deux catégories de méthodes de synthèse
vocale : les méthodes utilisant des connaissances explicites et les méthodes par connaissances
implicites [47]. Les méthodes par connaissances explicites, que nous décrivons en section
1.3.2, utilisent des modèles de l’appareil vocal (modèles physiques ou signaux). Les
méthodes par connaissances implicites utilisent des segments de voix préenregistrés et
n’utilisent pas d’a priori sur le conduit vocal. Il s’agit de méthodes de synthèse par
concaténation, que nous abordons en section 1.3.2.3. Il existe également des méthodes
intermédiaires, utilisant des bases de données de voix naturelle. La reconstruction du signal
est dans ce cas pilotée en utilisant des paramètres issus de ces bases. Cette méthode est
utilisée dans la synthèse HTS (HMM-To-Speech, voir section 1.3.2.4). La demande en ce qui
concerne les applications commerciales a motivé de nettes améliorations en termes de qualité
(naturalité et intelligibilité). Ces progrès sont notamment dus à l’utilisation de modèles
statistiques, que nous détaillerons en section 1.4.
55
technique. Cependant, c’est un synthétiseur destiné à la composition qui ne permet pas un
contrôle du synthétiseur en temps réel.
4
En phonétique, un phone désigne un son d’une langue. Un diphone correspond à une paire de phones adjacents.
Le phonème désigne la plus petite unité distinctive que l’on peut isoler dans un segment de parole.
L’identification des phonèmes d’une langue est obtenue par construction de paires minimales, c’est-à-dire de
paires de mots de sens différents et dont un seul son diffère de l’un à l’autre. Les phones sont donc les différentes
réalisations d’un phonème.
56
phonèmes sont ensuite utilisés pour piloter un vocodeur au moment de la synthèse. Il existe
également des méthode hybrides de synthèse par concaténation dans lesquelles un modèle
statistiue paramétrique guide la sélection des segments [52].
57
concerner le réalisme des sons (la naturalité) ou leur intelligibilité.
Dans [52], qui a inspiré la discussion présentée dans ce paragraphe, l’auteur décrit que les
systèmes paramétriques statistiques sont les systèmes qui produisent la parole synthétique la
plus intelligible, mais elle n’apparaît pas très naturelle à entendre. A l’inverse, la synthèse par
concaténation, qui est décrite comme la solution permettant la voix la plus naturelle, produit
des paroles bien moins intelligibles que les modèles paramétriques. Ainsi les systèmes
paramétriques permettent d’atteindre une naturalité et une intelligibilité presque satisfaisante.
Il existe d’autres types de vocodeurs comme les vocodeurs sinusoïdaux ou les vocodeurs
harmoniques plus un bruit (harmonic-plus-noise vocoders) [58]. Ces vocodeurs se
différencient des vocodeurs de type STRAIGHT par le fait qu’ils n’utilisent pas de modèle
source-filtre. Ces vocodeurs tentent de modéliser le signal acoustique directement, sans
référence explicite à aucun modèle de production de parole. Le signal de parole est modélisé
comme la somme d’une partie déterministe (la structure harmonique, modélisée comme un
58
ensemble de sinusoïdes) et une partie stochastique (du bruit). Cette idée a donné naissance à
des vocodeurs produisant moins d’artefacts que STRAIGHT. Cependant, comme indiqué dans
[52], le nombre de paramètres nécessaires pour représenter le signal acoustique en utilisant un
modèle harmonic-plus-noise est important et variable, ce qui le rend peu adapté pour une
utilisation avec un text-to-speech (TTS) paramétrique. La qualité de la synthèse possible avec
un vocodeur harmonique plus bruit en fait une solution malgré tout intéressante pour des
implémentations hors ligne.
59
La synthèse de voix chantée a la particularité de nécessiter une grande expressivité, ce qui
constitue un défi supplémentaire par rapport à la synthèse de voix parlée. La qualité de la
source glottique, la précision de l’articulation et l’expressivité sont donc des critères
déterminants pour l’évaluation de la qualité d’un extrait de voix chantée synthétique. Parmi
les méthodes développées en synthèse vocale, des approches de synthèse par concaténation
d’unités, l’utilisation de vocodeurs ainsi que des approches de synthèse articulatoire ont été
proposées pour l’application en voix chantée. Une des méthodes consiste à utiliser un
vocodeur pour produire de la voix chantée à partir d’un extrait de voix parlée et un codage de
la musique, comme avec le vocodeur STRAIGHT [59] ou un vocodeur de phase [60]. La
synthèse de voix chantée par concaténation d’unités a connu un grand succès avec le
développement du système commercial VOCALOID [61]. La méthode de synthèse par
formant [62] a l’avantage d’être très modulaire et de permettre de tester les différences
perceptives entre différentes sources glottiques ou différentes configurations du conduit vocal.
Un contrôle gestuel de la synthèse de voix chantée a été proposé dans [63] puis [64]. Dans le
projet CantorDigitalis comme dans le projet Calliphony, une tablette graphique sert
d’interface de contrôle. Une méthode de synthèse articulatoire a été présentée dans [65]. Une
méthode de synthèse de voix chantée permettant une synthèse expressive de bonne qualité a
été proposée dans [66]. De façon générale, la synthèse par concaténation d’unités semble
permettre une meilleure naturalité du son [67].
Afin de modéliser au mieux la voix chantée, nous souhaitons compléter les informations
obtenues à partir du signal acoustique par des informations multimodales sur le geste vocal.
Les types de chant étudiés mettent en œuvre des techniques variées et complexes, c’est
pourquoi souhaitons utiliser des modèles d’apprentissage statistique afin d’extraire des
informations permettant le développement d’outils pédagogiques adaptés à l’apprentissage de
ces techniques de chant.
Nous identifions en section 1.5 des appareils de mesure, qui nous permettent de collecter des
données complexes corrélées au fonctionnement des articulateurs du conduit vocal. Nous
voudrions construire des modèles permettant de transformer ces données brutes en des
indicateurs ayant un sens ou une utilité. L’apprentissage statistique rassemble des méthodes
qui permettent de construire un modèle à partir de données, en contrôlant la qualité du modèle
ainsi que sa capacité de généralisation face à de nouvelles situations [68]. En apprentissage
statistique, l’algorithme est capable d’estimer les paramètres d’un modèle depuis des données
d’entrée. L’apprentissage statistique trouve sa motivation dans le fait de résoudre certaines
tâches de prédiction lorsque l’interprétation directe est délicate. L’apprentissage peut se faire
de façon supervisée ou non supervisée.
Dans le cas d’un apprentissage supervisé, les exemples d’apprentissage sont fournis sous la
forme de couples entrée/sortie désirée (𝑥𝑖 , 𝑦𝑖 ). L’objectif est de déterminer une sortie 𝒚 pour
chaque nouvelle entrée 𝒙 qui soit le plus proche possible de la sortie attendue – on mesure
alors la distance entre la sortie obtenue et la sortie désirée avec une fonction de coût. Si la
sortie représente un nombre fini de classes, on parle alors de tâche de classification. Si la
sortie représente des valeurs continues, il s’agit alors d’une tâche de régression. Ainsi,
l’apprentissage supervisé consiste à inférer une sortie pour une entrée donnée, connaissant une
base d’exemples formée de couples entrée-sortie différents. Parmi les méthodes
d’apprentissage supervisé, nous pouvons citer les régressions linéaires, les perceptrons
multicouches ou encore les machines à vecteur support.
Dans le cas d’un apprentissage non supervisé, les exemples d’apprentissage fournis au
système se résument aux entrées 𝑥𝑖 . L’objectif est alors de trouver, sans apriori sur les
données, des subdivisions des entrées en sous-groupes homogènes. Parmi les méthodes
d’apprentissage non-supervisé, nous pouvons citer les méthodes de clustering.
L’apprentissage statistique est couramment utilisé en traitement du signal, lorsque l’on
souhaite disposer d’algorithmes adaptatifs, pour des tâches trop complexes pour être décrites
de façon déterministe. Les étapes d’un algorithme d’apprentissage sont les suivantes : tout
d’abord, il s’agit d’identifier le problème d’apprentissage et de construire la base de données.
Il convient ensuite de choisir une représentation numérique pertinente des données. Ensuite,
61
on entraîne le modèle sur un jeu de données nommé base d’apprentissage en ajustant les
paramètres du modèle. Une base dite de validation est utilisée afin de valider l’apprentissage
et d’ajuster les hyperparamètres du modèle. Enfin, les données de la base de test permettent de
tester les performances de généralisation de l’algorithme. Chacune de ces bases doit être
statistiquement représentative des données et disjointe des deux autres bases.
Dans un algorithme classique d’apprentissage statistique, la première difficulté, une fois les
données collectées, est de trouver des descripteurs pertinents permettant de représenter les
données et de contenir de l’information utile pour la tâche souhaitée. Ainsi, pour chaque
modèle considéré, plusieurs types de descripteurs peuvent être étudiés avant de trouver une
description satisfaisante des données. L’utilisation de descripteurs géométriques ou de
moments statistiques sont des méthodes couramment utilisées pour obtenir des descripteurs.
Les risques sont que l’ensemble des descripteurs soit incomplet ou bien au contraire
redondant. Un autre problème concerne la collecte de données, qui peuvent être de qualités
variables. En outre, les échantillons de la base d’apprentissage doivent être représentatifs des
données à partir desquelles le modèle est construit.
62
plusieurs couches cachées. Le principe du Deep Learning repose sur un apprentissage
hiérarchique couche par couche. Entre chaque couche interviennent des transformations non
linéaires et chaque couche reçoit en entrée la sortie de la couche précédente. Dans le Deep
Learning, l’extraction de descripteurs est pilotée directement à partir les données. Autrement
dit, le Deep Learning repose donc sur un paradigme d’apprentissage que l’on pourrait
qualifier de « supervisé par les entrées » – où les sorties attendues du modèle sont les entrées
elles-mêmes. Dans ce paradigme, l’apprentissage dépend d’une fonction de coût (comme dans
les apprentissages supervisés), sans avoir pour autant à fournir de données de sortie au modèle
(comme dans les apprentissages non-supervisés).
L’information contenue dans des données peut être représentée de différentes manières. Par
exemple, une image peut être codée comme un vecteur de valeurs d’intensité par pixel, ou
bien un ensemble de contours, de régions avec une forme particulière. Certaines
représentations permettent un meilleur apprentissage de certaines tâches à partir d’exemples
[71]. Un des atouts du Deep Learning est de remplacer la détermination manuelle de
descripteurs par des algorithmes d’extraction de descripteurs hiérarchiques. Il existe plusieurs
manières de construire un réseau de neurones profond, notamment le DBN (Deep Belief
Network). La méthode la plus répandue afin d’entraîner efficacement un réseau de neurones
profond est d’utiliser un algorithme glouton (algorithme qui recherche, étape par étape, un
minimum local) d’apprentissage couche par couche par le biais de machines de Boltzmann
Restreintes. Plus précisément, il s’agit d’entraîner de façon non supervisée chaque couche afin
d’extraire les descripteurs principaux à partir de la distribution des données d’entrée. La
première couche cachée correspond donc à une représentation de ces entrées. Cette
représentation est ensuite utilisée comme entrée pour la couche suivante. La méthode de Deep
Learning peut être utilisée comme initialisation des poids et biais avant l’utilisation d’un
algorithme supervisé comme la rétro-propagation du gradient (cette méthode permet de
calculer le gradient de l'erreur pour chaque neurone d'un réseau de neurones, de la dernière
couche vers la première. Dans l’apprentissage d’un réseau profond, la rétro-propagation joue
alors de rôle de fine-tuning). L’utilisation d’une telle stratégie d’apprentissage de réseaux
profonds est plutôt efficace. Il a été montré [72] qu’initialiser les poids d’un perceptron
multicouche avec un réseau profond (type Deep Belief Network, ou DBN) donnait de
meilleurs résultats qu’une initialisation aléatoire.
63
Utiliser un DBN a donc plusieurs avantages, notamment le fait que les unités cachées les plus
profondes peuvent être calculées efficacement ; l’apprentissage glouton par empilement de
RBM permet une réduction de la complexité de l’apprentissage liée à la profondeur du réseau
[73]. Ceci explique pourquoi les DBN ont été utilisés dans de nombreuses applications de
traitement du signal, comme détaillé dans [74]. Les applications du Deep Learning dans le
domaine de l’acoustique et du traitement de la parole sont largement discutées dans [70]. Une
stratégie d’apprentissage dite gloutonne (voir [75]) de représentations sur un réseau profond
utilise les machines de Boltzmann restreintes.
Figure 24 - Illustration d'une machine de Boltzmann. Dans une machine de Boltzmann, des
connexions existent entre les différentes unités cachées et les différentes unités visibles, d’après [78].
Les unités visibles sont les unités dont l’état peut être observé. L’état des unités cachées n’est pas
spécifié par les données observables.
Dans une machine de Boltzmann, de même que dans un réseau de Hopfield, des unités
binaires sont connectées de façon à former un réseau dont l’énergie globale est définie comme
une combinaison des états de ces unités plus un biais. Une machine de Boltzmann restreinte
est un réseau de neurones stochastique capable d’apprendre une distribution de probabilités à
partir d’unités d’entrée. Les unités des différentes couches peuvent être activées (on) ou
64
désactivées (off). Ces unités sont connectées les unes aux autres par des liens bidirectionnels.
Les poids affectés à ces connexions sont symétriques, c’est-à-dire que le poids du neurone 𝑁𝑖
au neurone 𝑁𝑗 est égal au poids du neurone 𝑁𝑗 au neurone 𝑁𝑖 . Les poids peuvent prendre des
valeurs positives ou négatives. La probabilité qu’une une unité se trouve dans un état on
dépend de la distribution des unités voisines ainsi que des connexions entre ces unités. Dans
une machine de Boltzmann, les seules restrictions sont qu’aucune unité n’a de connexion avec
elle-même et que toutes les connexions sont symétriques. Cependant, en raison de leur grande
complexité, ces réseaux sont bien moins utilisés que les Machines de Boltzmann Restreintes
(RBM), qui sont des Machines de Boltzmann dans lesquelles les connexions entre les unités
sont limitées, formant ainsi un graphe biparti [78]. Les Machines de Boltzmann Restreintes se
sont largement répandues depuis 2006 grâce aux progrès des capacités de calcul [72] et au
développement d’algorithmes rapides. Les applications les plus courantes des RBM sont la
réduction de dimension, la classification et la modélisation et peuvent être utilisées de façon
supervisée ou non.
Il n’y a pas de connexion entre les unités visibles, de même entre les unités cachées,
les seules interactions possibles sont les connexions entre une unité cachée et une unité
visible (voir Figure 25) ;
Les unités cachées sont conditionnellement indépendantes connaissant les unités
visibles.
Figure 25 – Un RBM avec I unités visibles et J unités cachées, 𝐼 et 𝐽 pouvant prendre des valeurs
distinctes, d’après [18].
65
données. Supposons notre réseau composé d’un ensemble d’unités visibles 𝒗 ∈ {0, 1}𝐼 et
d’un ensemble d’unités cachées 𝒉 ∈ {0, 1} 𝐽 . L’énergie de l’état {𝒗, 𝒉} est donnée par :
1 𝑇 1
𝐸(𝒗, 𝒉; 𝜃) = − 𝒗 𝐿 𝒗 − 𝒉𝑇 𝐽 𝒉 − 𝒗𝑇 𝑊 𝒉, (20)
2 2
La probabilité qu’un modèle affecte au vecteur 𝒗 des états des unités visibles est :
1
𝑝(𝒗, 𝒉; 𝜃) = ∑ 𝑒 −𝐸(𝒗,𝒉;𝜃) , (22)
𝑍(𝜃)
𝒉
où 𝑍(𝜃) la fonction de partition. Dans le cas d’une RBM, la probabilité que l’unité cachée 𝑗
soit dans l’état 1 connaissant les états des unités visibles est :
𝐼
La probabilité que l’unité visible 𝑖 soit dans l’état 1 connaissant les états des unités cachées
est :
𝐽
1
où 𝜎(𝑥) est la fonction sigmoïde 𝜎(𝑥) = 1+𝑒 −𝑥, 𝑎𝑖 et 𝑏𝑗 sont des biais.
Par souci de simplicité, nous considérons une unité de biais toujours active (les unités
constamment actives sur la droite de la Figure 25), présente dans la couche visible comme
dans la couche cachée. Nous réécrivons alors les probabilités conditionnelles de l’équation
66
(24) et (25) comme suit :
𝐼
Ces équations sont utilisées pour mettre à jour les valeurs des unités au cours de
l’apprentissage. Le principe consiste à alterner entre la mise à jour des unités cachées et la
mise à jour des unités visibles [79]. La mise à jour des poids se fait par un algorithme de
descente de gradient :
𝜕 log(𝑝(𝒗))
𝑤𝑖𝑗 (𝑡 + 1) = 𝑤𝑖𝑗 (𝑡) + 𝜀 (28)
𝜕𝑤𝑖𝑗
où
1
𝑝(𝒗) = ∑ 𝑒 −𝐸(𝒗,𝒉;𝜃) (29)
𝑍
𝒉
En pratique, on approche cette fonction par une méthode appelée échantillonnage de Gibbs
67
(Gibbs sampling, voir Figure 26) et l’on utilise l’espérance du produit des unités cachées et
visibles relatives aux données et celles relatives au modèle.
Figure 26 – Processus d’apprentissage d’une RBM. Il est possible de calculer une approximation de
̂ désigne l’estimation du
la divergence contrastive à partir des deux premières itérations. Le vecteur 𝒗
̂
vecteur 𝒗, le vecteur 𝒉 désigne l’estimation du vecteur 𝒉.
Une stratégie d’apprentissage pour un réseau de neurones profond (Deep network) consiste à
empiler des RBM appris couche par couche, en partant des entrées puis en utilisant la sortie
68
de la couche 𝑖 comme entrée pour la couche 𝑖 + 1. Ainsi, une fois qu’un RBM est entraîné, un
autre RBM peut être empilé à la suite du premier RBM afin de créer un modèle multicouche.
Les autoencodeurs, décrits dans [82], sont des structures composées de deux parties : un
encodeur et un décodeur. Les autoencodeurs profonds (ou Deep Auto-Encoders, DAE),
décrits par [79] et [83], sont des autoencodeurs construits avec des architectures profondes. Le
nombre de neurones dans la dernière couche du décodeur est égal à la dimension de l’entrée
du réseau. Le but d’un autoencodeur est de trouver une représentation codée d’une entrée
pouvant être décodée avec précision. Un tel réseau est entraîné de sorte à trouver une
représentation des données d’entrée et apprendre le lien entre une entrée et sa représentation
cachée. Notons 𝒙 l’entrée d’un autoencodeur, ℎ𝑖 la 𝑖 ème couche cachée et 𝑓𝜑𝑖 la fonction
d’encodage de la couche 𝑖 pour un ensemble de paramètres 𝜑 donné. Notons également 𝒙
̂ la
reconstruction de l’entrée 𝒙 par le décodeur et 𝑓′𝜑𝑖 la fonction de décodage liée à la couche 𝑖.
Un exemple d’autoencodeur est montré Figure 27.
69
1.5 Enregistrement de données articulatoires
Notre objectif est de piloter un modèle du conduit vocal, qui pourrait être utilisé à des fins
pédagogiques : par exemple pour apprendre à articuler et prononcer correctement des
phonèmes qui n’existent pas dans notre langue maternelle, ou bien pour apprendre des
techniques de chant. Pour ce faire, nous avons besoin de quantifier et mesurer le
comportement des articulateurs. Ceci nous permettra d’étudier le rapport entre les dynamiques
anatomiques du conduit vocal et ses productions sonores. En particulier, nous nous
intéressons aux mouvements de la langue.
Le conduit vocal peut être étudié grâce à de nombreux capteurs. Certains d’entre eux offrent
la possibilité de visualiser les mouvements des articulateurs au cours de la phonation, en voix
parlée ou en voix chantée. Chaque méthode possède des avantages et des inconvénients qui la
rendent plus adaptée à une tâche ou à une autre [84]. Les caractéristiques de différents
capteurs permettant de visualiser le conduit vocal sont rassemblées dans le Tableau 2.
70
Tableau 2 : Méthodes d’analyse du conduit vocal (tableau de synthèse, d’après [84]).
Instrument Avantage(s) Inconvénient(s)
Endoscopie rigide Images de bonne qualité Très invasif, nécessite en
général une anesthésie
Fibroscopie Visualisation directe du Invasif, peut nécessiter une
larynx anesthésie
Caméra externe Non-invasif Pas de vue interne du conduit
vocal
IRM Vue très détaillée du conduit Fréquence d’imagerie trop
vocal faible, nécessite l’immobilité,
très coûteux, potentiellement
dangereux.
Radiographie X Images des os Potentiellement dangereux,
nécessite l’immobilité, très
coûteux
Articulographie Résolution spatiale < mm, Invasif, difficile à calibrer
électromagnétique (EMA) mouvement des articulateurs
en fonction du temps (lèvres,
langue, mâchoire, velum)
Nasographie/transillumination Informations à propos de la Invasif
nasalité
Électropalatographie Position de la langue par Position de la langue
rapport à celle du palais incomplète, inconfort
Ultrason (échographie) Mouvements de la langue en Possible inconfort, pas de
temps réel référence de la position de la
langue
Electroglottographie Temps réel, non-invasif Peu d’informations
disponibles
71
terme, ce qui signifie que ces techniques ne peuvent être utilisées que comme référence en
position de repos et l’exposition d’un sujet doit être limitée. L’échographie semble donc un
bon compromis pour la visualisation du conduit vocal en temps réel [85].
1.5.2 L’échographie
L’échographie est une technique d’imagerie qui utilise des ondes acoustiques de très hautes
fréquences (ondes ultrasonores). Une onde ultrasonore est par définition une onde dont la
fréquence est supérieure à la limite maximale des fréquences audibles pour l’oreille humaine,
qui est de 20 kHz. Dans le domaine de l’imagerie médicale, les fréquences sont de l’ordre du
Méga Hertz. Les échographes que nous utilisons produisent des ondes de fréquences
comprises entre 4 et 8 MHz. Parce que ces ondes se réfléchissent sur la surface des objets
qu’elles rencontrent, elles peuvent être utilisées pour visualiser divers organes. La possibilité
d’obtenir des images en temps réel ainsi que le caractère non-invasif de cet instrument de
mesure en fait l’outil privilégié depuis le début des années 80 pour observer les mouvements
de la langue. Les images ultrasonores peuvent fournir une coupe sagittale de la surface de la
langue (voir Figure 28), sur lesquelles le contour supérieur de la langue est très apparent. Il
s’agit donc d’un outil bien adapté pour notre objectif, puisqu’il nous permettrait de modéliser
les mouvements du contour de la langue sous forme de coordonnées de points. Comme nous
l’avons vu en section 1.1, la position de la langue est corrélée au deuxième formant, et par
conséquent est un indicateur fiable de la production des voyelles orales.
72
1.5.2.1 Principes physiques de l’imagerie ultrasonore
Dans la technique de l’échographie (détaillée dans [84], qui a inspiré cette description) des
ondes ultrasonores sont émises dans la direction du milieu que l’on souhaite imager. Ces
ondes sont des ondes dites de pression et leur propagation est à l’origine d’un phénomène de
compression puis de dilatation du milieu traversé, phénomène qui se propage dans le milieu.
Chaque milieu est caractérisé par une vitesse 𝑐 de propagation de l’onde, qui dépend de sa
densité et de son élasticité. La vitesse de propagation d’une onde ultrasonore est de 1480 m/s
dans l’eau, contre 1540 m/s dans les tissus mous. En revanche, dans les tissus osseux, la
vitesse de propagation d’une onde ultrasonore atteint 3000 m/s. Dans l’air, cette vitesse est de
340 m/s. On définit l’impédance acoustique 𝑍 d’un milieu comme le produit entre la densité
𝜌 du milieu et la vitesse de propagation 𝑐 d’une onde dans ce milieu.
𝑍 = 𝜌 𝑐, (33)
Deux phénomènes se produisent à l’interface de deux milieux : réflexion et réfraction (voir
Figure 29). Dans le cas d’une réflexion, le faisceau est réfléchi d’un angle identique à l’angle
d’incidence. Pour une réfraction, le faisceau incident est dévié d’un angle dont la valeur
dépend du rapport entre les vitesses de propagation de l’onde dans les milieux traversés.
𝑍1
Ainsi, à l’interface entre deux milieux d’impédance acoustique 𝑍1 et 𝑍2 , si l’on note 𝑟 = ,
𝑍2
les rapports entre l’intensité incidente 𝐼0 , l’intensité réfléchie 𝐼𝑟 et l’intensité transmise 𝐼𝑡 sont
donnés ci-dessous :
𝐼𝑟 𝑟−1 2
=( ) , (34)
𝐼0 𝑟+1
et
𝐼𝑡 4𝑟
= . (35)
𝐼0 (1 + 𝑟)2
Ainsi, plus le rapport 𝑟 entre les impédances des milieux est élevé, plus la réflexion de l’onde
est importante.
73
Figure 29 - Illustration des principes de réflexion et de réfraction de l’onde ultrasonore. A l’interface
entre les deux milieux, une onde incidente d’intensité 𝐼0 est réfléchie en une onde 𝐼𝑟 et réfractée en
une onde 𝐼𝑡 , d’après [84].
1.5.3 L’électroglottographie
Figure 30 - Les deux électrodes d'un électroglottographe. Ces électrodes sont maintenues en position
sur le cou du locuteur par un collier élastique.
76
études ont montré que la combinaison de plusieurs capteurs permet d’acquérir des données
articulatoires (voir [86], [87] et [88]) et même de permettre le développement d’interfaces de
parole silencieuses (voir [89], [90], [91]). Un microphone permet d’enregistrer le son produit
par le chanteur. Afin d’étudier les mouvements de la langue, nous avons choisi l’imagerie
échographique. Les mouvements des lèvres peuvent être enregistrés à l’aide d’une caméra. Un
électroglottographe nous donne accès à des informations sur la source glottique. Nous avons
choisi de rajouter deux capteurs, un accéléromètre positionné au niveau du nez afin de
mesurer la nasalité du son et une ceinture de respiration placée au niveau du torse.
Afin de compenser les mouvements des chanteurs lors de leurs performances, une partie des
capteurs ont été fixés sur un casque [92] (voir Figure 31), tandis que les autres sont
directement placés en contact avec une partie du corps du chanteur. La sonde échographique,
la caméra ainsi que le microphone sont fixés sur le casque. L’accéléromètre est placé
directement sur le nez du chanteur, un « collier » permet de maintenir les électrodes de
l’électroglottographe en place et une ceinture de respiration permet de mesurer l’amplitude
des mouvements de respiration au niveau de la poitrine [93].
Figure 31 - Le casque d'acquisition des données du conduit vocal. 1. Casque permettant de fixer les
capteurs. 2. Capteur piézoélectrique, placé sur le nez du sujet. 3. Caméra. 4. Sonde ultrasonore. 5.
Electroglottographe 6. Microphone 7. Ceinture de respiration.
Pour l’imagerie de la langue, le choix d’une sonde convexe dont la fréquence d’émission est
comprise entre 4 et 8 MHz est approprié. Afin de suivre de manière précise l’activité de la
77
langue, nous avons choisi un système d’acquisition à 60 Hz. Afin d’obtenir une coupe
sagittale de la langue, la sonde doit être placée sous le menton et rester en contact avec la
mâchoire tout au long de la production de son. L’utilisation de gel permet de limiter la
présence d’air entre la mâchoire et la sonde. La difficulté est de maintenir de façon constante
le contact entre la mâchoire et la sonde. Plusieurs approches sont possibles. L’approche
choisie dans le système HATS [94] consiste à maintenir fermement la tête et la sonde dans
une position donnée. L’ajout d’un petit coussinet rempli de gel sur la sonde permet de ne pas
trop perturber la production et autorise un léger mouvement de la mâchoire. Le coussinet
conserve le contact acoustique et se déforme en fonction des mouvements de la mâchoire
inférieure. Cependant, ce genre de système est assez contraignant pour le locuteur. Il est
également possible de n’imposer des contraintes que sur une partie du système, en ne fixant
que la sonde à un support et en laissant au locuteur la possibilité de bouger sa tête. La
mâchoire inférieure étant contrainte par la sonde, c’est la partie supérieure du crâne qui peut
basculer vers l’arrière. On peut aussi maintenir immobile la tête du sujet (appui du front et du
menton) mais laisser la sonde libre, en la tenant à la main par exemple. La sonde suit ainsi les
mouvements de la mâchoire inférieure. D’autres types de systèmes ont été développés, en
utilisant un casque sur lequel est fixée la sonde afin de maintenir le contact entre la sonde et la
mâchoire du locuteur. Dans ces systèmes, la sonde et la tête peuvent se déplacer l’une par
rapport à l’autre et il peut alors s’avérer intéresser de compenser l’un ou l’autre des
mouvements. A l’inverse, le casque développé au laboratoire possède une plateforme de
support ajustable pour le capteur ultrasonore, afin de le maintenir en contact avec le menton.
La sonde que nous avons utilisée est une sonde microconvexe pourvue de 128 éléments
piézoélectriques, conçue et réalisée afin d’en diminuer la taille et le poids. La taille ainsi que
la fréquence de ces éléments piézoélectriques constituent des caractéristiques qui influent
largement sur les propriétés de la sonde. Le champ d’émission de la sonde est de 140°
permettant une bonne visualisation du mouvement de la langue. L’échographe que nous
utilisons est le Terason T3000, un système léger et portable qui permet néanmoins
l’enregistrement d’images de bonne qualité via la connexion Firewire d’un ordinateur.
78
variations d’éclairages, qui pourrait impacter l’efficacité des algorithmes de traitement des
images, la caméra est équipée d’un filtre permettant de filtrer la lumière visible ainsi que d’un
anneau de LEDs infrarouges. Un micro-cravate de la marque Audio-Technica Pro 70 est
également fixé sur le casque afin d’enregistrer le signal acoustique. Par ailleurs, nous avons
également choisi d’inclure trois autres capteurs qui ne sont pas fixés sur le casque. Ces autres
capteurs sont en effet directement maintenus sur le corps du chanteur. Il y a un accéléromètre
positionné sur le nez du chanteur, permettant de mesurer son activité nasale au cours de la
phonation. Cet accéléromètre enregistre les vibrations au niveau du nez, d’où peuvent être
extraits des marqueurs de nasalité. Un électroglottographe (EGG) (de la marque Glottal
Enterprises Inc., modèle EG2-PCX2) est attaché au cou du chanteur. Ce capteur permet
d’enregistrer un signal temporel dont les variations permettent de déterminer de façon fiable
les ouvertures et fermetures glottiques. Un autre capteur, une ceinture de respiration,
positionnée au niveau de la poitrine du chanteur, permet de mesurer la fréquence et
l’amplitude des respirations du chanteur.
Nous souhaitons obtenir des images sagittales de la langue. Pour cela, la barrette de
transducteurs piézoélectriques de la sonde doit être placée dans le sens de la longueur de la
langue. Cette coupe permet de visualiser l’interface entre la partie supérieure de la langue et
l’air. A gauche et à droite de l’image se trouvent des ombres acoustiques, qui sont dues à la
présence d’os, à savoir l’os hyoïde à gauche et l’os de la mâchoire à droite. En effet, les tissus
osseux réfléchissent presque entièrement le faisceau ultrasonore et l’onde n’est pas transmise.
Il arrive parfois que l’ombre acoustique de la mâchoire masque une partie de la langue. Ainsi,
il n’est pas possible d’avoir une information fiable sur la position de la pointe de la langue. De
même, la position du palais n’est pas directement visible, elle peut seulement être déduite du
contact avec la langue. Un mouvement de déglutition permet de repérer la position du palais.
Nous souhaitons obtenir des images permettant de détecter le degré d’ouverture des lèvres.
Les variations de niveau de gris entre les lèvres et l’intérieur de la bouche ou les dents doivent
être suffisantes pour permettre de segmenter l’image de façon automatique, indépendamment
de l’éclairage. L’association du filtre permettant de filtrer la lumière visible et de l’anneau de
LED infrarouges permet d’obtenir des images de luminosité constante. Nous obtenons donc
79
des images en noir et blanc, dont l’intensité lumineuse est stable. Sur ces images,
l’information essentielle est la forme des lèvres.
Le microphone doit permettre l’acquisition d’un signal acoustique malgré les mouvements et
les gestes des chanteurs. Le système de fixation du microphone sur le casque permet
d’enregistrer des signaux acoustiques pour lesquels la distance lèvres-microphone est
constante. Ces signaux doivent être synchronisés avec les autres signaux enregistrés à l’aide
de la carte son [92].
Le signal électroglottographique nous intéresse pour extraire des informations sur ses portions
pseudopériodiques, en particulier pour les sons voisés. Sur ce signal, il est possible de détecter
la période fondamentale ainsi que les instants de fermeture glottique et les paramètres de
qualité vocale qui en découlent. Cependant, les conditions d’enregistrements n’excluent pas la
présence d’artefacts dans le signal électroglottographique, principalement dus à des
mouvements des muscles du cou.
Le signal de respiration est un signal qui a la particularité d’avoir une fréquence bien plus
faible que les autres signaux enregistrés. Alors que les fréquences du signal acoustique, du
signal électroglottographique et du signal issu de l’accéléromètre sont de l’ordre de la
centaine de Hz, le signal de respiration est de l’ordre du Hz. La carte audio n’étant pas prévue
pour enregistrer des fréquences aussi basse (elle inclut un filtre passe-bas à 1 Hz), nous avons
dû faire une modulation d’amplitude afin d’enregistrer des informations de respiration.
1.5.6.1 Logiciels
Le système d’acquisition doit être capable d’enregistrer de façon synchrone l’ensemble des
données et en particulier les images échographiques et la vidéo à 60 Hz. Une plateforme
d’acquisition permettant à la fois l’acquisition et la visualisation des données en temps réel
80
des données a été développée en utilisant le logiciel RTMaps, de la société Intempora Inc. Les
données peuvent être enregistrées localement ou bien transmises sur un réseau. La taille des
images ultrasonores est de 320x240 pixels et les images des lèvres sont de taille 640x480
pixels. Une carte son USB (AudioBox44VSL) à quatre entrées permet l’acquisition synchrone
de l’EGG, du microphone, de l’accéléromètre et de la ceinture de respiration. La sortie de la
carte son est interfacée avec le reste du système d’acquisition. Les quatre entrées analogiques
de la carte sont échantillonnées à 44100 Hz avec un encodage sur 16 bits.
81
Ces bases de données nous permettent de construire des modèles articulatoires des techniques
de production vocale. L’importance des mouvements de la langue pour la production des sons
nous a conduits à considérer en priorité cette modalité.
82
2 Extraction du contour de langue à partir d’images
échographiques
2.1 Introduction
Les images de la langue obtenues par imagerie ultrasonore permettent d’obtenir de façon non
invasive une coupe sagittale de la surface de la langue, sur lesquelles le contour supérieur de
la langue est apparent. Il est courant de considérer que la position de ce contour supérieur de
la langue peut être repérée par les pixels les plus bas de cette zone où les pixels sont très
proches du blanc. Cependant, la présence de bruit multiplicatif de type speckle (chatoiement)
rend la tâche d’extraction de contour délicate. Dans cette section, nous cherchons à extraire le
contour de la langue à partir des images échographiques sous forme de coordonnées de points
appartenant au contour. En effet, déterminer le contour de la langue manuellement est
particulièrement long et incompatible avec l’automatisation du traitement des données. La
détermination automatique des contours de la langue sur des images échographiques est une
tâche complexe qui nécessite une grande robustesse aux changements de positions de la sonde
échographique. Dans de nombreuses situations, une intervention humaine se révèle nécessaire
afin de corriger les écarts d’étiquetage. Le contour de la langue peut être directement extrait
trame par trame sur chaque image échographique, ou bien suivi d’image en image sur une
séquence. Certaines de ces méthodes utilisent des connaissances a priori sur la forme du
contour ou la physique des mouvements de la langue [95], [96] et [97], par exemple en
imposant un lissage spatial sur le contour ou bien en interdisant des modifications trop
abruptes entre deux trames consécutives. Différentes méthodes d’extraction du contour de
langue à partir des images échographiques ainsi que leurs intérêts et leurs limites sont discutés
section 2.2.
83
2.2 Méthodes d’extraction du contour de langue à partir d’images
échographiques
84
2.2.1.2 Une méthode d’apprentissage statistique pour l’extraction du contour
Pour extraire les coordonnées de points appartenant au contour de la langue à partir d’images
échographiques, une méthode décrite dans [98] propose d’utiliser des réseaux profonds (Deep
Learning). Dans cette méthode, l’architecture utilisée est celle de réseaux de neurones de
types autoencodeurs, c'est-à-dire des réseaux entraînés pour trouver une représentation des
entrées de sorte que l'entrée puisse être reproduite à partir de cette représentation. L’auteur
propose de construire une architecture capable d’apprendre la relation entre une image
échographique et une image de contour associée et ainsi de pouvoir construire une image
représentant le contour de la langue sur une image échographique. Cette méthode possède
l’avantage d’être purement automatique et permet de déterminer le contour de la langue sans
connaissances a priori sur le phonème prononcé ou sur le locuteur. C’est une technique qui
n’utilise pas non plus les contours précédents pour calculer le contour courant, qui peut donc
être calculé sur des images isolées et pas seulement des séquences. Une fois que le réseau de
Deep Learning est entraîné, déterminer le contour d’une image est simple et rapide. La qualité
des contours extraits par cette méthode est équivalente à celle obtenue par étiquetage manuel.
Cependant, cette méthode présente le défaut de nécessiter l’étiquetage manuel complet de la
base d’apprentissage. On estime à plus de 50 heures le temps nécessaire à un expert pour
étiqueter une base d’apprentissage de 10 000 exemples. En parallèle avec les méthodes
d’extraction du contour de la langue, des méthodes de suivi de contour sur une séquence
d’images, s’appuyant sur l’argument que le contour varie peu entre deux images consécutives,
ont été développés.
85
minimisation de cette fonction à partir d’une courbe initiale. La fonction se déplace ainsi
comme un serpent (d’où l’appellation « Snake ») vers le contour le plus proche sous
l’influence d’un champ de forces créé par le gradient. Cependant, il n’est possible de détecter
le contour en utilisant la méthode Snake que si le contour est suffisamment apparent, sans
quoi le Snake peut être attiré par un gradient élevé qui n’a aucun rapport avec le contour.
L’idée est alors d’utiliser des méthodes fondées sur le mouvement, en supposant que l’image
précédente permet d’obtenir des informations sur l’image suivante. Cette méthode est très
efficace si le contour est bien visible, mais si le contour disparaît sur certaines images, le
contour obtenu peut être erroné et nécessite une intervention humaine afin de réinitialiser le
suivi et éviter de propager ces erreurs dans la suite de la séquence. Certaines améliorations ont
été proposées, comme le Snake contraint, notamment en utilisant un prétraitement des images
afin d’améliorer la qualité du suivi du contour en augmentant la visibilité du contour dans les
images d’entrée [101]. Le contour est initialisé pour chaque trame en utilisant les informations
du flux optique entre deux trames consécutives et deux capteurs électromagnétiques collés sur
la langue. Cette méthode est plus efficace qu’un Snake classique mais nécessite néanmoins
elle aussi des ajustements manuels.
86
2.2.2.3 Suivi robuste du contour
Un algorithme robuste de suivi de contour sur des séquences d’images échographiques est
présenté dans [104]. Cet algorithme a la particularité de proposer une meilleure robustesse du
suivi du contour de la langue sur de longues durées. Le bruit sur les images échographiques
peut causer des discontinuités dans le contour visible à l’échographie. Afin de gérer cette
difficulté, cette méthode utilise des contours actifs avec une contrainte de similarité. Afin de
compenser l’accumulation d’erreurs de suivi inhérentes au fait de suivre le contour sur une
séquence d’image et non de le déterminer trame par trame sans utilisation d’a priori, cette
méthode propose l’utilisation de réinitialisation automatique du contour fondée sur un index
de similarité. Cette méthode donne de bons résultats sur des séquences d’images ultrasonores,
même pour des durées de quelques minutes. Cette réinitialisation automatique remplace les
réinitialisations manuelles nécessaires dans la plupart des autres méthodes de suivi de contour
[105]. Les résultats démontrent que cette méthode permet d’améliorer la robustesse des
contours actifs en cas de segments manquants et permet d’automatiser la réinitialisation du
contour afin d’éviter la propagation des erreurs de suivi du contour.
Nous avons choisi d’utiliser une méthode permettant d’extraire le contour des images plutôt
que de le suivre sur une séquence. Nous souhaitons en effet éviter le risque de dégradation de
la qualité des contours au cours du temps des méthodes présentées en section 2.2.2.1 et
2.2.2.2 et s’affranchir du calcul des CW-SSIM qui rallonge le temps de détermination du
contour. Afin d’assurer une plus grande robustesse des performances et de tirer profit de la
quantité de données dont nous disposons, nous avons choisi un modèle de réseaux profonds.
Pour cela, quelques prétraitements sont nécessaires.
(a) Image initiale (b) Sélection d’une région (c) Image redimensionnée
d’intérêt
(d) Image binarisée (e) Suppression des points isolés (f) Connexion entre pixels
voisins
Figure 32 – Prétraitements effectués sur les images échographiques afin de réduire la taille des
entrées. Pour une image initiale (a) de taille 240x320 pixels, nous sélectionnons une région d’intérêt
de 100x170 pixels comme montré en (b). Ensuite, l’image est redimensionnée en une image de 30x33
pixels. L’image est ensuite binarisée comme montré en (d). Ensuite, les points isolés, considérés
comme du bruit, sont supprimés comme montré sur la figure (e). Finalement, afin d’éviter les sauts
dans l’image à cause de la binarisation, les pixels voisins sont reconnectés entre eux comme montré
en (f). Ces images sont ensuite représentées comme des vecteurs ligne.
88
2.3.2 Utilisation d’un contour initial pour l’apprentissage
Si nous utilisons ce même réseau entraîné à la fois sur des images de contour et des images
échographiques, il n’est pas évident que le réseau soit capable de produire une image de
contour si on ne lui en fournit pas en entrée. La méthode décrite par [98] propose d’estimer
les contours à partir de l’image échographique seule, en s’appuyant sur le fait que la
représentation apprise par le réseau entraîné sur les deux types d’images contient la relation
entre ces deux types de données. Ainsi le décodeur est capable, à partir de cette représentation
cachée, de reconstruire à la fois l’image échographique et l’image de contour. L’hypothèse est
donc que si l’on parvient à construire un encodeur capable de créer un codage caché similaire
à celui fourni par l’encodeur précédent mais à partir des images échographiques seules, alors
le décodeur sera capable de le décoder et reconstruire les deux types d’entrée. Cet encodeur
est obtenu de façon « translatée » par rapport à l’encodeur d’origine : le premier RBM est
remplacé par un tRBM (translational RBM). Ainsi, si le réseau a correctement appris durant
la phase d’apprentissage, il devra être capable d’attribuer à chaque image ultrasonore réduite
et binarisée un contour qui correspond à la forme de la langue.
Pour notre base d’apprentissage, nous utilisons un contour initial extrait de façon automatique
à l’aide d’un algorithme de traitement d’images qui localise et prédit la surface de la langue
sur chaque image ultrasonore. Cet algorithme comprend à la fois une détection et une
prédiction de la position de la langue. Chaque image échographique est prétraitée afin de
centrer la détection du contour sur la partie de l’image qui contient l’information pertinente. Il
89
est important de noter que d’un locuteur à l’autre, voire d’une session d’enregistrement à une
autre, les amplitudes de mouvement ainsi que les régions d’intérêt peuvent être différentes.
Ces différences justifient la nécessité d’ajuster les seuils de prétraitement de l’outil
d’extraction du contour initial en fonction des données. Sur les images prétraitées (voir Figure
33), la détection du contour de chaque image est faite colonne par colonne, de gauche à droite.
Pour chaque colonne, de haut en bas, chaque pixel blanc suivi d’un pixel noir est considéré
comme candidat à l’appartenance au contour. Un exemple de situation dans laquelle plusieurs
pixels sont candidats est donné Figure 34. Un seul point par colonne est sélectionné, donc une
décision est prise pour savoir quel point candidat appartient au contour. Le long d’une
colonne donnée, si plusieurs pixels blancs sont suivis d’un pixel noir, la sélection du meilleur
candidat est faite en comparant l’image courante à l’image précédente (voir Figure 35). Ceci
suppose que si un point se trouvait dans le contour précédent, il est conservé. Si aucun point
du contour précédent ne correspond à un des pixels candidats, le meilleur candidat est déduit
des candidats des colonnes précédentes (voir Figure 36). Nous récupérons grâce à cet
algorithme un ensemble de coordonnées (𝒙, 𝒚) pour chaque image qui correspondent à cette
surface.
Figure 34 – Un exemple de cas où plusieurs pixels (en vert) sont candidats à l’appartenance au
contour (pixels bleus). Par la suite, l’image courante sera nommée 𝑖.
90
(a) (b)
Figure 35 – Deux exemples d’images précédentes possibles pour l’image 𝑖 montrée Figure 34. Sur la
colonne qui nous intéresse, les pixels candidats pour l’image i sont affichés en vert sur les
images 𝑖 – 1. Le pixel marqué d’une croix rouge est le pixel appartenant au contour de l’image i – 1
pour la colonne qui nous intéresse. Dans le cas présenté en (a), une décision peut être prise grâce au
contour de l’image i – 1 car un des pixels candidats pour le contour de l’image i appartenait au
contour de l’image i – 1. En revanche, dans le cas proposé en (b), aucun des pixels candidats en i ne
faisait partie du contour de l’image i – 1. D’autres critères sont alors pris en compte pour la décision.
(a) (b)
Figure 36 – Sélection du pixel appartenant au contour de l’image i si plusieurs pixels sont candidats
mais qu’aucun d’entre eux n’appartient au contour de l’image précédente i – 1. Dans le cas (a), le
pixel choisi comme appartenant au contour de l’image i, marqué d’une croix rouge, est prédit par
rapport à la position des pixels précédents du contour de l’image i (en bleu) par régression linéaire. Il
n’appartient pas à la sélection des pixels candidats, marqués en vert. Dans le cas (b), le pixel choisi
comme appartenant au contour de l’image i, marqué d’une croix rouge, est choisi comme étant le
pixel candidat (en vert) le plus proche du pixel sélectionné pour la colonne précédente. En pratique, la
décision est faite comme montré en (a) sauf si une régression linéaire n’est pas possible. Dans ce cas,
la décision est prise comme en (b).
Les coordonnées des contours utilisés comme contour initial sont ensuite converties en
images binaires comme décrit à la Figure 37 pour pouvoir être utilisées par le réseau de
neurones. Nous utilisons en entrée de notre autoencodeur des coordonnées de contours
extraits de façon automatique. Ces contours sont ensuite convertis en images, comme décrit à
la Figure 37. Pour chaque exemple, chaque pixel de l’image échographique ainsi que chaque
pixel de l’image de contours est représenté par une entrée du réseau.
91
(a) Contour initial (b) Contour redimensionné (c) Image de contour binarisée.
Figure 37 – Conversion des coordonnées des contours en images binaires. La première image (a)
montre les coordonnées des contours utilisés comme étiquetage pour la base d’apprentissage. Ces
contours correspondent à une région d’intérêt de 100x170 pixels obtenus à partir de l’algorithme
automatique. Ensuite, les coordonnées des contours sont sous-échantillonnés pour correspondre au
changement d’échelle (30x33 pixels) et affichés figure (b). Enfin, l’image (c) est une image de taille
30x33 pixels où la valeur 1 a été affectée aux pixels appartenant au contour défini par les
coordonnées de la figure (b).
Une fois que le réseau est entraîné et que sa structure est validée, on peut l’appliquer à des
données provenant d’une base de test indépendante. Cependant, nous souhaitons obtenir le
contour de la langue d’une image échographique sans donner d’autre entrée au réseau que
cette image. Une illustration du réseau est donnée Figure 39 :
Figure 39 – Exemple d’entrées et de sorties de l’autoencodeur modifié utilisé pour la deuxième phase
de l’apprentissage.
La sortie de notre réseau correspond pour chaque exemple à deux images : la reconstruction
de l’image échographique réduite ainsi que la reconstruction d’une image de contour. Nous
souhaitons convertir ces images de contours en une liste de coordonnées (𝒙, 𝒚) pour chaque
image. Il est possible de convertir les images de contours binaires de taille 30x33 pixels en
une série de coordonnées correspondant aux images échographiques initiales, de taille
240x320 (voir Figure 41). En pratique, nous observons que les images de sortie représentant
les contours (en bas à droite sur la Figure 39) sont assez fidèles en termes de forme mais
quelques pixels sont erronés. Cela se traduit soit par des pixels isolés supplémentaires (situés
hors de la région du contour) ou à l’inverse des discontinuités dans le contour. Pour améliorer
la qualité de ces images, nous effectuons des traitements simples, identiques à ceux effectués
en entrée après la binarisation, à savoir la suppression des pixels isolés et la reconnexion entre
deux pixels adjacents. Une fois ces traitement effectués, nous nous assurons qu’il y ait au plus
un pixel par colonne. Si ce n’est pas le cas, nous conservons celui qui a le plus de voisins
appartenant au contour. Ensuite, nous redimensionnons l’image de contours de 30x33 pixels
afin qu’elle atteigne la taille d’origine de 240x320 pixels par interpolation bicubique. Chaque
pixel blanc de cette image reconstituée définit un couple de coordonnées (𝒙, 𝒚). Afin que les
contours obtenus soient plus réalistes, un dernier traitement est effectué : un lissage de la
courbe de coordonnées. Il s’agit d’une régression locale utilisant un modèle polynomial du
second degré. Par ailleurs, dans cette régression, un poids plus faible est affecté aux points
aberrants (trop éloignés du reste de l’ensemble des points). Cela permet d’obtenir un contour
continu sans rencontrer les effets de bord liés à une
interpolation polynomiale classique.
95
(a) Sortie de l’autoencodeur (b) Figure nettoyée
Figure 42 – Comparaison entre une courbe de contour extrait manuellement (en bleu), l’algorithme
de Deep Learning (en rouge) et le contour initial (référence) pour l’apprentissage.
Cependant, les coordonnées des contours ainsi obtenus ne possédant pas systématiquement le
même nombre de points et les points qui définissent un des contours n’ayant pas les mêmes
abscisses que les points décrivant l’autre contour, la comparaison ne peut pas être faite
directement. Dans [100], une métrique est proposée afin de comparer chaque pixel d’une
courbe donnée au pixel le plus proche (en termes de distance 𝐿1 ) sur la courbe avec laquelle
est faite la comparaison. Cette métrique, nommée Mean Sum of Distances (MSD), permet
d’évaluer en pixels la distance moyenne d’une courbe à une autre, même si les points qui
décrivent l’une des deux courbes n’ont pas les mêmes abscisses que les points qui décrivent
l’autre courbe. Soit un contour 𝑼 composé d’un ensemble de points définis par leurs
97
coordonnées 2D (𝑢1 , … , 𝑢𝑛 ) et un contour 𝑽 composé d’un ensemble de points définis par
(𝑣1 , … , 𝑣𝑚 ). Le MSD est défini comme suit :
𝑚 𝑛
1
𝑀𝑆𝐷(𝑼, 𝑽) = (∑ min|𝑣𝑖 − 𝑢𝑗 | + ∑ min|𝑢𝑖 − 𝑣𝑗 | ) (37)
n+m 𝑗 𝑗
𝑖=1 𝑖=1
Comme le montre la Figure 43, les abscisses des points de ces courbes ne sont pas les mêmes.
Ces comparaisons permettent d’évaluer la qualité du contour reconstruit en fonction de
l’architecture choisie, selon la base de données.
Figure 43 – Représentation simplifiée de deux sous-parties de deux contours. Les quatre grandeurs
𝒖𝟏 , 𝒖𝟐 , 𝒖𝟑 et 𝒖𝟒 représentent les coordonnées (𝑥, 𝑦) de trois points adjacents du contour gris. De
même, les trois grandeurs 𝒗𝟏 , 𝒗𝟐 et 𝒗𝟑 représentent les coordonnées (𝑥, 𝑦) de trois points adjacents
du contour noir. La comparaison de deux courbes de contour en utilisant le MSD permet de comparer
ces contours même s’ils n’ont pas le même nombre de points.
98
Les premiers tests que nous avons effectués [108] ne concernaient qu’une locutrice, pour
laquelle nous avons choisi un ensemble de 50 phrases, desquelles sont issues les 17 000
images échographiques de la base d’apprentissage et validation et les 150 images de test
présentées section 2.5.1.
Nous avons ensuite cherché à évaluer les performances de notre algorithme d’extraction de
contours à base de Deep Learning en testant ses capacités à extraire des informations à partir
de données échographiques de plusieurs locuteurs différents. Pour cela, nous avons
sélectionné aléatoirement 16 000 images provenant d’une base constituée de 50 phrases
(c’est-à-dire entre 15 000 et 20 000 images par locuteur) prononcées par trois locuteurs. Les
performances de notre méthode dépendent largement du choix des hyperparamètres de
l’architecture. Cependant, la qualité des images, largement dépendante du locuteur, et en
particulier la présence ou non d’ombres dans le contour, s’est avérée particulièrement critique.
99
quadratique de la différence entre les composantes 𝑥𝑖 des 𝑁 vecteurs d’entrée de dimensions
1 × 𝐼 et les composantes 𝑥̂𝑖 de leurs 𝑁 vecteurs reconstruits de mêmes dimensions.
𝑁 𝐼
1 1
𝐸𝑟𝑒𝑐𝑜 = ∑ √ ∑(𝑥𝑖𝑛 − 𝑥̂𝑖 𝑛 )2 (38)
𝑁 𝐼
𝑛=1 𝑖=1
Ces tests ont été effectués sur une base de données de 17 000 exemples, dont nous avons
utilisé 15 000 images en apprentissage et 2000 en validation.
Dans les modèles d’apprentissage statistique classiques, il est important d’avoir plus
d’exemples d’apprentissage que de paramètres du modèle afin d’éviter le surajustement.
Cependant, dans les architectures profondes, il est courant d’utiliser de nombreuses unités en
couche cachée [72]. Nous avons donc testé un nombre variable d’unités par couche pour un
modèle à trois couches cachées, comme montré Tableau 4. Dans le cadre de nos travaux, nous
avons choisi le nombre d’unités caches en cherchant à minimiser l’erreur de validation tout en
limitant le temps de calcul.
100
Tableau 4 - Influence du nombre d'unités par couche sur l'erreur de validation.
Nombre d’unités caches par couche Erreur de validation
500 0.41
1000 0.38
2000 0.37
Les résultats montrent que pour un réseau à 3 couches cachées avec 1000 unités par couches,
50 itérations et des mini-batches de taille 10, l’erreur atteint 0.65, puis elle diminue à 0,38
pour des mini-batches de taille 100 et augmente au-delà.
101
plus basse possible. Il est important de conserver un nombre d’itérations suffisamment bas
afin de garder un temps de calcul raisonnable mais tout en atteignant des performances
satisfaisantes. Nous avons utilisé un réseau à 3 couches cachées avec 1000 unités par couche
et des mini-batches de taille 100. Nous avons testé un apprentissage avec 5, 50 et 250
itérations. On observe que le fait d’utiliser un nombre trop élevé d’itérations dégrade les
performances en base de validation (phénomène de surapprentissage) et augmente
considérablement le temps de calcul. Le compromis temps de calcul-performances semble
bien respecté en limitant le nombre d’itérations à 50.
Nous avons finalement choisi une structure avec un encodeur à trois couches cachées suivi
d’un décodeur symétrique avec 2000 unités cachées par couche, des mini-batches de 100
exemples et 50 itérations. En plus de la comparaison entre les coordonnées des contours issus
du Deep Learning et d’une part les coordonnées des contours utilisés comme entrée, d’autre
part les coordonnées des contours extraits manuellement, nous avons voulu comparer les
coordonnées des contours utilisés comme entrée et les coordonnées des contours extraits
manuellement, afin de mieux interpréter les résultats (voir Tableau 7). Comme dans la section
précédente, nos résultats portent sur un seul locuteur. Quelques exemples de contours extraits
par la méthode de Deep Learning sont donnés Figure 45.
Les résultats de comparaisons entre les coordonnées des contours extraits en utilisant le Deep
Learning (DL), les contours initiaux utilisés comme référence (Ref) pour l’apprentissage,
102
détaillé section 2.5 et l’étiquetage manuel (man). Les résultats sont donnés dans le Tableau 7.
Ils montrent que les contours obtenus avec les méthodes DL, Ref et Man sont comparables.
L’autoencodeur, bien qu’il ne traite qu’une image à la fois, est capable d’atteindre des
résultats comparables à ceux de l’algorithme utilisé comme référence, qui utilise les
informations temporelles pour extraire le contour de langue sur une séquence. Ce constat
suggère que l’architecture de Deep Learning a intégré des informations provenant des
contraintes de continuité imposées dans l’algorithme de référence.
Nous avons souhaité comparer les résultats obtenus par notre méthode à ceux de la littérature.
Dans [100], le contour fourni par EdgeTrak, qui utilise la méthode Snake, est comparé au
contour fourni par deux experts différents. Cependant, afin de comparer les valeurs de MSD,
exprimées en pixels, indépendamment des résolutions des images, nous avons converti ces
valeurs en millimètres. Dans [100], les 67 images comparées (issues d’une séquence
d’enregistrement sur un locuteur) étaient de taille 112,9 x 89,67 mm. La comparaison entre un
expert 1 et un expert 2 donne un MSD de 0.85 mm (2.9 pixels avec l’équivalence 1px = 0.295
mm), la comparaison entre l’expert 1 et EdgeTrak donne un MSD de 0.67 mm, tandis que la
comparaison entre l’expert 2 et EdgeTrak donne un MSD de 0,86 mm. Dans [98], qui utilise
un autoencodeur avec étiquetage manuel de la base d’apprentissage, après 5 validations
croisées, le MSD moyen calculé sur 8640 images est de 0.73 mm. Les valeurs de MSD
obtenues dans nos conditions expérimentales, calculées avec l’équivalence 1 px = 0,35 mm,
données Tableau 7, sont assez proches de ces valeurs. Ceci nous permet de conclure que les
résultats obtenus par notre méthode d’autoencodeur profond entraîné sont de qualité voisine
aux valeurs rapportées par d’autres auteurs, tout en permettant une plus grande automatisation
du processus d’extraction de contour. Comme dans [98], il est nécessaire de prétraiter les
images pour en réduire la dimension, il est également nécessaire de les post-traiter afin de
convertir les images en listes de coordonnées de contours. Cependant la méthodologie que
nous avons employée diffère de [98] dans la mesure où nous utilisons une extraction de
contour semi-automatique pour la base d’apprentissage et non une extraction manuelle. Par
ailleurs, nous travaillons avec des données différentes ce qui rend la comparaison entre les
différentes méthodes difficile.
103
Tableau 7 – Valeurs moyennes du MSD comparant les contours provenant de l’étiquetage manuel
(Manuel) à ceux utilisés comme référence (Ref), les contours provenant de l’étiquetage manuel à ceux
issus du Deep Learning (DL) et les contours utilisés comme référence à ceux issus du Deep Learning.
MSD Moyen
(mm)
Les valeurs les plus faibles de MSD concernent la comparaison entre les courbes issues du
Deep Learning et celles utilisées comme référence. Par ailleurs, les valeurs obtenues en
comparant les contours obtenus manuellement aux deux autres contours sont du même ordre
de grandeur. Les performances des deux méthodes semblent donc similaires. Nos valeurs
d’erreur semblent correspondre aux différences que l’on peut trouver entre deux étiquetages
manuels. Par ailleurs, il est à noter que les valeurs les plus faibles sont obtenues pour la
comparaison entre les coordonnées issues du Deep Learning et celles utilisées comme
référence pour l’apprentissage, ce qui témoigne d’un apprentissage performant.
Nous avons ensuite voulu appliquer la même méthode d’extraction de contours à des données
de trois locuteurs différents. Pour cela, nous avons réalisé un apprentissage sur 15 000 images
tirées aléatoirement parmi les 50 phrases sélectionnées par locuteur. Si les données de chaque
locuteur sont prises séparément (apprentissage et test sur un seul locuteur), le MSD moyen
(calculé pour 5 phrases, soit 5500 images de test) entre les coordonnées utilisées comme
contour intial pour l’apprentissage et celles issues du Deep Learning est proche d’1 mm, quel
que soit le locuteur. Néanmoins, lorsque l’on sélectionne le même nombre d’images mais en
mélangeant aléatoirement les données des trois locuteurs, le score de MSD moyen passe à 1,9
mm. Cette dégradation de la qualité des contours reconstruits peut être due à une
augmentation de la complexité de la tâche demandée, puisque les formes de contour de langue
sont beaucoup plus variées et que certaines images sont assez pauvres (présence d’ombres sur
le contour). Une augmentation à la fois de la taille de la base d’apprentissage et de la qualité
des images enregistrées permettrait d’augmenter les performances en multi-locuteur. Il paraît
également cohérent d’augmenter la taille des mini-batches afin de tenir compte de la plus
grande variabilité des images.
104
2.8 Discussion
Au cours de notre travail, nous avons choisi, ajusté et validé la structure sur une base de
validation. Pour un travail futur, fournir à l’algorithme des bases d’apprentissage très variées,
composées de phrases, mots ou phonèmes prononcés par plusieurs locuteurs et dans des
modalités (parole ou chant) différentes permettrait de tester la robustesse de l’algorithme aux
changements de conditions expérimentales. Si ces résultats s’avèrent concluants, il est
envisageable de généraliser cette méthode à l’étude des mouvements des lèvres grâce aux
captures vidéo réalisées pendant les interprétations des chanteurs. En effet, le type
d’algorithmes présenté ici pourrait être utilisé pour extraire le contour des lèvres à partir de
quelques points saillants sur les images. En outre, cette méthode d’extraction de
caractéristiques pourrait aussi servir pour des tâches de classification afin de reconnaître les
phonèmes prononcés. En effet, l’utilisation des seuls descripteurs issus des mouvements de la
langue ne suffirait a priori pas à distinguer des phonèmes entre eux et les informations issus
des lèvres pourraient apporter un complément d’information.
Nous avons donc réussi à obtenir une extraction de contour de performance équivalente à
l'état de l'art, qui s'affranchit en même temps de la nécessité d'étiqueter des points
manuellement [108]. Toutefois la complexité des calculs nécessaire pour mettre en œuvre la
méthode, ainsi qu'un manque de stabilité quant aux contours extraits, selon le locuteur et les
conditions expérimentales, ne nous ont pas permis d'arriver à un outil bien adapté à une
105
interface temps réel dans un contexte d'apprentissage de l’articulation. Plutôt de poursuivre
dans cette approche, nous avons opté pour une méthode permettant de fournir à l'apprenti un
outil qui accède directement aux paramètres acoustique du chant, sans passer par l'étape
d'extraction du contour, et qui incorpore également les lèvres du chanteur dans son analyse.
Après avoir considéré les séquences d’images échographiques seules, nous avons souhaité
extraire des informations en utilisant la combinaison des images de la langue et des lèvres,
afin d’obtenir un modèle articulatoire.
106
3 Synthèse vocale à partir des mouvements des articulateurs
3.1 Introduction
Les images des mouvements de la langue et des lèvres nous permettent d'accéder à des
informations articulatoires relatives à la réalisation du geste vocal. Dans ce chapitre, nous
cherchons à déterminer comment les mouvements des articulateurs influencent la
modification du son émis par la source glottique en agissant sur le filtre du conduit vocal.
Nous proposons donc d'utiliser les informations articulatoires dont nous disposons afin de
synthétiser des extraits de voix chantée. Cette synthèse nous permettrait de vérifier la
corrélation entre le geste articulatoire et la production acoustique,en proposant un cadre
général pour l’étude des relations acoustico-articulatoires en voix chantée. .
Notre objectif est d’étudier l’influence des articulateurs sur la production du son. La tâche
consiste donc à synthétiser de la voix chantée à partir d’images montrant les mouvements de
la langue et des lèvres. L’imagerie des gestes articulatoires, auxquels nous avons accès grâce
aux images ultrasonores et vidéos traduit en images les différentes contraintes acoustiques
appliquées au flux d’air après passage par les plis vocaux [109]. Le signal acoustique peut
donc être vu comme la représentation en termes de mise en vibration de l’air de ces
mouvements des articulateurs. Nous cherchons à piloter un synthétiseur vocal (modélisé
comme l’association d’une source et d’un filtre), à partir de descripteurs des mouvements de
la langue et des lèvres (captés par un échographe et une caméra). Une approche directe [110]
consiste à chercher à associer l’espace visuel à l’espace acoustique en cherchant des
correspondances. Ces correspondances peuvent être établies par des fonctions de
transformation permettant de passer d’un espace à un autre. Ce type de conversion n’utilise
pas des descripteurs issus d’a priori linguistiques, acoustiques ou phonétiques. Le signal
acoustique est synthétisé en utilisant un modèle source-filtre (voir section 1.3.1.3). Ce modèle
implique de connaître à la fois les coefficients du filtre du conduit vocal permettant la
synthèse mais aussi le signal d’excitation, que nous déduisons du signal
électroglottographique.
Cependant la conversion des mouvements articulatoires en signal acoustique peut aussi être
moins directe [110]. La parole peut être décrite à différents niveaux, qu’ils soient acoustiques,
107
phonétiques et phonologiques, lexicaux, syntaxiques et sémantiques. Ces niveaux permettent
de découper le signal en unités élémentaires qui ont un sens. Ainsi, chaque image représente
une unité élémentaire visuelle, tandis que du point de vue acoustique, une unité élémentaire
sera une trame. Le domaine de la phonétique travaille au niveau du phonème. Synthétiser de
la voix parlée ou chantée à partir des seules images des mouvements de la langue et des lèvres
est une tâche difficile, puisqu’il manque de l’information, notamment en ce qui concerne
l’activité laryngée, les mouvements du voile du palais et la nasalité. Il est donc intéressant
d’intégrer des informations supplémentaires dans le modèle [111]. On peut par exemple faire
correspondre les informations visuelles à des informations phonétiques au lieu de les faire
correspondre directement à des informations acoustiques [112]. Il y a donc une étape de
décodage visuo-phonétique [113], qui consiste à identifier dans une séquence d’images la
séquence de phonèmes la plus probable (voir [114] et [115]). Cette approche permet
d’introduire des connaissances linguistiques a priori sur la séquence observée. De plus, des
connaissances linguistiques et syntaxiques permettent l’ajout de contraintes sur le vocabulaire
autorisé. Cette approche peut être réalisée à l’aide de modèles de Markov cachés. Ensuite, la
synthèse peut être effectuée par concaténation de signaux élémentaires pré-enregistrés ou à
l’aide de chaînes de Markov cachées. Nous choisirons une approche directe pour la robustesse
de la synthèse proposée aux articulations imprécises. En effet, le type de son étudié étant le
chant et en particulier le chant corse, il y a des hypo-articulations (production de parole avec
un effort moindre, rendant imprécis les gestes articulatoires) qui rendent difficile la
reconnaissance de phonèmes. Dans [20], l’auteur relève en effet dans les voyelles chantées du
Cantu in Paghjella une confusion entre les voyelles /i/ et /e/ d’une part, et /u/ et /o/ d’autre
part.
Dans notre approche, nous testons d'abord comment la position de la langue ou celle des
lèvres modifie le son produit. Pour cela, nous utilisons uniquement les informations visuelles
et cherchons à les convertir directement en signal acoustique en fixant au préalable la durée
ainsi que la hauteur du son, ainsi que des paramètres de qualité vocale permettant d'influer sur
le timbre de la voix produite. Dans cette approche, les informations visuelles ne suffisent pas
à déterminer si le son est voisé ou non. Par défaut, nous considérons que l’ensemble de ces
sons sont voisés. Cette conversion nous permet d'écouter et mettre en évidence l'influence
d'une variation de l'un ou l'autre des articulateurs sur le son produit.
108
Une fois cette phase de conversion mise en place, nous pouvons effectuer une synthèse vocale
plus complète sur des chants entiers. Pour cela, nous avons besoin d'informations sur l'activité
glottique et en particulier la hauteur du son, les instants de silence et de voisement, ainsi que
la qualité vocale du chanteur.
Dans cette partie, nous utilisons les coefficients LSF (Line Spectral Frequencies), dérivés des
coefficients LPC (voir section 1.3.1.4), pour modéliser le conduit vocal. Afin de chercher la
correspondance entre l’espace des articulations acoustiques et l’espace des coefficients du
filtre du conduit vocal, nous utilisons un réseau de neurones de type perceptron multicouche
(voir [68]). La fonction d’excitation dépend de la présence ou non de voisement de la trame à
synthétiser. Les paramètres de la fonction d’excitation sont extraits directement du signal
EGG.
Nous décrirons dans les sections 3.3.1 et 3.3.2 les deux méthodes d’extraction de descripteurs
que nous avons utilisées : une méthode fondée sur l’analyse en composantes principales
permettant de décrire l’ensemble des images dans l’espace des EigenLips et EigenTongues et
une méthode utilisant un autoencodeur profond. Pour cela, il est d’abord nécessaire d’aligner
temporellement les images et les coefficients LSF à prédire.
Nous souhaitons prédire une valeur de LSF (voir section 1.3.1.4) pour chaque image
échographique et optique. Pour cela, nous calculons les valeurs des LSF à prédire durant la
phase d’apprentissage supervisé. Ces LSF de référence sont calculés à l’aide du signal
acoustique. Ce dernier est échantillonné à 44,100 kHz. Cette fréquence d’échantillonnage est
adaptée à la richesse spectrale de la voix chantée et au contenu musical (par opposition aux
enregistrements de parole pure). D’après [116], l’ordre de prédiction LPC doit être
proportionnel au taux d’échantillonnage. Dans [89], le taux d’échantillonnage des
enregistrements de voix parlée est de 11,025 kHz et l’ordre de prédiction LPC est de 12. Pour
une fréquence d’échantillonnage de 44,100 kHz, il semble adapté d’utiliser un ordre de
prédiction LPC de 48 pour une application en voix chantée. Afin d’illustrer la nécessité
109
d’adapter l’ordre de prédiction LPC, nous avons comparé les spectres LPC et FFT d’une
fenêtre de signal pour différents ordres de prédiction LPC : 12 et 48 (Figure 46 et Figure 47).
L’ordre de prédiction LPC de 12 semble insuffisant pour décrire le contenu fréquentiel de nos
enregistrements de voix chantée.
Figure 46 - Spectre FFT (en gris) et enveloppe LPC (en noir) calculée sur une trame de signal en
utilisant un ordre de prédiction LPC 12.
110
Figure 47 - Spectre FFT (en gris) et enveloppe LPC (en noir) calculée sur une trame de signal en
utilisant un ordre de prédiction LPC 48.
Utiliser un ordre de prédiction aussi élevé implique une augmentation importante du temps de
calcul, chaque LSF étant prédit séparément. Nous avons donc choisi, pour cette étude, de
sous-échantillonner le signal acoustique d’un facteur 4, après utilisation d’un filtre anti-
repliement (filtre passe-bas de type Tchebychev d’ordre 8).
Afin d’éviter les distorsions, il convient d’inverser ce filtrage avant d’effectuer la synthèse.
Après préaccentuation du signal acoustique, nous avons appliqué un fenêtrage du signal en
utilisant des fenêtres de Hamming de largeur 33,3 ms avec un recouvrement de 50 %. Ainsi,
111
nous avons découpé le signal acoustique et récupéré une trame toutes les 16,7 ms, de façon à
disposer d’un ensemble de 12 LSF, d’une image de langue et d’une image de lèvres toutes les
16,7 ms. Nous pouvons noter que la durée des fenêtres permet a priori d’utiliser
l’approximation de stationnarité du signal acoustique [117].
Le modèle de source étant dépendant du voisement, nous utilisons un modèle de source pour
les sons voisés et un modèle différent pour les sons non voisés [118]. Pour cela, il est
nécessaire de déterminer pour chaque trame si elle est voisée ou non. Nous avons utilisé une
méthode simple reposant sur l’autocorrélation de chaque trame [119]. Un signal voisé étant
pseudo-périodique, l’autocorrélation d’une trame voisée est autocorrélation nettement
supérieure à celle d’une trame non voisée ou d’un silence. Un seuillage très bas sur la valeur
de cette autocorrélation permet de discriminer les trames qui ne sont pas voisées, en acceptant
le risque de détecter comme voisée une trame non voisée. L’utilisation de l’autocorrélation
permet également de détecter la fréquence fondamentale d’un son, par évaluation de la
pseudo-périodicité. Cependant, la périodicité du signal acoustique n’est pas complète et
l’identification de voisement peut être biaisée. Par ailleurs, il est difficile de déterminer un
seuil de détection à cause des variations des valeurs de fréquence fondamentale et de
formants.
Les LSF calculés à une cadence de 16,7 ms ont la particularité de présenter des discontinuités
et des variations rapides qui n’ont pas de rapport avec la réalité acoustique de l’articulation.
Dans [120], il est suggéré d’utiliser des fenêtres plus larges, ou bien de lisser les variations de
chaque LSF au cours du temps à l’aide d’un filtre passe-bas. Nous ne souhaitons pas
augmenter la largeur des fenêtres afin de conserver la synchronisation entre les LSF et la
vidéo, donc nous avons choisi de filtrer les signaux de LSF par un filtre de Butterworth du
premier ordre et de fréquence de coupure 𝐹𝑠 ⁄4, où 𝐹𝑠 désigne la fréquence d’échantillonnage.
La détermination des LSF à partir du signal acoustique nous a permis de déterminer les sorties
attendues du modèle pour les images échographiques et optiques.
112
3.3 Construction de modèles multimodaux de l’articulation
Dans cette partie, nous souhaitons combiner les informations provenant de deux articulateurs
que sont la langue et les lèvres. L’objectif est d’extraire des descripteurs à l’aide des
observations des mouvements de ces deux types d’articulateurs afin de prédire la valeur des
coefficients du filtre du conduit vocal. Nous utilisons dans un premier temps une méthode
linéaire fondée sur l’analyse en composantes principales. Dans un second temps, nous
cherchons à développer une méthode non linéaire et pour laquelle nous n’imposons pas le
type de descripteurs extraits, en utilisant un autoencodeur profond. Pour ce faire, il est
possible d’extraire séparément des descripteurs à partir des deux types de modalités, à savoir
les images de langue et les images de lèvres. Cependant, comme les phénomènes
d’articulations sont assez complexes il peut être préférable d’extraire une description en
combinant des informations optiques et échographiques. Ces types d’images étant très
différents en termes de répartition de l’intensité des pixels, le fait de leur appliquer les mêmes
transformations ne garantit pas un équilibre entre les deux types d’informations.
113
Où 𝑅 représente la matrice des vecteurs propres et Λ la matrice des valeurs propres. Les
vecteurs propres sont également appelés « composantes principales ». L’espace des vecteurs
propres est ordonné selon la direction de variance observée dans 𝐸 décroissante. La
dimension des vecteurs propres est 𝑁 2 . Il est donc possible de représenter ces composantes
principales sous forme d’images, à savoir les EigenTongues et EigenLips. Nous pouvons
ensuite projeter une nouvelle image 𝐼 de taille 𝑁 2 dans la base des vecteurs propres et extraire
𝑛 descripteurs visuels 𝛼𝑘 , pour 𝑘 compris entre 1 et 𝑛.
𝑁2
𝛼𝑘 = ∑ 𝐼𝑖 𝑅𝑖𝑘 (42)
𝑖=1
L’hypothèse que les axes de plus grande variance, sur lesquels les données sont plus
dispersées, représentent le signal utile implique que l’utilisation des premières composantes
principales suffit au codage d’une image.
Une image peut donc être représentée en termes de projection dans l’espace des
EigenTongues, dont quelques exemples sont présentés Figure 48. Cette méthode permet
d’extraire une représentation qui permet de coder (voir Figure 49) certaines informations
contenues dans les images comme par exemple la position de la langue, de l’os hyoïde ou de
certains muscles.
Figure 48 - Représentations des espaces des EigenLips et des EigenTongues. Sur la ligne du haut, de
gauche à droite, les quatre premiers EigenLips. Sur la ligne du bas, de gauche à droite, les quatre
premiers EigenTongues.
114
Figure 49 - Exemples d'images et de leur reconstruction en utilisant les 100 premiers descripteurs.
Sur la ligne du haut, une image de lèvres issue de la base de validation (à gauche) et sa reconstruction
utilisant les 100 premiers EigenLips (à droite). Sur la ligne du bas, une image ultrasonore issue de la
base de validation (à gauche) et sa reconstruction utilisant les 100 premiers EigenTongues (à droite).
L’objectif de notre autoencodeur est d’extraire des descripteurs pertinents pour la prédiction
des LSF. Dans une telle architecture, les hyperparamètres de l’autoencodeur sont ajustés de
façon à minimiser l’erreur de reconstruction entre la sortie et l’entrée. Cependant, sans
imposer de contraintes au réseau, celui-ci ne va pas forcément extraire des descripteurs
pertinents pour notre tâche, De plus, les images ultrasonores sont bien plus bruitées que les
images des lèvres. En effet, elles sont caractérisées par un chatoiement (speckle noise). Une
amélioration possible consiste à utiliser un autoencodeur débruitant (denoising autoencoder)
pour augmenter la robustesse de la sélection de descripteurs. Le principe est d’ajouter
artificiellement du bruit sur les images d’entrée et d’apprendre au réseau à reconstruire
l’image débruitée. Le réseau apprend ainsi à traiter des images très bruitées. Ce principe est
décrit dans [123] et [124]. L’autoencodeur débruitant peut également être utilisé pour imposer
des contraintes lors de l’apprentissage pour extraire une nouvelle représentation des données
[125]. En effet, au lieu de contraindre la représentation des données par une contrainte de
parcimonie par exemple, l’autoencodeur débruitant permet de modifier le critère de
reconstruction ; le but d’un autoencodeur débruitant est de nettoyer des données partiellement
corrompues. Pour un tel autoencodeur, extraire une bonne représentation des données revient
à extraire une représentation que l’on peut obtenir de façon robuste à partir des données
115
corrompues et qui est utile pour reconstruire les données non corrompues correspondantes.
Tout d’abord, les entrées 𝒙 sont corrompues en 𝒙
̃. Comme avec un autoencodeur classique, 𝒙
̃
est associé à la sortie 𝒚 = 𝑓𝜃 (𝒙
̃ ) = 𝑠(𝑊𝒙
̃ + 𝑏). A partir de cette sortie, nous reconstruisons
une estimation de l’entrée 𝒛 = 𝑔𝜃 ′(𝒚). La Figure 50 illustre le processus. L’erreur de
reconstruction est calculée par l’écart entre la sortie 𝒛 et l’entrée non corrompue 𝒙 dont 𝒛 est
censée être la plus proche possible.
Cette approche nous amène à poser deux hypothèses de travail. Premièrement, un plus haut
niveau de représentation devrait être plus stable et robuste à la corruption des données.
D’autre part, on s’attend à ce que la tâche de débruitage nécessite l’extraction de descripteurs
qui capturent une structure utile dans la distribution des données d’entrée. Dans cette
approche, ce n’est pas le débruitage en lui-même qui est recherché, c’est l’extraction de
descripteurs plus robustes et permettant un meilleur niveau de représentation.
Il est possible d’empiler des étages débruitants de la même façon que l’on empile des RBM
pour initialiser un réseau. Il est à noter que la corruption des entrées est utilisée uniquement
pour l’apprentissage initial de chaque couche afin d’extraire des descripteurs utiles. Une fois
que la fonction 𝑓𝜃 est apprise, elle est appliquée sur des données non corrompues. A fortiori
aucune donnée corrompue n’est utilisée pour produire une représentation qui sera utilisée
comme donnée d’entrée pour la couche suivante. Une fois qu’un empilement de tels
autoencodeurs a été construit, l’étage d’abstraction la plus élevée peut être utilisé comme
entrée d’un algorithme supervisé comme les SVM pour une tâche de classification ou les
MLP pour une tâche de régression. Dans la suite du manuscrit, nous utilisons des
autoencodeurs avec l’étape de débruitage.
116
3.3.3 Gestion de la multimodalité
Les images de la langue et celles des lèvres sont de natures très différentes. Par conséquent, il
paraît assez délicat de simplement les concaténer en entrée d’un modèle d’apprentissage
statistique. Un prétraitement séparé sur chacune des modalités semble pertinent. Pour cela,
nous utilisons la méthode décrite dans [125] et [126]. Dans ces articles, une méthode de Deep
Learning est employée afin d’extraire des descripteurs à partir de la combinaison de deux
modalités différentes que sont des vidéos des lèvres d’une part et des spectrogrammes audio
d’autre part. Cette méthode implique de corréler des informations provenant de multiples
sources. Ainsi, nous cherchons à extraire des informations sur le conduit vocal à partir des
données articulatoires provenant à la fois de la langue et des lèvres, en utilisant une
représentation partagée entre les deux modalités. On pourrait imaginer une structure,
présentée Figure 51 qui permettrait d’extraire des descripteurs provenant de chaque modalité
prise séparément.
Figure 51 - Les deux RBM permettant d'extraire des descripteurs de la langue et des lèvres utilisés
séparément, d’après [125].
Cependant, cette méthode ne permet pas d’extraire des relations entre les deux articulateurs.
Une autre méthode possible, illustrée Figure 52, est d’extraire des descripteurs à partir des
deux modalités concaténées.
117
Figure 52 - RBM permettant d'extraire des descripteurs issus de la langue et des lèvres par
concaténation des entrées de chaque modalité, d’après [125].
Néanmoins, puisque les relations entre les mouvements de la langue et ceux des lèvres ne sont
pas linéaires et que les deux types de modalités sont très différents, il est assez difficile pour
un RBM d’extraire des représentations conjointes. Dans [125], cette méthode de simple
concaténation des entrées (voir Figure 52) conduit à des unités cachées qui ne semblent pas
contenir d’informations communes aux deux modalités. Aussi, une autre méthode
d’apprentissage est présentée. Premièrement, chacune des modalités est tout d’abord traitée
séparément en étant utilisée comme entrée d’un RBM. Ce RBM permet d’extraire un modèle
de chacune des modalités. La représentation des données d’entrée obtenue après ce premier
étage facilite l’extraction de variables multimodales. Le premier étage a pour but d’extraire
des descripteurs spécifiques à chaque type de données tandis que le second vise à construire
un codage issu des deux types d’information. Le schéma d’une telle structure est donné Figure
53.
Figure 53 - Exemple de réseau de neurones profond bimodal. Chaque entrée est d'abord traitée
séparément à l'aide de RBM séparés puis les couches cachées ainsi extraites servent d'entrée à un
RBM dont le but est d'extraire une représentation commune des données, d’après [125].
118
Cependant, rien ne garantit que le modèle permette de capturer une représentation
multimodale. Ainsi, certains descripteurs pourraient être utiles pour modéliser les lèvres
seulement et d’autres pour modéliser la langue seulement. Ainsi, l’autoencodeur présenté
Figure 54 est entraîné à reconstruire les deux modalités avec seulement l’un ou l’autre.
Dans notre architecture, l’autoencodeur est entraîné à l’aide d’une base de données bruitée
dans laquelle un tiers des images de langue sont corrompues par du bruit de chatoiement et
deux tiers des données d’entrée ne sont pas bruitées. Les images des lèvres, quant à elles, ne
sont pas corrompues. Cette architecture a pour but de forcer le réseau à trouver des liens entre
les images des lèvres et les images de la langue malgré le bruit.
119
d’utiliser un algorithme de sélection de variable. Nous utilisons pour cela un algorithme de
classement des variables appelé Orthogonal Forward Regression (OFR) (voir [127]).
Dans l’espace vectoriel dit des observations, chaque entrée est représentée par un vecteur dont
les composantes sont les 𝑁 observations de cette entrée et chaque sortie est représentée par un
vecteur dont les composantes sont les 𝑁 mesures de cette grandeur. Si l’on utilise un modèle
linéaire, la contribution de la 𝑖 ème entrée est d’autant plus corrélée à la sortie que l’angle entre
le vecteur représentant l’entrée 𝑖 et le vecteur représentant la sortie est petit. En effet, si cet
angle est nul, la sortie est colinéaire à l’entrée et celle-ci explique entièrement la sortie par
proportionnalité. À l’inverse, si cet angle est de 𝜋⁄2, l’entrée et la sortie sont complètement
décorrélées pour un modèle linéaire. Les entrées sont ainsi classées par ordre de pertinence en
calculant le carré du cosinus de l’angle entre le vecteur de l’entrée i et la sortie, cette valeur
devant être la plus proche possible de 1. La procédure d’orthogonalisation suivante permet de
classer les entrées par ordre de pertinence décroissante.
Dans un premier temps, on sélectionne la variable la plus corrélée avec la sortie. Ensuite, on
projette le vecteur de sortie ainsi que les vecteurs de toutes les autres entrées sur le sous-
espace orthogonal à l’entrée sélectionnée. Cette procédure est itérée dans tout le sous-espace,
jusqu’à ce que tous les descripteurs soient classés ou en utilisant le critère d’arrêt de la
variable sonde.
120
Pour chacun des 𝑘 = 12 coefficients, nous appliquons tout d’abord la procédure d’OFR aux
𝑁𝑘 = 100 descripteurs déterminés en utilisant l’autoencodeur multimodal ou bien la
̂𝑘 ≤ 𝑁𝑘
projection dans l’espace des EigenLips et des EigenTongues. Nous obtenons ainsi 𝑁
descripteurs pour un risque que nous fixons à 15%. Ensuite, nous conservons le premier tiers
̂𝑘
𝑁
de ces descripteurs. Le nombre, , de descripteurs sélectionnés dépend donc de la qualité de
3
Ces descripteurs nous permettent de prédire la valeur des coefficients du filtre du conduit
vocal. Pour cela, nous utilisons un réseau de neurones de type perceptron multicouche (MLP)
de sorte que chacun des 12 coefficients LSF par trame est prédit par un MLP. Il s’agit de
réseaux de neurones non bouclés dont les neurones cachés ont une fonction d’activation
sigmoïde. Pour chaque LSF à prédire, nous cherchons à minimiser l’erreur entre la sortie du
réseau et la sortie désirée, qui est la valeur de LSF calculée depuis le signal acoustique. Nous
cherchons le modèle le plus adapté à nos données en faisant varier le nombre de couches
cachées et en faisant plusieurs initialisations des poids du réseau.
121
Figure 56 - Illustration des 12 réseaux de neurones de type perceptrons multicouches dont la fonction
est de prédire la valeur des LSF à partir des descripteurs sélectionnés par OFR. Chaque perceptron
possède une couche cachée avec une fonction d'activation sigmoïde puis une sortie linéaire.
Pour chaque modalité, les données ont été divisées en une base d’apprentissage et de
validation de 35000 images, présentées de manière aléatoire, et une base de test de 5000
images consécutives. Les 35000 images de la base d’apprentissage et de validation ont été
utilisées pour entraîner l’autoencodeur ainsi que pour trouver les EigenTongues et EigenLips.
Ces modèles ont ensuite été utilisés sur la base de test sans réapprentissage. Les descripteurs
ainsi extraits ont été aléatoirement répartis et 60 % d’entre eux ont été utilisés pour entraîner
les perceptrons à l’aide de l’algorithme de Levenberg-Marquardt et les 40 % restants ont été
utilisés pour la validation. Les perceptrons multicouches ont ensuite été utilisés sur la base de
test indépendante, sans réapprentissage. Nous avons optimisé le nombre d’unités cachées de
chaque MLP de façon à minimiser l’erreur de validation. Les 12 MLP utilisés pour la
prédiction des LSF ont chacun une trentaine d’entrées, entre 1 et 7 unités cachées et une
sortie, chacune correspondant à l’un des 12 LSF. Nous avons testé 50 initialisations des
paramètres du modèle. Les valeurs des LSF n’étant pas comprises entre 0 et 1, les neurones de
la couche cachée ont une fonction d’activation sigmoïde et le neurone de sortie a une fonction
d’activation linéaire.
122
de ces perceptrons étant déterminée de façon à minimiser l’erreur de validation pour chaque
méthode. Nous cherchons à comparer les descripteurs extraits par la méthode d’autoencodeur
multimodal, méthode non linéaire d’extraction de descripteurs, à ceux extraits par la méthode
des EigenLips et EigenTongues. Nous détaillerons dans la section3.3.6 comment nous avons
effectué cette comparaison, en utilisant les informations acoustiques obtenues à partir des
informations articulatoires afin de synthétiser des signaux de voix chantée.
Une fois les LSF prédits, nous pouvons modéliser la façon dont la configuration du conduit
vocal influence le flux d’air. Ces informations, combinées à un modèle de source, permettent
de synthétiser de la voix. Pour synthétiser les sons voisés, nous utilisons et comparons
différents types de signaux de source, à savoir les résidus de prédiction LPC, du bruit blanc, la
dérivée temporelle du signal électroglottographique et un modèle d’onde de débit glottique.
Pour les sons non voisés, nous utilisons simplement un bruit blanc dont la durée est
raccourcie.
Les résidus de prédiction LPC, dont un exemple est donné Figure 18, constituent le signal de
source le plus simple et aussi de meilleure qualité car ils contiennent toutes les informations
qui ne sont pas contenus dans les coefficients de prédiction.
Un bruit blanc est souvent utilisé afin de générer des sons non voisés. Cependant, l’utilisation
d’un bruit blanc comme signal de source quel que soit le voisement du son permet d’obtenir
un signal de parole proche de la voix murmurée. Ce type de signal d’excitation a l’avantage
d’être très simple à mettre en œuvre et de ne pas nécessiter de connaissances a priori.
Cependant, la qualité médiocre de la voix synthétique obtenue en utilisant un bruit blanc en
guise de source ne permet pas son utilisation pour de la voix chantée.
L’utilisation de l’EGG comme signal de source est discutable en synthèse, car le signal EGG
ne permet pas d’accéder directement la source glottique. En effet, même si l’EGG, après
dérivation, permet de déterminer les instants d’ouverture et de fermeture glottique (voir
Figure 57) avec davantage de précision que ne le permet le signal acoustique, c’est un signal
123
qui comporte beaucoup d’artefacts, en particulier liés aux mouvements de la tête et du cou.
Figure 57 - En vert, un exemple de signal EGG et sa dérivée en bleu. Les pics positifs de la dérivée de l'EGG correspondent à
des fermetures glottiques tandis que les pics négatifs du signal de dEGG correspondent à des ouvertures glottiques.
L'identification des instants d’ouverture et de fermeture glottique permet de déterminer la période fondamentale ainsi que
le quotient ouvert.
L’EGG peut être utilisé pour déterminer les instants d’ouverture et de fermeture glottique. Il
permet donc de calculer de manière assez précise les valeurs des paramètres de différents
modèles d’onde de débit glottique comme le modèle LF ou le modèle CALM. Dans nos
travaux, nous avons choisi d’utiliser l’EGG pour déterminer l’évolution au cours du temps des
paramètres du modèle CALM, permettant une synthèse vocale avec une qualité vocale
évoluant au cours du temps.
124
Figure 58 – Modèle d’onde de débit glottique dérivée. Sur cette figure sont représentés les paramètres
du modèle CALM.
Ces méthodes de synthèse produisent des sons de qualités différentes, que nous cherchons à
évaluer.
Dans un premier temps, nous avons utilisé notre modèle de synthèse vocale sur une base de
voyelles chantées isolées. Cette base est constituée par la répétition par un chanteur des
voyelles (tenues sur la durée et chantées sur la même note) /i/, /o/, /e/, /O/, /a/. Dans cette
base, cette succession de voyelles est répétée 4 fois. Elle comprend au total 6036 images de
chaque type, soit une durée de 100,6 secondes, c’est-à-dire 1 minutes et 40 secondes de chant.
Les images de cette base ont la particularité d’être très stables au cours du temps, c’est-à-dire
que pour une voyelle donnée, la position prise par la langue comme celle prise par les lèvres
évoluent peu. Le Tableau 8 montre des images de la langue et des lèvres pour chacune des
voyelles de la base pour des trames données, lors de la première répétition des voyelles. Afin
de travailler uniquement sur la voix chantée, nous avons supprimé les silences sur cette base.
L’évaluation des résultats de prédiction des LSF peut être faite par observation directe des
valeurs des LSF. La Figure 59 et la Figure 60 montrent la superposition des LSF théoriques
avec les LSF estimés par la méthode d’autoencodeur sans ajout de bruit.
125
Tableau 8 - Constitution de la base de voyelles isolées. Nous pouvons remarquer qu'il y a peu de
variabilité entre les images enregistrées lors de la réalisation d'une même voyelle..
Voyelle Langue en Langue en Lèvres en Lèvres en N° de la N° de la
début de fin de début de fin de trame trame
voyelle voyelle voyelle voyelle montrée montrée
en début en fin de
de voyelle voyelle
126
Figure 59 - Comparaison entre les valeurs de référence et les estimations des six premiers LSF en
utilisant l'autoencodeur multimodal sur la base de voyelles isolées. Ces figures indiquent une bonne
prédiction des LSF et donc des pertes de qualité vocaliques faibles.
127
Figure 60 - Comparaison entre les six derniers LSF de référence et les LSF estimés par
l'autoencodeur multimodal sur la base de voyelles isolées. La prédiction des six derniers LSF est un
peu moins précise que celle des six premiers.
128
Il est également possible d’utiliser un score dit de distorsion spectrale moyenne, qui traduit la
déformation du spectre du signal induite par les écarts de valeur des LSF par rapport aux
valeurs de référence, dans des bandes de fréquences données [128]. Le calcul de la distorsion
spectrale est donné par l’équation suivante :
2
𝑗2𝜋𝑘 2
𝑛1 −1
1 𝐴 (𝑒 𝑁 )
𝑆𝐷 = 〈√ ∑ 10 log10 | | 〉 (43)
𝑗2𝜋𝑘
(𝑛1 − 𝑛0 ) ′(𝑒 𝑁 )
𝑘=𝑛0
( ( 𝐴 ))
Dans cette équation, 𝐴 et 𝐴’ désignent respectivement les polynômes LPC issus des LSF
d’origine (calculés à partir du signal acoustique) et les LSF estimés. 𝑁 désigne l’ordre de la
FFT et vaut 512. Les valeurs de 𝑛0 et 𝑛1 déterminent les bandes de fréquences sur lesquelles
est effectué le calcul. Dans nos calculs, 𝑛0 = 6 et 𝑛1 = 200, ce qui donne, pour des
fréquences allant de 129 à 4307 Hz, des bandes fréquentielles de largeur 21,5 Hz. Une
distorsion « transparente » pour l’oreille est une distorsion de 1 dB. Nous utilisons également
une note d’opinion moyenne différentielle (ou ∆𝑀𝑂𝑆, pour Differential Mean Opinion
Score). Ce score est défini d’après une distorsion de référence de valeur 1 dB par les
expressions suivantes [128] :
𝑀𝑂𝑆 = 3.56 − 0.8 𝑆𝐷 + 0.04 𝑆𝐷2 (44)
129
Tableau 9 - Evolution du score de distorsion spectrale en fonction des valeurs du taux d'apprentissage
initial et du taux d'apprentissage final.
Taux d’apprentissage Taux d’apprentissage final Distorsion spectrale
initial (à partir de nEpoch = 10) (validation)
0,001 0,005 3,5 dB
0,005 0,01 3,4 dB
0,01 0,05 3,3 dB
0,05 0,05 3,5 dB
0,01 0,01 3,2 dB
D’après ces résultats, la taille du second RBM ne nous a pas semblé déterminante pour
l’amélioration de la précision de l’estimation des valeurs des LSF. Nous avons ensuite
cherché à modifier la taille du premier RBM, celui pour lequel les données de la langue et des
lèvres sont utilisées séparément. Les résultats obtenus sont rassemblés dans le tableau
suivant :
130
Tableau 11 - Evolution du score de distorsion spectrale en fonction de la taille de la couche cachée du
premier RBM.
Taille de la couche cachée du 1er RBM Distorsion spectrale (validation)
500 2,6 dB
1500 3,2 dB
2000 3,2 dB
Sur cette base de données, réduire la dimension du premier RBM nous a permis d’améliorer la
qualité de la prédiction des LSF à partir des données d’entrée. Par ailleurs, compte tenu du
peu de variabilité des images de cette base, qui peuvent être catégorisées en autant de classes
que de voyelles, il est nécessaire d’utiliser des mini-batches de taille relativement réduite [79].
Le passage de l’utilisation de mini-batches de taille 100 à des mini-batches de taille 50 permet
d’augmenter la précision de la prédiction des LSF, ce qui se traduit par une nette diminution
de la distorsion spectrale. La comparaison entre la méthode d’autoencodeur multimodal et la
méthode des EigenLips et EigenTongues donne des résultats satisfaisants en base de test. En
effet, le score de distorsion spectrale est de 2,2 dB en base de test (proche de la distorsion
transparente) en utilisant une extraction de descripteurs par autoencodeur multimodal, tandis
que la prédiction à partir des descripteurs extraits par EigenTongues et EigenLips est de 3,0
dB sur la même base de test. Cette différence provient de la prédiction plus précise des
valeurs de LSF par l’autoencodeur. Afin de confirmer l’efficacité de la prédiction des LSF en
comparaison avec une méthode linéaire comme les EigenLips et EigenTongues, notre modèle
gagnerait à être testé en conditions réelles, en incluant silences et fricatives, sur des chants
entiers. Ce type de données permettrait d’éviter les problèmes de redondance des données qui
ne sont pas complètement indépendantes. C’est ce que nous présentons dans la partie
suivante.
Puisque la variabilité d’une base de données de voyelles tenues et isolées et très limitée, nous
avons souhaité tester notre algorithme sur une base de chants entiers. Nous disposons d’une
base enregistrée par un chanteur sur 5 chants en corse et en latin, incluant des répétitions.
Cette base totalise 43 413 images, soit environ 12 minutes d’enregistrement.
Cette base comporte des sons voisés ainsi que des sons non voisés et des silences. Nous avons
131
dans un premier temps travaillé sur la seule partie voisée de la base, puis sur l’ensemble des
sons. Sur une base aussi complexe, il est difficile d’extraire des descripteurs permettant de
représenter l’ensemble des variations dans les données. C’est pourquoi le choix de
l’architecture profonde, et en particulier celui des hyperparamètres de l’autoencodeur profond
joue un rôle central dans l’extraction de descripteurs articulatoires.
Comme dans le réseau permettant d’extraire le contour des images ultrasonores, les hyper-
paramètres du réseau doivent être déterminés de façon à permettre l’extraction de descripteurs
représentant au mieux les données d’entrée. Si l’apprentissage ne permet pas de décrire
précisément les données, alors les descripteurs extraits ne permettront pas de prédire
correctement les coefficients du filtre du conduit vocal. Outre l’erreur de reconstruction de
l’autoencodeur, nous avons dans un premier temps utilisé une mesure de distance permettant
de comparer les descripteurs aux valeurs de LSF désirés. Il s’agit en d’utiliser le score de la
première variable par l’algorithme OFR afin d’optimiser le choix des hyper-paramètres. En
effet, plus cette valeur est proche de 1, plus elle traduit une forte capacité de prédiction des
LSF par les descripteurs extraits. Pour plus de simplicité, nous appellerons cette quantité
« score d’OFR ». C’est un score rapide à calculer. Le Tableau 12 présente la valeur de ce
score pour la prédiction de chacun des LSF en utilisant la méthode des EigenLips et
EigenTongues.
132
Tableau 12 – Score d’OFR de chaque LSF en utilisant les descripteurs extraits par la méthode
EigenLips/EigenTongues.
LSF Score d’OFR en utilisant la méthode
EigenLips + EigenTongues
LSF 1 0,37
LSF 2 0,36
LSF 3 0,21
LSF 4 0,23
LSF 5 0,24
LSF 6 0,16
LSF 7 0,28
LSF 8 0,17
LSF 9 0,24
LSF 10 0,18
LSF 11 0,16
LSF 12 0,22
Le premier constat que nous pouvons faire à la lecture de ce tableau est que les deux premiers
LSF ont de meilleures chances d’être bien prédits que les suivants. Ceci peut s’expliquer par
le fait que les premiers LSF contiennent davantage d’informations pertinentes par rapport à
l’articulation que les derniers. En effet, les LSF ont une relation avec les coefficients de
prédiction LPC, qui sont eux-mêmes corrélés aux formants. Or, la valeur des 4 ou 5 premiers
formants suffit à décrire la nature d’une voyelle. Dans certains cas, une classification
n’utilisant que la valeur des deux premiers formants peut suffire à reconnaître des voyelles.
133
Tableau 13 - Score d’OFR de chaque LSF en utilisant les descripteurs extraits par la méthode
d'autoencodeur multimodal (DAE) selon le nombre d’unités par couche cachée. Les valeurs indiquées
correspondent au nombre d’unités par couche en commençant par la première couche jusqu’à la
couche la plus profonde d’encodage.
Score d’OFR selon la méthode employée
DAE 500-1980- DAE 500-2000- DAE 500-1000-
200 200 500-200
LSF 1 0,37 0,39 0,40
LSF 2 0,42 0,42 0,42
LSF 3 0,18 0,16 0,19
LSF 4 0,33 0,32 0,36
LSF 5 0,29 0,31 0,31
LSF 6 0,19 0,20 0,15
LSF 7 0,28 0,29 0,28
LSF 8 0,21 0,24 0,22
LSF 9 0,32 0,27 0,31
LSF 10 0,20 0,22 0,24
LSF 11 0,24 0,23 0,27
LSF 12 0,27 0,28 0,33
134
Tableau 14 - Score d’OFR de chaque LSF en utilisant les descripteurs extraits par la méthode
d'autoencodeur multimodal (DAE) selon le nombre d’unités par couche cachée. Les valeurs indiquées
correspondent au nombre d’unités par couche en commençant par la première couche jusqu’à la
couche la plus profonde d’encodage.
Score d’OFR selon la méthode employée
DAE 100-400- DAE 250-500- DAE 1000-
200 250-500 2000-200
LSF 1 0,39 0,42 0,41
LSF 2 0,40 0,42 0,41
LSF 3 0,17 0,20 0,08
LSF 4 0,33 0,35 0,24
LSF 5 0,33 0,29 0,27
LSF 6 0,18 0,22 0,15
LSF 7 0,30 0,27 0,26
LSF 8 0,25 0,22 0,21
LSF 9 0,32 0,30 0,29
LSF 10 0,24 0,23 0,27
LSF 11 0,24 0,24 0,21
LSF 12 0,25 0,30 0,28
Tableau 15 - Les paramètres de source utilisés dans notre modèle avec leurs valeurs typiques et les
valeurs fixées pour une synthèse vocale générique (non spécifique à un locuteur).
Paramètre Valeurs typiques Valeurs fixées
Coefficient d’asymétrie 0,66-0,8 0,8
Quotient ouvert 0,35-1 0,35
Fréquence fondamentale Quelques centaines de Hz 100 Hz
Energie - 10−2
Ces valeurs ainsi fixées ne donnaient pas une synthèse très réaliste, en particulier en ce qui
concerne la fréquence fondamentale. C’est pourquoi nous avons mis en place une mise à jour
de ces paramètres pour chaque fenêtre de temps entourant un instant de fermeture glottique en
utilisant le signal électroglottographique. Les étapes de la synthèse vocale sont précisées sur
la Figure 61.
136
Figure 61 - Illustration schématique de la méthode de synthèse vocale à partir des données
articulatoires et glottiques.
Nous utilisons dans un premier temps l’étiquetage de voisement détaillé dans la section 3.2.3.
Pour les segments détectés comme étant voisés, le signal électroglottographique nous permet
de déterminer les instants d’ouverture et de fermeture glottique, ce qui nous donne accès à la
fréquence fondamentale du signal de voix chantée. Par ailleurs, le calcul du coefficient
d’asymétrie ou du quotient ouvert, qui sont des caractéristiques du timbre de la voix d’un
chanteur, découlent également de la détermination de ces paramètres.
Nous avons utilisé un autoencodeur permettant une compression des données d’entrée, en
proposant une représentation sur 100 descripteurs des informations contenues sur les des deux
types d’images (langue et lèvres), soit 1980 unités. Nous avons par conséquent construit notre
architecture utilisant les EigenLips et EigenTongues sur le même modèle, de façon à extraire
également 100 descripteurs. Sur les 100 descripteurs ainsi extraits sur la base d’apprentissage,
nous avons utilisé la méthode d’OFR afin de classer les descripteurs selon leur capacité de
prédiction. Pour chaque LSF, environ 80 descripteurs en moyenne étaient mieux classés que
90% des réalisation de la variable sonde, formant l’ensemble des descripteurs efficaces. Afin
d’alléger l’architecture des modèles et de nous prémunir des risques de sur-ajustement, nous
n’avons conservé qu’un sous-ensemble de ces descripteurs efficaces. Nous avons considéré le
nombre de descripteurs efficaces conservés (par ordre de classement de l’algorithme OFR)
comme un hyperparamètre que nous avons optimisé à partir du score de validation.
137
Cette optimisation nous a amené à conserver un tiers des descripteurs classés par l’algorithme
d’OFR, soit une trentaine de descripteur par LSF. L’utilisation de méthode combinée avec une
prédiction par MLP donne des résultats proches des résultats obtenus lorsque l’on utilise
simplement les 100 descripteurs avec une prédiction par une régression linéaire. Ce constat
valide l’intérêt d’utiliser la méthode simplifiée (présentée en section 3.6.1) pour l’optimisation
des hyper paramètres de l’autoencodeur multimodal, bien que l’amélioration de la prédiction
des LSF en utilisant OFR et MLP motive l’utilisation de cette méthode plus complexe.
Sur la base de données de 43 413 images, 35 000 images sont utilisées en apprentissage et
5000 en validation. Dans [89], il est rapporté que les silences et fricatives ont un effet qui tend
à moyenner la valeur des LSF prédits. Afin d’éviter que la prédominance des silences et
fricatives ne vienne moyenner les valeurs des LSF prédites, nous choisissons de modifier les
proportions de trames voisées et non voisées de la base d’apprentissage. Ainsi, sur les 35 000
exemples de la base d’apprentissage, 30 000 correspondent à des trames voisées et 5 000 à des
trames non voisées. Sur cette base de validation incluant silences et fricatives, la méthode
utilisant les EigenTongues et EigenLips a obtenu un score de distorsion spectrale de 5,2 dB
sur la base de test. Une illustration de la reconstruction des LSF par la méthode des EigenLips
et EigenTongues est donnée Figure 62 et Figure 63.
138
Figure 62 - Comparaison entre les six premiers LSF de référence et les LSF estimés par le modèle
EigenLips/EigenTongues sur la base de chants traditionnels.
139
Figure 63 - Comparaison entre les six derniers LSF de référence et les LSF estimés par le modèle
EigenLips/EigenTongues sur la base de chants traditionnels.
Il apparaît très clairement que les premiers LSF sont mieux prédits que les derniers, ce qui est
en accord avec la discussion détaillée au paragraphe 3.6.1. La méthode de Deep Learning
quant à elle obtient des résultats de prédiction plus précis, en particulier lors des transitions
140
abruptes, avec un score de distorsion spectrale de 4,3 dB sur la base de test, en incluant les
silences et les fricatives.
Figure 64 - Comparaison entre les six premiers LSF de référence et les LSF estimés par
l'autoencodeur multimodal sur la base de chants traditionnels.
141
Figure 65 - Comparaison entre les six derniers LSF de référence et les LSF estimés par
l'autoencodeur multimodal sur la base de chants traditionnels.
142
Tableau 16 – Scores de distorsion spectrale et notes d’opinions moyennes différentielles obtenus pour
les deux méthodes testées en comparaison avec une distorsion de 1 dB, transparente à l’oreille.
Méthode Distorsion ∆𝑴𝑶𝑺
Spectrale
(dB)
Distorsion 1 0
“Transparente”
Autoencodeur 4.3 -1.9
Multimodal
EigenLips et 5.2 -2.3
EigenTongues
Une fois les modèles de prédiction d’une part des paramètres de source et d’autre part des
paramètres du filtre développés, nous pouvons utiliser ces modèles en synthèse. Nous avons
développé un module d’analyse articulatoire permettant de synthétiser un son à partir d’un
couple d’images des articulateurs que sont la langue et les lèvres. Ce module permet de
traduire une articulation donnée en son. Cet outil permet donc de comparer les différents sons
produits par la modification de la position de la langue ou l’aperture des lèvres. Il inclut en
outre la possibilité de personnaliser la qualité de la voix en jouant sur les paramètres de
source. Nous avons par ailleurs développé un deuxième modèle de synthèse vocale, plus
complet, qui combine les prédictions des propriétés du filtre du conduit vocal à l’estimation
des paramètres de source spécifiques à un locuteur, illustré Figure 61.
Nous avons mis en place un test perceptif en ligne permettant à des auditeurs d’écouter et
évaluer la qualité des différents extraits de voix chantée produits par la méthode de synthèse
vocale complète, sans discrimination de compétences musicales ou linguistiques. Le test,
intitulé « Corsican rare singing synthesis: naturalness and comprehensibility assessment »,
était proposé en langue anglaise uniquement. Le texte prononcé était donné en début de test.
Ensuite, il a été demandé aux sujets d’évaluer douze extraits audio issus de notre base de test ;
les extraits audio ont été présentés dans un ordre aléatoire. Pour chacun d’eux, les sujets
devaient noter la naturalité du son ainsi que la compréhensibilité. Dans le questionnaire, nous
143
avons défini la naturalité comme la qualité d'un son à correspondre aux standards d'un
auditeur en termes de prosodie, intonation, rythme et accents. La compréhensibilité quant à
elle est définie comme le degré avec lequel un sujet auquel on fournit des informations
additionnelles à propos de ce que le locuteur prononce reconnaît les phonèmes prononcés
dans l'extrait audio. Ces deux critères sont évalués par une note comprise entre 1 et 5, le score
de 1 correspondant à une faible qualité et 5 une bonne qualité. Il a également été demandé aux
participants d’indiquer s’ils avaient au moins trois ans d’expérience dans les domaines liés à
l’audio et à la voix ou non.
Il apparaît qu’un peu plus de la moitié (54,5 %) des 83 répondants au questionnaire peuvent
être considérés comme des experts en audio. Nous avons donc un équilibre relatif entre les
sujets experts et les sujets non-experts. Les scores donnés par ces 83 sujets sont rassemblés
dans le Tableau 17.
La Figure 66 présente le score de naturalité moyen pour chaque type de synthèse, ainsi que
leurs écarts statistiques (test de rang de signe de Wilcoxon, voir Tableau 18). Pour chaque
type de source, les LSF d’origine obtiennent de meilleurs résultats que les LSF prédits. La
méthode de synthèse utilisant l’autoencodeur multimodal obtient systématiquement de
meilleurs résultats que la synthèse utilisant EigenLips et EigenTongues. Le bruit utilisé
comme signal de source obtient naturellement de moins bons scores que les autres signaux de
sources. Un résultat remarquable est que l’autoencodeur obtient des résultats de naturalité
stables quel que soit le signal de source utilisé, mis à part le signal de bruit. Les écarts de
naturalité entre les LSF d’origine et les LSF prédits en utilisant l’autoencodeur sont
marginaux pour les sources dEGG et bruit blanc, non significatifs pour l’ODGD, et
significatifs pour les résidus. En comparaison, les LSF estimés en utilisant les EigenLips et
EigenTongues sont très significativement moins naturels qu’avec les deux autres méthodes,
quel que soit le signal de source employé.
144
Tableau 17 - Scores de naturalité et d'intelligibilité en fonction du type de signal d'excitation et de
l'origine des valeurs des LSF.
Signal Origine des Score de compréhensibilité Score de naturalité
d’excitation LSF (μ±σ) (μ±σ)
Signal
Résidus LPC 3,8±1,0 3,6±1,1
acoustique
Autoencodeur
Résidus LPC 2,9±1,0 3,2±1,0
multimodal
EigenLips et
Résidus LPC 2,1±1,0 2,6±1,0
EigenTongues
Signal
ODGD 3,1±1,1 3,0±1,0
acoustique
Autoencodeur
ODGD 3,0±1,2 3,0±1,0
multimodal
EigenLips et
ODGD 1,7±1,0 2,1±1,0
EigenTongues
Signal
dEGG 3,2±1,1 3,0±1,1
acoustique
Autoencodeur
dEGG 2,6±1,1 2,8±1,1
multimodal
EigenLips et
dEGG 1,8±0,8 2,2±0,9
EigenTongues
Signal
Bruit blanc 2,0±1,0 1,3±0,5
acoustique
Autoencodeur
Bruit blanc 1,6±0,8 1,2±0,4
multimodal
EigenLips et
Bruit blanc 1,1±0,3 1,0±0,3
EigenTongues
145
Figure 66 - Evaluation de la naturalité en fonction du type de source et de l'origine du calcul des LSF.
La valeur 1 représente les LSF calculés à partir du signal acoustique, la valeur 2 représente les LSF
estimés en utilisant l'autoencodeur profond et la valeur 3 représente les LSF estimés en utilisant les
EigenLips et EigenTongues. L’erreur type de la moyenne est représentée sur le haut de chaque barre
du diagramme. +écarts marginalement significatifs, * écarts significatifs, **écarts très significatifs,
voir aussi Tableau 18.
Tableau 18 – Test de rang de signes de Wilcoxon pour la naturalité (test apparié). Les conditions
suivantes sont comparées deux à deux : (1) LSF d’origine, (2) LSF prédits par autoencodeur
multimodal et (3) LSF prédits par EigenLips + EigenTongues. Les seuils marginalement significatifs
(+, p = 3,3.10-2), significatifs (*, p = 1,7.10-2) et très significatifs (**, p = 3,3.10-3) tiennent compte
d’une correction de Šidák.
Source (1) vs. (2) (1) vs. (3) (2) vs. (3)
Résidus LPC 4,4.10-3* 2,85.10-11** 1,83.10-6**
ODGD 7,1.10-1 4,10.10-9** 1,54.10-8**
dEGG 3,1.10-2+ 1,50.10-9** 3,05.10-7**
Bruit 3,1.10-2+ 4,67.10-4** 2,0.10-2+
La Figure 67 montre les résultats de compréhensibilité, ainsi que leurs écarts statistiques
d’après le test de rang de signe de Wilcoxon (voir Tableau 19). Il s’agit d’un test de rangs sur
échantillons appariés ; il permet de comparer deux mesures d’une variable quantitative
146
effectuées sur les mêmes sujets, même si la variable quantitative ne suit pas une distribution
normale ou qu’il n’y a pas égalité des variances dans les deux groupes, contrairement au test
de Student. D’après ce test, ces écarts d’évaluation entre les différentes origines des LSF sont
davantage marqués en compréhensibilité qu’en naturalité. Par ailleurs, il est à noter que la
synthèse utilisant l’onde de débit glottique dérivée présente une compréhensibilité plus
homogène que les autres sources, et en particulier qu’elle tend à diminuer l’écart de score
entre LSF d’origine et LSF prédits avec l’autoencodeur multimodal. Cette synthèse ne
présente pas d’écarts significatifs comparée à celle obtenue avec les LSF d’origine (p > 0.10),
alors que les synthèses obtenues avec les trois autres sources (résidus, dEGG et bruit blanc)
sont toutes très significativement moins naturelles pour les LSF prédits avec l’autoencodeur
multimodal. En comparaison, les LSF estimés en utilisant les EigenLips et EigenTongues sont
très significativement moins compréhensibles qu’avec les deux autres méthodes, quel que soit
le signal de source employé.
147
Tableau 19 – Test de rang de signes de Wilcoxon pour la compréhensibilité (test apparié). Les
conditions suivantes sont comparées deux à deux : (1) LSF d’origine, (2) LSF prédits par
autoencodeur multimodal et (3) LSF prédits par EigenLips + EigenTongues. Les seuils non
significatifs (p >> 3,3.10-2) et très significatifs (**, p = 3,3.10-3) tiennent compte d’une correction de
Šidák.
Source (1) vs. (2) (1) vs. (3) (2) vs. (3)
Résidus LPC 5,0.10-9** 1,05.10-13** 5,71.10-7**
ODGD 1,4.10-1 3,12.10-11** 9,72.10-11**
dEGG 1,30.10-7** 4,19.10-13** 2,29.10-8**
Bruit 1,20.10-4** 7,25.10-10** 1,40.10-7**
3.8 Discussion
Nous avons présenté dans ce chapitre un modèle permettant d’effectuer une synthèse vocale à
partir d’images de la langue et des lèvres et les signaux glottiques. Cette synthèse vise des
objectifs de compréhension dans le contexte de la préservation des techniques de chant. Dans
[129], l’auteur discute de l’utilisation de technologies de l’information afin d’apporter un
retour visuel à l’utilisateur qui souhaite améliorer ses techniques de chant. Parmi les retours
proposés, la plupart sont des descripteurs acoustiques de la production vocale. Dans [129],
l’auteur montre que la fréquence centrale des formants dépend du mouvement des
articulateurs mais aussi de l’entraînement du chanteur et de sa façon de projeter ou non sa
voix à la manière d’un chanteur lyrique. Puisque les LSF sont directement liés aux
coefficients de prédiction LPC, qui ont un lien avec la position des formants, l’utilisation des
LSF comme marqueurs de l’articulation du chanteur semble justifiée. Les éléments que
l’auteur estime utiles pour l’amélioration du geste vocal sont la qualité vocale, les consonnes,
la qualité et la durée des voyelles, l’élargissement du larynx, le chanter legato ou staccato, le
registre, les résonances, la précision de la justesse, la position du larynx, la position de la
langue pour la production des voyelles, la position de la mâchoire pour la hauteur,
l’alignement entre le cou et la tête, la posture générale et la respiration. Nous utilisons pour
notre part des données électroglottographiques qui contiennent les informations de qualité
vocale, de rythme et de hauteur. Nous utilisons également des images permettant d’accéder
aux informations du mouvement des articulateurs.
Nous avons développé dans un premier temps une méthode qui démontre une application
possible de notre modèle pour des utilisations pédagogiques. Ce système permet de
148
synthétiser à partir d’un couple d’images de la langue et les lèvres le son correspondant. Il
permet donc d’illustrer le rapport entre les positions des lèvres et de la langue d’une part, et le
son produit d’autre part.
Nous avons également proposé un modèle permettant une synthèse vocale complète d’un
extrait de chant en combinant des images des articulateurs. La synthèse vocale, et en
particulier la synthèse de voix chantée, pose plusieurs difficultés [130]. Dans les approches
classiques, il est difficile de synthétiser un extrait de voix chantée en gérant le texte, la
hauteur des notes et le rythme. Notre approche de synthèse propose une méthode permettant
de fournir au système les informations concernant le rythme, le texte et la hauteur de façon
automatique, sans utiliser de partitions ou codage de la musique. Les performances de notre
modèle de synthèse ont été validées sur deux bases de données : une base de voyelles isolées,
ainsi qu’une base avec silences et fricatives, sur des chants entiers. Dans les deux cas notre
méthode s’est avérée plus fiable qu’un modèle linéaire, ce qui semble confirmer que
l’apprentissage profond semble bien adapté pour extraire les informations multimodales de la
voix chantée. On s’attendait effectivement à ce qu’un modèle non linéaire reflète mieux le
fonctionnement du conduit vocal (rappelons que le conduit vocal est modélisé avec un filtre
d’ordre 12 dans le modèle LPC).
Dans [131], l’objectif est de proposer une méthode de synthèse vocale à partir de données
acoustiques pour le doublage en imitant la personnalité vocale d’un locuteur. Il s’agit
d‘utiliser la voix d’un doubleur professionnel et d’en modifier les propriétés afin de
reconstituer artificiellement la voix d’un autre locuteur. Ces modifications concernent
uniquement le domaine acoustique et aucune technique d’imagerie n’est utilisée. A la fin de
cette étude, un test perceptif mené sur 11 sujets, 5 experts dans le domaine du traitement
audio et 6 non-experts. Ces tests perceptifs montrent des évaluations plutôt positives de la part
des sujets. Dans les évaluations perceptives que nous avons menées, réalisées sur un nombre
bien plus significatif de sujets, les extraits audio ont été évalués avec des scores un peu plus
bas. Cette différence peut provenir du nombre de répondants à l’étude, de la langue, du type
de phonation et également du type de synthèse, purement acoustique ou bien visuo-
acoustique.
149
La prédiction des LSF nous a permis d’effectuer une synthèse vocale de la voix chantée. Les
LSF sont cependant des descripteurs de bas niveau de la voix. Nous pourrions envisager
d’étendre ce modèle pour détecter des représentations de plus haut niveau, telles que par
exemple la détection de phonèmes pour une synthèse plus précise.
150
Conclusion générale et perspectives
Nous avions fait l’hypothèse qu’un apprentissage sur une base de données conséquente
fournirait une information suffisante pour modéliser la position de la langue et extraire les
paramètres du conduit vocal. Ces données nous ont permis de développer une méthode
d’extraction automatique du contour de la langue sur des images échographiques.
L’apprentissage profond nous a permis d’extraire des descripteurs à partir d’images
échographiques, en se fondant sur une base d’apprentissage dont les contours ont été extraits
automatiquement. Notre méthode, qui obtient des performances comparables à des
étiquetages manuels et aux outils proposés dans la littérature, a plusieurs avantages. En effet,
notre système, dont les performances dépendent seulement de la qualité des données d’entrée
et de l’efficacité de l’apprentissage automatique, ne requiert pas d’initialisation manuelle. De
plus, notre méthode permet d’extraire le contour d’un grand nombre d’images quelle que soit
151
la longueur de la séquence d’images : elle permet d’extraire le contour sur des séquences
d’images aussi bien que sur des images sélectionnées de façon isolée.
Dans un second temps, nous avons tenté de reconstruire un modèle acoustique du conduit
vocal. Notre approche consiste à combiner des informations articulatoires issues des images
de la langue et des lèvres avec des informations glottiques. Nous avons mis en œuvre ce
modèle pour tester les possibilités de synthèse vocale articulatoire. Pour cela, il est important
d’extraire des descripteurs permettant d’établir un lien entre les données articulatoires et le
signal acoustique. Nous utilisons des outils d’apprentissage statistique qui permettent de
repérer des informations dans les images entières. Les informations articulatoires permettent
d’estimer les paramètres d’un filtre et les informations glottiques permettent de construire un
signal d’excitation. Nous opérons une distinction entre les trames non voisées, que nous
excitons par un bruit, et les trames voisées. Cette distinction nous permet de synthétiser
l’ensemble des phonèmes, en voix parlée comme en voix chantée. Nous pouvons utiliser
comme signal d’excitation un signal purement synthétique, en variant la fréquence
fondamentale et en imposant les autres paramètres de source. Nous pouvons également
extraire des informations du signal électroglottographique qui nous permettent de synthétiser
un signal d’onde de débit glottique. La combinaison du signal d’excitation et du filtre nous
permet effectivement de synthétiser des extraits de voix chantée.
Nous extrayons des descripteurs des couples langue-lèvres qui permettent de prédire l’allure
du spectre du filtre du conduit vocal. Nous avons utilisé pour ce faire une méthode linéaire
fondée sur les principes de l’analyse en composantes principales, ainsi qu’une méthode non
linéaire impliquant un autoencodeur profond et multimodal. Nous avions fait l’hypothèse que
la méthode non linéaire exploiterait mieux la relation complexe entre les images des
articulateurs et le signal glottique que la méthode linéaire. Nous avons effectivement obtenu
de meilleures performances avec l’apprentissage profond qu’avec la méthode linéaire : la
distorsion spectrale obtenue en validation sur une base de voyelles isolées passe de 3,0 dB
pour la méthode linéaire à 2,2 dB pour notre méthode (un résultat proche de la distorsion
transparente). En conditions réelles, avec silences et fricatives, sur des chants entiers, la
distorsion spectrale obtenue en validation passe de 5,2 dB pour la méthode linéaire à 4,3 dB
pour notre méthode. La naturalité et l’intelligibilité des signaux acoustiques reconstruits ont
en outre été évalués par un test perceptif qui confirme ces résultats.
152
Notre étude a démontré la faisabilité d’une modélisation multimodale des mécanismes du
chant. Il reste cependant des pistes qui pourraient être explorées pour améliorer ce modèle.
Par exemple, dans notre approche, nous construisons un modèle de filtre en utilisant
uniquement les données issues de la langue et des lèvres. L’ajout de la composante nasale
permettrait peut-être d’améliorer les performances de prédiction du filtre vocal. Pour cela, il
serait intéressant de passer d’une architecture bimodale à une architecture à trois modalités en
combinant les images de la langue, des lèvres, ainsi qu’une carte temps-fréquence construite à
partir de l’enregistrement effectué par le capteur piézoélectrique fixé sur le nez du chanteur.
Notre méthode pourrait être étendue à une telle architecture en suivant le même principe que
pour l’architecture bimodale proposée.
153
154
4 Références
155
Acoustics, Speech, and Signal Processing, IEEE International Conference on
ICASSP'82, Paris, 1982.
[13] G. Lindsay, «Speech Talk,» 2013. [En ligne]. Available:
http://englishspeechservices.com/blog/the-vowel-space/.
[14] I. P. Association, «IPA Home,» [En ligne]. Available:
https://www.internationalphoneticassociation.org/redirected_home.
[15] J. Laver, Principles in phonetics, Cambridge University Press, 1994.
[16] C. d'Alessandro, "Voice Source Parameters and Prosodic Analysis," in Methods in
Empirical Prosody Research, (Language, Context and Cognition; Vol. 3), Stefan
Sudhoff; Denisa Lenertova; Roland Meyer; Sandra Pappert; Petra Augurzky; Ina
Mleinek; Nicole Richter; Johannes Schliesser. Mouton de Gruyter, 2006, pp. 63-87.
[17] N. Henrich, Thèse de doctorat de l'Université Paris 6, 2001.
[18] F. Le Huche et A. Attali, La voix. Anatomie et physiologie des organes de la voix et de
la parole, Paris: Masson, 1991.
[19] «i-Treasures : capturing the intagible,» [En ligne]. Available: http://i-treasures.eu/.
[20] L. Crevier-Buchman, A. Amelot, S. K. Al Kork, M. Adda-Decker, N. Audibert, P.
Chawah, B. Denby, T. Fux, A. Jaumard-Hakoun, P. Roussel, M. Stone, J. Vaissière, K.
Xu et C. Pillot-Loiseau, «Acoustic Data Analysis from Multi-Sensor Capture in Rare
Singing: Cantu in Paghjella Case Study,» International Journal of Heritage in the
Digital Era, vol. 4, n° %11, pp. 121-132, 2015.
[21] L. Bailly, N. Henrich, X. Pelorson and J. Gilbert, "Vocal folds and ventricular bands in
interaction: comparison between in-vivo measurements and theoretical predictions," in
155th Meeting of Acoustical Society of America, Acoustics'08, Paris, 2008.
[22] N. Henrich, B. Lortat-Jacob, M. Castellengo, L. Bailly and X. Pelorson, "Period-
doubling occurences in singing: the "bassu" case in traditional Sardinian "A Tenore"
singing," in International Conference on Voice Physiology and Biomechanics, Tokyo,
2006.
[23] B. Lortat-Jacob, «Chants de passion Au coeur d'une confréerie de Sardaigne,» 1998.
[24] M. Proctor, E. Bresch, D. Byrd, K. Nayak et S. Narayanan, «Paralinguistic mechanisms
of production in human “beatboxing”: A real-time magnetic resonance imaging study,»
Journal of the Acoustical Society of America, vol. 133, n° %12, pp. 1043-1054, 2013.
156
[25] T. De Torcy, A. Clouet, C. Pillot-Loiseau, J. Vaissière, D. Brasnu et L. Crevier-
Buchman, «A video-fiberscopic study of laryngopharyngeal behaviour in the human
beatbox,» Logopedics Phoniatrics Vocolog, vol. 39, n° %11, pp. 38-48, 2013.
[26] E. Moulines et F. Charpentier, «Pitch-synchronous waveform processing techniques for
text-to-speech synthesis using diphones,» Speech Communication, vol. 9, pp. 453-467,
1990.
[27] R. McAuley et T. F. Quatieri, «Speech analysis/synthesis based on a sinusoidal
representation,» IEEE Transactions on Speech and Signal Processing, vol. 34, n° %14,
pp. 744-754, 1986.
[28] B. Kedem, «Benjamin Kedem. Spectral analysis and discrimination by zero-crossings,»
Proceedings of the IEEE, vol. 74, n° %111, p. :1477–1493, 1986.
[29] C. Roads, The Computer Music Tutorial, Cambridge: MIT Press, 1996.
[30] S. Rossignol, X. Rodet, J. Soumagne, J.-L. Collette and P. Depalle, "Features extraction
and temporal segmentation of acoustic signals," in International Computer Music
Conference, Ann Arbor, 1998.
[31] L. Rabiner, «On the use of autocorrelation analysis for pitch detection,» IEEE
Transactions on Acoustics, Speech, and Signal Processing, vol. 25, n° %11, pp. 24-33,
1977.
[32] M. Ross, H. Shaffer, A. Cohen, R. Freudberg et H. Manley, «Average magnitude
difference function pitch extractor,» IEEE Transactions on Acoustics, Speech, and
Signal Processing, vol. 22, n° %15, pp. 353-362, 1974.
[33] M. R. P. Thomas et P. A. Naylor, «The SIGMA Algorithm: A Glottal Activity Detector
for Electroglottographic Signals,» IEEE Trans. Audio, Speech, Lang. Process., vol. 17,
n° %18, pp. 1557-1566, 2009.
[34] M. R. Every et J. E. Szymanski, «Separation of synchronous pitched notes by spectral
filtering of harmonics,» IEEE Transactions on Audio, Speech, and Language
Processing, vol. 14, n° %15, pp. 1845-1856, 2006.
[35] T. Hézard, «Production de la voix : exploration, modèles et analyse/synthèse.,»
Université Pierre et Marie Curie, Paris, 2013.
[36] G. Fant, Acoustic Theory of Speech Production, Hague: Mouton, 1960.
[37] G. Kang and L. Fransen, "Application of Line-Spectrum Pairs to Low-Bit-Rate Speech
157
Encoders," in Proceedings of IEEE Int. Conf. on Acoustics, Speech, and Signal
Processing ICASSP85, Tampa, 1985.
[38] B. Doval, C. D'Alessandro et N. Henrich, «The Spectrum of Glottal Flow Models,»
Acta Acustica united with Acustica, vol. 92, n° %16, pp. 1026-1046, 2006.
[39] G. Fant, J. Liljencrants et Q. Lin, «A four-parameter model of glottal flow,» STL-QPSR,
vol. 26, n° %14, pp. 1-13, 1985.
[40] P. Alku, «Glottal wave analysis with Pitch Synchronous Iterative Adaptive Inverse
Filtering,» Speech Communication, vol. 11, n° %12-3, pp. 109-118, 1992.
[41] J. Sundberg, «The kth synthesis of singing,» Advances in cognitive Psychology, vol. 2,
n° %12-3, pp. 131-143, 2006.
[42] T. Dubuisson, «Glottal Source Estimation and Automatic Detection of Dysphonic
Speakers,» University of Mons, 2011.
[43] D. H. Klatt et L. C. Klatt, «Analysis, synthesis, and perception of voice quality
variations among female and male talkers,» The Journal of the Acoustical Society of
America, vol. 87, n° %12, pp. 820-857, 1990.
[44] R. Veldhuis, «A computationally efficient alternative for the Liljencrants–Fant model
and its perceptual evaluation,» The Journal of the Acoustical Society of America, vol.
103, n° %11, pp. 566-571, 1998.
[45] A. E. Rosenberg, «Effect of Glottal Pulse Shape on the Quality of Natural Vowels,»
The Journal of the Acoustical Society of America, vol. 49, n° %12B, pp. 583-590, 1971.
[46] B. Doval, C. D'Alessandro and N. Henrich, "The voice source as a causal/anticausal
linear filter," in Voice Quality : Functions, Analysis and Synthesis VOQUAL’03,
Geneva, 2003.
[47] L. Feugère, «Synthèse par règles de la voix chantée contrôlée par le geste et
applications musicales,» Université Pierre et Marie Curie, Paris, 2013.
[48] D. H. Klatt, «Review of text-to-speech conversion for english,» Journal of the
Acoustical Society of America, vol. 82, n° %13, pp. 737-793, 1987.
[49] X. Rodet, Y. Potard et J.-B. Barrière, «The chant project : From the synthesis of the
singing voice to synthesis in general,» Computer Music Journal, vol. 8, n° %13, pp. 15-
31, 1984.
[50] C. Hamon, E. Moulines and F. Charpentier, "A diphone synthesis system based on
158
time-domain prosodic modifications of speech," in Proceedings of the International
Conference on Acoustics, Speech, and Signal Processing, Glasgow, 1989.
[51] H. Zen, K. Tokuda et A. W. Black, «Statistical parametric speech synthesis,» Speech
Communication, vol. 51, n° %111, pp. 1039-1064, 2009.
[52] S. King, "A reading list of recent advances in speech synthesis," in International
Congress of Phonetic Science, Glasgow, 2015.
[53] I. Titze, «The human vocal cords : a mathematical model,» Phonetica, vol. 28, pp. 129-
170, 1973.
[54] C. H. Coker, "Speech synthesis with a parametric articulatory model," in Proc. Speech.
Symp, Kyoto, 1968.
[55] P. Birkholz, "Articulatory synthesis of singing," in Interspeech, Antwerp, 2007.
[56] E. Saltzman, «Task dynamic coordination of the speech articulators : A preliminary
model,» Experimental Brain Research, vol. 15, pp. 129-144, 1986.
[57] H. Kawahara, I. Masuda-Katsuse et A. de Cheveigné, «Restructuring speech
representations using a pitch-adaptive time-frequency smoothing and an instantaneous-
frequency-based F0 extraction: Possible role of a repetitive structure in sounds.,»
Speech Communications, vol. 27, n° %13-4, p. 187–207, 1999.
[58] J. LaRoche, Y. Stylianou and E. Moulines, "Hnm: a simple, efficient harmonic+noise
model for speech," in IEEE Workshop on Applications of Signal Processing to Audio
and Acoustics, New York, 1993.
[59] T. Saitou, M. Goto, M. Unoki and M. Akagi, "Vocal Conversion from Speaking Voice
to Singing Voice Using STRAIGHT," in Proceedings of Interspeech, Antwerp, 2007.
[60] A. Roebel and J. Fineberg, "Speech to chant transformation with the phase vocoder," in
Proceedings of Interspeech, Antwerp, 2007.
[61] H. Kenmochi and H. Ohshita , "VOCALOID – Commercial singing synthesizer based
on sample concatenation," in Proceedings of Interspeech, Antwerp, 2007.
[62] S. Ternström and J. Sundberg, "Formant-based synthesis of singing," in Proceedings of
Interspeech, Antwerp, 2007.
[63] N. D'Alessandro, B. Doval, C. d'Alessandro, S. Le Beux, P. Woodruff, Y. Fabre and T.
Dutoit, "RAMCESS: Realtime and Accurate Musical Control of Expression in Singing
Synthesis," Journal on Multimodal User Interfaces, vol. 1, no. 1, pp. 31-39, 2007.
159
[64] L. Feugère, S. Le Beux and C. d’Alessandro, "Chorus Digitalis : polyphonic gestural
singing," in Proceedings of the 1st International Workshop on Performative Speech and
Singing Synthesis, Vancouver, 2011.
[65] P. Birkholz, "Articulatory Synthesis of Singing," in Proceedings of Interspeech,
Antwerp, 2007.
[66] J. Bonada, M. Umbert and M. Blaauw, "Expressive Singing Synthesis Based on Unit
Selection for the Singing Synthesis Challenge 2016," in Proceedings of Interspeech,
San Francisco, 2016.
[67] M. Umbert, J. Bonada, M. Goto and J. Sundberg, "Expression Control in Singing Voice
Synthesis: Features, approaches, evaluation, and challenges," IEEE Signal Processing
Magazine, vol. 32, no. 6, pp. 55-73, 2015.
[68] G. Dreyfus, Apprentissage statistique, Paris: Eyrolles, 2008.
[69] Y. Bennani et P. Gallinari, «Neural networks for discrimination and modelization of
speakers,» Speech communication, vol. 17, pp. 159-175, 1995.
[70] L. Deng et D. Yu, Deep Learning: Methods and Applications, Now Publishers, 2014.
[71] Y. Bengio, A. Courville et P. Vincent, «Representation Learning: A Review and New
Perspectives,» EEE Transactions on Pattern Analysis and Machine Intelligence, vol.
35, n° %18, pp. 1798-828, 2013.
[72] G. E. Hinton et S. Osindero, «A fast learning algorithm for deep belief nets,» Neural
Computation, vol. 18, 2006.
[73] D. Erhan, Y. Bengio, A. Courville, P.-A. Manzagol, P. Vincent et s. Bengio, «Why
Does Unsupervised Pre-training Help Deep Learning,» Journal of Machine Learning
Research, vol. 11, pp. 625--660, 2010.
[74] D. Yu et L. Deng, «Deep Learning and Its Applications to Signal and Information
Processing,» IEEE Signal Processing Magazine, vol. 28, n° %11, pp. 245-254, 2011.
[75] Y. Bengio, P. Lamblin, D. Popovici and H. Larochelle, "Greedy layer-wise training of
deep networks," in Twenty-First Annual Conference on Neural Information Processing
Systems, Vancouver, 2007.
[76] G. E. Hinton and T. J. Sejnowski, "Learning and relearning in Boltzmann machines," in
Parallel distributed processing: explorations in the microstructure of cognition,
Cambridge, MIT Press Cambridge, 1986, pp. 282-317.
160
[77] D. H. Ackley, G. E. Hinton et T. J. Sejnowski, «A Learning Algorithm for Boltzmann
Machines,» Cognitive Science, vol. 9, n° %11, p. 147–169, 1985.
[78] R. Salakhutdinov and G. Hinton, "Deep Boltzmann machines," in Proceedings of the
International Conference on Artificial Intelligence and Statistics, Clearwater, 2009.
[79] G. E. Hinton, "A Practical Guide to Training Restricted Boltzmann Machines," in
Neural Networks: Tricks of the Trade: Second Edition, Toronto, Springer Berlin
Heidelberg, 2012, pp. 599-619.
[80] Y. Bengio, «Learning Deep Architectures for AI,» Foundations and Trends in Machine
Learning, vol. 2, n° %11, pp. 1-127, 2009.
[81] Y. Bengio et O. Delalleau, «Justifying and Generalizing Contrastive Divergence,»
Neural Computation, vol. 21, n° %16, pp. 1601-1621, 2009.
[82] P. Baldi, "Autoencoders, Unsupervised Learning, and Deep Architectures," in
Unsupervised and Transfer Learning - Workshop held at ICML 2011, Bellevue, 2011.
[83] L. Arnold, S. Rebecchi, S. Chevallier and H. Paugam-Moisy, "An introduction to deep-
learning," in Advances in Computational Intelligence and Machine Learning,
ESANN'2011, 2011.
[84] A. Marchal et C. Cavé, L'imagerie médicale pour l'étude de la parole, Traité IC2, série
Cognition et traitement de l'information, 2009.
[85] M. Stone, «A Guide to Analysing Tongue Motion from Ultrasound Images,» Clinical
Linguistics and Phonetics, vol. 19, n° %16-7, pp. 455-502, 2005.
[86] T. Hueber, G. Chollet, B. Denby, M. Stone and L. Zouari, "Ouisper: Corpus Based
Synthesis Driven by Articulatory Data," in International Congress on Phonetic Science
(ICPhS), Saarbrücken, 2007.
[87] T. Hueber, G. Chollet and B. Denby, "Ultraspeech, a portable system for acquisition of
high-speed ultrasound, video and acoustic speech data," in Ultrafest V, New Haven,
2010.
[88] T. Hueber, G. Chollet, B. Denby and M. Stone, "Acquisition of ultrasound, video and
acoustic speech data for a silent-speech interface application," in Proceedings of the
International Seminar on Speech Production, Strasbourg, 2008.
[89] B. Denby, Y. Oussar, G. Dreyfus and M. Stone, "Prospects for a Silent Speech Interface
Using Ultrasound Imaging," in IEEE International Conference on Acoustics, Speech,
161
and Signal Processing, Toulouse, France, 2006.
[90] B. Denby, J. Cai, T. Hueber, P. Roussel, G. Dreyfus, L. Crevier-Buchman, C. Pillot-
Loiseau, G. Chollet, S. Manitsaris and M. Stone, "Towards a Practical Silent Speech
Interface Based on Vocal Tract Imaging," in International Seminar on Speech
Production 2011, Montreal, 2011.
[91] T. Hueber, E.-L. Benaroya, B. Denby and G. Chollet, "Statistical Mapping Between
Articulatory and Acoustic Data for an Ultrasound-based Silent Speech Interface," in
Interspeech 2011, Florence, 2011.
[92] S. K. Al Kork, A. Jaumard-Hakoun, M. Adda-Decker, A. Amelot, L. Buchman, P.
Chawah, G. Dreyfus, T. Fux, C. Pillot-Loiseau, P. Roussel, M. Stone, K. Xu and B.
Denby, "A Multi-Sensor Helmet to Capture Rare Singing, an Intangible Cultural
Heritage Study," in Proceedings of 10th International Seminar on Speech, Cologne,
2014.
[93] P. Chawah, T. Fux, M. Adda-Decker, A. Amelot, N. Audibert, B. Denby, G. Dreyfus,
A. Jaumard-Hakoun, C. Pillot-Loiseau, P. Roussel, M. Stone, K. Xu and L. Buchman,
"An educational platform to capture, visualize and analyze rare singing," in ISCA,
INTERSPEECH 2014: Show & Tell Contribution, Singapore, 2014.
[94] M. Stone et E. Davis, «A head and transducer support system for making ultrasound
images of tongue/jaw movement,» The Journal of the Acoustical Society of America,
vol. 98, n° %16, pp. 3107-3112, 1995.
[95] K. Xu, Y. Yang, A. Jaumard-Hakoun, M. Adda-Decker, A. Amelot, S. K. Al Kork, L.
Crevier-Buchman, P. Chawah, G. Dreyfus, T. Fux, C. Pillot-Loiseau, P. Roussel, M.
Stone and B. Denby, "3D tongue motion visualization based on ultrasound image
sequences," in Interspeech 2014, Singapore, 2014.
[96] K. Xu, Y. Yang, A. Jaumard-Hakoun, G. Dreyfus, P. Roussel, M. Stone and B. Denby,
"Development of a 3D Tongue Motion Visualization Platform Based on Ultrasound
Image Sequence," in Proceeding of 18th International Congress on Phonetic Sciences
(ICPhS 15), Glasgow, 2015.
[97] A. A. Wrench and P. Balch, "Towards a 3D Tongue model for parameterising
ultrasound data," in Proceeding of 18th International Congress on Phonetic Sciences
(ICPhS 15), 2015, 2015.
[98] I. Fasel and J. Berry, "Deep Belief Networks for Real-Time Extraction of Tongue
162
Contours from Ultrasound During Speech," in 2010 20th International Conference on
Pattern Recognition, 2010.
[99] Y. S. Akgul, C. Kambhamettu et M. Stone, «Automatic extraction and tracking of the
tongue contours,» IEEE Transactions on Medical Imaging, vol. 18, n° %110, pp. 1035-
1045, 1999.
[100] M. Li, R. Kambhamettu et M. Stone, «Automatic Contour Tracking in Ultrasound
Images».
[101] M. Aron, A. Roussos, M. Berger, E. Kerrien and P. Maragos, "Multimodality
acquisition of articulatory data and processing," in European Conference on Signal
Processing, Lausanne, 2008.
[102] T. F. Cootes, G. J. Edwards and C. J. Taylor, "Active appearance models," in European
conference on computer vision, Freiburg, 1998.
[103] A. Roussos, A. Katsamanis and P. Maragos, "Tongue tracking in ultrasound images
with active appearance models," in In IEEE International Conference on Image
Processing, Cairo, 2009.
[104] K. Xu, Y. Yang, M. Stone, A. Jaumard-Hakoun, C. Leboullenger, G. Dreyfus, P.
Roussel et B. Denby, «Robust contour tracking in ultrasound tongue image,» Clinical
Linguistics and Phonetics, vol. 1, n° %11, pp. 1-31, 2016.
[105] K. Xu, T. G. Csapo, P. Roussel et B. Denby, «A comparative study on the contour
tracking algorithms in ultrasound tongue images with automatic re-initialization,» The
Journal of the Acoustical Society of America, vol. 139, n° %15, pp. EL154-EL160,
2016.
[106] A. Jaumard-Hakoun, S. K. Al Kork, M. Adda-Decker, A. Amelot, L. Crevier Buchman,
G. Dreyfus, T. Fux, P. Roussel, C. Pillot-Loiseau, M. Stone and B. Denby, "Capturing,
Analyzing, and Transmitting Intangible Cultural Heritage with the i-Treasures Project,"
in Ultrafest VI, Edinburgh, 2013.
[107] J. Cai, T. Hueber, S. Manitsaris, P. Roussel, L. Crevier-Buchman, M. Stone, C. Pillot-
Loiseau, G. Chollet, G. Dreyfus and B. Denby, "Vocal Tract Imaging System for Post-
Laryngectomy Voice Replacement," in International IEEE Instrumentation and
Measurement Technology Conference, Minneapolis, MN, 2013.
[108] A. Jaumard-Hakoun, K. Xu, P. Roussel-Ragot, G. Dreyfus, M. Stone and B. Denby,
163
"Tongue contour extraction from ultrasound images based on deep neural network," in
Proceedings of the 18th International Congress of Phonetic Sciences, Glasgow, 2015.
[109] M. Stone, "Investigating speech articulation," in The Handbook of Phonetic Sciences,
Chichester, John Wiley & Sons, 2010, pp. 9-38.
[110] T. Hueber, Thèse de doctorat de l'Université Pierre et Marie Curie, Paris, 2009.
[111] S. Manitsaris, F. Xavier, B. Denby, G. Dreyfus and P. Roussel, "An Open Source
Speech Synthesis Module for a Visual-Speech Recognition System," in Acoustics 2012,
Nantes, 2012.
[112] J. Cai, T. Hueber, B. Denby, E.-L. Benaroya, G. Chollet, P. Roussel, G. Dreyfus and L.
Crevier-Buchman, "A Visual Speech Recognition System for an Ultrasound-Based
Silent Speech Interface," in International Congress on Phonetic Science, Hong Kong,
2011.
[113] T. Hueber, E. Benaroya, G. Chollet, B. Denby, G. Dreyfus and M. Stone, "Visuo-
Phonetic Decoding using Multi-Stream and Context-Dependent Models for an
Ultrasound-based Silent Speech Interface," in Interspeech, Brighton, 2009.
[114] T. Hueber, G. Chollet, B. Denby, G. Dreyfus and M. Stone, "Continuous-Speech Phone
Recognition from Ultrasound and Optical Images of the Tongue and Lips," in
Interspeech, Anvers, 2007.
[115] T. Hueber, G. Chollet, B. Denby, G. Dreyfus and M. Stone, "Phone Recognition from
Ultrasound and Optical Video Sequences for a Silent Speech Interface," in Interspeech,
Brisbane, 2008.
[116] J. D. Markel et A. H. Gray, Linear Prediction of Speech, Berlin: Springer Verlag, 1976.
[117] T. Parsons, "Linear Systems and Transforms," in Voice and speech processing, New
York, McGraw-Hill, 1986, p. 51.
[118] L. R. Rabiner et B. Gold, Theory and application of digital signal processing, Prentice-
Hall: Englewood Cliffs, 1975.
[119] T. Parsons, "Pitch and formant estimation," in Voice and speech processing, New York,
McGraw-Hill, 1986, pp. 197-198.
[120] K. Al-Naimi, S. Villette and A. Kondoz, "Improved LSF estimation through anti-
aliasing filtering," in IEEE Workshop on Speech Coding Proceedings, Tsukuba, 2002.
[121] M. Turk et A. Pentland, «Eigenfaces for Recognition,» J. Cognitive Neuroscience, vol.
164
3, n° %11, pp. 71-86, 1991.
[122] T. Hueber, G. Aversano, G. Chollet, B. Denby, G. Dreyfus, Y. Oussar, P. Roussel and
M. Stone, "Eigentongue Feature Extraction for an Ultrasound-Based Silent Speech
Interface," in Proceedings of ICASSP, Honolulu, USA, 2007.
[123] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio et P.-A. Manzagol, «Stacked Denoising
Autoencoders: Learning Useful Representations in a Deep Network with a Local
Denoising Criterion,» Journal of Machine Learning Research, vol. 11, pp. 3371-3408,
2010.
[124] P. Vincent, H. Larochelle, Y. Bengio and P. A. Manzagol, "Extracting and Composing
Robust Features with Denoising Autoencoders," in In Proceedings of the 25th
International Conference on Machine Learning, Helsinki, 2008.
[125] J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee and A. Y. Ng, "Multimodal Deep
Learning," in ICML 2011, Bellevue, Washington, USA, 2011.
[126] N. Srivastava et R. Salakhutdinov, «Multimodal Learning with Deep Boltzmann
Machines,» The Journal of Machine Learning Research, vol. 15, n° %11, pp. 2949-
2980, 2014.
[127] H. Stoppiglia, G. Dreyfus, R. Dubois et Y. Oussar, «Ranking a Random Feature for
Variable and Feature Selection,» Journal of Machine Learning Research, vol. 3, pp.
1399-1414, 2003.
[128] S. Rein, F. Fitzek et M. Reisslein, «Voice Quality Evaluation in Wirelesss Packet
Communication Systems: A Tutorial and Performance Results for ROHC,» IEEE
Wireless Communications, pp. 60-67, 2005.
[129] D. M. Howard, «Technology For Real-Time Visual Feedback In Singing Lessons,»
Research Studies in Music Education, vol. 24, n° %11, pp. 40-57, 2005.
[130] X. Rodet, "Synthesis and processing of the singing voice," in Proceedings of the 1st
IEEE Benelux Workshop on Model based Processing and Coding of Audio, MPCA-
2002, Leuven, 2002.
[131] F. Fontana and D. L. Gonzalez, "Advanced LPC techniques of voice regeneration for
"Virtual Dubbling"," in Forum Acusticum, Budapest, 2005.
[132] A. Dognon, Les ultrasons et leurs applications, Presses universitaires de France, 1953.
[133] Z. Tüske, P. Golik, R. Schlüter and H. Ney, "Acoustic Modeling with Deep Neural
165
Networks Using Raw Time Signal for LVCSR," in Interspeech, Singapore, 2014.
[134] D. d'Alessandro, N. d'Alessandro, B. Doval and S. Le Beux, "Comparing Time- and
Spectral-Domain Voice Source Models for Gestural Controlled Voice Instruments," in
Proc. of the International Conference on Voice Physiology and Biomechanics, Tokyo,
2006.
[135] A. Ferencz, J. Kim, Y.-B. Lee and J.-W. Lee, "Automatic pitch marking and
reconstruction of glottal closure instants from noisy and deformed electro-glotto-graph
signals," in 8th International Conference on Spoken Language Processing, Jeju Island,
2004.
166
TONGUE CONTOUR EXTRACTION FROM ULTRASOUND IMAGES
BASED ON DEEP NEURAL NETWORK
Aurore Jaumard-Hakoun1,2*, Kele Xu1,2*, Pierre Roussel-Ragot2*, Gérard Dreyfus2, Maureen Stone3, Bruce
Denby1,2*
1
Université Pierre et Marie Curie, Paris, France
2
SIGnal processing and MAchine learning Lab, ESPCI ParisTech, PSL Research University, Paris, France
3
Vocal Tract Visualization Lab, University of Maryland Dental School, Baltimore, USA
*Present affiliation: Institut Langevin, ESPCI ParisTech, PSL Research University, Paris, France
[email protected], [email protected]
Table 2: Influence of the number of hidden units on During the training stage, we used an autoencoder
the validation error for the 3 layer model. made of a 3-layer encoder associated with a
Number of hidden units Validation error symmetric decoder, with 2,000 hidden units, mini-
per layer batches of size 100 and 50 epochs. The evaluation of
500 0.41 the quality of tongue shape reconstruction requires
1000 0.38 definite criteria and comparison to a reference.
2000 0.37 Generally speaking, a proper tongue shape is a curve
that follows in a realistic manner the lower edge of
3.3. Use of mini-batches the bright line appearing on an ultrasound image. It is
important to extract the entire visible surface
The use of mini-batches speeds up the algorithm appearing in the ultrasound image, without adding
because a weighted update occurs for each mini-batch artifacts [10]. In order to evaluate the quality of
instead of each example. However, finding an ideal tongue shapes obtained with the DL method, we
mini-batch size is not straightforward. According to trained the network on a 17,000 example database and
[9], the training set should be divided into mini- randomly selected another 50 ultrasound images from
batches of 10 to 100 examples. We decided to test the same recording session and same speaker to test
tongue contour reconstruction using several mini- the tongue contour extraction. We first compared the
batch sizes: 10, 50 and 100 examples per mini-batch. contour coordinates obtained with DL to those
obtained with manual labelling. However, the set of
Table 3: influence of mini-batch size on the tongue contour coordinates does not always have the
validation error. same number of points (see figure 2), so that
Mini-batch size Validation error comparison between coordinates is not
10 0.65 straightforward. In [11], a measure is proposed to
50 0.53 compare each pixel of a given curve to the nearest
100 0.38 pixel (in terms of 𝐿1 distance) on the curve it is
200 0.40 compared to. This measure, named Mean Sum of
Distances (MSD) (see eq. (1)), provides an evaluation and [13]), is compared to two manual inputs from two
in pixels of the mean distance from a contour 𝑈 to a different experts. To compare MSD values in pixels
contour 𝑉, even if these curves do not share the same for different resolutions, we converted these values
coordinates on the 𝑥 axis or do not have the same into millimetres using image resolution. Image size
number of points. Contours are defined as a set of was 112.9 x 89.67 mm. The comparison between an
(𝑥, 𝑦) coordinates: 𝑈 is a set of 2D points (𝑢1 , … , 𝑢𝑛 ) expert 1 and an expert 2 gives a MSD of 0.85 mm (2.9
and 𝑉 is a set of 2D points (𝑣1 , … , 𝑣𝑚 ). MSD is pixels with the conversion 1 px = 0.295 mm), the
defined as followed: comparison between expert 1 and EdgeTrak gives a
MSD of 0.67 mm, while the comparison between
1 expert 2 and EdgeTrak gives an MSD of 0.86 mm. In
𝑀𝑆𝐷(𝑈, 𝑉) = (∑𝑚
𝑖=1 min|𝑣𝑖 − 𝑢𝑗 | +
𝑚+𝑛 𝑗 (1) [1], after 5 cross-validations, the average MSD
∑𝑛𝑖=1 min|𝑢𝑖 − 𝑣𝑗 |). computed on 8640 images is 0.73 mm. Our MSD
𝑗
values, computed with the equivalence 1 px = 0.35
mm, are quite similar to these, which allows us to
conclude that the results obtained using DL trained
with an automatic algorithm are of good quality.
Gel Droplet
EGG
elt Microphone
Piezo
5. Acknowledgements
This work is funded by the European Commission via the i-
Treasures (FP7-ICT-2011-9-600676-i-Treasures).
6. References
Cai, Jun, Thomas Hueber, Bruce Denby, Elie-Laurent Benaroya,
Gérard Chollet, Pierre Roussel, Gérard Dreyfus, and Lise
Figure 8 Three vocalic /o/ samples of different style singing Crevier-Buchman. 2011. "A visual speech recognition
voice (Byzantine,Cantu in Paghjella, HBB). Spectrograms system for an ultrasound-based silent speech interface." In
(10kHz band in black on the left) and f0 curves (in blue on the Proc. of ICPhS. pp. 384-387.
Denby, B., and M. Stone. 2004. "Speech synthesis from real time
right) are shown in the upper panel, corresponding acoustic ultrasound images of the tongue." In Acoustics, Speech and
waveforms in the lower one. Signal Processing; ICASSP. pp 685-I688.
Henrich, N., C. d'Alessandro, M. Castellengo, and B. Doval. 2004. "On
the use of the derivative of electroglottographic signals for
characterization of nonpathological voice phonation."
Journal of the Acoustical Society of America pp. 1321-1332.
Proctor, M., E. Bresch, D. Byrd, K. Nayak, and S. Narayanan. 2013.
"Paralinguistic mechanisms of production in human
“beatboxing”: A real-time magnetic resonance imaging
study." Journal of the Acoustical Society of America (JASA)
133 (2): pp. 1043-1054.
Stevens, K.N., D.N. Kalikow, and T.R. Willemain. 1990. "A miniature
accelerometer for detecting glottal waveforms and
Figure 9 Byzantine Singing Case: Left) Ultrasound nasalization." Journal of Speech and Hearing Research
Tongue image. Right) Video camera lip image JSHR pp. 594-599.
Tsui, W.H., and Tzu-Chien Hsiao. 2013. "Method and System on
Detecting Absominals for singing." Proc. IEEE EMBC.
pp.1-8.
Wrench, A., J. Scobbie, and M. Linden. 2007. "Evaluation of a helmet
to hold ultrasound probe." Ultrafest IV.