La Musicalite de La Voix Parlee

Grgory Beller
Janvier 2005
La musicalit
de la voix parle
IRCAM
Equipe Analyse Synthse
Groupe de recherche : La voix
La musicalit de la voix parle
Grgory Beller
Plan
Description sommaire des diffrentes parties

Introduction
I
tat de l'art...
I.1
La prosodie:
I.1.a
Remarques globales :
I.1.b
Le cas du Franais :
I.1.c
les modles accentuels de la phrase franaise :
I.1.d
La prosodie dans la synthse de la parole :
I.1.e
Automatic prosody generation using suprasegmental Unit Selection :
I.2
Synthse de la parole :
I.2.a
Contexte du stage :
I.2.b
Systme mis en place TALKAPILLAR :
II Des oeuvres artistiques...
II.1
La voix comme matriau sonore :
II.1.a
Le rapport musique/verbe dans lopra :
II.1.b
La voix dans la musique contemporaine :
II.1.c
La voix comme processus compositionnel :
III
Pices crites:
III.1
Fo-low :
III.2
DisCutIon :
IV
Questions ouvertes :
IV.1
Qu'en dit notre cerveau...
IV.2
Le langage motif musical :
IV.3
la musicalit ?
IV.3.a
Peut-on quantifier la musicalit ?
IV.3.b
Transformation de la musicalit de la voix
IV.3.c
Ecoute(s) :
IV.3.d
Entretien avec un conteur, Abbi Patrix :
V Le rapport parole/musique
V.1
Vers une identit musicale ?
V.2
Similitudes structurelles entre la parole et la musique :
V.3
Prosodie musicale :
Conclusion
Bibliographie
Autres rfrences
Arborescence du CD-ROM joint
Exemple dune segmentation temporelle de la parole
7
7
7
8
11
13
15
17
17
20
22
23
23
25
29
33
33
39
41
41
47
52
52
53
56
59
62
62
65
70
Grgory Beller
Description sommaire des diffrentes parties:

tat de l'art...
Dans cette partie introductive, nous dressons un panorama des diffrents moyens
de synthtiser la prosodie du Franais. Aprs l'numration de nombreux modles, nous
terminons par celui que nous avons retenu pour le systme TTS (Text-To-Speech) dvelopp
dans l'quipe Analyse Synthse, appel TALKAPILLAR. Cet tat de l'art reprsente une base
scientifique et bibliographique non exhaustive de l'tude de la prosodie du Franais.
II
Des oeuvres artistiques...
22
Afin de tisser le lien entre la parole et la musique, cette partie propose un survol
de l'emploi de la voix parle des fins musicales. Son exploitation par de nombreux
compositeurs durant le sicle dernier s'tant accrue, nous proposons deux axes de
regroupement: L'utilisation de la voix comme matriau sonore et l'introduction de la voix dans
les processus compositionnels. Nous ne tentons pas de dresser une liste complte d'uvres
mais plutt d'en aborder quelques unes sous forme d'exemples.
III
Pices crites:
33
Sont exposs ici les concepts et mises en uvre de deux pices, cres par
Grgory Beller durant l'anne 2004. Si l'une n'est pas proprement lie la voix (Fo-Low),
l'autre en revanche (DisCutIon) propose l'utilisation directe du systme TALKAPILLAR et
quelques pistes pour la cration musicale partir de la prosodie.
IV
41
Avant de rapprocher l'coute de la musique celle de la voix parle, nous

dressons en premier lieu un tat de l'art des neurosciences qui laisse entendre qu'un tel
rapprochement est possible dans l'tat actuel de nos connaissances. Puis nous traitons du
langage motif musical, pont entre la psychophontique et la musicologie. Enfin nous tentons
de dfinir ce que veut dire la musicalit par des entretiens avec des gens du thtre et du
conte.
V
Le rapport parole/musique
62 :
Cette dernire partie est riche en ouvertures et en parallles entre la parole et la

musique. Les similitudes structurelles et le fait que nous coutions ces deux modes de
communication de la mme oreille sont deux exemples cits. En tout dernier lieu, nous
tentons de donner des pistes pour de futures recherches tant scientifiques que musicologiques
s'appuyant sur l'examen des comparaisons entre la prosodie verbale et la prosodie
instrumentale (li l'interprtation lors de performances).
Grgory Beller
Introduction:
Au dbut, il y a le son...
La musique est notre plus ancienne forme d'expression, prcdant le langage et
l'art; Cela commence avec la voix, et par notre dsir accablant de joindre les autres. En effet,
la musique remonte beaucoup plus loin que les mots. Ces derniers tant des symboles
abstraits qui vhiculent des penses factuelles. La musique touche nos sentiments bien plus
que ne le font les mots, et elle nous fait ragir de tout notre tre. 1
La voix est depuis toujours, l'instrument de musique le plus utilis et le plus
rpandu. En effet, chacun la possde et nul n'a jamais chant durant sa vie. Certains diront que
le chant ne leur a jamais plu et que par consquent, ils peuvent affirmer n'avoir jamais mis
une note de leur bouche. A cela, je leur dirais qu'il est trop tard... Car ils viennent de le dire, et
donc, d'mettre un son qui de part sa nature possde une hauteur et une temporalit qui la font
ressembler fortement ce que l'on appelle communment une note de musique. Chanter
lorsqu'on parle... Est-ce une hrsie ?
Une chose est sre, notre organe vocal nous permet tous de communiquer par
l'intermdiaire du son qu'il met, des informations mises en forme par notre cerveau. Que ce
soit par le chant ou par la parole, nous sommes capables d'exprimer nos motions et bien
d'autres choses encore. De manire complmentaire, notre oreille assure la rception du
message et notre cerveau le dcode. Quelle est alors la vritable nature de cette information
lors de la communication acoustique. Est-ce du chant, est-ce de la parole ? Dans tous les cas,
le message est sonore. D'o vient alors cette distinction entre voix parle et voix chante ?
La voix chante est caractrise par la hauteur, l'intensit et le timbre. La
boucle audio-phonatoire a un rle capital dans la voix chante. La voix chante reprsente en
gnral 90 95 %, le silence et la phase de rcupration 10 % pendant la performance vocale.
La voix parle peut se diviser habituellement en 2 facteurs temporels: la voix sonore ellemme 85 %, et le silence entre les mots 15 %. 2
Serait simplement une diffrence dans sa temporalit? Il est vident que non. Les
distinctions gnralement admises entre langage et musique s'tablissent dans leurs fonctions,
1
2
Y. MENUHIN, 1979, Menuhin and Davis

J.M. ALBY, C. ALES, P. SANSOY, 1988, L'esprit des voix
Grgory Beller
largement considres comme diffrentes. Nous y reviendrons plus tard. Mais comment figer
un instrument aussi versatile que la voix dans l'une ou l'autre de ces fonctions? Voici par
exemple deux de ses capacits:
La voix est un instrument fondamental de la sociabilit humaine: Elle est le
moyen, le canal le plus usit, le plus courant de toute relation entre plusieurs personnes. Plus
facile dans la proximit, elle peut cependant galement plus ou moins vaincre les distances en
jouant sur son intensit. Dans un dialogue, dans une conversation, elle permet d'entamer,
d'entretenir, de mettre fin au rapport que l'on a avec l'autre par l'intermdiaire de la parole. 3
La voix est l'instrument le mieux partag entre les tres humains. Il n'existe pas
de peuple qui ne chante pas. Chaque socit a son chant dans l'espace et dans le temps. La
musique vocale est le plus important et le plus ancien de tous les arts. L'histoire de la
musique, tout au moins jusqu'au XVme sicle, se confond avec l'histoire de la musique
chante. 4
Instrument de musique pour tous et moteur de notre sociabilit, la voix est
multifonctionnelle dans son usage. Mais ne le serait-elle pas aussi lorsque nous l'employons
seulement pour la communication verbale. Qu'en est-il de la reprsentation acoustique du
langage ? Reste-il langage lorsque il est exprim physiquement ? Ou bien est-il son, son
musical avant que notre cerveau ne le ramne l'tat de substance smantique ?
La premire partie de ce mmoire met en valeur le travail scientifique que j'ai
effectu durant cette anne au sein de l'IRCAM. Aprs avoir dcrit scientifiquement ce qu'est
la prosodie, nous expliquons comment nous procdons pour la synthtiser en vue de
reproduire l'expression d'un locuteur spcifique.
Puis la seconde partie propose de dresser un tat de l'art non exhaustif de
l'emploi de la voix parle dans la composition musicale. Nous verrons comment la musique
contemporaine s'est approprie cet instrument, tout en montrant que les liens entre la musique
et la prosodie existent depuis plus longtemps.
La troisime partie reflte les pices musicales que j'ai composes durant l'anne
et en explique les fondations conceptuelles ainsi que les moyens utiliss pour les exprimer.
Enfin, la quatrime et dernire partie de ce mmoire tente d'initier une discussion
sur les liens entre prosodie et musique en ouvrant la problmatique sur plusieurs domaines
d'tude : Des neurosciences la philosophie.
J. ABITBOL, 1983, Voyage au centre de la voix
A. CHARVET, 2004, La voix et ses mtamorphoses dans les mtamorphoses d'Ovide
4
Q.H. TRAN, 1980, Les musiques vocales
3
Grgory Beller
Ce mmoire a pour but d'explorer les liens entre la prosodie et la musique o

plus gnralement, entre le langage et la musique. Sans vouloir dresser des conclusions, il
permet toutefois de nuancer des frontires communment acceptes et ceux, en traversant
plusieurs domaines d'tude assez loigns au premier abord. Nous verrons que de nombreux
chercheurs et musiciens d'horizons varis se posent des questions qui se ressemblent et les
rassemblent. Tout est li...
Grgory Beller
I tat de l'art...
I.1 La prosodie:
La voix prend corps qui trahit un sujet et un tre parlant. 5
Dans cette partie, nous allons tenter de dresser un portrait scientifique de la
prosodie sans chercher la dfinir. Nous nous sommes largement appuys sur des papiers
rdigs par des spcialistes6 en traitement de la parole afin de dresser un cadre le plus
rigoureux et le plus prcis possible. Ce faisant, nous pouvons tout de mme apercevoir qu'il
existe plusieurs modles prosodiques, tous diffrents de part leurs interprtations et que par
consquent, il n'existe pas aujourd'hui de dfinition absolue de ce qu'est la prosodie. De plus,
nous cantonnons cette description l'tude des faits prosodiques du Franais afin de
restreindre notre domaine de recherche.
I.1.a Remarques globales :

L'intonation joue des rles multiples dans le langage de tous les jours. Elle
reflte la structure hirarchique de la phrase, et au-del de la phrase, celle du discours. Elle
distingue une question d'une rponse. Elle dsambiguse des squences telle que Je ne
veux pas mourir idiot (la prosodie doit prciser lequel des deux est l'idiot, le locuteur ou
l'interlocuteur). Elle exprime des attitudes, des motions. Elle n'arrive pas, cependant,
reprsenter des objets, des structures, des vnements. Elle n'a pas de fonction reprsentative,
comme les mots, et pas mme une fonction figurative, non conceptuelle comme les gestes. 7
La structure prosodique rsulte dinteractions complexes entre diffrents niveaux
dorganisation smantico-pragmatique, syntaxique et rythmique. Elle se manifeste par le jeu
simultan de plusieurs paramtres acoustiques : la frquence fondamentale Fo, le timbre,
lintensit, la dure des phonmes. Perceptivement, la hauteur et son volution, le rythme et le
tempo (dbit), le registre et le timbre mais aussi les pauses et les silences nous permettent la
5
P.L. HASSOUN
Anne Lacheret-Dujour et Frdric Beaugendre.La prosodie du Franais. CNRS Langage. CNRS edition.
7
I. FONAGY, 1983, la vive voix, essais de psycho-phontique
6
Grgory Beller
comprhension dinformations au-del des mots prononcs. Cest cette deuxime partie du
double codage de la parole qui lui confre un caractre naturel et vite la monotonie. Elle
permet entre autre de vhiculer des informations ectolinguistiques ou phonostylistiques
(expressivit, sentiments), de lever des ambiguts de sens entre deux phrases phontiquement
similaires et de structurer lnonc.
La variation de hauteur est certainement lindice acoustique le plus important
dans la prosodie. Le registre couvert par la plupart des locuteurs est souvent divisible en 4
niveaux perceptivement distinguables : Nous les nommerons:
H+H+ : niveau le plus haut
HH
LL
L-L- : niveau le plus bas
La frquence fondamentale Fo volue dans ce registre. Son volution au cours du
temps dcrit des contours. Une phrase est gnralement compose dune suite de contours qui
ne suivent pas ncessairement la mme orientation de pente. On observe cependant une
dclinaison gnrale qui correspond un abaissement de Fo du dbut la fin de l'nonc. La
hauteur la plus basse correspond donc la fin de cet nonc et constitue ainsi un bon indice de
segmentation. Ce phnomne priori universel est de nature physiologique, mais il est gr
par le locuteur des fins linguistiques; il permet de dlimiter la fin d'une phrase syntaxique. Il
faut remarquer que lon ne peut valuer cette frquence fondamentale que sur les segments
voiss (voyelles et quelques consonnes...). Aussi, nous extrapolons celle-ci durant les
segments non voises afin davoir des contours continus. De plus, La hauteur de la voix tant
fondamentalement diffrente selon le locuteur, on ne peut associer aux niveaux dcrits
prcdemment des valeurs de frquence fixes.
I.1.b Le cas du Franais :

Le franais est une langue accent fixe ou accent de groupe (de mot). Elle se
distingue ainsi des langues accent libre comme langlais. Langlais est une langue trs
musicale, caractrise par de fortes variations de hauteurs et couvrant une large tessiture. Il
utilise principalement les variations de hauteur et dintensit. Les tons mlodiques sont trs
difficiles acqurir pour les Franais dont la tessiture est restreinte. Dautre part,
Grgory Beller
lorganisation rythmique de langlais est compltement diffrente de celle du franais.

Langlais est une langue stress timed8 o laccent nest pas prdictible, mais lespace entre
deux pics accentuels est peu prs stable. A linverse, la place de laccent tonique en franais
est totalement prdictible puisquelle affecte toujours la dernire syllabe du groupe rythmique.
On distingue deux types daccents qui mettent en relief la phrase :
-Laccent primaire (ou tonique) se traduit par un allongement de dure et une variation
significative de Fo. Il a une fonction structurante et peut se dduire de la syntaxe.
-Laccent secondaire se manifeste par des variations plus subtiles de Fo et de lintensit. Il a
une fonction focalisante, rhtorique ou expressive.
Cette distinction est fondamentale car elle met en valeur la diffrence
fonctionnelle de ces deux accents. Ils sont les marqueurs temporels et acoustiques de deux
types de groupes :
-Les groupes intonatifs (qui se terminent par un accent primaire). Ils expriment la modalit
de la phrase. Ils ne sont pas congruents la syntaxe mais la syntaxe est congruente
lintonation.
-Les groupes accentuels (qui contiennent un accent secondaire). Ils mettent en relief des
mots.
Les groupes intonatifs comprennent gnralement un ou plusieurs groupes
accentuels. Mais cet imbriquement et cette diffrence de dure nimpliquent en rien une
hirarchisation entre ces deux lments car ils ne possdent pas la mme fonction :
-Lintonation :
Expression de la structure, modalit
=>invariance monotonie
Expression normalise
=>cadre normatif
Adhsion une structure sociale
Force de cohsion
Globale (phrase)
8
Pike, 1947
Grgory Beller
-Laccent :
Expression individualise
=>variabilit, subjectivit
Excursion mlodique
=>expression originale
Rupture fondatrice dune individualit
Force de dissociation
Locale (mot)
Lintonation permet de manifester la modalit de la phrase en franais :
-phrase assertive : contour descendant du niveau haut au niveau moyen
h
m
b
-phrase imprative : contour descendant linairement du niveau haut au niveau bas
h
m
b
-question partielle ou interrogation : contour courbe descendant du niveau haut au niveau bas
h
m
b
-question totale : contour courbe montant du niveau bas au niveau haut
h
m
b
Le laboratoire de morphosyntaxe de Paris III (1991-1997) propose daffiner cette

description par contours en positionnant le locuteur sur ce quil dit : Chaque niveau de hauteur
tant le reflet de ce positionnement :
10
Grgory Beller
-H+H+ : Mise en place de la co-nonciation

-HH : Consensualit acquise
-LL : Niveau neutre
-L-L- : Rupture de la co-nonciation/gocentrage
Lattitude monologale (contour descendant du LL au L-L-) et lattitude dialogale
(contour montant du HH au H+H+) deviennent des descripteurs de contour efficients pour
exprimer les modalits suivantes :
-lincise (parenthse) : acclration du dbit
-la ngation : * discordance de point de vue

* Dsengagement du locuteur
-la question : * valeur neutre et consensuelle
?
=>
* Changement de thme, demande de confirmation

?
=>
* Suscite une raction, nonciative

?
-lexclamation : * appel une convergence de point de vue
!
* Ironie, gocentrage suivant un consensus
!
* Surprise, discontinuit dans le fonctionnement de la pense
!
I.1.c les modles accentuels de la phrase franaise :

Les recherches sur la prosodie ont aboutit de nombreux modles accentuels de
la phrase franaise :
11
Grgory Beller
- Ph. Martin (1980) construit des rgles fondes sur les corrlations entre relations syntacticosmantiques et le caractre accentuelle des units. Des relations de dpendances syntaxiques
(simple et distance) construites linairement (de gauche droite) permettent de discerner
lunit accentuable.
- S.P. Verluyten (1982) tablit une hirachisation de la phrase en groupes intonatifs (dduits
de la syntaxe) et en groupes accentuels (dduits de la longueur des mots) et ajoute ces rgles
lexicales des rgles de rajustement rythmique pour tenir compte du principe disochronie de
la langue franaise (galit de dure entre deux syllabes non marques (NA)).
- F. Dell (1984) prdit le degr accentuel grce un rajustement rythmique par degr
deurythmie (qui nauthorise pas que deux accents forts se suivent par exemple).
- Une extension du modle de Ph. Martin (1986-1987) saffranchit de la structure syntaxique.
Elle propose plusieurs dcoupages en groupes accentuels et choisit celui ayant la meilleure
eurythmie.
- A. Di Cristo et D. Hirst (1993-1996) construisent une grille mtrique grce des rgles
eurythmiques permettant lattribution des accents. Leur dmarche diffre dans le sens ou ils
dfinissent le rythme comme lvolution simultanne de la dure et du ton.
- Pasdeloup (1990) prtend que laccent est un processus de groupement rythmique. Il
instaure une hirarchie en quatre niveaux allant de la phrase la syllabe. Quatre rgles
gnrent en suite la prosodie.
- E. Delais-Roussarie (1995) utilise la thorie de loptimalit : La gnration accentuelle
seffectue en trois tapes :
-Gnration de candidats (Groupes intonatifs et groupes accentuels)
-On fait passer ces candidats dans trois modules parallles de contraintes
hierarchises (modules syntaxe, rythme et smantique)
-On value le candidat optimal selon une hirarchie de contraintes.
Tous ces modles sont issus dobservations et aboutissent pour la plupart des
jeux de rgles. Quils partent danalyses syntaxique, phonologique ou rythmique (psychoacoustique), ils permettent de mieux comprendre d'o proviennent les paramtres acoustiques
de la prosodie.
Cependant, il convient de se demander sils sont adapts la prdiction
12
Grgory Beller
prosodique pour une gnration automatique qui se veut naturelle et surtout personnalise.
Peux t-on envisager une construction de la prosodie par rgles dans le cadre de la restitution
de la voix d'un locuteur spcifique ? Llaboration de tous ces modles vise obtenir une
vision globale et gnraliste de la structuration prosodique. Dans tous les cas, ces modles ont
t labors dans loptique de prdire lvolution des paramtres acoustiques de nimporte
quel locuteur. Cela revient dire que, par conception, ces rgles ne peuvent aboutir quau
caractre normalis de notre expression.
En effet, de nombreux modles ne cherchent prdire que lapparition des
accents primaires, qui sont les indices de la modalit (frontires des groupes intonatifs). Elles
ne mnent que rarement aux marqueurs accentuels (accents secondaires) propres
lexpressivit et dont les apparitions rvlent la personnalit prosodique de chacun. Une
approche par rgles nous est donc prohibe si nous voulons restituer dans des phrases
synthtises, la personnalit dun locuteur spcifique.
I.1.d La prosodie dans la synthse de la parole :

La synthse de la prosodie apparat clairement indispensable pour tout systme
TTS (Text To Speech) qui dsire vhiculer des informations que ne peut contenir les mots
seulement. On distingue dans la littrature, trois mthodes pour la gnration de la prosodie :
- Lapproche par rgles.
- Lapproche base sur lapprentissage partir de corpus :
* par rseaux de neuronnes
* par HMM (Hidden Markov Models)
* par dautres mthodes statistiques...
- Lapproche par slection dunits.
La connaissance de patrons intonatifs ou contours types permet aux domaines de
la reconnaissance et de la synthse de la parole dlaborer des modles de lintonation
franaise :
- Au CNET (1977-1989) : On tudie un corpus pour en extraire un jeu de rgles qui attribue
un patron intonatif en fonction de la syntaxe.
13
Grgory Beller
- Chez IBM (1971-1980) : On construit un jeu de rgles statuant 9 contours types selon le
nombre de syllabes, le nombre de mots... On distingue quatre niveaux dans une phrase :
phrase, proposition, groupe et mot. Lauteur prcise que les niveaux phrase et groupe suffisent
pour la majorit des noncs. Cela revient un peu ngliger les accents secondaires.
- G. Bailly (Grenoble) (1983) : Il segmente aussi la phrase en groupes de respiration, de
phonation, de sens. Leurs tailles sont gnralement comprises entre 8 et 12 syllabes.
Pour genrer les contours, il utilise le modle de H. Fujisaki.
Le modle de H. Fujisaki :
La continuit des contours est de nature physiologique. Ils rpondent des commandes
discrtes :
- commande de groupe : rponse dun 2nd ordre un Dirac.
- commande daccent : rponse dun 2nd ordre un Echelon.
Ce second ordre modlise le muscle crico-thyrodien (en translation et en
rotation). Lavantage de cette modlisation et quelle prsente des coefficients constants
fittables pour chaque locuteur). Seuls lamplitude et le temps de dclenchement varient. Les
trois commandes de groupe sont : Initialisation, rinitialisation, Finalisation. Ils correspondent
lexpression de la modalit.
- V.Auberg (Grenoble) (1991-1997) : Cration dun lexique de contours. Il part de

lautonomie entre syntaxe et prosodie. Grce un rseau de neurones entran sur un corpus,
il cre un lexique faisant le lien entre syntaxe et contours prototypiques. Cest aujourdhui le
modle le plus abouti.
- F.Beaugendre (LIMSI) (1994) : Reconnaissance de contours perceptivement pertinents. 30
rgles pour la gnration de mouvements standards.
Dans le contexte dune synthse par concatnation dunits (allant du semiphone au mot ou plus), il semble logique de slectionner aussi des units prosodiques...
Mais ce choix vient en fait de motivations plus profondes. En effet, cette approche permet tout
dabord une plus grande varit prosodique que les approches par rgles. De plus elle permet
de reflter le caractre prosodique de lindividu (chacun ayant ses modes dintonation,
14
Grgory Beller
registre...), ce qui est essentiel compte tenu de notre but artistique : Restituer la voix d'un
locuteur spcifique. Enfin, lintroduction de contours rels de Fo sur des blocs de parole
permet de conserver la structure micro mlodique9.
I.1.e Automatic prosody generation using suprasegmental Unit Selection

(Malfrre, Dutoit et Mertens) 1998 :
Le systme de luniversit polytechnique de Mons que nous allons dcrire repose
sur la slection dunits prosodiques. Il utilise le gnrateur LIPSS du projet EULER qui
gnre une description symbolique de la prosodie partir dun texte (fichier .txt.mlc) :
-une tude syntaxique donne les accents finals qui dlimitent les units :
-NA : syllabe non accentue
-AF : syllabe accentue (accent final=accent primaire)
-UNDEFINED : pause (silencieuse)
-une tude de la modalit donne la hauteur du ton final :
-dclaration : L-L-interrogation : HH
-exclamation :
H+H+
-temps de pause : P1 ou P2
Ce gnrateur est appliqu aux phrases de la source comme celles de la cible. Il
permet de crer des units descripteurs prosodiques de longueurs variables et dont les
frontires sont les accents finals. Ainsi, chaque unit descripteur prosodique possde une cl
propre reprsentant :
-Lindex de lunit dans la phrase
-les tons des accents finals de dbut (qui appartient lunit prcdente) et de fin dunit
-le nombre de syllabes neutres, inaccentues dans lunit
Cette cl peut ressembler par exemple : 2 FA1NA1NA2NA3FA2 ou FA1 et
9
A. DI CRISTO, 1982, Prolgomnes l'tude de l'intonation Micromlodie
15
Grgory Beller
FA2 prennent leur valeurs dans {HH, H/H, L-L-, H+H+, N} dans lequel N reprsente le dbut
d'une phrase. On ajoute aux cls des units de la source des marqueurs en liens avec le fichier
audio align qui nous permettent de retrouver les paramtres acoustiques comme lvolution
relle de Fo durant lunit... Le choix de lunit optimale seffectue en minimisant une
fonction de cot. Comme pour le choix dunits segmentales, cette fonction de cot rsulte de
laddition de deux cots :
-cot de distance la cible :
-les tones des premier et dernier accents doivent correspondre
-une pondration est ajuste en tenant compte du nombre de syllabes
-une autre est fonction de la position de lunit dans la phrase
On obtient ainsi une prslection de plusieurs units candidates.
-cot de concatnation :
Il est seulement bas sur la proximit des valeurs moyennes de Fo de deux units
conscutives.
On aboutit grce un algorithme de Viterbi la slection finale des units en
choisissant celles dont lenchanement prsente le cot le plus faible. Puis on va extraire des
units suprasegmentales de la source choisies, les paramtres acoustiques (lvolution de Fo).
Ensuite, on les fournit lorgane de synthse (MBROLA) pour que celui-ci applique des
transformations lmentaires lenchanement des units segmentales choisies en parallle.
Ainsi la phrase synthtise prsente une courbe intonative semblable celle quaurait pu
produire le locuteur lui-mme.
Enfin le rythme est gnr par rgles grce CART, module du systme
FESTIVAL (systme amricain).
De manire s'carter de ces dfinitions scientifiques, voici une dfinition plus
littraire qui nous permet de rejoindre nos questions fondamentales concernant les liens entre
la prosodie et la musique.
Les lments prosodiques du langage sont ses lments musicaux, intonation et schma
rythmique. Ils sont conventionnels mais motivs, car leur caractre gestuel n'est jamais
compltement aboli. 10
10
16
Grgory Beller
Le champ smantique musical utilis ici montre bien la dimension musicale que
possde l'intonation. Lorsque nous parlons de dure, de hauteur, de rythme, d'intensit... Nous
sommes en train de parler de notes de musiques.
On pourrait rtorquer que les diffrences de hauteur n'entrent par dans le registre
musical cause de leurs faibles ambitus; Que les variations du signal de parole sont trop
faibles pour tre considrer comme un signal musical. On pourrait le faire, mais ce serait
ngliger toute l'volution musicale du sicle dernier. En effet, la musique contemporaine dans
son ensemble a vu natre des critures registres restreints comme la micro-tonalit (quart de
tons, huitime de tons) et des exploitations diverses de la voix parle pour ses qualits
musicales. Nous verrons un peu plus loin de nombreux exemples de son utilisation dans des
pices contemporaines.
I.2 Synthse de la parole :

Ce chapitre dcrit le systme ralis lors d'un stage l'IRCAM dans le
laboratoire Analyse-Synthse sous la direction de Xavier Rodet11.
La synthse de la parole par slection dunits est aujourdhui la manire la plus
efficace de synthtiser la parole. En effet, lintelligibilit du rsultat confre pour linstant
cette mthode, un intrt plus grand que les synthses bases sur des modles (modles
physiques paramtriques) ou celles base de transformations. Aussi dsire t-on maintenant
ajouter la voix ainsi gnre, un aspect naturel. Cet enjeu passe par la gnration de la
prosodie.
I.2.a Contexte du stage :
I.2.a.i
de CATERPILLAR TALKAPILLAR :
La synthse musicale par slection dunits consiste choisir dans une large base
de donnes les units sonores les plus appropries pour construire, par concatnation et
11
Le rapport de stage ainsi quune prsentation Power-point figurent sur le CD-ROM joint.
17
Grgory Beller
modification, la phrase musicale produire. La thse de D. Schwarz sur ce sujet sest

termine en 2004.
Elle prsente :
Constitution dune large base de donnes par alignement de partitions.
Cration dun systme de gestion et de slection : CATERPILLAR
Applications musicales.
Consquemment ses travaux, une application en voix parle a t aussi
envisage dans le cadre dun projet de reconstitution de la voix dun locuteur disparu. Ce
stage sinscrit dans ce projet de synthse de la parole de haute qualit : TALKAPILLAR. Ce
projet vise synthtiser la voix de locuteurs spcifiques (Jean Cocteau et Xavier Rodet) pour
rendre audibles des textes jamais prononcs par ces locuteurs.
Il a donc une double vocation :
- artistique, tout dabord.
- scientifique, dans la mesure o il participe aux recherches effectues dans ce
domaine.
La gnration de la prosodie par slection dunits est mi-chemin entre la
synthse de la parole et la synthse musicale. Dailleurs, on parle galement de prosodie
instrumentale lorsquon veut dcrire des nuances de pitch expressives (vibrato, pitch bend...)
ou des variations de dure propres linterprtation dun instrumentiste.
I.2.a.ii synthse concatnative par slection dunits :

Dans un systme de synthse par slection dunits, des segments audio de tailles
variables sont slectionns dans un grand corpus de parole puis concatns pour synthtiser
un signal de parole extrmement naturel. La premire tape indispensable est lindexation et
la segmentation de la source. La deuxime tape consiste en lvaluation du meilleur candidat
correspondant le mieux possible avec la cible.
On distingue actuellement deux tendances pour le systme de slection :
La premire, issue des travaux de Black, Hunt, et Campbell (1996) et utilise
principalement par AT&T (US) et ATR (Japan), procde par minimisation dynamique d'une
18
Grgory Beller
fonction de cot, estime partir de la phrase produire (et de ses caractristiques

linguistiques) et des phrases enregistres dans une base de donnes (ces phrases tant ellesmmes analyses en fonction des mmes critres linguistiques que la phrase produire). La
base de donnes n'est pas organise de faon particulire. Les units disponibles ne sont pas
regroupes en fonction de leurs similitudes spectrales. Cette approche, utilise par Diemo
Schwarz est la base de CATERPILLAR.
La seconde, qui rsulte d'une thse de doctorat dpose par Robert Ed. Donovan
Cambridge en 1996, organise au contraire la base de donnes de faon pouvoir choisir
rapidement l'unit requise, partir de ses critres linguistiques. Le plus souvent, il s'agit d'une
classification en arbre, effectue une fois pour toutes, lors de la conception du synthtiseur. La
taille de larbre est reprsentative de la finesse de la modlisation et peut donc tre adapte
linventaire des segments disponibles. La slection dunits ne se fait quentre classes dont les
contextes sont adquats par opposition une slection globale.
Enfin, la dernire tape est la synthse par concatnation des units
slectionnes. Les algorithmes de concatnation sont conus pour modifier les segments
slectionns (par des transformations de base sur la hauteur et la dure des units) et les
concatner de faon que les discontinuits (nergie, F0, formants, qualit de la source...) au
point de concatnation soient rduites avec le moins dartefacts possibles pour ne pas
dgrader le naturel des segments de dpart. Une des dimensions principales qui influe sur la
dgradation audio est la distance entre la courbe de F0 originale et la courbe cible.
Lalgorithme TD-PSOLA (IRCAM) qui est utilise dans CATERPILLAR possde cette
proprit intressante que si le mouvement est nul, la dgradation de qualit est nulle, ce qui
nest pas le cas de lalgorithme MBROLA (Dutoit 1996) issu du laboratoire de la facult
polytechnique de Mons, qui introduit une dgradation constante quel que soit la modification
de F0. Nous utilisons donc TD-PSOLA dans notre systme TALKAPILLAR.
I.2.a.iii Remarques individuelles :

Dans la mesure ou nous dployons un systme qui cherche tout slectionner,
aussi bien au niveau segmental que supra-segmental, il me parat dommage dutiliser encore
des rgles pour construire le rythme. Aussi choisissons nous de ne pas rectifier les dures
issues directement des units segmentales.
19
Grgory Beller
Nous pourrions aller plus loin dans cette ide de proscription totale de rgles, en
bannissant ltape fournit par EULER qui visent dduire de la syntaxe une description
symbolique de la prosodie. Il est certain que si cette tape donne une mauvaise description,
alors on choisira de mauvaises units. On pourrait envisag de construire une fonction de cot
ne dpendant que des syntaxes des units source et cible.
Cependant, dans la mesure o cette description ne dpend que du lexique et de la
modalit, on peut souponner quelle traduira bien le caractre normalis de la prosodie, cest
dire laspect conventionn de notre expression. Comme nous lavons vu, on est en droit de
modliser par des rgles lapparition de groupes intonatifs car la place des accents finals est
systmatique. Par contre, on peut difficilement modliser lexpressivit issue des accents
secondaires et de fluctuations plus fines et individuelles. Et cest en cela que lapproche par
slection dunits est intressante. Elle utilise comme descripteurs, les traits communs de tous,
pour donner accs aux variations intimes de chacun. Nous choisissons donc de garder
EULER, ceci afin de faciliter aussi la description des units suprasegmentales.
Dans le cadre de CATERPILLAR, de nombreux descripteurs bas niveaux ont t
crs et peuvent se rvler trs intressants pour lvaluation du cot de concatnation : Par
exemple la concavit des courbes de Fo...
Le fait que lon ait la libert de forcer lapparition dune unit plutt quune
autre est trs important dans notre optique artistique. Cela nous permet de choisir
perceptivement les contours les plus vraisemblables.
Enfin, je pense quil serait intressant deffectuer la slection des units
prosodiques avant de slectionner les units segmentales. En effet, une fois un contour choisi,
on peut affecter aux units segmentales appartenant ce contour, des poids plus faibles que
les autres de manire favoriser leur apparition. Plus largement, il sera prfrable de choisir
des units segmentales dont le Fo sera proche de celui fourni par lunit prosodique retenue,
ceci afin de minimiser la transformation effectue par lalgorithme TD-PSOLA.
I.2.b Systme mis en place TALKAPILLAR :

Le cadre tant dfini, rentrons dans les dtails... TALKAPILLAR est
ladaptation de CATERPILLAR aux signaux de parole. Nous utilisons donc tout
lenvironnement cre par Diemo Schwarz comprenant la gestion dune base de donnes
20
Grgory Beller
relationnelle PostgreSQL (Dbi), Les algorithmes de slection (Viterbi...)... Pour en savoir plus
: voir la thse de Diemo Schwarz.
Il ne nous reste plus qu crer des units prosodiques. Puis il faut adapter ou
crer des descripteurs adapts aux signaux de parole et la prosodie. Et enfin, il faut rgler
leurs poids dans la fonction de cot pour la slection.
La base de donnes relationnelle nous permet de crer des relations de
congruence entre les units. Nous allons donc cre les units prosodiques partir des units
dj dans la base, grce aux descripteurs accents et tons, comme dans le systme de Dutoit,
Malfrre et Mertens.
Ce systme de synthse nous permet aussi de composer de la musique.
Rappelons qu' la base, TALKAPILLAR est n de CATERPILLAR. Outil cre par Diemo
Schwarz pour la synthse de phrases musicales par concatnation. Nous verrons plus loin qu'il
est possible d'utiliser un tel outil afin d'obtenir une hybridation entre signaux de parole et
signaux musicaux. Ceci sera dvelopp durant la troisime partie lorsque nous aborderons
DisCutIon, pice ralise l'IRCAM.
21
Grgory Beller
II Des oeuvres artistiques...
Lharmonie et le rythme doivent s'accommoder aux paroles. 12

A la fin de la partie 1 du chapitre prcdent, nous mentionnons des pices
utilisant la voix parle des fins musicales. Qu'elle en soit le matriau sonore principal,
partiel ou bien mme sous-jacent la composition d'une oeuvre, de nombreux paradigmes la
plaant au coeur de la musique ont vu le jour durant le sicle dernier. Mais ce rapprochement
n'est pas nouveau et il serait mme plutt originel.
Mondher Ayari travaille dans l'quipe PCM (Perception et Cognition Musicales)
de l'IRCAM. Il analyse les musiques extra-europennes. Il m'explique que depuis tout temps,
dans la musique classique orientale, le processus primaire de cration repose souvent sur un
texte. Ce texte lu, le compositeur extrait de la structure mtrique de la langue, un paradigme
rythmique qu'il exploite durant l'oeuvre.
L'histoire de la musique occidentale est trs intressante cet gard. Au dpart,
les chants grgoriens utilisaient les accents du latin pour la mise en place des crescendo et
autres accents musicaux . Ainsi, le chant occidental semble avoir parcouru durant sept ou
huit sicles, un chemin initiatique entre la voix parle et la voix chante. En privilgiant le
paramtre de la hauteur, l'Occident affirmait la prdominance de la mlodie et son aptitude
la vocalisation instrumentale comme l'instrumentation vocalisante. Partant de l'intonation
verbale, les lignes mlodiques ont quitt la voix parle progressivement au dtriment de
l'intelligibilit du texte mais au service de l'expressivit musicale. Durant de nombreux
sicles, le chant s'est loign de la parole. Mais l'histoire est un cycle... Et voil que les
compositeurs contemporains rutilisent la voix parle pour sa qualit musicale propre.
Explorons dans le temps cette volution.
12
PLATON, La rpublique
22
Grgory Beller
II.1 La voix comme matriau sonore :
II.1.a Le rapport musique/verbe dans lopra :

[Extrait du livre de M. Poizat : Frnsie, entre parole et cri : le chant de la Diva]
Toute l'histoire de l'Opra peut tre envisage comme un long cheminement
de la parole chante au cri musical et finalement au cri pur. Ce cheminement s'inaugure avec
Monteverdi dans le regard d'Orphe renvoyant au nant d'Eurydice, il trouve un
aboutissement avec Alban Berg et un autre regard, arm celui-ci d'un couteau, celui de Jack
l'ventreur poignardant Lulu. C'est dans le droulement non linaire, de ce parcours qui nous
conduit de la triste mlodie d'Eurydice, encore proche du phras de la langue, jusqu'au
terrible cri de mort de Lulu, que l'on peut cerner cette problmatique cl de l'Opra, celle du
rapport parole-musique.
Les dbuts de l'Opra se caractrisent avec Monteverdi par une ligne mlodique
qui pouse trs troitement le phras de la langue. Le souci d'intelligibilit contraint
d'abandonner le systme polyphonique antrieur et se donne pour projet de mettre au point
tout ce qui permet de parler en chantant. Mais trs vite, cet idal de fusion laisse la place
une autonomisation radicale de la l'aspect vocal musical. C'est, avec l'art des castrats, la
vise d'une jouissance de l'objet-voix pur avec ipso facto la chute totale de toute
proccupation quant au texte et au drame. Ces dveloppements, quelque peu paroxystiques
par moments, appelrent par raction la premire rforme de l'Opra qui se posa comme
telle, celle de Gluck. Ils avaient entre-temps aliment l'tonnante Querelle des Bouffons .
Ce dbat idologique d'une ampleur inoue qui cliva compltement les cercles intellectuels
et mmes politiques de la socit franaise du milieu du XVIII me sicle, justement sur
cette question des rapports langue-musique (dbat Rameau-Rousseau, opra franais contre
opra italien) dans son articulation avec la jouissance et la fonction morale de l'art lyrique.
Gluck quant lui rintroduit la prminence du texte et du drame et sa rforme accompagne
(historiquement, cela ne prjuge pas d'un lien de cause effet) la chute des castrats. Ce qu'il
est intressant de reprer, c'est que dans chacune de ces oscillations de la forme, on retrouve
la fois le dispositif de production de la jouissance de la voix et le dispositif de contrle et
de limitation de cette jouissance.
Si, pendant la grande priode des castrats, la jouissance vocale atteignait de tels
sommets, la scansion de l'oeuvre par les rcitatifs tait l pour ramener sur terre les
23
Grgory Beller
spectateurs (lesquels le prenaient parfois fort mal, exigeant alors qu'on passe immdiatement
tel ou tel autre air, mme si c'tait l'air du troisime acte alors qu'on n'en tait encore qu'au
premier !). A l'inverse quand le compositeur se donne pour projet de brider le
dveloppement lyrique en l'assujettissant la scansion signifiante de la parole, il produit une
forme musicale dite par exemple rcitatif accompagn chez Gluck, ce qui deviendra
mlodie continue chez Wagner, tentant abolir la distinction air-rcitatif et donc la
limitation de la jouissance que cette scansion oprait. Or ces ormes musicales ont pour effet
de produire une tension, une captation continue source son tour d'motion et de jouissance
profonde, repre par tous les commentateurs, contemporains ou non, ceux de Wagner
comme ceux de Gluck. Et cela d'autant plus que, mme dans les oeuvres composes selon ce
projet esthtique, une large place est quand mme toujours garde pour les dveloppements
lyriques rompant toute attache avec le verbe et amenant l'auditeur cette jouissance vocale
dont nous parlons. Ce mouvement pendulaire de la Flte enchante au Sprechgesang de
Schoenberg et Berg, du bel canto italien au rcitatif mlodique de Pellas, jusqu' devenir
lui-mme le thme d'un opra, le capriccio de R. Strauss, cr en 1942, dont l'argument est
prcisment la discussion des rapports musique/verbe.
Cette problmatique du rapport musique-parole ne s'organise pas de faon
analogue dans le chant masculin et dans le chant fminin. L'attribution de plus en plus
systmatique l'hrone, c'est dire la femme qui sera sacrifie au dernier acte, de la
tessiture de soprano, ainsi qu' l'intrieur de cette tessiture l'inscription du chant de la
soprano dans des zones de plus en plus limites vers l'aigu et le suraigu, ont pour
consquence inluctable la liquidation de l'intelligibilit de la parole de la femme. On sait en
effet qu'il n'est acoustiquement pas possible, partir d'une certaine hauteur de chant,
d'articuler, tout en chantant juste, voire d'articuler tout court, certains phnomnes. Or plus
on avance dans l'histoire de l'opra plus les grands dveloppements lyriques se situent dans
cette zone d'inintelligibilit oblige. Or non seulement on ne constate pas la mme volution
dans le chant masculin sauf dans certains grands airs de tnor ou il subit alors un traitement
qui s'en rapproche, mais au contraire il tend et c'est frappant chez Wagner et chez Berg se
rintroduire comme parole pure: Le duo de la scne finale de Lulu entre jack et Lulu est
cet gard tout fait significatif puisqu'il s'agit vritablement d'un duo entre un homme qui
parle et une femme qui en retour module un cri culminant en son cri d'agonie brut, auquel
succde la parole brut de Jack. 13
13
M. POIZAT, 1986, Frnsie, entre parole et cri : le chant de la Diva
24
Grgory Beller
Le final de Lulu est cet gard rvlateur du souci de la recherche dun

quilibre entre voix parle et voix chante. Cet quilibre est difficile obtenir entre raison
et magie; J'entends par raison le mot, l'importance du mot, et j'entends par magie le
besoin instinctif de l'tre humain de se librer par l'acte magique qu'est le chant, le chant
vocalis, que l'on retrouve aussi bien dans le culte qui garde certains mlismes, comme
l'ambrosien, que dans la vocalise de l'opra italien ou dans le flamenco 14. Ce sont les
fameux deux pouvoirs du mot, qui ainsi que se plaisait le rpter Marcel Beaufils15, est
en mme temps vhicule d'une ide, et son pur, donc magie.
Cette volution du rapport musique/verbe possde des ramifications dans la
musique contemporaine. Celle ci s'approprie, le plus souvent sous la forme d'une dialectique,
ce rapport pour le pousser son paroxysme. De la mme manire, l'instrument voix luimme, est repens sans cesse afin de le renouveler, voire mme de le rinventer.
II.1.b La voix dans la musique contemporaine :

Depuis le dbut du XXme sicle, on assiste une grande mutation, aussi
bien dans les arts plastiques que dans le domaine sonore, comme il ne s'en tait pas produite
depuis la Renaissance. Cette remise en cause gnralise des lois qui ont rgn pendant
plusieurs sicles correspond non seulement un dsir de refonte du langage musical, mais
galement celui de renouveler le matriau sonore en exploitant les possibilits des
instruments d'une manire non traditionnelle. Il semblerait que les compositeurs aient
dcouvert une mine de virtualits inexploites dans l'instrument le plus mallable qui soit,
puisque jaillissant directement du corps humain, la voix. 16
En 1911, A. SCHOENBERG, dans sa pice intitule Pierrot Lunaire, utilise le
Sprechgesang, au sujet duquel il crit dans sa prface : La note chante maintient une
hauteur fixe sans variation, la note parle attaque une hauteur fixe, mais la quitte aussitt,
soit en montant, soit en descendant .
14
R. MANCINI, 1991, la voix dans la culture occidentale

M.BEAUFILS, 1954, Musique du son, Musique du verbe
16
Madelaine GAGNARD, 1987, La voix dans la musique contemporaine et extra-europenne
15
25
Grgory Beller
II.1.b.i Sprechgesang :
Avec le Pierrot Lunaire (1912), Schnberg inaugura le travail sur les
inflexions de la voix chante unies celle de la voix parle. Les tessitures de chacun de ces
modes d'mission restant parfaitement distinctes, cela pose un problme d'homognit. La
voix humaine, pareille aux instruments qu'elle prcde, n'est pas une unit timbrale
clairement dlimite. Dans l'accouplement du parler avec le chanter, il y a l'irrgularit du
phnomne vocal. C'est partir de Pierrot Lunaire que la voix parle, en tant qu'elle
drape sur le chanter, est devenue partie intgrante de la musique. L'tranget du son que
l'on entend est perue comme un bruit totalement dgag des interprtations futuristes et
anecdotiques. Il est une nouvelle base harmonique, une nouvelle expression lie au concert.
Schnberg redonne vie la consonne, alors que la musique vocale du sicle prcdent
(essentiellement italienne) privilgiait la voyelle. A cet esthtisme du chant, il oppose une
sensualit abrupte et directe. Compose la demande de la comdienne diseuse
Albertine Zehme sur des pomes d'Albert Giraud, Pierrot Lunaire illustre l'union du parler et
du chanter parce que Schnberg appelle le Sprechgesang - littralement : Le
chanter/parler. 17
La beaut de l'expression et de la forme est synonyme de pulsion. Elle cesse de
reprsenter une symbolique du sens. Maintenant, le son est sens immdiatement. 18
Au dpart, le rythme devait tre observ strictement comme s'il s'agissait de chant, mais
alors que la voix chante maintient la hauteur du son, la mlodie parle (Sprechgesang) ne
fait que l'indiquer pour la quitter aussitt de faon ascendante ou descendante. 19
Ce n'est que bien plus tard que pour tuer dans l'uf toute tentation ou envie de chanter,
Schnberg note le Sprechstimme (voix parle sur une seule ligne). Il adopte un mode
intermdiaire : la mlodie parle qui, vrai dire, ne se parle pas plus qu'elle ne se chante,
mais procde par trmolo articul (mis part quelques sons isols au-dessus desquels le
compositeur a crit parler ou chanter ). La comprhension du texte est fonction de la
dclamation. Mais pour Schnberg, il s'agit l d'un faux problme. Connatre le pome, en
suivre la narration ne change en rien la texture homogne d'une oeuvre. Les correspondances
illusoires entre musique et texte ne peuvent que masquer la profondeur de ce que le
compositeur offre. Le contenu vritable est dans la musique.
17
D. COHEN-LEVINAS, 1987, La voix au-del du chant

C. POTOCKI, 1968; L'inoui et l'indicible
19
A. SCHNBERG, 1912, prface de Pierrot Lunaire
18
26
Grgory Beller
II.1.b.ii Dans la continuit :

Son disciple et ami Alban Berg reprendra son propre compte ce type trs
particulier et rcitatif lorsqu'il crira son opra Wozzeck. La dclamation est coule dans le
moule d'une pense musicale qui s'attache non seulement au mot--mot, mais aussi aux
ressorts psychologiques, aux tats intrieurs de chaque personnage, la progression
dramatique, que le compositeur a transposs vocalement. Par la musique et plus
spcialement par la voix, Berg transcende ici le texte et va beaucoup plus loin en
profondeur.
Sylvano Bussoti use lui aussi d'un mlange frquent de parl et de chant,
malgr une certaine discontinuit qui fait que de temps autre surgit un son point dans
l'aigu, ou une exclamation, alors qu'on ne s'y attendait pas. La diversit des techniques
vocales employes dans Rara Requiem (trilles, tremolos, parlando, petites notes) et la
manire de faire fusionner le tout confre cet ouvrage une originalit, une personnalit.
Dans Madrigal, oeuvre vocale, Mfano dploie un remarquable esprit inventif
quant l'emploi des ressources de la voix. Mais il ne se contente pas de plaquer du
Sprechgesang ici et l, il combine successivement et simultanment les diverses formes de
dclamation en fonction du contenu expressif du texte, en dosant tous les degrs existant
entre chant et parl, selon chaque mot.
K.H. Stockhausen ritualise la voix dans Am Himmel Vandre Ich. Le parlando
clam, lanc de la gorge possde un timbre qui le situe trs loin du Sprechgesang. Le type de
son qu'on rencontre le plus frquemment dans ce cycle est celui qui correspond une voix
flte, trs lgre, un peu dtimbre et peine vibre.
Aprs avoir examin comment Boulez traite la voix dans Le marteau sans
matre, il est vident qu'il y a l un type de dclamation fort original. Cette criture presque
plus instrumentale que vocale aboutit une voix tendue l'extrme; Paradoxalement, on
arrive une mission flexible, d'une grande souplesse et Boulez se montre ici l'hritier la
fois de Debussy et de l'cole de Vienne, mais il est compltement repens, repris son
compte personnel le principe du Sprechgesang.
Dans Sequenza III, L. Berio coupe le texte par des rires, des cris, des
haltements. C'est l la marque d'une fusion totale entre matire verbale et matire vocale.
Sur la partition, figurent des mots dont le rle est d'orienter la sensibilit de la cantatrice :
Elle doit savoir se montrer, avec sa voix, rserve, sereine, tendre, de plus en plus
dsespre ou prendre un air gar. Le chant cohabite alors avec des bruits vocaux pour
27
Grgory Beller
faire ressortir l'motion dsire.

M. Ohana compose Trois contes pour l'honorable fleur en 1978. Ce rcitatif
prend des couleurs changeantes selon le texte ou le point o en est l'action : Il se fait litanie
sur un son, avec une voix localise l'avant du palais; il devient parfois confidence, toujours
avec une mission palatale, ou encore dclamation haut-perch, proche du Sprechgesang;
enfin il prend par moments la forme de lamentations, et mme de pleurs sur le souffle, avec
participation de la glotte. Avec ou sans mots, ce parlando, avec soudain des tremblements,
comporte des inflexions qui semblent provenir d'une autre culture, de la patrie du N.
Vox, Vocis, 1985, d'Ivo Malec, est une pice dans laquelle l'unique voix
fminine s'incarne dans un autre groupe, un autre genre de voix, celle des neuf instruments
(cinq cordes, trompette, harpe et deux percussions). La rencontre de l'un avec les autres ne
signifie pas pour autant que l'entit voix perd de son unicit. Elle reste une et unique. L'ide
initiale du compositeur est d'extrapoler l'unit smantique de la voix/langage vers un groupe
dont le signifiant ne renvoie pas inluctablement au signifi, mais exprime un imaginaire
sonore indcodable par les voies de l'analyse structurelle. La voix lui permet d'largir
l'espace dynamique, ainsi que, le timbre une criture instrumentale polyphonique. Syntaxe
musicale et syntaxe verbale s'unissent et se rarfient mutuellement sans jamais se confondre.
L'identit de la voix enracine toutes rfrences au langage et l'criture. Ivo Malec tente
d'associer la voix-chant la voix gnratrice, la voix-source, car (dit-il) c'est bien la seule
qui chante vraiment. 20 .21
Franois Bernard Mche innove aussi dans Dana du point de vue matriau
verbal, avec des clats de mots, sans chercher les rattacher une langue quelconque, mais
en les considrant, comme l'auteur les a pris, en tant qu'lments prformateurs de la voix,
en constatant galement l'importance vidente des consonnes; On a des GAB-DE-GEB-DIGIB-DU ou bien KIUX... DI GI DI KA, ou l'accent est mis sur les explosives.
20
I. MALEC, 1985, Ivo Malec propos de Vox, Vocis, F

21 D. COHEN-LEVINAS, 1987, La voix au-del du chant
28
Grgory Beller
II.1.c La voix comme processus compositionnel :

En 1964, Franois-Bernard Mache composa une pice orchestrale : Le son
d'une voix. partir d'une analyse spectrographique d'une phrase parle. Il essaya de
reproduire le spectre de la voix grce l'orchestration instrumentale. En 1977, Michel
Decoust ralisa : Interphone. Partant de l'enregistrement de la soprano Irne Jarsky
dclamant un pome de Claude Minire, il utilisa les courbes drives des contours de Fo et
de l'amplitude, (extraites de l'enregistrement par une analyse) afin de contrler des sons
synthtis par ordinateur. Dans Different Trains, Steve Reich se servit d'un sampler digital
pour rpter des phrases parle : Un quatuor cordes faisant cho en jouant des phrases
musicales suivant la mlodie et le rythme de ces phrases. 22
II.1.c.i Different trains de Steve Reich:

Different trains (1988) de Steve Reich est une oeuvre dont le processus cratif
utilise largement la prosodie. Cette pice majeure de l'oeuvre de S. Reich, pour quatuor
cordes et bandes, est ne de l'ide de combiner des enregistrements de parole avec des
instruments cordes. Ainsi, ces enregistrements ont gnr le matriau musical lors de la
phase d'criture de la pice.
J'utilise dans Different Trains, une nouvelle manire de composer qui a ses
origines dans mes compositions antrieures pour bandes magntiques : It's Gonna Rain
(1965) et Come Out (1966). L'ide gnrale est d'utiliser des enregistrements de
conversations comme matriau musical.
Pour combiner les conversations sur bande magntique et les instruments cordes, j'ai
slectionn des exemples brefs de discours, aux diffrences de ton plus ou moins marques,
et je les ai transcrits aussi prcisment que possible en notation musicale.
Ensuite, les instruments cordes imitent littralement la mlodie du discours.
Les exemples de conversation et les bruits de trains ont t transfrs sur bande magntique
l'aide d'un chantillonnage de claviers, les sampling keyboards, et d'un ordinateur. Trois
quatuors cordes spars ont aussi t ajouts la bande magntique pr-enregistre et le
quatuor final, jou par des musiciens, vient s'ajouter lors du concert.
22 J-C. RISSET, 1990, Speech and music combined: An overview
29
Grgory Beller
Different trains comprend trois mouvements - mouvement tant pris ici au sens
large du terme car les tempi changent frquemment dans chaque mouvement :
L'Amrique - Avant la guerre
L'Europe - Pendant la guerre
Aprs la guerre
Cette composition a donc une ralit la fois sur le plan documentaire et sur le
plan musical et ouvre une nouvelle direction. C'est une direction qui conduira sous peu, je
l'espre, une nouvelle sorte de thtre multi-mdia combinant documentaire, musique et
vido. 23
II.1.c.ii Locus de Claudie Malherbe :

Locus pour voix relles et virtuelles :
La musicalit naturelle des langues est une chose connue depuis longtemps.
Aujourd'hui, les outils d'analyse du son montrent qu'elles contiennent non seulement une
mlodie mais aussi une harmonie, en mme temps qu'ils rvlent avec prcision leurs
qualits rythmiques et dynamiques comme la composition de leurs timbres. Plus
prcisment, cette technologie, qui donne une reprsentation cohrente et manipulable d'une
ralit sonore complexe, permet maintenant de lier ce qui autrefois tait distinct. En effet
avec ces nouvelles possibilits, la mise en oeuvre d'un matriau sonore n'est plus
irrmdiablement coup du travail symbolique et, l'inverse, le maniement des signes
musicaux n'exclut plus une approche concrte su son. Ainsi dans Locus, musique crite pour
des vois relles et virtuelles grce l'informatique musicale, la parole nonce est mise en
musique au moyen de ses propres contenus une fois ceux-ci reconfigurs dans un espace
abstrait.
Le droulement est prcisment balis par cinq tats remarquables du matriau.
Les trois premiers qu'il est possible de qualifier de naturels : La parole, le chant et les bruits
vocaux; Un autre, qui fait entendre des reconstitutions artificielles (plus ou moins dcales)
de la voix; Enfin, une reprsentation synthtique de cette voix, au moyen de l'lectronique,
qui en rvle la part constitutive mais ordinairement cache. Notons que dans ce contexte, le
chant devient une catgorie parmi d'autre et n'est plus dominant comme habituellement dans
23 Traduit du texte figurant sur la pochette du CD.
30
Grgory Beller
la musique vocale occidentale.

La parole, forme la plus courante d'un flux vocal, sert de point de dpart. A la
parole s'ajoutent le chant et les bruits vocaux (toux, rires, pleurs, souffles, etc...) qui
constituent les trois catgories principales de l'mission vocale humaine. Les outils
informatiques (chantillonnage) permettent de dissquer puis de reconstituer un flux parl,
en une sorte de parole virtuelle, pendant de la parole relle recompose partir d'lments
de celle-ci (analyses et chantillons). Les analyses temps/frquence d'un matriau vocal
permettent d'en rvler puis de faire entendre les lments constitutifs ordinairement cachs;
la nature lectronique de cette restitution, dsigne ici par sinus, la place dans un autre plan,
construisant avec cette troisime dimension un ttradre.
Ainsi configurs, les lments en jeu dfinissent cette figure gomtrique qui
va rgler les diffrentes pripties du matriau et va dfinir l'entier droulement de la pice:
L'espace entre deux tats remarquables (sommet du ttradre), dfinit un champ (artes du
volume) et une organisation (qui dtermine un paramtrage des matriaux syntaxiques et
musicaux constitu d'tats intermdiaires (trois par artes qui rglent les enchanement et les
transitions (ce nombre d'lments qui est arbitraire, offrant un choix suffisant d'tapes
caractristiques et diffrencies).
Par exemple, le champ du babil situ entre la parole et le chant induira une
organisation syntaxo-mlodique (mixte de langage parl et de mlodie chante) caractrise
par trois tats intermdiaires permettant de passer par transitions successives de la parole au
chant : voix thtrale (paroles aux intonations accentues, sprechgesang (chant-parl) et
babil (parole enfantine dnue de sens prcis et proche du chant). D'une semblable faon,
entre la parole et le bruit s'tablit le champ du grommelot (de grommeler, parole peu
articule et en partie indistincte) appuy sur une organisation syntaxo-rythmique
(prcdemment le chant appelait le mlodique, ici le bruit convoque le rythme) ralise
son tour au moyen de trois tats intermdiaires : bgaiements, balbutiements et grommelot
(dconstruction progressive d'une parole qui se transforme en bruit vocal). La transition du
rire au pleur (du rythme au mlodique) est un autre exemple de ces transition d'un tat vocal
un autre : Les rires constitus de saccades rythmes sont progressivement transmus en
plaintes qui allongent les sons, introduisant ainsi des hauteurs de plus en plus perceptibles
qui s'agglomrent en mlodies.
Enfin le parcours qui constitue la grande forme de la pice est donn toujours
par la mme figure selon la rgle suivante : Une fois un point d'entre choisi sur le sommet,
l'ensemble des artes doit toujours tre parcouru une seule fois selon un trajet sans
31
Grgory Beller
discontinuit; Un sommet pouvant tre nonc plusieurs fois. Avec cette figure quatre
sommets distribuant chacun un nombre pair d'artes (quatre), il n'existe que deux points
d'entre partir desquels il est possible de parcourir une seule fois l'ensemble des artes. 24
Aprs l'explication de la constitution de la base de donnes, Claudy Malherbe nous
renseigne sur les processus compositionnels qu'il a utilis pour extraire d'un flux parl, un
matriau musical : Il s'agit de prendre comme point de dpart un nonc parl : When
speech sounds are made, the larynx may or may not itself be vibrating to procuce an
oscillatory flow of air. A partir de l'analyse temps/frquence de cette phrase, une
segmentation syllabique et un lissage des partiels sont d'abord effectus. Ce rsultat est
ensuite resynthtis puis transform par rductions successives pour constituer un matriau
musical original qui reste corrl la phrase parle constituant son origine.
Quelle que soit leur provenance, tous ces compositeurs manifestent un besoin
d'aller au-del de tout ce qui avait t tent auparavant, et ce dsir de dpassement permet de
constater que les ressources de l'organe vocal sont beaucoup plus vastes qu'on ne le
supposait, les limites du ralisable ont recul.
24
C. MALHERBE, 1997, Locus
32
III
Pices crites:
III.1
Fo-low :
Grgory Beller
Fo-low est une pice cre dans un contexte universitaire (Universit PARIS
VIII Saint-Denis). Elle s'inscrit dans le cadre des cours de composition instrumentale de
Jos Manuel Lopez Lopez et ceux de composition avec l'informatique d'Anne Sds.
C'est une pice mixte crite pour flte, accordon, violoncelle et MAX-MSP.
Chacun des instruments dirige un mta-paramtre d'un instrument virtuel

rsultant. Le moteur de cet instrument repose sur le principe de la synthse soustractive.
C'est un peigne de 50 filtres passe-bande dont les frquences sont en rapport harmonique
entre elles durant les deux premiers tiers de la pice (ces rapports s'effondrant la fin pour
laisser place l'inharmonicit). Le rsultat sonore est l'coute d'une note partir de
n'importe quel spectre en entre. De manire accentuer la coupure des filtres du second
ordre de lobjet fffb~ , nous avons choisi den mettre deux en srie.
La hauteur de cette note, appele Fo, est donne par la flte basse au moteur
par l'intermdiaire de lobjet externe fiddle~ .
Cet estimateur de pitch possde un registre limit et condamne donc Fo tre
bas. De plus, on cantonne les frquences centrales des filtres au domaine audible, c'est dire
que la frquence centrale du 50me filtre ne doit pas excder 22050 Hz. Or si elle atteint
cette frquence, cela veut dire que la frquence centrale du premier filtre est 441 Hz
33
Grgory Beller
(22050/50). Par consquent, le registre allou la flte ne

doit pas dpasser le LA3. D'ou le titre : Fo-low. Jai choisi
la flte basse pour sa puret spectrale dans le registre
utilis. Lors du concert, j'ai finalement utilis une flte en
Ut de manire ce qu'on entende mieux la ligne mlodique
(elle se dmarque mieux du violoncelle de part sa brillance
et sa dynamique). La ligne mlodique, au dpart crite dans
un registre infrieur au LA3, sest retrouve octavie
cause du changement dinstrument. Jai donc divis
lestimation du pitch de la flte en UT de manire
respecter la contrainte issue des filtres. La plus grande
richesse harmonique de la flte en UT par rapport la flute
basse a permis lestimateur une plus grande stabilit Ainsi
entendions nous moins de sauts de frquences ( loctave ou mauvaise estimation). Jai
renforc cette stabilit grce un line en sortie de lestimateur.
Nous avons ainsi une structure de filtres en peigne dont nous connaissons,
prsent, les frquences respectives. Le gain de tous ces filtres et donc, l'amplitude de sortie
rsultante est modul par le violoncelle. Il est donc le conducteur de l'enveloppe temporel du
son du mta-instrument. Cette relation fait encore intervenir le concept du suivi de
paramtre. De la mme manire que la hauteur de la flte donne la hauteur au mtainstrument, le suivi en temps rel de l'enveloppe du violoncelle gre l'amplitude instantane
du mta-instrument. Cela se fait par une dtection d'enveloppe quadratique via MAX-MSP,
comme le montre les deux figures suivantes.
34
Grgory Beller
Le violoncelle permet de nombreuses variations dans son volution temporelle grce aux
nombreux modes de jeux qu'il offre.
Jusqu'ici, notre mta-instrument est structur d'un filtre en peigne dont la
hauteur est donne par la flte et dont le gain est modul par le violoncelle. Mais jusque
l, il ne sort aucun son de notre instrument virtuel. Il faut pour cela le nourrir d'un
spectre. Le choix s'est d'emble port sur l'accordon pour sa richesse timbrale, sa
polyphonie, et aussi pour la stabilit de son enveloppe d'amplitude qui permet ainsi d'viter
de trop marcher sur les plate-bandes du violoncelle. Mme si lors de la pice, on peut se
rendre compte que j'ai jou sur cette double modulation ( la source et lors du traitement).
Voici donc prsent notre mta-instrument :
W
dont la hauteur est donne par la flte basse.
dont le volume instantan est donn par le violoncelle.
dont le spectre de base est celui de l'accordon.

Il est remarquer qu'il existe en ralit un triple modulation d'amplitude dont la
troisime modulante est due la spatialisation de notre mta-instrument. En effet, la pice

est conue pour une diffusion octophonique. Chacun des 50 filtres voit sa sortie
continuellement et alatoirement change et est ainsi route sur les huit haut-parleurs.
Ainsi, il arrive perptuellement que quelques partiels disparaissent

momentanment puis rapparaissent sur un autre enceinte. On a donc une lgre modulation
35
Grgory Beller
d'amplitude rsultante due aux 50*8 = 400 modulations binaires alatoires ralises l'aide
d'une matrice. Cependant, si on tient compte du nombre important de filtres (50) et de
lergodicit ainsi engendre, on peut ngliger cette modulation qui en moyenne ne sentend
pas (aucune chute brutale du volume global).
L'criture de la partition instrumentale s'effectue de concert avec l'laboration
du patch MAX. De nombreux paramtres changent lorsque le chef d'orchestre ou la fltiste
appuie sur une pdale midi. L'criture de la pice a donc plusieurs supports : La partition,
tout d'abord pour les instrumentistes et le patch lui mme comprenant une collection grant
l'volution temporelle du comportement du mta-instrument. Il n'a pas t choisi de systme
compositionnel particulier (srialisme...) pour l'criture instrumentale. Ceci car la contrainte
de la manipulation du mta-instrument par les instruments rels est suffisamment forte pour
dfinir un espace des possibles. En effet, chaque partition instrumentale est pense de
manire ce que de la combinaison des trois, s'rige une partition virtuelle : Celle du mtainstrument.
Ainsi la ligne mlodique de la flte n'est pas seulement propre cet instrument
mais aussi au mta-instrument. Ne reste alors que d'autres paramtres comme le timbre, le
rythme... comme degrs de libert pour la flte. De mme pour le violoncelle qui doit cder
son enveloppe au mta-instrument, ce qui fera apparatre de nombreux modes de jeux dans
sa partition. De nombreux clusters sont prsents dans la partition pour accordon de manire
livrer au mta-instrument un spectre assez riche et inharmonique.
Mais la vritable contrainte ne se situe pas vritablement dans le seul fait que chaque
instrument se voit dpossder d'un partie de son espace compositionnel, mais bien dans
la difficult d'obtenir, au final, une cohrence musical entre tous les instruments rels mais
aussi entre les instruments rels et l'instrument virtuel, tout en gardant une certaine
indpendance de chacun des instruments face au mta-instrument (indpendance rythmique
pour la flte et mlodique pour le violoncelle principalement). De part la structure du mtainstrument (synthse soustractive), la pice a tout de mme t labore dans une pense
spectraliste. D'ailleurs, son droulement en est rvlateur.
Quatre moments sont bien discernables dans Fo-Low. Du bruit nat une note
accompagne de l'harmonicit. Puis cette harmonicit se dgrade jusqu' ce que lche la
relation harmonique fondatrice de la sensation de hauteur du mta-instrument. La relation
rigide entre les frquences centrales du filtre en peigne se rompt laissant libres les filtres
d'voluer alatoirement dans le domaine frquentiel. S'en suit une phase dinharmonicit qui
va brutalement replonger dans le domaine de l'alatoire et du bruit. Fin de la pice.
36
Grgory Beller
Le droulement temporel est donc principalement structur sur une dialectique entre l'ordre
et le dsordre, le dterminisme et l'alatoire, le suivi et la divergence. Le titre Fo-Low
(suivre) dcrit ce qu'essaye de faire le mta-instrument durant toute la pice : Sorte d'alien
instrumental, glouton des paramtres des instruments rels, il va tenter de les suivre sans
jamais y arriver jusqu' l'implosion finale.
Les phases bruites du dbut et de la fin de la pice sont enregistres au
pralable car elles sont ralises en temps diffr. L encore, intervient cette dialectique
entre sons purs et bruits. Le patch Derivate.mxb utilis pour gnrer des squences de
sons bruits a t ralis avec MAX. C'est une sorte de synthse croise non linaire. Je
dsirais obtenir des sons bruits partir de sons harmoniques. Il m'est naturellement venu
alors l'esprit d'utiliser la drive d'un signal qui est trs sensible aux bruits. Mais je ne
voulais pas simplement rehausser les composantes hautes frquences du bruit prsent dans
de mauvais enregistrements. J'ai donc effectu une transformation non linaire entre deux
sons pour en obtenir un seul en sortie. Le principe est simple : grce l'objet delta~, on
observe les variations instantanes des deux sons en entre, d'un chantillon un autre.
Selon les signes des drives de ces deux sons (signes de x ou y ), le son rsultant va
tantt voluer comme le son 1 ou comme le son 2. Par exemple, si le son 1 monte (delta1
> 0) et que le son 2 descend (delta2 < 0). Alors le delta du son rsultant (delta3) sera gal
delta1 :
* Si les deux sons voluent dans le mme sens (delta1 * delta2 > 0), delta3 = delta2.
* Si les deux sons voluent dans les sens contraire (delta1 * delta2 < 0), delta3 = delta1.
37
Grgory Beller
C'est donc une transformation non linaire de bas niveau, mais qui a pour
avantage de donner un rsultat sonore assez intressant puisqu'elle ralise une sorte de mix
instantan des deux sons en entre, charg de bruit. Rsultat assez frappant lorsqu'on choisit
une percussion et un son harmonique. On obtient alors une percussion teinte du timbre du
son harmonique.
Le module jaune droite fait intervenir un troisime son. Selon le signe de sa
drive z , on switch entre delta1 et delta2.
Cet instrument m'a permis de raliser les parties introductrice et conclusive de la pice.
Fo-low a t joue par l'ensemble Futur-Musiques, lors de deux concerts :
W
Le 17 Juin 2004 l'amphi X de l'universit
Le 18 Juin 2004 au thtre Grard Philipe25

Cette pice ne s'inscrit pas vraiment dans la problmatique de ce mmoire.
D'ailleurs, elle ne fait pas intervenir la voix, car aucun interprte ntait disponible dans la
formation de dpart. Cependant le procd de suivi de hauteur utilis sapplique trs bien
la voix. Dailleurs la flte est un instrument vocal.
25
Enregistrement et partitions Finale sont sur le CD-ROM joint.
38
III.2
Grgory Beller
DisCutIon :
Je souhaite plutt dsigner cette pice par le terme : exprience sonore. En
effet, elle propose d'exprimenter par l'coute ce que peut comporter la prosodie comme
processus compositionnels. Ses buts, car elle a des buts (et c'est en cela qu'elle ne peut tre
une pice musicale, une oeuvre artistique), sont :
W
de nous faire entendre l'agencement structurel d'un matriau sonore connu par l'intonation
pour voir si oui ou non, on peut assimiler la prosodie un processus compositionnel.

W
d'essayer de reconnatre les intentions et autres informations dlivres par les locuteurs
lors de la conversation relle, or contexte smantique. Peut on tirer des informations de la

prosodie sans les mots ?
Ainsi, cette aventure nous permet d'apprcier pragmatiquement si oui ou non, la
prosodie peut tre assimiler la composition musicale. De plus, elle met en vidence le type
d'informations que peut vhiculer l'intonation par l'coute.
Tout commence la maison... Une situation quotidienne mettant en scne une
conversation entre plusieurs personnes est enregistre. Le choix d'une telle situation provient
de la spontanit qu'elle implique. Afin d'viter tout clich mlodique ou autre prosodie
exacerbe, on effectue cet enregistrement secrtement (avec l'accord des participants bien
entendu).
Une fois cette conversation qui se veut la plus naturelle possible enregistre,
nous en extrayons le contenu prosodique grce au systme prsent prcdemment. La
segmentation nous donne le rythme, l'analyse de la frquence fondamentale nous donne les
variations de la hauteur et diffrents descripteurs nous donnent accs l'intensit et au
timbre des conversants.
Cette structure prosodique est ensuite utilise pour agencer des matriaux
musicaux issus de bases de donnes. Chacun des interlocuteurs est reprsent par un
instrument ou plus prcisemment par une base de donnes constitue de
l'chantillonnage d'un instrument. Le pre est le violoncelle, la mre la flte et l'enfant, Le
piccolo ? Ce choix tant bien sur arbitraire, mais tente tout de mme de garder une certaine
cohrence au niveau des registres de chacun des personnages.
A ce jour, cette pice na pu tre cre car le systme mis en place ne la pas
encore permis (Problme doptimisation qui ralentit beaucoup trop la cration dune base de
donne). Cependant, nous avons travaill sur des enregistrements dun locuteur. Nous avons
mis en rapport sa prosodie avec une base de donnes compose dchantillons de violons.
39
Grgory Beller
Ces essais sonores sont coutables sur le Cd-rom joint au mmoire. Ils permettent de donner
un avant-got de ce que sera DisCutIon. Une composition originale nomme XavierCocteau-Violon26 constitue un agencement primaire des squences les plus pertinentes.
26
Voir -dossier DisCutIon sur le CD-ROM joint.
40
Grgory Beller
IV
IV.1
Qu'en dit notre cerveau...

Nous voyons que traiter des rapports entre le langage, l'intonation et la musique
recouvre bien des domaines d'tudes: Phontique, linguistique, psycho-phontique,

musicologique, physique et bien d'autres... Nous nous trouvons ici la frontire des sciences
humaines et des sciences exactes. De nombreux chercheurs approuvent ce point-de-vue
pluraliste.
En montrant des analogies frappantes entre grilles mtriques utilises par les
linguistes pour dfinir la prosodie et grilles rythmiques musicales, F. Lerdhal et J. Halle27
arrivent la conclusion que l'tude des relations entre musique et parole conduit directement
des questions de psychologie fondamentale.
E. Narmour28 est conduit des conclusions similaires F. Lerdhal et J. Halle.
La comparaison, cette fois-ci, des structures mlodiques du langage celles de la musique
l'amne la modlisation du comportement neurologique.
C'est pour cela que nous introduisons dans ce chapitre une vision supplmentaire : Celle des
neuro-sciences.
En effet, avant mme de se poser la question : Y'a-t'il des liens entre les
perceptions de la parole et de la musique ? Il nous faut savoir comment d'un point de vue
pratique , notre cerveau traite ces diffrentes informations. D'ailleurs, sont-elles si
diffrentes ?
Dans La voix dvoile29, R. Cross interroge Mr. Lhermitte, spcialiste du
cerveau, sur le rle que joue celui-ci lors de la rception de signaux sonores.
Richard Cross demande au professeur Lhermitte :
Quelles sont donc les caractristiques de l'hmisphre droit dans le cadre
des processus du chant et de la parole ?
Le professeur Lhermitte rpond : Je crois qu'on peut recourir deux
exemples. L'un est un exemple pathologique, je vais commencer par celui-l parce qu'il est
27
F. LERDHAL , J. HALLE, 1990, Somme lines of poetry viewed as music

E. NARMOUR, 1990, The melodic structures of music and speech: Applications and dimensions of the
implication-realization model
29
R. CROSS, 1991, La voix dvoile
28
41
Grgory Beller
grossier. Reprenons un patient qui a une lsion trs importante de l'hmisphre gauche, il est
donc aphasique, il est incapable de parler, il dit : ah da ya ya ... et quand vous lui
demandez ou que vous lui faites comprendre qu'il faut qu'il chante, il se met vous chanter
tous les airs qu'il connat. Bien sur, il aura du mal mais trs rapidement vous allez obtenir
des chansons qui vont stupfier tout l'entourage puisque ce malade, absolument incapable
d'mettre dans le langage parl le moindre son articul, devient capable d'mettre une suite
mlodique avec toutes les composantes musicales. Bref, il ne parle pas mais il chante ! C'est
vraiment extraordinaire.
Le deuxime exemple est beaucoup plus subtil, il fait rfrence des
expriences chez des sujets normaux. Je vous avais dit toute l'heure que pour apprcier les
capacits de l'oreille droite et gauche, de l'hmisphre droit et gauche, il fallait adresser des
messages concurrentiels dans chaque oreille. A ce moment-l, effectivement, vous mettiez
en comptition les deux oreilles. Imaginez que dans un casque, avec des paramtres
physiques et acoustiques, quivalents, vous adressiez dans l'oreille droite un signal parl
(vous racontez pendant 10, 15 ou 20 secondes une histoire) pendant que, dans un mme laps
de temps, vous envoyez dans l'oreille gauche un signal musical (1, 2 ou 3 airs de musique).
C'est ce que l'on appelle l'coute dichotique. Ensuite vous pouvez demander au sujet : ...
finalement qu'est que vous avez entendu ? . En fonction de sa rponse, vous allez voir s'il a
entendu prfrentiellement le langage ou la musique dans la mesure ou le message sonore
linguistique tait adress l'oreille gauche et le message musical l'oreille droite. Vous
pouvez contrler en faisant la stimulation inverse : Vous adressez l'oreille gauche de la
musique et l'oreille droite du langage. Il est sur que, dans la mesure ou vous adressez
l'oreille droite du langage, ce dernier va tre immdiatement capt par l'hmisphre gauche
et la musique sera scotomise, efface.
[...] Toutes les informations qui ncessitent un traitement par le langage, donc
raconter une histoire, expliquer quelque chose, donner un raisonnement, et bien sur, penser
de manire philosophique, tout ceci ne peut se faire ailleurs que dans l'hmisphre gauche
qui dispose non seulement du langage, mais du couple langage/pense.
A ce stade de l'interview, on est en face de dclarations manifestes d'une profonde diffrence
entre les traitements de la parole et de la musique. Il semble que les dcodages de ces deux
signaux se situent dans des zones bien distinctes. Ce qui laisse penser qu'ils ne peuvent
exprimer la mme chose; Et que toutes recherches concernant un espace sous-jacent ces
deux modes de communication n'est pas justifie. Mais le fonctionnement de notre cerveau
n'est pas si simple. Tout n'est pas blanc, ou noir.
42
Grgory Beller
[...] Je crois que l'ensemble de la population sait que chez un droitier, le

systme de la motricit, c'est dire tout ce qui nous permet d'agir et de mouvoir le membre
suprieur droit et le membre infrieur droit, est en rapport avec l'hmisphre gauche et
seulement l'hmisphre gauche. C'est vrai aussi pour le champ visuel. Tout le champ visuel
droit se projette dans l'hmisphre gauche et vice-versa. Mais, dans ce qui touche l'oreille, il
existe deux reprsentations, savoir un faisceau relativement mince, plus petit que le
second, qui va directement de l'oreille gauche l'hmisphre gauche (donc sans croiser) et
un gros faisceau qui se projette de l'oreille droite l'hmisphre gauche crois cette fois-ci.
Si bien que l intervient une subtilit : Lorsqu'on adresse un message sonore seulement dans
une oreille, il ne va pas seulement dans l'hmisphre du cot oppos, comme c'est le cas
lorsqu'on touche une partie du corps, il va aussi directement dans l'hmisphre du mme
cot.
A la lumire de cette indication, il nous est encore permis d'imaginer des liens
physiques entre intonation et musique. En effet, on sait que seul l'hmisphre gauche du
cerveau est capable de grer le couple langage/pense. C'est donc l'oreille droite qui est la
mieux prdispose recevoir un signal de parole. On admet, par dduction, que c'est alors le
cerveau droit qui s'occupe de la musique et donc l'oreille gauche. Mais comme il existe des
liaisons directes et non croises entre les oreilles et les hmisphres, il parat possible que les
coutes de la voix parle et de musique activent les mmes zones de notre cerveau. Notre
espoir de liens physiques entre ces deux mondes n'est donc pas vain. Et cela se confirme
lorsque R. Cross demande :
Si j'introduis la notion de hauteur du son, de timbre, et d'intensit, quelle
comprhension peut nous apporter sur ces phnomnes la neuropsychologie ?
Plus nous nous enfonons dans l'infiniment petit, plus le mystre s'opacifie. Je ne crois pas
qu'on puisse rpondre prcisment votre question car vous touchez des domaines du
cerveau qui sont totalement inconnus. Il est clair que c'est le cortex crbral qui dveloppe
tous les montages permettant la fois le dcodage de tous les paramtres physiques du son.
Prenons le cas des phonmes, nous allons laborer dans certaines rgions du cortex tous les
systmes autorisant cette jonglerie motrice extraordinaire que de savoir prononcer les 52
phonmes de la langue franaise, dans d'autres rgions corticales, les 52 phonmes de la
langue anglaise, et encore dans d'autres rgions, les diffrents paramtres physiques du
chant. Le problme du rythme est trs intressant parce qu'il y a plusieurs rgions
impliques. Il y a aussi d'autres systmes sensoriels que l'oreille qui vont intervenir, par
exemple, la vue (un rythme peut tre visualis sur un tableau avec des points, des traits...).
43
Grgory Beller
Finalement, on s'aperoit que nos connaissances sur le cerveau ne sont pas assez solides
pour affirmer s'il existe ou non des processus communs au dcodage de la parole et de la
musique. Mais ce qui est important ici, c'est de constater que l'hypothse d'un traitement
commun ces deux modes de communication n'est pas caduque et reste pour le moment
viable d'un point de vue des neuro-sciences.
Vous avez dans l'hypothalamus, une nergie de faim, une nergie de soif, une
nergie de dfense et une nergie sexuelle. C'est lui qui gre le registre motionnel. 30
La clef est certainement l, dans l'hypothalamus ! Si l'on peut tre mu par
une belle musique, l'on peut aussi l'tre en entendant un enfant nous parler (par exemple) au
cours d'une discussion. Ces deux genres de signaux sonores activent alors probablement
les mmes zones de l'hypothalamus, mettant plus ou moins en rsonance telle ou telle partie
de notre tre motionnel. Cette partie du cerveau se rvle alors tre ce lien physique que
nous cherchions. Il existe bel et bien.
Ne rentrons pas tout de suite dans le registre des motions, bien que nous nous
apercevions de son poids dans notre question. Il semble que des liens entre la parole et la
musique s'tablissent un autre niveau et dans d'autres zones du cerveau. C'est ce que nous
explique Amlie Racette, tudiante qui effectue un doctorat en neuropsychologie clinique.
La musique peut-elle aider rcuprer la parole ?
Il nous est tous arriv d'utiliser la musique pour retenir un texte. Par exemple,
nous apprenons plus facilement l'alphabet en le chantant. Ce rle de la musique ne date pas
d'hier. Dans la tradition orale, les chansons ont longtemps t utilises pour transmettre des
histoires d'une gnration l'autre. Ceci soulve cependant certaines questions : comment la
musique peut-elle aider produire la parole ? Pourrait-elle aider les personnes aphasiques
rcuprer leur langage ?
Depuis plus de deux sicles, la littrature scientifique fait effectivement
mention de personnes aphasiques qui arrivent chanter correctement les paroles de chansons
connues alors que leur production spontane du langage parl est dficiente. Ds 1736, Olof
Dalin a fait la description d'une personne aphasique qui ne rptait qu'un seul mot, oui ,
mais qui, avec de l'aide, arrivait chanter son hymne nationale, de mme qu' rciter
certaines prires. La question est donc de savoir comment le support de type musical peut
permettre la rcupration du langage.
30
F. LHERMITTE, 1991, Le cerveau
44
Grgory Beller
Existe til une aphasie musicale ?

Du point de vue neuropsychologique, le traitement du langage est connu pour
tre fortement latralis dans l'hmisphre crbral dominant, plus souvent gauche. Le
traitement de la musique, quant lui, serait associ l'hmisphre droit. L'interdpendance
entre le langage et la musique est confirme par le fait que l'un et l'autre peuvent tre
slectivement touchs ou prservs chez des patients. Si l'aphasie est l'atteinte spcifique du
langage, l'amusie est l'atteinte spcifique de la musique. Les personnes amusiques ne
peuvent plus reconnatre des mlodies familires (alors qu'elles peuvent en reconnatre les
paroles), discriminer des mlodies ou les chanter alors que leurs facults verbales sont bien
prserves.
Donc, si la musique est dissocie du langage dans le cerveau, comment
peut-elle lui venir en aide ?
Au dpart, un phnomne de plasticit est invoqu : la musique activant plus
fortement l'hmisphre droit, celui-ci pourrait prendre en charge le traitement du langage
normalement laiss l'hmisphre crbral gauche. Rcemment, l'aide de techniques
d'imagerie crbrale, des chercheurs ont effectivement observ que c'est d'abord
l'hmisphre droit qui est le plus actif lors de la radaptation de l'aphasie. Cependant, une
rcupration optimale ne se fait que par la ractivation de l'hmisphre gauche. Des
composantes non verbales, voire musicales, qui relvent de l'hmisphre gauche pourraient
donc tre l'origine de l'effet facilitant.
Qu'en est-il des chansons, un alliage habituel de langage et de musique,
deux domaines que l'on sait distincts du point de vue neuropsychologique ?
Dans le cas des chansons, certains ont avanc que la musique et le langage
pourraient tre intgrs sous un mme code en mmoire. La musique pourrait alors donner
accs ce code intact qui contient aussi du langage. Ceci expliquerait l'aide que la musique
peut apporter la production de paroles. Par contre, d'autres raisons peuvent venir expliquer
cet effet. Par exemple, en ralentissant le dbit de parole, la musique pourrait aider certaines
personnes prsentant une aphasie d'expression. De plus, le caractre simple et rptitif de la
plupart des mlodies de chansons reprsente une structure qui aide emmagasiner en
mmoire. Ou encore, on pourrait assister une dissociation automatico-volontaire, chez des
personnes aphasiques, entre la production de paroles de chansons connues, qui sont bien
ancres en mmoire, et la production spontane, gnralement plus problmatique.
45
Grgory Beller
Il existe donc de bonnes raisons de croire que la musique puisse amliorer la production de
paroles chez certaines personnes aphasiques. Des thrapies orthophoniques se sont d'ailleurs
inspires de ce principe pour la radaptation de cette clientle.
Qu'est-ce que la thrapie d'intonation mlodique et rythme (Melodic
Intonation Therapy) ?
La thrapie d'intonation mlodique et rythme, qui en est la reprsentante
principale, met l'emphase sur un patron exagr et simplifi, progressivement diminu, du
rythme, de la prosodie et des accents pour les phrases travailles avec le thrapeute. Il en
rsulte une sorte de mlodie rythme deux tons. Cependant, cette thrapie ne semble
obtenir de rsultats positifs que chez certaines personnes aphasiques rpondant des critres
stricts comme avoir une capacit d'autocritique, une bonne motivation ainsi qu'un discours
svrement atteint (afin qu'une amlioration soit possible) et strotyp avec difficults de
rptition, caractristiques des aphasiques de Broca.
O en sont vos recherches ?
Mme si la parole chante a acquis une bonne rputation, leffet facilitant de
la musique sur le langage est encore peu connu parce que peu tudi. Pour l'instant, la
recherche n'a pu dmontrer que les personnes aphasiques produisent plus de mots
lorsquelles chantent que lorsquelles parlent. Des tudes empiriques sont donc ncessaires
pour valider et expliquer ce phnomne. En plus de faire avancer les connaissances sur la
place de la musique et du langage dans le cerveau, ces tudes possdent un intrt clinique :
elles permettront de vrifier sil y a de vritables raisons de penser que des personnes
aphasiques vont amliorer leur production du langage par la musique. L'ide m'est donc
venue de faire apprendre des chansons des personnes aphasiques afin d'tudier le rle de la
musique dans la rcupration des paroles de chansons. 31
Les liens entre la musique et la parole intressent aussi le monde mdical. Cette
mthode neuro-psychologique permettrait de soigner des patients atteints daphasie. Elle est
donc trs prometteuse et ncessaire. A cette thrapie, on peut ajouter celles des
orthophonistes qui visent rguler des problmes de prononciation par le chant.
A ce stade, on voit que de nombreux domaines assez loigns, provenant des sciences
exactes ou des sciences humaines, se rejoignent autour des mmes questions. De cette
symbiose nat d'autres domaines d'investigation. Voici maintenant l'avis d'un, sinon le,
spcialiste de la psycho-phontique : Ivan Fonagy.
31 http://www.aphasie.qc.ca/divers/la_musique.htm
46
IV.2
Grgory Beller
Le langage motif musical :

Le mot compte, la manire dont il est prononc aussi. Car le sens seul ne porte
pas l'motion, mais la mlodie du verbe, l'intonation prise par le locuteur, la prosodie
autrement dit, est un facteur essentiel dans l'intensit de la charge motive porte par le mot.
Ivan Fonagy, dans la vive voix32, montre que l'existence et l'importance de la mimique
vocale deviennent apparentes au cours d'une rgression momentane de la communication
gestuelle, prlinguistique. Car le signal expressif appartient au systme de communication le
plus volu, la langue, mais en mme temps relve du stade archaque, autistique de ce que
l'on appelle l'acting , ou les mouvements corporels servent rduire directement,
immdiatement la tension (ex-pression = limination de tout ce qui cre une tension). Il
semble en effet qu'autrefois, la musique et la parole n'taient pas spares : Ainsi
fonctionnait le prlangage des dsirs et besoins inassouvis, qui consistait en une suite de
mouvements plus ou moins violents et coordonns, accompagns d'missions vocales
rduisant momentanment la tension psychique.
Ce ne sont pas tant les mots qui importent, qu'une prosodie particulire : Car
dans la rgression passagre des crises motives, ce sont toujours les lments prosodiques
qui dominent, tandis que la structure grammaticale est perturbe, et que les mots sont
relgus au second plan, servant avant tout de support l'intonation et au schma
rythmique. 33
L'intonation motive doit tre interprte comme une rgle de transformation,
une distorsion que l'on fait subir la phrase neutre, dtermine par des rgles de grammaire.
Ces rgles de transformation sont probablement indpendantes de telle ou telle langue. La
transformation est assez souvent assez importante pour que le message motif soit accessible
mme ceux qui ne comprennent pas la langue en question. Ces tendances paralinguistiques apparaissent mme en dehors de la communication verbale, dans la musique
europenne vocale et instrumentale partir du XVIme jusqu'au XXme sicles 34
L'angoisse, par exemple, s'exprime en franais, en anglais, en allemand, en
hongrois et dans la musique vocale europenne, par une forte rduction de la gamme
mlodique. Dans la Flte enchante de Mozart, quand la statue du Commandeur vient
32 I. FONAGY, 1983, la vive voix, essais de psycho-phontique
33 FONAGY et MAGDICS, 1963, Emotional patterns
34 Meyer, 1956, Emotion
47
Grgory Beller
frapper la porte de Don Giovanni, l'intervalle de la voix chante de Leporello se rduit

soudainement d'une septime une seconde. ( Je ne veux plus voir l'ami, doucement,
doucement, allons nous cacher , deuxime acte, quinzime scne) et Papageno ragit de la
mme faon l'approche de Srastro ( Oh, si j'tais une souris, je me
cacherais ! ,quatorzime scne). On rencontre la mme rduction des intervalles dans
Pellas et Mlisande ( j'entends parler derrire cette porte ,quatrime acte, premire scne,
ou parle plus bas : que font-ils ? , troisime acte, quatrime scne), ou dans Boris
Godounov quand Varlam et Mishail s'chappent furtivement dans le troisime acte.
L'intonation et la mlodie suggrent une attitude corporelle : Celle de l'homme traqu qui se
blottit, s'immobilise pour passer inaperu. Le dbit acclr, dans la parole comme dans la
musique, reflte l'excitation qui son tour pourrait tre considre comme une rcapitulation
de la fuite ancestrale exigeant, tout autant que le combat, une trs forte consommation
d'oxygne, donc une acclration du rythme pulmonaire et cardiaque. Sartre interprte la
peur comme un vanouissement jou, une conduite magique qui consiste nier l'objet
dangereux avec tout son corps. 35
L'expression de la tendresse est plus riche, plus varie dans le langage musical
que dans la parole. La tendance fondamentale (vouloir pargner toute peine, tout effort la
personne aime pour la ramener ltat de parfaite harmonie) y est encore plus apparente.
Dans le chant comme dans la musique instrumentale elle inspire une ligne mlodie
ondulante, des changements lents, graduels. Ainsi dans l'air d'Orfeo ( E piu felice ,
premier acte de l'opra de Monteverdi), dans l'air d'Ottavio (Mozart, Don Giovanni, premier
acte, neuvime scne) ou celui de Pellas (au quatrime acte de Pellas et Mlisande de
Claude Debussy).
Une analyse statistique des chants populaires hongrois montre clairement la
prfrence pour les transitions lentes dans l'expression de la tendresse compare celle de la
colre36. La musique va cependant plus loin, mettant au service de l'expression,
l'harmonistique et la composition : elle caresse et dorlote en vitant toute dissonance, mme
lgre, en multipliant les parallles de tierce et de sixte, les reprises, les variations de hauteur
hautement prvisibles.
L'expression musicale de la colre contraste avec le style doux, mlodieux de la
tendresse. Le schma mlodique et gnralement trs pauvre: souvent rduit une ligne
droite interrompue par des sauts d'une quarte ou d'une quinte, ainsi dans l'air d'Osmin n3
35 SARTRE, 1960, Esquisse
48
Grgory Beller
dans le premier acte de l'Enlvement au srail de Mozart, ou dans le finale de l'opra o

Osmin intervient comme trouble-fte pour proposer, une dernire fois, qu'on pende et
cartle le hros et l'hrone, en saccageant la ligne mlodique pour un rythme staccato
et une srie de petits accents aigus qui se dressent comme des pines enfiles. Malgr les
divergences dues aux styles de composition, la colre se reflte d'une faon semblable dans
la voix de Beckmesser bern par Hans Sachs (dans les matres chanteurs de Nuremberg de
Wagner).
Ce qui distingue donc l'expression musicale de la colre ou de la peur de celle des
sentiments affectueux, c'est surtout la tendance rduire la mlodicit du chant au profit du
rythme, trait dj remarqu dans la parole agressive; Et la prdominance de l'lment
consonantique, du bruit, au dtriment de l'lment vocalique.
[...] L'expression du dsir languissant se distingue de la coquetterie, par la
lenteur (ritardanto). L'anacrouse fait partie intgrante de la formule mlodique du dsir, non
seulement dans les langues rythme oxyton comme le franais, mais aussi dans celles
rythme baryton, comme les langues germaniques ou le hongrois. Le tmoignage de la
musique nous a montr que cette tendance n'tait pas lie telle ou telle langue, mais
correspondait une expression naturelle du plaisir. Le freinage du dbit, la diminution de
l'intensit, le rtrcissement des intervalles de la voix qui ensuite, s'amplifient
graduellement, caractrisent l'expression verbale et musicale. C'est de cette faon que le
dsir s'exprime dans le prlude de Tristan et Yseut de Wagner, dans le deuxime mouvement
de la sonate Les Adieux de Beethoven, dans la chanson de Brahms O wusst ich doch den
Weg zuruck, au dbut de l'Aprs-midi d'un faune de Debussy, dans la scne I de l'acte II de
Pellas et Mlisande ( elle est si loin ).
Le dplacement du sommet mlodique vers le dbut ou vers la fin de la phrase
correspond visiblement une certaine attitude, une certaine tactique pulsionnelle. A quelle
tactique pulsionnelle correspond cependant l'intonation, le mouvement mlodique des
phrases en gnral, indpendamment de ses ralisations concrtes ? Mais pourquoi vouloir
ramener tout prix l'intonation une base pulsionnelle au lieu de se contenter de dterminer
ses fonctions linguistiques ? Par la simple raison que le rle dmarcatif (ou commence et
finit la phrase), modal (s'agit-il d'un nonc ou d'une interrogation?) ou expressif (la phrase
exprime-t-elle une certitude ou un doute?) explique l'importance que l'on attribue
l'intonation, mais n'explique point le plaisir caus par le mouvement tonal, l'effet esthtique
36 FONAGY et MAGDICS, 1963, Emotional patterns
49
Grgory Beller
de l'intonation dans la posie et la prose artistique, et de la mlodie - ce jeu savant de tension

et de dtente - dans la musique vocale et instrumentale. Serait-ce par un pur hasard que les
lments prosodiques du langage humain, le rythme et l'intonation, ont pu fournir les
lments d'un langage sans mots, sans phrases, du langage musical qui ne communique
que pour faire plaisir ?
Si nous substituons au centre auditif un laboratoire acoustique extrmement
modeste, avec un ingnieur ne possdant que des diapasons, on peut dmontrer aisment37
que, pour dterminer la structure acoustique d'un bruit, l'ingnieur sera oblig de faire 40
fois plus de mesures que pour dterminer le spectre sonore d'une voyelle parle ayant la
mme dure. Il devra faire 250 fois plus de mesures pour dterminer le spectre d'une voyelle
parle que pour dterminer celui d'une voyelle chante. Mme sans recourir des
expriences imaginaires, on conoit aisment qu'une structure aussi rgulire que qu'une
voyelle, chante sur le mme ton et n'ayant que des tons partiels harmoniques (multiples
entiers du ton fondamental), exige ou permet moins de choix par centi-seconde qu'un bruit
ayant une structure quasi alatoire. La perception d'un ton musical est donc plus plaisante
que celle du bruit ou de la voix parle puisque son dcodage exige beaucoup moins d'effort.
Sachant quelle part importante l'conomie intellectuelle joue dans le plaisir esthtique38, on
sera peine surpris de retrouver ce mme facteur la source de la jouissance musicale. 39
Les analogies videntes entre les formes mlodiques de la parole motive et
celles qu'on retrouve dans la musique europenne montrent la profondeur de la rgression.
L'intonation nous conduit semble-t'il, vers l'poque prcdant la sparation de la musique et
de la parole. Le mot grec mousik qui dsigne la fois la danse, la musique vocale et
instrumentale, les structures mtriques des pomes et les lments prosodiques de la parole,
semble avoir gard le souvenir de ce langage ancestral, hypothtique, dont l'unique
fonction tait la rsolution des tensions biologiques et mentales causes par des apptences
inassouvies (faim, dsirs sexuels) ou par la douleur, la peur. Ce prlangage consistait peuttre (comme le suggre l'ontogense de la parole) en une suite de mouvements plus ou
moins violents, plus ou moins coordonns, et accompagns d'missions vocales rduisant
momentanment la tension psychique.
Il semble que l'intonation affective est la priphrie du propre du langage et
37
I. FONAGY, 1960, le ton et la musique

FREUD, der Witz
39
38
50
Grgory Beller
du propre de la musique. 40
Dans l'interprtation artistique, l'intonation obit des lois assimilables celles
qui rgentent les formes musicales. Par l, elle s'loigne de sa fonction initiale qui est de
transmettre, de faon intelligible tous, des expriences et, avant tout, des sentiments.
Cependant, tout en s'loignant de la parole de tous le jours et en se rapprochant de la
musique, cette intonation, loin d'appauvrir, enrichit le message; ajoutant les moyens
d'expression musicaux aux possibilits de l'expression linguistique. Ainsi le message
motionnel est souvent mis en emphase par des distorsions plus importantes de la courbe
neutre : en largissant le registre. Les variations rythmiques plus importantes permettent
aussi des mises en valeur daccent, bien plus fortes que dans le langage parl usuel. Un bon
exemple est le Sprechgesang qui fait tendre la courbure prosodique naturelle vers le chant,
combinant donc, ces deux modes dexpression.
Sil existe comme le prtend I.Fonagy, un concept sous-jacent la parole et la
musique qui implique la communication des motions, alors il semble fort intressant
dtudier ces deux voix dexpression de front et de manire complmentaire, afin dextraire
dune telle tude comparative, des paradigmes concernant la communication sonore
motionelle. Jusqu aujourdhui, ltude des motions est envisage comme appartenant
aux domaines parapsychologiques. Peu de chercheurs en sciences pures sy intressent
comme le souligne R. Carlson et B. Granstorm : Les aspects motionnels de la langue
parle n'ont pas t tudi en dtail. Dans le futur, cette aire de recherche permettra de
mieux comprendre la relation entre la parole et l'expression musicale. 41
Le renoncement sengager dans ce domaine, pour linstant parascientifique
provient certainement de la versatilit des motions, de la difficult les dfinir ou bien
mme, de les connatre. De plus, il existe dans cette communication des motions, une
indtermination intrinsque qui la rend difficile analyser : Le rcepteur la possibilit
dinflencer la nature du message par son interprtation. Nous ne sommes pas tous
touchs de la mme manire par une pice musicale ou par la voix dun acteur. Nous
sommes sans cesse en train de filtrer des messages motionnels faisant de chacun de nous,
des antennes sentimentales dont les caractristiques sont diffrentes et qui plus est, variables
dans le temps. Pourquoi le discours dun mendiant fera tirer des larmes aux uns tout en
attisant la haine des autres, alors quil est le mme pour tout le monde. Cette ventuelle
multi-reprsentativit dun message motionnel par un rcepteur entrane une difficult
40 J. RISCHEL, 1990, Invariance in the linguistic expression, with disgression into music
51
Grgory Beller
certaine pour lanalyse. Je pense dailleurs que nous prouvons tous cette difficult au jour
le jour dans nos vies quotidiennes lorsque nous avons un "problme de communication".
IV.3
la musicalit ?
IV.3.a
Peut-on quantifier la musicalit ?

Nous avons dj introduit l'une des techniques vocatrices qui permettent
l'artiste vocal d'assimiler la parole la musique l'aide d'une mlodicit leve qui prte
ses mots. La phrase semble se dplacer, monter et descendre en progressant dans le temps.
On pourrait concevoir la musicalit comme une dimension de profondeur de la mlodie
phrastique qui lui permet tantt de s'approcher, tantt de s'loigner du plein-chant.
La musicalit de la voix dpend de la rgularit de la distribution des frquences
fondamentales l'intrieur d'une syllabe. La mesure la plus approprie pour mesurer la
rgularit d'une succession de frquences est probablement celle de la redondance. En
considrant les frquences des vibrations successives comme une chane markovienne, il est
possible de dterminer l'information ou la redondance de la distribution des frquences. La
musicalit parat tre directement proportionnelle la redondance.
La voix humaine est perue comme du chant s'il elle dpasse un certain degr
de musicalit (cie de rgularit), sinon, elle est considre comme tant de la parole. Mais
cette dichotomie n'est pas universelle. Les Maoris, par exemple, distinguent quatre
catgories qu'ils dsignent par quatre termes diffrents : Le koorero correspond la parole,
le haka une parole stylise , mlodieuse, le karakia est de la mlope rituelle et le
waiata est du chant. On peut admettre, mme dans le cadre des langues indo-europennes,
des catgories intermdiaires entre chant et paroles quotidiennes. Klara Magdics42, par
exemple, relve neuf degrs de musicalit, de rgularit musicale dans la voix. La solennit,
la tendresse, la prononciation enjoue rapprochent la voix du ple positif, de la musicalit
maximum. La mlodicit de la parole croit avec la tendresse et dcroit brusquement dans
l'expression des motions agressives. Les clichs mlodiques du langage enfantin (na-nanre) ou du franais parisien sont toujours chantonns. Cette troisime dimension des
mouvements mlodiques joue dans toutes les langues un certain rle, sans avoir de fonction
41 R. CARLSON, B.GRANSTROM, 1990, Performance rules in a texte-to-speech system
52
Grgory Beller
distinctive. Toutefois, selon List43, le Nyanguamata, une langue de l'Australie occidentale,

signale l'intensif smantique par une plus grande musicalit. Dans cette langue, la musicalit
quivaut au suffixe du superlatif. La musicalit de la voix confre une nouvelle dimension
l'interprtation, et que, dans cette dimension, le pome rcit, sonore, voluant entre un ple
positif et un ple ngatif, s'enrichit d'un contenu dfini, diffrenci, mais difficilement
dfinissable. Ce qui est vident, c'est que la musicalit, dans un sens plus large du terme, est
indpendante de la rgularit des vibrations, de la musicalit dans le sens technique du
terme. Le chuchotement ou l'absence de musicalit physique est aussi expression musicale,
non verbale.
On peut se demander, d'aprs cette dernire remarque, quoi peut bien servir
une mesure technique de la musicalit, si celle-ci n'est pas reprsentative du sens musical ?
Citons Abbi Patrix : Lorsque je suis sur scne, que je raconte, l'ensemble des paramtres
est conduit de manire converger pour exprimer une intention. 44 La mesure cite
prcdemment serait alors peut-tre un bon indice pour un conteur lorsqu'il exerce sa voix.
Imaginons qu'un compositeur dsire utiliser cette mesure de la musicalit des fins
musicales comme contrleur temps rel
IV.3.b
Transformation de la musicalit de la voix

Lors des runions sur la voix qui se sont tenues l'IRCAM durant cette anne,
Emmanuel Nunes a mis le souhait de pouvoir passer d'une voix parle une voix chante
de faon continue et ce, par le biais d'un programme informatique. Cette ide d'un
Sprechgesang contrl manuellement posteriori, voudrait que d'une phrase parle puissent
merger des moments chants de manire trs raliste. Ce contrle ressemble fort un
contrle de la musicalit, dans le sens technique que nous avons dcrit jusqu'ici. Dans
Max/MSP, j'ai tent de raliser un tel programme. Grce aux objets Yin~ (estimateur de la
frquence fondamentale) et psych~ (Synthse PSOLA), ce patch nous permet de modifier en
temps rel la frquence fondamentale d'un signal de parole. J'utilise une table pour dcrire la
distorsion. La courbe dessine dans cette table ressemble d'ailleurs fortement une courbe
de distorsion puisqu'elle est en ralit une courbe de transfert entre-sortie (Fo rel en entre
et Fo de la synthse en sortie). On peut faire ainsi saturer Fo de manire ne percevoir plus
42
43
K. MAGDICS, 1963, Melody of speech

LIST, 1963, Speech and Song
53
Grgory Beller
qu'un ton monocorde. On peut au contraire accentuer les accents ou mme les inverser. Tout
ceci en temps rel. Une courbe en escalier fait de la phrase parle, une vocalise. Si l'on place
en parallle une table linaire, on peut faire un mix entre les deux et ainsi passer de manire
continue et fluide d'une voix "normale" une voix "chante" ou harmonise. Ce programme
est trs simple et possde l'avantage d'influer sur la frquence fondamentale en temps rel.
En revanche, il ne peut agir sur le rythme et la dure. Il est en effet trs difficile de pouvoir
jouer sur ces paramtres temporels en temps rel tout en gardant un aspect naturel la
transformation. Ce dsir est d'ailleurs paradoxal.
Benoit Meudic, assistant musical l'IRCAM, travaille sur une pice dont un
passage est constitu d'un morphisme progressif du franais parl l'anglais parl, en temps
rel. Outre la difficult de la transition phontique, se dresse un obstacle bien plus grand : Le
changement de prosodie. Comme nous l'avons rappel lors de la premire partie, le Franais
et l'Anglais possdent des structures prosodiques fondamentalement diffrentes. Le Franais
possdent des accents fixes en fins de mots. L'Anglais est une langue temps accentus.
Cette diffrence dans les distributions des accents ne permet pas d'action en temps rel pour
faire ressembler une langue une autre sans passer par un apprentissage pralable. Prenons
comme exemple le Hongrois et le Franais. Toutes deux langues accents fixes. Le
Hongrois situe ses accents au dbut des mots. Si l'on essaye d'effectuer une telle transition
progressive du Franais vers le Hongrois, en dplaant les accents de la fin du mot au dbut,
cela suppose dj de connatre les frontires des mots (reconnaissance de la parole), mais
surtout de les prdire. On ne peut attendre l'information d'accent d'un mot Franais pour
dclencher une transformation puisqu'on aurait du l'effectuer ds le dbut de ce mot. Cette
causalit intrinsque est due la construction mme des groupes accentuels qui s'laborent
certainement en amont de la phrase ralise. Voil pourquoi un tel exercice de traduction
instantane n'est pas ralisable en temps rel sans l'appui d'un modle complexe et adaptatif.
On fera alors appel aux prcdents modles cits dans la premire partie. Une manire
simple serait peut-tre d'utiliser l'accent final du Franais comme pr accent marqueur pour
l'accent initial du Hongrois.
En ce qui concerne la transformation du rythme, elle ncessite aussi un
dcoupage segmental et une prdiction d'vnements qui s'accordent mal avec le temps rel.
Il semble que l'agencement des paramtres temporels de la voix parle ne puisse tre
aujourd'hui altr que par des transformations globales comme des variations de dbit par
44
entretien avec Abbi Patrix : Figure sur le Cd-rom joint
54
Grgory Beller
exemple. Or ce genre de transformations sur la voix ne gnre souvent qu'une qualit

dplorable et souvent choquante, dpourvue de naturel. Cela vient du fait que "dans la parole
emphatique, il y a gnralement une corrlation troite entre la suraccentuation (ou
dplacement d'accent) et la frquence des pauses emphatiques et des attaques dures qui
prtent au discours un caractre Staccato45. Une transformation acceptable sur un signal de
parole doit prendre en compte tous ses paramtres simultanment, sans quoi elle dtruit ces
relations de corrlation, marque de son aspect naturel.
Malheureusement, de telles combinaisons de transformations locales sont
difficilement ralisables en temps rel sans ltablissement dun modle prosodique priori.
Ceci car les instanciations des structures des phrases parles sont des mlanges de hors
temps et de temps rel. Cela rappelle dailleurs la manire dont la musique est gre lors
dune improvisation. Les articulations se callent sur une structure connue lavance. Alors
le temps rel sallie au temps syntaxique musical dans un rapport qui rappelle lexpression
orale. Difficile alors de grer les deux en mme temps par des transformations globales.
Romain Kronenberg, assistant musical lIRCAM, travaille sur une pice de thtre
contemporaine inspire de Fernando Pessoa et intitule Le Privilge des chemins46. Le
metteur en scne dsirait que deux personnes changent de voix en temps rel dans le
spectacle. Malheureusement, nous ne possdons pas encore les moyens techniques de le
faire. Mais ce vu soulve une question qui rejoint celle que se posait Benot Meudic.
Supposons que lon arrive transformer les paramtres acoustiques dune voix pour la faire
concider avec une autre: Le timbre, la hauteur (Chose que lon va savoir faire trs bientt
grce Fernando Villavicencio Marquez, auteur dune thse sur la transformation de voix47).
Que resterait-il de lindividu dans cette voix. De faon certaine, sa personnalit
transparatrait travers son intonation et sa prosodie. Mais si prsent, on souhaite changer
cette dernire en temps rel pour arriver lultime transformation de lidentit vocale ; On
se heurte une dpersonnalisation de la voix ainsi synthtise car nous ne possdons pas
tous le mme temps syntaxique. Aussi, ce genre de transformations prosodiques nest
ralisable quhors temps. De manire tenir compte aussi du dbit de parole
Toutefois ces transformations peuvent se rvler trs intressantes lors de leurs exploitations
des fins artistiques. Lorsque l'on dsire justement faire briller le naturel par des distorsions
audibles. Nous y reviendrons dans l'interview d'Abbi Patrix qui suit la prochaine partie.
45

Pice joue par la comdie franaise au Studio-Thtre
47
Thse se droulant lIRCAM
46
55
Grgory Beller
IV.3.c Ecoute(s) :
Dure, hauteur, mais aussi timbre est pause sont des paramtres de la
musicalit. Leurs infinies combinaisons situes dans leurs contextes d'utilisation font de la
musicalit, une notion complexe dfinir et de surcrot mouvante. Sans oublier que comme
pour la communication des motions, la musicalit dpend fortement des oreilles du
rcepteur
Lors d'un entretien avec Roland Cahen48, nous nous sommes confronts la
difficult de dfinir deux des termes que nous employons ici : spontanit et musicalit. Il
avertit, il n'y a pas de naturalisme. . Lorsqu'on enregistre une discussion et que l'on la
reproduit ensuite, le contexte s'en trouve bien sur chang. On se retrouve dans une situation
acousmatique telle que Jacques Perrieux la dsigne : Lors de l'coute de parole enregistre,
on ne peut tre dans la situation de l'objet parlant. Il se cre un dcalage dont le manque
d'informations nous pousse reconstituer partir d'indices plus ou moins fiables ces
informations manquantes. Comme il nous manque la causalit instrumentale, on ne voit pas
la cause premire, l'action qui produit49, il ne reste qu'un son dsincarn. On va tricher
l'coute, de manire crative ou malhonnte. Comment la chose pourrait tre entendue
autrement ?
Lors de travaux avec des acteurs, R. Cahen leurs proposent d'enregistrer des
scnes de tous les jours durant leurs vies quotidiennes. Puis il les invitent reproduire ces
scnes dans deux contextes diffrents : Avec ou sans avoir couter l'enregistrement avant
l'action. Le rsultat de cette exprience est que l'on constate de grosses diffrences dans le
cas ou les acteurs n'ont pas entendu l'audio pralablement. Il en conclut que les scnes
relles sont beaucoup plus expressives que les scnes artificielles . Il semble que la
spontanit traduise l'instantanit dans ce cas. Jean Gilbert, dans son travail d'acteur,
cherche se dfaire des clichs mlodiques de manire faire resurgir une spontanit.
Stanyslavsky fait de mme.
L'autre avertissement de R. Cahen concerne la musicalit. La musique est
l'organisation abstraite des sons, des relations qui articulent des objets hirarchiquement
organiss qui ne possdent pas de sens et dont la forme se construit dans le temps. La parole,
quant elle, voit son articulation contrainte par des relations linguistiques et n'est pas faite
48
49
Lentretien avec Roland Cahen figure sur le Cd-rom joint.

acousmatique selon Schaeffer
56
Grgory Beller
d'abstractions. Mais si ces dfinitions semblent tre plutt relatives la naissance et la

cration de la musique et de la parole, Il ajoute qu'elles dpendent aussi fortement de l'oreille
qu'on leur prtent. Schaeffer dfinit quatre types d'coutes :
Pierre Schaeffer, Trait des objets musicaux, p. 116
Ecouter c'est rechercher dans les indices du son sa provenance possible (la causalit) ; our
c'est couter le son sans se poser de question ; entendre c'est pratiquer l'coute rduite ;
comprendre c'est percevoir la signification des sons (langage). De ces quatre coutes, nous
ne retiendrons pas lour et renommons les trois suivantes :
-l'coute causale : identification de bruits informatifs (klaxon, porte qui
claque...)
-l'coute linguistique : qui permet la comprhension du sens des mots...
-l'coute musicale : des relations entre les sons...
De nombreuses pices tournent autour et jouent avec l'coute causale : Ainsi,
Yann Parentoen nous fait explorer le voyage sonore d'une lettre. Ce travail narratif grce aux
ambiances sonores, aux bruits et aux sources informatives nous fait voyager de la gare
Montparnasse jusqu'en Bretagne. De mme, la lettre de Alain Savouret, tire de sa sonate
baroque, imite les bruits d'une machine crire. La mme coute est sollicite, mais dans ce
cas, les bruits sont reproduits par synthse instrumentale, ce qui vient approfondir la
recherche sonore sur le lien de causalit. Les bourdons de l'Odysse raliss par le GRM de
57
Grgory Beller
Bourges sont des ambiances de grillons harmonises. Ds lors que l'illustratif devient
fonction dans le paysage musical, il est difficile de savoir comment s'exerce le passage de
l'coute causale l'coute musicale.
Lorsque nous parlons, les mots suscitent sans cesse l'coute linguistique de nos
interlocuteurs, mais qu'en est-il de la prosodie ? A quelles autres coutes nous rfrons nous
lorsque nous entendons quelqu'un parler ?
Pour R. Cahen, on peut dfinir la musique par ce qu'elle comporte : des
rptitions, des analogies, des diffrences, une conduite nergtique... La parole n'est pas
vraiment de la musique mais elle possde une dimension musicale. D'ailleurs la musique
vient originellement de la prosodie. Les chants grgoriens sont rythms par les accents du
latin. Le blues vient des palabres africains. Le tambour africain parle ( tais toi, tu parles
trop ).
Peut-on alors driver des structures musicales indites de langues
prosodiquement diffrentes. On peut imaginer un outil logiciel d'extraction automatique de
lignes mlodiques partir de contenus prosodiques pour composer musicalement ds lors
que l'on aurait approfondi les liens entre prosodie et musique... Il me semble que ce serait
trs intressant pour l'analyse des phnomnes paralinguistiques universaux. L'on se rendrait
certainement compte de structures communes tous et l'on pourrait alors comprendre
pourquoi certaine musique nous parle tous. Nous y reviendrons en dernire partie.
On voit bien, la lumire de cet entretien, qu'un son ne devient musical que selon l'coute
qu'on lui prte. C'est pour cela qu'on ne peut dfinir une musicalit au sens large et
universel, car chacun possde sa propre musicalit, son propre sens esthtique qui fera tantt
intervenir l'coute musicale, tantt intervenir l'coute causale. Nous avons vu quel point le
traitement de l'information sonore dans notre cerveau est complexe. Il ne semble alors pas
dangereux de faire l'hypothse que notre cerveau est capable de combiner diffrentes
coutes. L'coute d'une pice instrumentale permet de reconnatre l'arrive soudaine d'un
nouvel instrument dans un ensemble. Est-ce alors l'coute causale qui joue ou bien
seulement l'coute musicale ? Il parait plus prudent de penser que les deux participent le
dtection d'un tel vnement. Ce parallle nous permet maintenant de revenir nos
considrations sur la voix et sur sa musicalit. Comment entendons nous une voix ? Est-ce
que seul notre coute linguistique participe ce fait ? D'accord, cette coute nous permet de
reconnatre des mots et de les comprendre. Mais qu'en est-il de la participation de l'coute
musicale ? Ne serait-elle pas associe durant une conversation pour reconnatre des formes
universellement connues et contenues dans l'expression intonative ?
58
Grgory Beller
On est mme de comprendre un tranger nous demandant l'heure dans sa langue. L'coute
causale et la vision nous font reconnatre la voix de celui-ci ainsi que sa montre autour de
laquelle il fait un geste circulaire. Puis l'coute linguistique est droute cause de mots
qu'elle ne comprend pas. Enfin l'coute "prosodique" reconnat la question et nous engage
y rpondre. Cette coute "prosodique" me parait difficile dfinir dans le sens de Schaeffer
sans faire l'hypothse que notre cerveau combine toutes les coutes causale, linguistique et
musicale en mme temps pour en extraire les informations d'intention, d'motion et
d'intonation.
Cette musicalit identifiable dans les faits prosodiques est peut-tre mme la
naissance de ceux-ci. Et l'on pourrait se demander si, en ralit, il ne serait pas plus juste
de dire, du moins du point de vue physiologique, que dans l'laboration du message parl, ce
sont les timbres et les bruits qui accompagnent les lments musicaux. Car il est bien
certain qu'en fonction d'un contenu psychologique donn, ce sont d'abord le rythme et la
mlodie qui sont commands et raliss, en utilisant comme matire brute le son
fondamental encore informe et polyvalent qui sera ensuite faonn par la bouche et flanqu
de bruits qui aideront faire de lui le noyau d'une syllabe. 50 51
IV.3.d
Entretien avec un conteur, Abbi Patrix :

Il suffit d'couter Abbi Patrix parler52 pour se rendre immdiatement compte
que la voix est musicale. Musicien de formation, musicien dans l'me, il est devenu conteur
car on ne voulait pas, l'poque, de thtre musical. Le travail du conteur sur sa voix
consiste amliorer sa qualit phonatoire. Chacun de nous possde une note autour de
laquelle il oscille lorsqu'il parle. Cette note dfinit un registre dans lequel notre voix est
timbre. Quand je parle, quand ma voix est timbre, je suis autour du RE.
Lorsque je suis sur scne, que je raconte, l'ensemble des paramtres est conduit de manire
converger pour exprimer une intention. La voix fait partie de la composition de l'espace
acoustique au mme titre que les instruments de musique... C'est pourquoi, je tonalise .
Sur scne, l'intonation devient musicale : Elle devient tonalisation. Et ainsi, elle s'accorde
avec une percussion, car toute manifestation sonore a une tonalit.
50
G. FAURE, 1962, Aspects et fonctions linguistiques des variations mlodiques dans la chane parle
G. FAURE, 1962, Recherches sur les caractres et le rle des lments musicaux dans la prononciation
anglaise
52
Lentretien avec Abbi Patrix figure sur le CD-ROM joint.
51
59
Grgory Beller
Le conteur est un musicien qui accorde sa voix, un chanteur qui s'ignore. Il

raconte en musique, tantt en mineur, tantt en majeur et ainsi, vhicule un climat, une
couleur. Mais Abbi nous prvient : Un ton, c'est norme quand on raconte (couter
l'enregistrement pour s'en persuader). Un conteur va jusqu' des sauts d'une octave. On est
plus trs loin du chant, mme si chanter, c'est vibrer par la note, c'est exprimer une note. La
tonalisation, tout le monde l'a de mme que le sens du rythme. Il est intressant de
remarquer que lorsqu'on donne une autre note ou un autre rythme quelqu'un, il n'arrive
gnralement plus le suivre. (Vers une identit musicale ? Voir la remarque d'Edouard
Sievers sur la mlodie du texte un peu plus loin). D'ailleurs, les occidentaux ont du mal se
concentrer sur une histoire cause de la musique. Pour moi, on ne peut soustraire celle-ci au
conte. C'est la musique de l'histoire. En studio, c'est notre principal activit : Amplifier la
dimension musicale. J'cris des contes comme d'autres crivent la musique. Le montage
final ne pose jamais de problme et ce, grce la tonalisation. Le mixage est toujours fait
par les musiciens, car ils savent bien grer les plans.
Le travail d'un ingnieur du son peut se drouler de deux manires :
W
Passive : Il enregistre simplement du mieux qu'il peut (ce qui peut tre trs complexe)
Active : Il participe l'criture et devient musicien.

C'est dans cet esprit de collaboration qu'est pens le dernier spectacle d'Abbi
Patrix : Au bout du monde. Tout le spectacle est bas sur le travail de la voix. Se balanant
toujours entre le parler et le chanter, Il utilise aussi des nouvelles technologies : Sampling et
jeu en temps rel mais surtout, spatialisation. Alexis Blanchet, l'ingnieur du son a mis au
point un systme de sonorisation multi-diffusion totalement transparent, sans qualisation et
sans retour sur scne. La cohrence acoustique qui en rsulte rapproche tout le monde du
conteur, qui se permet durant le spectacle d'alterner entre voix amplifie capte par un micro
HF frontal et son acoustique direct. Le but est d'tablir un contact transparent, naturel avec le
public pour jouer avec, aprs. Le spectacle se termine sur le souffle du conteur sonoris de
telle manire que le lien de proximit n'est plus choquant, devenu invisible. C'est ce genre de
transformations dont nous parlions prcdemment qui peuvent paratre gnantes si elle ne
sont pas diriges, fonctionnalises musicalement car elles dtruisent le naturel de la voix.
Abbi Patrix a fait de nombreuses autres expriences dans la relation qui lie la
musique la parole. Dans Le Compagnon, spectacle ralis avec le violoniste Bernard
Chaize, Le conteur parle et s'arrte progressivement, et c'est le violon qui continue le
discours et qui raconte tout. Le musicien devient alors conteur. Dans l'histoire du galop de
cheval, Le soubassement rythmique jou par une percussion reprsente l'ternit. Les
60
Grgory Beller
acclrations et dclrations du dbit du conteur entranent des dcalages locaux avec ce

rythme. Le conteur saute sur le cheval, en descend... Un deuxime percussionniste vient
illustrer ces actions par des frappes isoles. L'auditeur est dans les espaces libres. couter :
C'est rsonner avec...
On ne peut qu'agrer lorsque cette phrase sort de la bouche du conteur. Un bon
conteur, c'est une vibration. Son meilleur partenaire est le son. Abbi Patrix fait du thtre
musical : Il joue du piano et de la tamboura durant l'interview. De nombreuses fois, j'ai
remarqu qu'il me parle dans la peau du conteur et qu'il vit ainsi perptuellement ce
changement d'tat qu'il dcrit lorsqu'il monte sur scne. De la tte qui parle, on se dplace
l'intrieur, et c'est le corps qui parle. Le corps est une forge, tous les lments rentrent en
action : L'air, le feu, le sang... A travers le larynx, on forge du son. La parole est un matriau
forg. La langue et les cordes sont un mtier tisser : La parole est un fil... La parole
incarne. 53
53
La parole du monde, mythe de cration Dogons, Mercure de France
61
Grgory Beller
V Le rapport parole/musique
Pome de Verlaine :
Et quand vous parliez, dessein distrait,
Je prtais l'oreille votre secret :
Car la voix, ainsi que les yeux de Celle
Qui vous fait joyeux et triste, dcle,
Malgr tout effort morose et rieur,
Et met au plein jour l'tre intrieur...
V.1 Vers une identit musicale ?

A travers ce mmoire, on peut se rendre compte que la musicalit et l'motion
possdent des canaux de transfert dont les fonctionnements sont similaires. Dans les deux
cas, le rcepteur peut influer sur la nature mme du message selon son interprtation.
Certains diront qu'ils entendent du bruit l o d'autres entendrons de la musique. Certains
reconnatront de la perfidie dans la voix d'un innocent. Car ces deux canaux de transmission
sont trs sensibles au contexte de la situation comme les tlcommunications le sont au
bruit. Il ne faut pas ngliger ce qu'il y a de culturel dans une voix, d'identitaire.
Un domaine intressant est dans l'tude de l'influence de la langue maternelle
d'un musicien sur sa manire de jouer lors d'une performance ou bien sur sa manire de
composer. Il a t dit que les Franais font attention la couleur des sons comme Debussy,
Berlioz, Ravel, Messiaen, Boulez, Bayle. Cela serait d l'importante place que prend la
voyelle dans la langue franaise. D'ailleurs, ce fait rend difficile le chant des mlodies en
Franais. Il a aussi t dit que le phras de nombreuses musiques hongroises proviendrait du
fait que l'accent tend se trouver sur la premire syllabe en hongrois.
Il y a donc dj une identit nationale qui transparat aussi fortement dans la
musique que dans la voix. Les diffrences entre les ralisations du chant anglais et du
chant Bengali semblent tre corrles aux diffrences entre les structures prosodiques de
62
Grgory Beller
ces deux langues. 54

On peut prciser gographiquement et surtout en France, que les rgions
possdent aussi leurs identits musicales et accentuelles. De nombreux phontistes,
ethnologues et ethnomusicologues l'tudient, prtant, pour le mieux, attention la
coordination de ces deux volutions.
Mais je pense que l'on peut mme aller plus loin avec notre tlescope culturel
en pointant l'individu. Chacun possde son identit musicale, sa connaissance, sa culture, sa
manire de parler. Sans doute, sommes nous moins attentifs aux nuances prosodiques qu'aux
diffrences entre les musiques. Bien qu'il existe de nombreuses manires de parler, le
domaine de la parole reste bien plus homogne que le domaine musical qui prsente une
norme varit de types et de formes diffrentes. 55
Cependant nous possdons tous une manire propre de s'exprimer vocalement.
Mme si celle-ci ne nous parait pas perceptible la premire coute, nous reconnaissons
toujours nos interlocuteurs leurs voix lors d'une conversation tlphonique. Notre
expression personnelle se transcende en son travers notre voix et peut devenir ainsi le
phare d'autres voies d'expression artistique. Nous en parlions lorsque nous citions les
moyens de composition des musiques extra europennes avec Monder Ayahri. Dans la letera
Amorosa de Monteverdi crite dans le style rappresentativo , la voix, matriau phonique,
conserve les inflexions expressives du texte. Elles sont stylises, affines par une extrme
attention aux contours mlodiques et rythmiques de la phrase. L'inverse peut aussi se
produire dans la littrature lorsque la voix influence l'criture :
Edouard Sievers, un des prcurseurs de la phontique moderne, fut sans doute
le premier prendre au mot la mtaphore de mlodie du texte , bravant ainsi le sourire
pas toujours indulgent des confrres, et attribuer au texte, pome ou prose, une mlodie qui
se ralisait au cours de la lecture. Il est all encore plus loin, en postulant l'existence de
constantes prosodiques individuelles, des structures rythmiques, des schmas mlodiques
propres tel ou tel pote ou crivain une certaine priode de sa vie, constantes qui se
refltaient travers ses textes. Selon Sievers, la lecture simple et fidle d'un texte
reproduisait involontairement ces caractristiques vocales.
D'aprs cet crivain, nous possdons tous une identit musicale et prosodique
qui peut transparatre travers l'criture. Ce point de vue semble s'accorder avec celui
54
55
B. HAYES, A. LAHIRI, 1990, Durationnaly specified intonation in English end Bengali

K. SHERER, 1990, Emotion expression in speech music
63
Grgory Beller
d'Abbi Patrix pour qui, nous avons tous une note autour de laquelle nous voluons de
manire personnelle. Cette volution est le reflet d'une identit prosodique qui s'accompagne
d'une identit culturelle et musicale.
Seule l'intriorit sans objet, la subjectivit abstraite se laisse exprimer par les
sons. Subjectivit abstraite qui est un moi entirement vide, sans autre contenu. La tche
principale de la musique consiste donc, non reproduire les objets rels, mais faire
rsonner le moi le plus intime, sa subjectivit la plus profonde. 56
La musique pourrait tre, en quelques sortes, une communication visant
mettre en liaison deux personnes dont les identits musicales sont semblables. Gardons
l'esprit qu'une des formes de rassemblement des tres rside dans l'coute d'une mme
musique. C'est sur ce principe que se crent des ethnies musicales dadolescents qui se
reconnaissent dans une mme identit grce un groupe ou un courant musical. Remarquons
que ces ethnies possdent bien souvent une manire de parler, voire un vocabulaire
propre. Cette manire exclusive de sexprimer nat de dviations, de distorsions d'un patron
standard toujours renouvel.
Le chant passe lui aussi pour une modulation de la voix; Don qui rvle une
parfaite matrise du son, il apporte ceux qui le possdent l'amour de tous et un certain
pouvoir sur le monde. Les composantes acoustiques (mlodie, intensit, timbre) et
rythmiques (articulation, tempo ou vitesse d'locution, dure des phones et des pauses)
peuvent varier avec le ton de la voix, qui est fonction de l'usage que l'on fait de celle-ci : Car
toute parole est oriente. 57
En effet, toute voix porte la marque unique de l'intriorit de chacun.
Mallarm entend dans la musique [...] la transcription sonore du verbe, la voix intrieure
de notre esprit . Toute me est une mlodie, qu'il s'agit de renouer; et pour cela, sont la flte
ou la viole de chacun. 58
Rousseau identifiait la musique la langue naturelle. C'est la raison pour
laquelle il considre la mlodie comme insparable du chant et de la parole. Le sens de la
musique est dans la mlodie, le prolongement de la voix humaine. Les sons n'ont de ralit
que parce qu'ils pousent et se fondent dans les intonations naturelles de la voix et dans
les inflexions de la langue. Il identifie aussi la composition musicale un unique principe
vital et organique : Le langage parl, sans s'interroger sur la dperdition sonore que cela
56
HEGEL, Esthtique
58 D. DUCARD, 1980, Le chant perdu de la langue : voix et criture potique
57
64
Grgory Beller
entrane invitablement.
Au manifeste mallarmen joignons la confession de foi de l'crivain
contemporain Louis Ren des Forts qui expose l'attirance de l'criture pour la musique,
souveraine. L'emprise qu'a toujours exerce la musique sur moi tient peut-tre ce qu'elle
procde plus que tout autre art des lois de la mort. Mais pour m'en tenir la musique
considre comme moyen d'expression, j'y vois surtout le milieu conducteur ou le double
courant de la pense et de l'motion a le plus de chance de s'tablir, cet change s'oprant par
la mdiation d'un idiome particulier, heureusement dlivr de la scorie des mots (soumis, il
est vrai, une syntaxe non moins stricte et mme plus savante que celle laquelle est
astreint l'crivain), mais o le rythme a toujours valeur souveraine.
Cette dclaration reflte une autre similarit entre musique et parole lie la
construction mme de ces deux langages. Certes, il semble que les moyens de
comprhension de ces deux formes de communication soient semblables de par leurs
natures. Cela provient certainement du fait que ce sont les deux seuls moyens pour l'Homme
de faire passer ses motions dans un message sonore. Mais il est des ressemblances encore
plus frappantes dans leurs laborations, en ce qui concerne leurs structures.
V.2 Similitudes structurelles entre la parole et la musique :

Que la voix soit parle ou bien chante, elle relve de la mme intention, de la
mme motivation d'exprimer des motions. Mais la parole et la musique possdent des
fonctions qui les diffrencient.
Les buts d'une thorie smantique sont au nombre de trois : La thorie doit
tenir compte du nombre et du contenu de chacune des manires de lire une phrase; Elle doit
dtecter les anomalies smantiques; Et elle doit reconnatre les relations paraphrases entre
les phrases. 59
W. Slawson60 y voit une analogie forte avec une thorie d'association musicale
s'il on remplace simplement le mot phrase par passage . Il est vrai que cette opinion
reflte aussi la dfinition de la musique donne prcdemment par R. Cahen.
Cependant, si des similitudes structurelles existent entre la musique et la parole,
59
KATZ, FELDOR, 1963, The structure of semantic theory
60
W. SLAWSON, 1990, Structure and association in desciptions of music, with a coda on linguistic analogies
65
Grgory Beller
elles apparaissent tout de mme attenantes deux sortes de messages: Les messages
smantiques et les messages esthtiques. Le point de vue smantique est une question
pose au monde extrieur , l'information smantique doit prparer une dcision des actes; Il
y a un caractre nettement utilitaire, mais surtout logique; Elle constitue un code normalis;
Elle est traduisible et commutable d'un canal l'autre. Par contre, l'information esthtique ne
se rfre pas un rpertoire universel, est de caractre personnel; le point de vue esthtique
n'a pas de caractre d'intentionnalit, il dtermine en fait des tats intrieurs, l'information
esthtique est spcifique au canal qui la transmet , elle n'est donc pas traduisible. Les
prescriptions rglementaires en cas d'incendie, les programmes communiqus aux
ordinateurs, les commandements militaires vhiculent de l'information smantique : Les
oeuvres d'art apportent surtout de l'information esthtique. 61
D'autre part, Moles considre les structures abstraites, constantes, qui soustendent la communication comme messages smantiques, les ralisations concrtes,
individuelles, qui constituent l'acte de communication comme des messages esthtiques.
Ainsi les rgles de la syntaxe, les phonmes, la partition musicale, le sujet que reprsente le
tableau relvent de la sphre smantique, d'autre part, les phrases individuelles, les sons de
la parole, une ralisation individuelle de l'oeuvre musicale, le maniement du pinceau qui
caractrise un peintre vhiculent de l'information esthtique.
Les deux dfinitions sont la fois complmentaires et contradictoires. L'oeuvre
musicale s'oppose en tant que source d'information esthtique l'oeuvre verbale, elle
appartient en mme temps, la sphre smantique, conformment la deuxime dfinition.
Pour viter de tels chevauchements, on aurait intrt distinguer les messages stylistiques
que constitue toute ralisation individuelle d'une structure virtuelle, verbale, musicale,
picturale ou autre, d'une part, et les messages esthtiques qui relvent d'un code non verbal,
d'autre part. La confusion inhrente la dfinition double propose par Abraham Moles est,
toutefois, stimulante et expressive. Elle met en vidence l'analogie profonde entre message
artistique non verbal (musical, pictural, chorgraphique) et le message contenu dans les faits
de style verbal. Les messages stylistiques communiqus l'aide de la manire de parler, de
la faon de s'exprimer ont un caractre prverbal, malgr le fait qu'ils sont parfaitement
intgrs l'acte verbal proprement dit. Les messages communiqus l'aide du style musical
sont, par contre, des messages prverbaux intgrs un acte de communication non verbale,
on pourrait dire prverbale.
61
A. MOLES, 1958, Thorie de l'information
66
Grgory Beller
Mais si ces messages prverbaux sont communs ces deux formes de

communication que sont la parole et la musique, il rside nanmoins des diffrences
fondamentales dans les constitutions de ces deux langages.
La diffrence la plus frappante entre musique et parole est le rle
smantique. Une autre diffrence importante rside dans le rle de la structure. Dans le
langage, la structure a pour but de vhiculer le message linguistique. Dans la musique, le but
de la structure est elle-mme. Les compositeurs construisent de magnifiques structures de
groupes de sons. Si la structure est un point capital de la musique, elle est secondaire dans la
parole. A l'inverse, la smanticit inhrente au langage est en dfinitive trs fragmentaire et
optionnelle dans la musique. De nombreuses similarits entre musique et parole subsistent
tout de mme. Lors de performances musicales et durant une conversation, l'expression est
vhicule par des dviations de dure et de hauteur par rapport une ligne neutre
d'vnements attendus. Le groupement et la catgorisation sont deux principes utiliss par
notre perception durant l'coute de musique et de parole. Ces similarits ne sont pas
inattendues. La parole et la musique sont les deux formes principales de la communication
organise entre humain par le biais de signaux acoustiques. Le mcanisme qui les peroit et
notre manire de pense sont les mmes dans les deux cas. Il a t dmontr que le code
acoustique, utilis dans la musique pour dcrire les buts expressifs est similaire ou presque
identique ceux qu'utilise la prosodie. 62
D'ailleurs, on peut faire rfrence de nombreuses tentatives de cration d'un
support crit permettant de transcrire aussi bien de la musique que de la parole.
Nous avons tabli qu'il tait possible d'utiliser une partition pour transcrire une description
dtaille du rythme de la parole parle ou lue. L'interprtation d'une squence de notes n'est
pas une tche triviale, et il n'est pas du tout vident que des sujets musicalement entrans
suivent les mmes rgles lors de la transformation d'un flux rythmique en valeurs discrtes
de notes. Cependant, des conclusions concernant l'interprtation des up-beats , des sauts
de lignes et des syncopes peuvent tre faites. On peut d'ailleurs faire une analogie avec la si
proche transcription prosodique des phonticiens.
L'utilisation de rgles pour transformer la transcription en valeurs de dure est
intressante si l'on regarde les valeurs de dure des segments de parole. Nanmoins, ces
rgles ont t labores dans l'intention de transcrire un flux musical et n'ont pas t
62
J. SUNDBERG: Music is a language of emotions. Speech is also a language of emotions. .
67
Grgory Beller
destines un usage si particulirement non musical. 63

Une autre difficult dans lacheminement dun systme commun lcriture de
la musique et la transcription de la prosodie rside dans la disproportion entre lambitus
restreint de la voix parl et limmense registre musical. De mme, la prcision temporelle
quexige la parole peut tre un obstacle.
Toutefois les outils logiciels sont capables de cette prcision. Grce
TALKAPILLAR (voir la partie sur la synthse de la parole), il nous est dsormais possible
daboutir de telles dfinitions. Cest pour cela que va tre cre un nouveau genre de
fichiers contenant des informations relative la prosodie : Frquence fondamentale,
segmentation temporelle, groupes prosodiques, syntaxiques A ces donnes symboliques
pourront tre ajoutes nimporte quelles informations permettant de mieux dcrire
lintonation. Des informations de nature qualifier les motions par exemple. Ceci est
possible grce au format SDIF qui permet de dclarer de nouvelles matrices dans un chunk
initial. Les compositeurs dsireux dexploiter de tels fichiers prosodiques , les chargeront
par le biais de OPENMUSIC, AUDIOSCULPT ou DIPHONE64 afin de les visualiser, de les
analyser et de les transformer. Cependant, mme si ce type de fichier permet aux musiciens
dutiliser ces donnes relatives lintonation et la manire de sexprimer et ainsi de mettre
un pied dans le monde de la linguistique, il semble mal adapter pour la traduction
dvnements musicaux.
Les donnes exprimentales sur la production de la parole et la performance
musicale montrent des similarits. Dans les deux cas, le systme de production utilise un
accs local la structure prosodique qui est hirarchique, mais pas rcursive. Une
performance musicale comme la parole est tout de mme restreinte par l'aspect
phonologique. En s'affranchissant des limites formelles de la phonologie, il peut tre
possible d'tudier la conjecture entre la parole et la musique. 65
Devant ces disparits dchelles temporelles et frquentielles entre la parole et
la musique, il semble que ltablissement dun systme dcriture commun est vain. Andrezj
Rakowski ajoute qu'il peut exister des systmes phonologiques dans la musique. Mais ils
s'appliquent respectivement aux domaines de la hauteur, du rythme et du timbre. C'est
seulement dans cet esprit sparatiste qu'il peut s'tablir des analogies entre musique et
63
G. FANT, A. KRUCKENBERG, L. NORD, 1990, Stress patterns and rythm in the reading of prose and
poetry with analogies to music performance
64
Logiciels de lIRCAM
65
J.B. PIERREHUMBERT, 1990, Music and the phonological principle: Remarks from the phoneticians's
bench
68
Grgory Beller
parole. Lcriture doit dcrire fidlement les donnes acoustiques de ces deux signaux. Or la
notation musicale nest pas restreinte aux attaques des notes et leurs hauteurs. Dans la
Sequenza III, Luciano Berio dcrit les tats motionnels dans lesquels linterprte doit
sincarner. Il sagit alors pour ce dernier, du mme travail quun acteur dclamant des
phrases avec tel ou tel sentiment dans la voix. Comme nous lavons vu, le registre
motionnel peut sexprimer autant dans la parole que dans la musique. Cest donc
certainement dans lcriture des motions que pourrait se rejoindre les auteurs de tous
horizons (compositeurs, crivains).
Cela dit, dautres similitudes structurelles existent outre laspect directement
motionnel. Slawson66 dcrit une analogie entre parole et musique provenant de remarques
sur les grammaires des compositions tonales des XVIII et XIXme sicle. Mais il va plus
loin en constatant que de nombreuses compositions du XXme sicle, aussi complexes
soient-elles, possdent aussi des caractristiques systmatiques comme les hirarchies de
rgles... Un compositeur choisit gnralement un systme (dodcaphonisme...) dans lequel il
peut s'exprimer . Il pose au dpart une contrainte lui permettant dvoluer et de dcrire un
espace des possibles. Cette contrainte est systmatique et garante de lintgrit dune uvre.
Le compositeur la cr le plus souvent avec des rgles dcriture ou bien avec un patch
MAX Puis il va sexprimer en respectant ou non ce systme initial. Il est important de
remarquer que ces dviations sont trs proches des distorsions prosodiques. En effet, on peut
comparer ce systme dlimitant au cadre normatif de la grammaire dune langue. Un
compositeur cr ainsi son propre langage musical et lexpose aux autres soit par une
description explicite et complmentaire, soit par une premire phase nonciative. Puis il
exprime son rapport personnel ce systme compris de tous par une utilisation plus ou
moins dtourne. Les dviations quil opre sont alors rvlatrices de sa personnalit.
Si les liens entre ces deux structurations de langage ne sont pas directes. Cela
est d lincroyable diversit des langages musicaux quont cre les compositeurs.
Difficile dy voir clair lorsquon est habitu un systme rigide et commun tous comme
peut ltre une langue Il est dailleurs difficile la plupart du temps dapprcier les
dviations dun compositeur par rapport au systme quil a rig tout en comprenant celui-ci
simultanment. Cependant, pour exprimer des motions, il possde la libert dlaborer cette
structure librement. Elle peut aussi se rvler le vhicule dune expressivit. Ce qui dcuple
le pouvoir expressif du langage musical par rapport la parole et explique lhtrognit du
69
Grgory Beller
monde musical dans son ensemble.

Si le compositeur possde la libert de crer un langage. Il nen est pas de
mme pour linterprte qui doit se tenir lexcution du message. Cependant, il a la
possibilit, lui aussi, dexprimer sa personnalit motionnelle au travers de sa ralisation.
Cest pour cela que nous prfrons des versions dune mme pice dautres ; Ou bien
mme simplement des interprtes dautres. On parle alors de leurs sensibilits. Ce mot
reflte peut-tre leurs capacits mettre en emphase lmotion voulue par un compositeur.
Mais il peut aussi cacher une autre forme de communication sonore relative au jeu
instrumental
V.3 Prosodie musicale :

La musique n'est pas relative aux sons tels qu'ils sont raliss
mais tels qu'ils sont intentionns 67
Dans le pass, les recherches en analyse musicale se sont principalement
proccupes des aspects structurels et compositionnels. Une question galement fascinante
reste cependant explorer : Comment un musicien peut crer une ambiance motionnelle
approprie. A prsent, nous travaillons sur un systme de rgle qui introduit
automatiquement des effets d'articulation. Les premiers rsultats semblent pntrer les
principes de groupement bas-niveau de la performance musicale. L'analyse des
performances musicales a dj contribu au lexique utilis par les musiciens pour vhiculer
des informations non crites sur la partition (extrascorales). Il semble que cette voix de
recherche met en valeur des similarits frappantes entre la musique et la parole. Cela n'est
pas surprenant puisque ces deux systmes de communication humaine par les sons doivent
reflter les mmes processus cognitifs et perceptuels. 68
La premire remarque concernant cette dclaration dun minent chercheur
sudois est relative aux informations dites extrascorales. Celles-ci sont mettre en parallle
avec les informations prosodiques et motionnelles que nous citions auparavant. Il semble
quil se dgage de cette similarit, un sujet de recherche passionnant visant tudier le
rapprochement entre ces deux types de distorsions (de la prosodie et du jeu instrumental).
66
W. SLAWSON, 1990, Structure and association in desciptions of music, with a coda on linguistic analogies
R. JAKOBSON, Musicologie et linguistique, musique en jeu N5
68
J. SUNDBERG, 1990, Music performance research: An overview
67
70
Grgory Beller
Une telle recherche conduirait trs vraisemblablement ltablissement dun vocabulaire

motionnel ou du moins expressif. Cependant, rappelons nous que ds lors que ce genre de
lexique sera tabli, il deviendra probablement obsolte compte tenu de ce quil arrive aux
clichs mlodiques ds lors quils sont reconnus. Toutefois, selon Ivan Fonagy, nos
motions et leurs manires dtre exprimes remontent la prhistoire. Il nest pas de raison
alors quelles changent de si tt.
La seconde remarque et sans doute la plus intressante car moins prospective,
est que cette dclaration signifie qu'il existe un espace de communication li la
performance musicale que l'on pourrait appeler : Prosodie musicale. Le parallle avec la
parole n'tant pas fortuit, puisqu'il s'agit l aussi de communiquer des motions de manire
sonore. Cette distinction permet aussi de rapprocher les aspects formels de la musique et du
langage, le texte et la partition.
Je ne crois pas que la frontire se trouve vritablement entre structure et
expression musicale dans le cas de la musique. En crivant la structure, on peut exprimer des
motions. Un rapide changement d'amplitude dans une squence de chant synthtise donne
une couleur motionnelle agressive. Alors qu'une progression lente donne un caractre plus
paisible et amical. Il y a un mix entre les aspects structurels et motionnels. Ils se croisent
partiellement, mais pas entirement. 69
J'ose dire que c'est la mme chose lorsqu'on lit un texte triste par exemple. Le
champ smantique de la tristesse cre chez l'auditeur un rappel motionnel qui le met en
situation. Ceci est appuy par la faon dont est lu le texte. L aussi, le texte et
l'expression sonore s'allient pour communiquer un sentiment, une motion. De la mme
manire, l'interprte exprimera par son jeu, la pense crite du compositeur, de manire
amplifier le transfert d'motion . A. Gabrielsson70 ajoute que les dviations
expressives de la performance musicale sont effectues dans le but de clarifier la
structure motionnelle .
Ce qui importe dans toutes ces affirmations est lmergence dun nouveau
champ de recherche dans lanalyse musicale. Il est important de considrer quil est un bon
moyen de faire le lien entre la parole et la musique. Dailleurs, lorsquon interroge J.
Sundberg71 ce sujet : Quelles sont les fonctions de la musique ? ; Il rpond : L'une
d'entre elles est de nous entraner interprter les aspects expressifs de la parole.
69
J. SUNDBERG, 1990, Music performance research: An overview

WENNER-GREN INTERNATIONAL SYMPOSIUM SERIES, 1990, Music, langage, speech and brain
71
J. SUNDBERG Music is a language of emotions. Speech is also a language of emotions.
70
71
Grgory Beller
Pour le moment, lUniversit KTH (Sude) sest investie dans cette voie et
dblayer le terrain. LIRCAM sintresse aussi ce sujet, toujours dans le cadre musical.
Des rsultats sont dj accessibles concernant la modlisation du jeu dun interprte
particulier par lanalyse. Cette analyse est issue de la comparaison entre la partition MIDI et
des donnes de lalignement avec laudio. Autrement dit, le jeu dun interprte est modlis
grce ses dviations par rapport une partition qui se veut neutre et rfrentiel. Lors de ces
analyses72, Le laboratoire TMH de lUniversit KTH sest rendu compte de limportance
que pouvait jouer les fins de notes et les variations locales de tempo dans lexpressivit du
jeu dun interprte. Les articulations interviennent entre deux phrass selon la dfinition du
musicologue allemand Hermann Keller et : elles sont pour la mlodie, le meilleur moyen
dexprimer des motions. 73
Bien sr, dautres informations extrascorales participent la prosodie musicale
comme les variations de timbre par exemple.
Dans le cas de la parole, rappelons que la difficult est plus grande car nous ne possdons
pas de courbe neutre pouvant servir la comparaison. Si laspect structurel de la musique
semble tre plus riche que celui de la parole, il nen est pas de mme pour la prosodie
musicale qui possde moins de degrs de libert que la prosodie vocale.
Cependant, il faut mettre un bmol ce genre de dclaration puisque les
recherches visant comparer ces deux types de prosodie sont encore leurs phases initiales.
Tout est faire dans un domaine quil est difficile daborder car il requiert aussi bien un
savoir musical que linguistique. De manire pouvoir aboutir des rsultats fiables, il faut
tablir une relle collaboration entre ces deux sciences. Cela pourrait tre un sujet de
recherche conduit par deux tudiants en thse par exemple appartenant respectivement ces
deux chairs. Des travaux complmentaires et simultans ne seraient alors possible que par le
biais dun support technique commun comme par exemple, le format de fichiers prosodiques
que nous mentionnions dans la partie prcdente.
72
73
J. JEKERT, 2003, Measurements and models of musical articulation

H. Keller, 1965, Phrasing and articulation
72
Grgory Beller
Conclusion
Ce mmoire a plusieurs vocations. La premire est celle que jai introduite ds
le dbut : Je nai en aucune faon tent de tirer des conclusions, mais seulement de nuancer
des frontires qui semblent encore aujourdhui bien solides et bien dfinies. La musique estelle un langage ? La parole est-elle musique ? Quimporte les rponses des questions qui
nont finalement pas beaucoup de sens. Ce qui importe, cest dviter toute catgorisation
htive qui pigerait lauditeur dans une coute rductrice de ces deux phnomnes. La parole
permet dchanger des messages smantiques dont on oublie trop la part musicale et
esthtique, pourtant fondatrice de nos personnalits.
De manire mettre en emphase ce propos, les compositeurs du XXme sicle
ont cr de nombreuses pices poussant au paroxysme la musicalit de la voix parle en
librant souvent celle-ci de son rle smantique. Ils lont fait revenir dans la musique
classique occidentale. Cette dernire possde dailleurs de nombreux gnes de la voix
parle puisque cest elle qui la certainement engendre.
On pourrait mme aller plus loin dans les consquences dun tel
accouchement en citant Askenfelt74. Il mentionne un parallle intressant entre les
dimensions timbrales de la voix chante et celles des instruments cordes frottes. Ce genre
de parallle pose une question fondamentale : Peut-tre que les proprits spectrales de la
voix servent de rfrences notre perception du timbre ? Et par extension, est-ce que le
rythme proviendrait du dbit de parole, que la mlodie natrait de lvolution de notre
frquence fondamentale ? A lvidence, il ne faut pas tenter de rpondre une question qui
ressemble fort : Qui de luf ou la poule est nat le premier ? Il est prfrable, pour
rendre compte des similarits entre la parole et la musique de constater que leurs volutions
sont trs diffrentes, mais quelles sont toutes relatives un domaine commun, dit de
communication prverbale. Une grande partie du langage musical dialogue avec le langage
naturel tel quel: celui de l'homme. 75 Je pense quil est trs important dans les recherches
futures danalyser ce canal de transmission qui pour certains est dj associ au
transfert dmotions . Que cette dclaration soit juste ou errone, il nen reste pas moins
que la question subsiste et quelle est fondatrice de nouveaux champs dinvestigations.
La deuxime vocation de ce mmoire est de vous exposer le travail que jai
74
J. SUNDBERG: Music is a language of emotions. Speech is also a language of emotions.
73
Grgory Beller
effectu cette anne. La partie sur la synthse de la parole vous permet dapprcier un travail
dont le but est de synthtiser la prosodie dun locuteur spcifique. Ce travail nous a amen
dautres exploitations des donnes prosodiques que nous avons analyses. Jai tent de les
utiliser des fins purement musicales dans DisCutIon : Exprience sonore visant non
seulement associer la parole un matriau compositionnel, mais dnuder la parole de
sons rle smantique pour apprcier le rle narratif et informationnel de la prosodie. Jai
aussi essay durant cette anne de transformer cette dernire en temps rel. Difficult qui a
ma offert pour principale rcompense, la promesse dun dfi passionnant dans les annes
venir. Enfin, lattrait du matriau prosodique pour les compositeurs ma pouss dfinir un
format de fichiers, leurs permettant duser des donnes relatives lintonation pour
composer.
La troisime vocation de ce mmoire est douvrir des pistes pour dventuels
travaux futurs. Nous avons dfinit prsent ce format de fichiers prosodiques. La
formalisation et la ralisation restent tre dveloppes, ceci dans les prochains mois venir
grce laide de lquipe analyse/synthse de lIRCAM. Non seulement, les compositeurs
pourront les utiliser (Je pense notamment Jonathan Harvey qui dsire faire parler un
orchestre lt 2007), mais dautres chercheurs pourront sen servir comme des linguistes
par exemple : En effet, ce format est un bon outil de description de corpus en vue dtudes
statistiques. Associ un outil dextraction automatique de ses donnes, il peut se rvler
prcieux pour quiconque dsire tudier la prosodie.
Les rsultats de ces diverses analyses me semblent de bons moyens de pntrer
le rle de la communication prverbale. Mais seulement si on prend aussi en compte son
existence au sein de la musique. Cest pourquoi je prconise une tude complmentaire
visant mettre en vidence des paradigmes communs ces deux langages. Je pense que si
lon tudie, de front, le rle des articulations dans la musique et dans la parole ; La manire
dont la prosodie verbale et la prosodie musicale se construisent par distorsions dun patron
neutre fix au dpart (par la comparaison automatique de phrases mlodiques des phrases
intonatives par exemple); Et enfin, les similarits sonores (pauses, variations de dbit, de
timbres, de registres) qui existent entre ces deux modes dexpression ; Alors on pourra
mieux connatre et tracer les frontires de ce domaine commun la voix parle et
linterprtation musicale que certains comparent dj au berceau de nos motions.
75
74
Grgory Beller
Bibliographie
Dusterhoff, K. and Black, A., 1997, Generating F0 contours for speech synthesis using
the Tilt intonation theory
Black, A., 1997, Predicting the intonation of discourse segments from examples in
dialogue speech
Black, A. and Hunt, A., 1996, Generating FO contours from ToBI labels using linear
regression
Black, A. and Campbell, N., 1995, Predicting the intonation of discourse segments from
examples in dialogue speech, (Short version)
Black, A., 1995, Comparison of algorithms for predicting accent placement in English
speech synthesis
Hunt, A. and Black, A., 1996, Unit selection in a concatenative speech synthesis system
using a large speech database
Thse de Diemo Schwarz, 2004, Data-driven concatenative sound synthesis. IRCAM
Thse de Romain prudon, 2003, Synthse de la parole multilocuteur par slection d'units
acoustiques. LIMSI
Prudon R., d'Alessandro C., 2001, A selection/concatenation TTS synthesis system :
Databases developement,system design, comparative evaluation.
Prudon R., d'Alessandro C., et Boula de Mareil P, 2002, Prosody synthesis by unit
selection and transplantation on diphones
Bozkurt B., Dutoit T., Prudon R., d'Alessandro C., et Pagel V, 2002, Improving quality of
MBROLA synthesis for non-uniform units synthesis
Malfrre, Dutoit et Mertens, 1998, Automatic prosody generation using
suprasegmental Unit Selection
Thse de Christophe Blouin
Anne Lacheret-Dujour et Frdric Beaugendre.la prosodie du Franais. CNRS
Langage
Jacqueline Vaissire, 1997, Langues, prosodie, syntaxe
(www.cavi.univ-paris3.fr/ilpga/ed/dr/jvdr2/articlesJV/vaissiereatala1997.pdf)
Y. MENUHIN, 1979, Menuhin and Davis
J.M. ALBY, C. ALES, P. SANSOY, 1988, L'esprit des voix
75
Grgory Beller
J. ABITBOL, 1983, Voyage au centre de la voix

CHARVET, 2004, La voix et ses mtamorphoses dans les mtamorphoses d'Ovide
Q.H. TRAN, 1980, Les musiques vocales
FONAGY, 1983, la vive voix, essais de psycho-phontique
DI CRISTO, 1982, Prolgomnes l'tude de l'intonation Micromlodie
PLATON, La rpublique
M. POIZAT, 1986, Frnsie, entre parole et cri : le chant de la Diva
R. MANCINI, 1991, la voix dans la culture occidentale
M.BEAUFILS, 1954, Musique du son, Musique du verbe
Madelaine GAGNARD, 1987, La voix dans la musique contemporaine et extraeuropenne
POTOCKI, 1968; L'inoui et l'indicible
SCHNBERG, 1912, prface de Pierrot Lunaire1
MALEC, 1985, Ivo Malec propos de Vox, Vocis, F
COHEN-LEVINAS, 1987, La voix au-del du chant
J-C. RISSET, 1990, Speech and music combined: An overview
F. LERDHAL , J. HALLE, 1990, Somme lines of poetry viewed as music
NARMOUR, 1990, The melodic structures of music and speech: Applications and
dimensions of the implication-realization model
R. CROSS, 1991, La voix dvoile
LHERMITTE, 1991, Le cerveau
http://www.aphasie.qc.ca/divers/la_musique.htm
FONAGY et MAGDICS, 1963, Emotional patterns
MEYER, 1956, Emotion
SARTRE, 1960, Esquisse
FONAGY, 1960, le ton et la musique
C. MALHERBE, 1997, Locus
FREUD, der Witz
R. CARLSON, B.GRANSTROM, 1990, Performance rules in a texte-to-speech system
K. MAGDICS, 1963, Melody of speech
LIST, 1963, Speech and Song
P. SCHAEFFER, Trait des objets musicaux
FAURE, 1962, Aspects et fonctions linguistiques des variations mlodiques dans la
76
Grgory Beller
chane parle
FAURE, 1962, Recherches sur les caractres et le rle des lments musicaux dans la
prononciation anglaise
La parole du monde, mythe de cration Dogons, Mercure de France
HAYES, A. LAHIRI, 1990, Durationnaly specified intonation in English end Bengali
K. SHERER, 1990, Emotion expression in speech music
HEGEL, Esthtique
DUCARD, 1980, Le chant perdu de la langue : voix et criture potique
DUCARD, 1980, Le chant perdu de la langue : voix et criture potique
KATZ, FELDOR, 1963, The structure of semantic theory
W. SLAWSON, 1990, Structure and association in desciptions of music, with a coda on
linguistic analogies
A. MOLES, 1958, Thorie de l'information
J. SUNDBERG: Music is a language of emotions. Speech is also a language of
emotions. .
FANT, A. KRUCKENBERG, L. NORD, 1990, Stress patterns and rythm in the reading
of prose and poetry with analogies to music performance
J.B. PIERREHUMBERT, 1990, Music and the phonological principle: Remarks from the
phoneticians's bench
R. JAKOBSON, Musicologie et linguistique, musique en jeu N5
SUNDBERG, 1990, Music performance research: An overview
WENNER-GREN INTERNATIONAL SYMPOSIUM SERIES, 1990, Music,
langage, speech and brain
JEKERT, 2003, Measurements and models of musical articulation
H. Keller, 1965, Phrasing and articulation
77
Grgory Beller
Autre rfrences :
Entretien avec Roland Cahen (IRCAM), homme de thtre et pdagogue.

Entretien avec Abbi Patrix (Maison Du Conte), conteur.
Entretien avec Claudy Malherbe, compositeur.
Entretien avec Giordano Ferrari, spcialiste de lOpra et de la dramaturgie.
seuils de Marc Andr Dalbavie
Sara Dolce Tacere de Luigi Nono
Sequenza III de Brio
Femme de Florence Baschet
Filipo Filidei
Come natura di foglia de Marco Stroppa
Aventures et nouvelles aventures de G. Ligeti
De la nature de l'eau de Aperghis
tudes sur l'E muet, timbre, dure, Intensit, hauteur (Frquence Fondamentale) de J.
Varnet Pleasants
Prescurien N2 de Ferrari : exprience musicale dans laquelle les sons et la parole font
musique. Quelqu'un commente un univers en dcrivant ces mouvements, ces visions...
S'en suit la cration d'une atmosphre agrmente de sons.
Pierre Boeswillwald (thtre) met en scne une thatralisation du sonore ou des
injonctions verbales se marient des sons. (Tati).
Bernard Heidsiek, Cisif : Voix enregistre en dcalage... Avant la source...
Les Tocattanes du Groupe exprimental de Bourges.
John Cage, Finegens Wake, Lis : Il rorganise l'ordre des phonmes selon le Yi-kin.
Rythme de la rcitation.
Artaud, Pour en finir avec le jugement de Dieu : Il fait sortir l'nergie profonde par le cri
primal.
Franois Bernard Mche imite la prosodie des oiseaux fidlement.
La Dicte, Sonate Baroque : imite la machine crire.
78
Grgory Beller
Arborescence du CD-ROM joint
Exemple dune segmentation temporelle de la parole
79
Grgory Beller
Partitions de Fo-Low :
80

La Musicalite de La Voix Parlee

Transféré par

Droits d'auteur :

Formats disponibles

La Musicalite de La Voix Parlee

Transféré par

Informations du document

Description originale:

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

La Musicalite de La Voix Parlee

Transféré par

Droits d'auteur :

Formats disponibles

Grgory Beller

La musicalit de la voix parle

Description sommaire des diffrentes parties

La musicalit de la voix parle

Description sommaire des diffrentes parties:

Des oeuvres artistiques...

Avant de rapprocher l'coute de la musique celle de la voix parle, nous

Cette dernire partie est riche en ouvertures et en parallles entre la parole et la

La musicalit de la voix parle

Y. MENUHIN, 1979, Menuhin and Davis

La musicalit de la voix parle

La musicalit de la voix parle

Ce mmoire a pour but d'explorer les liens entre la prosodie et la musique o

La musicalit de la voix parle

I.1.a Remarques globales :

La musicalit de la voix parle

I.1.b Le cas du Franais :

La musicalit de la voix parle

lorganisation rythmique de langlais est compltement diffrente de celle du franais.

La musicalit de la voix parle

Le laboratoire de morphosyntaxe de Paris III (1991-1997) propose daffiner cette

La musicalit de la voix parle

-H+H+ : Mise en place de la co-nonciation

-la ngation : * discordance de point de vue

* Changement de thme, demande de confirmation

* Suscite une raction, nonciative

I.1.c les modles accentuels de la phrase franaise :

La musicalit de la voix parle

La musicalit de la voix parle

I.1.d La prosodie dans la synthse de la parole :

La musicalit de la voix parle

- V.Auberg (Grenoble) (1991-1997) : Cration dun lexique de contours. Il part de

La musicalit de la voix parle

I.1.e Automatic prosody generation using suprasegmental Unit Selection

A. DI CRISTO, 1982, Prolgomnes l'tude de l'intonation Micromlodie

La musicalit de la voix parle

A. CHARVET, 2004, La voix et ses mtamorphoses dans les mtamorphoses d'Ovide

La musicalit de la voix parle

I.2 Synthse de la parole :

I.2.a Contexte du stage :

La musicalit de la voix parle

modification, la phrase musicale produire. La thse de D. Schwarz sur ce sujet sest

I.2.a.ii synthse concatnative par slection dunits :

La musicalit de la voix parle

fonction de cot, estime partir de la phrase produire (et de ses caractristiques

I.2.a.iii Remarques individuelles :

La musicalit de la voix parle

I.2.b Systme mis en place TALKAPILLAR :

La musicalit de la voix parle

La musicalit de la voix parle

II Des oeuvres artistiques...

Lharmonie et le rythme doivent s'accommoder aux paroles. 12

La musicalit de la voix parle

II.1 La voix comme matriau sonore :

II.1.a Le rapport musique/verbe dans lopra :

La musicalit de la voix parle

M. POIZAT, 1986, Frnsie, entre parole et cri : le chant de la Diva

La musicalit de la voix parle

Le final de Lulu est cet gard rvlateur du souci de la recherche dun