La Musicalite de La Voix Parlee
La Musicalite de La Voix Parlee
La Musicalite de La Voix Parlee
Janvier 2005
La musicalit
de la voix parle
IRCAM
Equipe Analyse Synthse
Groupe de recherche : La voix
Grgory Beller
Plan
7
7
7
8
11
13
15
17
17
20
22
23
23
25
29
33
33
39
41
41
47
52
52
53
56
59
62
62
65
70
Grgory Beller
Dans cette partie introductive, nous dressons un panorama des diffrents moyens
de synthtiser la prosodie du Franais. Aprs l'numration de nombreux modles, nous
terminons par celui que nous avons retenu pour le systme TTS (Text-To-Speech) dvelopp
dans l'quipe Analyse Synthse, appel TALKAPILLAR. Cet tat de l'art reprsente une base
scientifique et bibliographique non exhaustive de l'tude de la prosodie du Franais.
II
22
Afin de tisser le lien entre la parole et la musique, cette partie propose un survol
de l'emploi de la voix parle des fins musicales. Son exploitation par de nombreux
compositeurs durant le sicle dernier s'tant accrue, nous proposons deux axes de
regroupement: L'utilisation de la voix comme matriau sonore et l'introduction de la voix dans
les processus compositionnels. Nous ne tentons pas de dresser une liste complte d'uvres
mais plutt d'en aborder quelques unes sous forme d'exemples.
III
Pices crites:
33
Sont exposs ici les concepts et mises en uvre de deux pices, cres par
Grgory Beller durant l'anne 2004. Si l'une n'est pas proprement lie la voix (Fo-Low),
l'autre en revanche (DisCutIon) propose l'utilisation directe du systme TALKAPILLAR et
quelques pistes pour la cration musicale partir de la prosodie.
IV
Questions ouvertes :
41
Le rapport parole/musique
62 :
Grgory Beller
Introduction:
Au dbut, il y a le son...
La musique est notre plus ancienne forme d'expression, prcdant le langage et
l'art; Cela commence avec la voix, et par notre dsir accablant de joindre les autres. En effet,
la musique remonte beaucoup plus loin que les mots. Ces derniers tant des symboles
abstraits qui vhiculent des penses factuelles. La musique touche nos sentiments bien plus
que ne le font les mots, et elle nous fait ragir de tout notre tre. 1
La voix est depuis toujours, l'instrument de musique le plus utilis et le plus
rpandu. En effet, chacun la possde et nul n'a jamais chant durant sa vie. Certains diront que
le chant ne leur a jamais plu et que par consquent, ils peuvent affirmer n'avoir jamais mis
une note de leur bouche. A cela, je leur dirais qu'il est trop tard... Car ils viennent de le dire, et
donc, d'mettre un son qui de part sa nature possde une hauteur et une temporalit qui la font
ressembler fortement ce que l'on appelle communment une note de musique. Chanter
lorsqu'on parle... Est-ce une hrsie ?
Une chose est sre, notre organe vocal nous permet tous de communiquer par
l'intermdiaire du son qu'il met, des informations mises en forme par notre cerveau. Que ce
soit par le chant ou par la parole, nous sommes capables d'exprimer nos motions et bien
d'autres choses encore. De manire complmentaire, notre oreille assure la rception du
message et notre cerveau le dcode. Quelle est alors la vritable nature de cette information
lors de la communication acoustique. Est-ce du chant, est-ce de la parole ? Dans tous les cas,
le message est sonore. D'o vient alors cette distinction entre voix parle et voix chante ?
La voix chante est caractrise par la hauteur, l'intensit et le timbre. La
boucle audio-phonatoire a un rle capital dans la voix chante. La voix chante reprsente en
gnral 90 95 %, le silence et la phase de rcupration 10 % pendant la performance vocale.
La voix parle peut se diviser habituellement en 2 facteurs temporels: la voix sonore ellemme 85 %, et le silence entre les mots 15 %. 2
Serait simplement une diffrence dans sa temporalit? Il est vident que non. Les
distinctions gnralement admises entre langage et musique s'tablissent dans leurs fonctions,
1
2
Grgory Beller
largement considres comme diffrentes. Nous y reviendrons plus tard. Mais comment figer
un instrument aussi versatile que la voix dans l'une ou l'autre de ces fonctions? Voici par
exemple deux de ses capacits:
La voix est un instrument fondamental de la sociabilit humaine: Elle est le
moyen, le canal le plus usit, le plus courant de toute relation entre plusieurs personnes. Plus
facile dans la proximit, elle peut cependant galement plus ou moins vaincre les distances en
jouant sur son intensit. Dans un dialogue, dans une conversation, elle permet d'entamer,
d'entretenir, de mettre fin au rapport que l'on a avec l'autre par l'intermdiaire de la parole. 3
La voix est l'instrument le mieux partag entre les tres humains. Il n'existe pas
de peuple qui ne chante pas. Chaque socit a son chant dans l'espace et dans le temps. La
musique vocale est le plus important et le plus ancien de tous les arts. L'histoire de la
musique, tout au moins jusqu'au XVme sicle, se confond avec l'histoire de la musique
chante. 4
Instrument de musique pour tous et moteur de notre sociabilit, la voix est
multifonctionnelle dans son usage. Mais ne le serait-elle pas aussi lorsque nous l'employons
seulement pour la communication verbale. Qu'en est-il de la reprsentation acoustique du
langage ? Reste-il langage lorsque il est exprim physiquement ? Ou bien est-il son, son
musical avant que notre cerveau ne le ramne l'tat de substance smantique ?
La premire partie de ce mmoire met en valeur le travail scientifique que j'ai
effectu durant cette anne au sein de l'IRCAM. Aprs avoir dcrit scientifiquement ce qu'est
la prosodie, nous expliquons comment nous procdons pour la synthtiser en vue de
reproduire l'expression d'un locuteur spcifique.
Puis la seconde partie propose de dresser un tat de l'art non exhaustif de
l'emploi de la voix parle dans la composition musicale. Nous verrons comment la musique
contemporaine s'est approprie cet instrument, tout en montrant que les liens entre la musique
et la prosodie existent depuis plus longtemps.
La troisime partie reflte les pices musicales que j'ai composes durant l'anne
et en explique les fondations conceptuelles ainsi que les moyens utiliss pour les exprimer.
Enfin, la quatrime et dernire partie de ce mmoire tente d'initier une discussion
sur les liens entre prosodie et musique en ouvrant la problmatique sur plusieurs domaines
d'tude : Des neurosciences la philosophie.
J. ABITBOL, 1983, Voyage au centre de la voix
A. CHARVET, 2004, La voix et ses mtamorphoses dans les mtamorphoses d'Ovide
4
Q.H. TRAN, 1980, Les musiques vocales
3
Grgory Beller
Grgory Beller
I tat de l'art...
I.1 La prosodie:
La voix prend corps qui trahit un sujet et un tre parlant. 5
Dans cette partie, nous allons tenter de dresser un portrait scientifique de la
prosodie sans chercher la dfinir. Nous nous sommes largement appuys sur des papiers
rdigs par des spcialistes6 en traitement de la parole afin de dresser un cadre le plus
rigoureux et le plus prcis possible. Ce faisant, nous pouvons tout de mme apercevoir qu'il
existe plusieurs modles prosodiques, tous diffrents de part leurs interprtations et que par
consquent, il n'existe pas aujourd'hui de dfinition absolue de ce qu'est la prosodie. De plus,
nous cantonnons cette description l'tude des faits prosodiques du Franais afin de
restreindre notre domaine de recherche.
P.L. HASSOUN
Anne Lacheret-Dujour et Frdric Beaugendre.La prosodie du Franais. CNRS Langage. CNRS edition.
7
I. FONAGY, 1983, la vive voix, essais de psycho-phontique
6
Grgory Beller
comprhension dinformations au-del des mots prononcs. Cest cette deuxime partie du
double codage de la parole qui lui confre un caractre naturel et vite la monotonie. Elle
permet entre autre de vhiculer des informations ectolinguistiques ou phonostylistiques
(expressivit, sentiments), de lever des ambiguts de sens entre deux phrases phontiquement
similaires et de structurer lnonc.
La variation de hauteur est certainement lindice acoustique le plus important
dans la prosodie. Le registre couvert par la plupart des locuteurs est souvent divisible en 4
niveaux perceptivement distinguables : Nous les nommerons:
H+H+ : niveau le plus haut
HH
LL
L-L- : niveau le plus bas
La frquence fondamentale Fo volue dans ce registre. Son volution au cours du
temps dcrit des contours. Une phrase est gnralement compose dune suite de contours qui
ne suivent pas ncessairement la mme orientation de pente. On observe cependant une
dclinaison gnrale qui correspond un abaissement de Fo du dbut la fin de l'nonc. La
hauteur la plus basse correspond donc la fin de cet nonc et constitue ainsi un bon indice de
segmentation. Ce phnomne priori universel est de nature physiologique, mais il est gr
par le locuteur des fins linguistiques; il permet de dlimiter la fin d'une phrase syntaxique. Il
faut remarquer que lon ne peut valuer cette frquence fondamentale que sur les segments
voiss (voyelles et quelques consonnes...). Aussi, nous extrapolons celle-ci durant les
segments non voises afin davoir des contours continus. De plus, La hauteur de la voix tant
fondamentalement diffrente selon le locuteur, on ne peut associer aux niveaux dcrits
prcdemment des valeurs de frquence fixes.
Grgory Beller
Pike, 1947
Grgory Beller
-Laccent :
Expression individualise
=>variabilit, subjectivit
Excursion mlodique
=>expression originale
Rupture fondatrice dune individualit
Force de dissociation
Locale (mot)
Lintonation permet de manifester la modalit de la phrase en franais :
-phrase assertive : contour descendant du niveau haut au niveau moyen
h
m
b
-phrase imprative : contour descendant linairement du niveau haut au niveau bas
h
m
b
-question partielle ou interrogation : contour courbe descendant du niveau haut au niveau bas
h
m
b
-question totale : contour courbe montant du niveau bas au niveau haut
h
m
b
Grgory Beller
=>
=>
11
Grgory Beller
- Ph. Martin (1980) construit des rgles fondes sur les corrlations entre relations syntacticosmantiques et le caractre accentuelle des units. Des relations de dpendances syntaxiques
(simple et distance) construites linairement (de gauche droite) permettent de discerner
lunit accentuable.
- S.P. Verluyten (1982) tablit une hirachisation de la phrase en groupes intonatifs (dduits
de la syntaxe) et en groupes accentuels (dduits de la longueur des mots) et ajoute ces rgles
lexicales des rgles de rajustement rythmique pour tenir compte du principe disochronie de
la langue franaise (galit de dure entre deux syllabes non marques (NA)).
- F. Dell (1984) prdit le degr accentuel grce un rajustement rythmique par degr
deurythmie (qui nauthorise pas que deux accents forts se suivent par exemple).
- Une extension du modle de Ph. Martin (1986-1987) saffranchit de la structure syntaxique.
Elle propose plusieurs dcoupages en groupes accentuels et choisit celui ayant la meilleure
eurythmie.
- A. Di Cristo et D. Hirst (1993-1996) construisent une grille mtrique grce des rgles
eurythmiques permettant lattribution des accents. Leur dmarche diffre dans le sens ou ils
dfinissent le rythme comme lvolution simultanne de la dure et du ton.
- Pasdeloup (1990) prtend que laccent est un processus de groupement rythmique. Il
instaure une hirarchie en quatre niveaux allant de la phrase la syllabe. Quatre rgles
gnrent en suite la prosodie.
- E. Delais-Roussarie (1995) utilise la thorie de loptimalit : La gnration accentuelle
seffectue en trois tapes :
-Gnration de candidats (Groupes intonatifs et groupes accentuels)
-On fait passer ces candidats dans trois modules parallles de contraintes
hierarchises (modules syntaxe, rythme et smantique)
-On value le candidat optimal selon une hirarchie de contraintes.
Tous ces modles sont issus dobservations et aboutissent pour la plupart des
jeux de rgles. Quils partent danalyses syntaxique, phonologique ou rythmique (psychoacoustique), ils permettent de mieux comprendre d'o proviennent les paramtres acoustiques
de la prosodie.
Cependant, il convient de se demander sils sont adapts la prdiction
12
Grgory Beller
prosodique pour une gnration automatique qui se veut naturelle et surtout personnalise.
Peux t-on envisager une construction de la prosodie par rgles dans le cadre de la restitution
de la voix d'un locuteur spcifique ? Llaboration de tous ces modles vise obtenir une
vision globale et gnraliste de la structuration prosodique. Dans tous les cas, ces modles ont
t labors dans loptique de prdire lvolution des paramtres acoustiques de nimporte
quel locuteur. Cela revient dire que, par conception, ces rgles ne peuvent aboutir quau
caractre normalis de notre expression.
En effet, de nombreux modles ne cherchent prdire que lapparition des
accents primaires, qui sont les indices de la modalit (frontires des groupes intonatifs). Elles
ne mnent que rarement aux marqueurs accentuels (accents secondaires) propres
lexpressivit et dont les apparitions rvlent la personnalit prosodique de chacun. Une
approche par rgles nous est donc prohibe si nous voulons restituer dans des phrases
synthtises, la personnalit dun locuteur spcifique.
13
Grgory Beller
- Chez IBM (1971-1980) : On construit un jeu de rgles statuant 9 contours types selon le
nombre de syllabes, le nombre de mots... On distingue quatre niveaux dans une phrase :
phrase, proposition, groupe et mot. Lauteur prcise que les niveaux phrase et groupe suffisent
pour la majorit des noncs. Cela revient un peu ngliger les accents secondaires.
- G. Bailly (Grenoble) (1983) : Il segmente aussi la phrase en groupes de respiration, de
phonation, de sens. Leurs tailles sont gnralement comprises entre 8 et 12 syllabes.
Pour genrer les contours, il utilise le modle de H. Fujisaki.
Le modle de H. Fujisaki :
La continuit des contours est de nature physiologique. Ils rpondent des commandes
discrtes :
- commande de groupe : rponse dun 2nd ordre un Dirac.
- commande daccent : rponse dun 2nd ordre un Echelon.
Ce second ordre modlise le muscle crico-thyrodien (en translation et en
rotation). Lavantage de cette modlisation et quelle prsente des coefficients constants
fittables pour chaque locuteur). Seuls lamplitude et le temps de dclenchement varient. Les
trois commandes de groupe sont : Initialisation, rinitialisation, Finalisation. Ils correspondent
lexpression de la modalit.
14
Grgory Beller
registre...), ce qui est essentiel compte tenu de notre but artistique : Restituer la voix d'un
locuteur spcifique. Enfin, lintroduction de contours rels de Fo sur des blocs de parole
permet de conserver la structure micro mlodique9.
H+H+
-temps de pause : P1 ou P2
Ce gnrateur est appliqu aux phrases de la source comme celles de la cible. Il
permet de crer des units descripteurs prosodiques de longueurs variables et dont les
frontires sont les accents finals. Ainsi, chaque unit descripteur prosodique possde une cl
propre reprsentant :
-Lindex de lunit dans la phrase
-les tons des accents finals de dbut (qui appartient lunit prcdente) et de fin dunit
-le nombre de syllabes neutres, inaccentues dans lunit
Cette cl peut ressembler par exemple : 2 FA1NA1NA2NA3FA2 ou FA1 et
9
15
Grgory Beller
FA2 prennent leur valeurs dans {HH, H/H, L-L-, H+H+, N} dans lequel N reprsente le dbut
d'une phrase. On ajoute aux cls des units de la source des marqueurs en liens avec le fichier
audio align qui nous permettent de retrouver les paramtres acoustiques comme lvolution
relle de Fo durant lunit... Le choix de lunit optimale seffectue en minimisant une
fonction de cot. Comme pour le choix dunits segmentales, cette fonction de cot rsulte de
laddition de deux cots :
-cot de distance la cible :
-les tones des premier et dernier accents doivent correspondre
-une pondration est ajuste en tenant compte du nombre de syllabes
-une autre est fonction de la position de lunit dans la phrase
On obtient ainsi une prslection de plusieurs units candidates.
-cot de concatnation :
Il est seulement bas sur la proximit des valeurs moyennes de Fo de deux units
conscutives.
On aboutit grce un algorithme de Viterbi la slection finale des units en
choisissant celles dont lenchanement prsente le cot le plus faible. Puis on va extraire des
units suprasegmentales de la source choisies, les paramtres acoustiques (lvolution de Fo).
Ensuite, on les fournit lorgane de synthse (MBROLA) pour que celui-ci applique des
transformations lmentaires lenchanement des units segmentales choisies en parallle.
Ainsi la phrase synthtise prsente une courbe intonative semblable celle quaurait pu
produire le locuteur lui-mme.
Enfin le rythme est gnr par rgles grce CART, module du systme
FESTIVAL (systme amricain).
De manire s'carter de ces dfinitions scientifiques, voici une dfinition plus
littraire qui nous permet de rejoindre nos questions fondamentales concernant les liens entre
la prosodie et la musique.
Les lments prosodiques du langage sont ses lments musicaux, intonation et schma
rythmique. Ils sont conventionnels mais motivs, car leur caractre gestuel n'est jamais
compltement aboli. 10
10
16
Grgory Beller
Le champ smantique musical utilis ici montre bien la dimension musicale que
possde l'intonation. Lorsque nous parlons de dure, de hauteur, de rythme, d'intensit... Nous
sommes en train de parler de notes de musiques.
On pourrait rtorquer que les diffrences de hauteur n'entrent par dans le registre
musical cause de leurs faibles ambitus; Que les variations du signal de parole sont trop
faibles pour tre considrer comme un signal musical. On pourrait le faire, mais ce serait
ngliger toute l'volution musicale du sicle dernier. En effet, la musique contemporaine dans
son ensemble a vu natre des critures registres restreints comme la micro-tonalit (quart de
tons, huitime de tons) et des exploitations diverses de la voix parle pour ses qualits
musicales. Nous verrons un peu plus loin de nombreux exemples de son utilisation dans des
pices contemporaines.
I.2.a.i
de CATERPILLAR TALKAPILLAR :
La synthse musicale par slection dunits consiste choisir dans une large base
de donnes les units sonores les plus appropries pour construire, par concatnation et
11
Le rapport de stage ainsi quune prsentation Power-point figurent sur le CD-ROM joint.
17
Grgory Beller
Grgory Beller
19
Grgory Beller
Nous pourrions aller plus loin dans cette ide de proscription totale de rgles, en
bannissant ltape fournit par EULER qui visent dduire de la syntaxe une description
symbolique de la prosodie. Il est certain que si cette tape donne une mauvaise description,
alors on choisira de mauvaises units. On pourrait envisag de construire une fonction de cot
ne dpendant que des syntaxes des units source et cible.
Cependant, dans la mesure o cette description ne dpend que du lexique et de la
modalit, on peut souponner quelle traduira bien le caractre normalis de la prosodie, cest
dire laspect conventionn de notre expression. Comme nous lavons vu, on est en droit de
modliser par des rgles lapparition de groupes intonatifs car la place des accents finals est
systmatique. Par contre, on peut difficilement modliser lexpressivit issue des accents
secondaires et de fluctuations plus fines et individuelles. Et cest en cela que lapproche par
slection dunits est intressante. Elle utilise comme descripteurs, les traits communs de tous,
pour donner accs aux variations intimes de chacun. Nous choisissons donc de garder
EULER, ceci afin de faciliter aussi la description des units suprasegmentales.
Dans le cadre de CATERPILLAR, de nombreux descripteurs bas niveaux ont t
crs et peuvent se rvler trs intressants pour lvaluation du cot de concatnation : Par
exemple la concavit des courbes de Fo...
Le fait que lon ait la libert de forcer lapparition dune unit plutt quune
autre est trs important dans notre optique artistique. Cela nous permet de choisir
perceptivement les contours les plus vraisemblables.
Enfin, je pense quil serait intressant deffectuer la slection des units
prosodiques avant de slectionner les units segmentales. En effet, une fois un contour choisi,
on peut affecter aux units segmentales appartenant ce contour, des poids plus faibles que
les autres de manire favoriser leur apparition. Plus largement, il sera prfrable de choisir
des units segmentales dont le Fo sera proche de celui fourni par lunit prosodique retenue,
ceci afin de minimiser la transformation effectue par lalgorithme TD-PSOLA.
Grgory Beller
relationnelle PostgreSQL (Dbi), Les algorithmes de slection (Viterbi...)... Pour en savoir plus
: voir la thse de Diemo Schwarz.
Il ne nous reste plus qu crer des units prosodiques. Puis il faut adapter ou
crer des descripteurs adapts aux signaux de parole et la prosodie. Et enfin, il faut rgler
leurs poids dans la fonction de cot pour la slection.
La base de donnes relationnelle nous permet de crer des relations de
congruence entre les units. Nous allons donc cre les units prosodiques partir des units
dj dans la base, grce aux descripteurs accents et tons, comme dans le systme de Dutoit,
Malfrre et Mertens.
Ce systme de synthse nous permet aussi de composer de la musique.
Rappelons qu' la base, TALKAPILLAR est n de CATERPILLAR. Outil cre par Diemo
Schwarz pour la synthse de phrases musicales par concatnation. Nous verrons plus loin qu'il
est possible d'utiliser un tel outil afin d'obtenir une hybridation entre signaux de parole et
signaux musicaux. Ceci sera dvelopp durant la troisime partie lorsque nous aborderons
DisCutIon, pice ralise l'IRCAM.
21
Grgory Beller
12
PLATON, La rpublique
22
Grgory Beller
23
Grgory Beller
spectateurs (lesquels le prenaient parfois fort mal, exigeant alors qu'on passe immdiatement
tel ou tel autre air, mme si c'tait l'air du troisime acte alors qu'on n'en tait encore qu'au
premier !). A l'inverse quand le compositeur se donne pour projet de brider le
dveloppement lyrique en l'assujettissant la scansion signifiante de la parole, il produit une
forme musicale dite par exemple rcitatif accompagn chez Gluck, ce qui deviendra
mlodie continue chez Wagner, tentant abolir la distinction air-rcitatif et donc la
limitation de la jouissance que cette scansion oprait. Or ces ormes musicales ont pour effet
de produire une tension, une captation continue source son tour d'motion et de jouissance
profonde, repre par tous les commentateurs, contemporains ou non, ceux de Wagner
comme ceux de Gluck. Et cela d'autant plus que, mme dans les oeuvres composes selon ce
projet esthtique, une large place est quand mme toujours garde pour les dveloppements
lyriques rompant toute attache avec le verbe et amenant l'auditeur cette jouissance vocale
dont nous parlons. Ce mouvement pendulaire de la Flte enchante au Sprechgesang de
Schoenberg et Berg, du bel canto italien au rcitatif mlodique de Pellas, jusqu' devenir
lui-mme le thme d'un opra, le capriccio de R. Strauss, cr en 1942, dont l'argument est
prcisment la discussion des rapports musique/verbe.
Cette problmatique du rapport musique-parole ne s'organise pas de faon
analogue dans le chant masculin et dans le chant fminin. L'attribution de plus en plus
systmatique l'hrone, c'est dire la femme qui sera sacrifie au dernier acte, de la
tessiture de soprano, ainsi qu' l'intrieur de cette tessiture l'inscription du chant de la
soprano dans des zones de plus en plus limites vers l'aigu et le suraigu, ont pour
consquence inluctable la liquidation de l'intelligibilit de la parole de la femme. On sait en
effet qu'il n'est acoustiquement pas possible, partir d'une certaine hauteur de chant,
d'articuler, tout en chantant juste, voire d'articuler tout court, certains phnomnes. Or plus
on avance dans l'histoire de l'opra plus les grands dveloppements lyriques se situent dans
cette zone d'inintelligibilit oblige. Or non seulement on ne constate pas la mme volution
dans le chant masculin sauf dans certains grands airs de tnor ou il subit alors un traitement
qui s'en rapproche, mais au contraire il tend et c'est frappant chez Wagner et chez Berg se
rintroduire comme parole pure: Le duo de la scne finale de Lulu entre jack et Lulu est
cet gard tout fait significatif puisqu'il s'agit vritablement d'un duo entre un homme qui
parle et une femme qui en retour module un cri culminant en son cri d'agonie brut, auquel
succde la parole brut de Jack. 13
13
24
Grgory Beller
14
25
Grgory Beller
II.1.b.i Sprechgesang :
Avec le Pierrot Lunaire (1912), Schnberg inaugura le travail sur les
inflexions de la voix chante unies celle de la voix parle. Les tessitures de chacun de ces
modes d'mission restant parfaitement distinctes, cela pose un problme d'homognit. La
voix humaine, pareille aux instruments qu'elle prcde, n'est pas une unit timbrale
clairement dlimite. Dans l'accouplement du parler avec le chanter, il y a l'irrgularit du
phnomne vocal. C'est partir de Pierrot Lunaire que la voix parle, en tant qu'elle
drape sur le chanter, est devenue partie intgrante de la musique. L'tranget du son que
l'on entend est perue comme un bruit totalement dgag des interprtations futuristes et
anecdotiques. Il est une nouvelle base harmonique, une nouvelle expression lie au concert.
Schnberg redonne vie la consonne, alors que la musique vocale du sicle prcdent
(essentiellement italienne) privilgiait la voyelle. A cet esthtisme du chant, il oppose une
sensualit abrupte et directe. Compose la demande de la comdienne diseuse
Albertine Zehme sur des pomes d'Albert Giraud, Pierrot Lunaire illustre l'union du parler et
du chanter parce que Schnberg appelle le Sprechgesang - littralement : Le
chanter/parler. 17
La beaut de l'expression et de la forme est synonyme de pulsion. Elle cesse de
reprsenter une symbolique du sens. Maintenant, le son est sens immdiatement. 18
Au dpart, le rythme devait tre observ strictement comme s'il s'agissait de chant, mais
alors que la voix chante maintient la hauteur du son, la mlodie parle (Sprechgesang) ne
fait que l'indiquer pour la quitter aussitt de faon ascendante ou descendante. 19
Ce n'est que bien plus tard que pour tuer dans l'uf toute tentation ou envie de chanter,
Schnberg note le Sprechstimme (voix parle sur une seule ligne). Il adopte un mode
intermdiaire : la mlodie parle qui, vrai dire, ne se parle pas plus qu'elle ne se chante,
mais procde par trmolo articul (mis part quelques sons isols au-dessus desquels le
compositeur a crit parler ou chanter ). La comprhension du texte est fonction de la
dclamation. Mais pour Schnberg, il s'agit l d'un faux problme. Connatre le pome, en
suivre la narration ne change en rien la texture homogne d'une oeuvre. Les correspondances
illusoires entre musique et texte ne peuvent que masquer la profondeur de ce que le
compositeur offre. Le contenu vritable est dans la musique.
17
26
Grgory Beller
Grgory Beller
20
28
Grgory Beller
29
Grgory Beller
Different trains comprend trois mouvements - mouvement tant pris ici au sens
large du terme car les tempi changent frquemment dans chaque mouvement :
L'Amrique - Avant la guerre
L'Europe - Pendant la guerre
Aprs la guerre
Cette composition a donc une ralit la fois sur le plan documentaire et sur le
plan musical et ouvre une nouvelle direction. C'est une direction qui conduira sous peu, je
l'espre, une nouvelle sorte de thtre multi-mdia combinant documentaire, musique et
vido. 23
30
Grgory Beller
Grgory Beller
discontinuit; Un sommet pouvant tre nonc plusieurs fois. Avec cette figure quatre
sommets distribuant chacun un nombre pair d'artes (quatre), il n'existe que deux points
d'entre partir desquels il est possible de parcourir une seule fois l'ensemble des artes. 24
Aprs l'explication de la constitution de la base de donnes, Claudy Malherbe nous
renseigne sur les processus compositionnels qu'il a utilis pour extraire d'un flux parl, un
matriau musical : Il s'agit de prendre comme point de dpart un nonc parl : When
speech sounds are made, the larynx may or may not itself be vibrating to procuce an
oscillatory flow of air. A partir de l'analyse temps/frquence de cette phrase, une
segmentation syllabique et un lissage des partiels sont d'abord effectus. Ce rsultat est
ensuite resynthtis puis transform par rductions successives pour constituer un matriau
musical original qui reste corrl la phrase parle constituant son origine.
Quelle que soit leur provenance, tous ces compositeurs manifestent un besoin
d'aller au-del de tout ce qui avait t tent auparavant, et ce dsir de dpassement permet de
constater que les ressources de l'organe vocal sont beaucoup plus vastes qu'on ne le
supposait, les limites du ralisable ont recul.
24
32
III
Pices crites:
III.1
Fo-low :
Grgory Beller
Fo-low est une pice cre dans un contexte universitaire (Universit PARIS
VIII Saint-Denis). Elle s'inscrit dans le cadre des cours de composition instrumentale de
Jos Manuel Lopez Lopez et ceux de composition avec l'informatique d'Anne Sds.
C'est une pice mixte crite pour flte, accordon, violoncelle et MAX-MSP.
33
Grgory Beller
34
Grgory Beller
Le violoncelle permet de nombreuses variations dans son volution temporelle grce aux
nombreux modes de jeux qu'il offre.
Jusqu'ici, notre mta-instrument est structur d'un filtre en peigne dont la
hauteur est donne par la flte et dont le gain est modul par le violoncelle. Mais jusque
l, il ne sort aucun son de notre instrument virtuel. Il faut pour cela le nourrir d'un
spectre. Le choix s'est d'emble port sur l'accordon pour sa richesse timbrale, sa
polyphonie, et aussi pour la stabilit de son enveloppe d'amplitude qui permet ainsi d'viter
de trop marcher sur les plate-bandes du violoncelle. Mme si lors de la pice, on peut se
rendre compte que j'ai jou sur cette double modulation ( la source et lors du traitement).
Voici donc prsent notre mta-instrument :
W
Grgory Beller
d'amplitude rsultante due aux 50*8 = 400 modulations binaires alatoires ralises l'aide
d'une matrice. Cependant, si on tient compte du nombre important de filtres (50) et de
lergodicit ainsi engendre, on peut ngliger cette modulation qui en moyenne ne sentend
pas (aucune chute brutale du volume global).
L'criture de la partition instrumentale s'effectue de concert avec l'laboration
du patch MAX. De nombreux paramtres changent lorsque le chef d'orchestre ou la fltiste
appuie sur une pdale midi. L'criture de la pice a donc plusieurs supports : La partition,
tout d'abord pour les instrumentistes et le patch lui mme comprenant une collection grant
l'volution temporelle du comportement du mta-instrument. Il n'a pas t choisi de systme
compositionnel particulier (srialisme...) pour l'criture instrumentale. Ceci car la contrainte
de la manipulation du mta-instrument par les instruments rels est suffisamment forte pour
dfinir un espace des possibles. En effet, chaque partition instrumentale est pense de
manire ce que de la combinaison des trois, s'rige une partition virtuelle : Celle du mtainstrument.
Ainsi la ligne mlodique de la flte n'est pas seulement propre cet instrument
mais aussi au mta-instrument. Ne reste alors que d'autres paramtres comme le timbre, le
rythme... comme degrs de libert pour la flte. De mme pour le violoncelle qui doit cder
son enveloppe au mta-instrument, ce qui fera apparatre de nombreux modes de jeux dans
sa partition. De nombreux clusters sont prsents dans la partition pour accordon de manire
livrer au mta-instrument un spectre assez riche et inharmonique.
Mais la vritable contrainte ne se situe pas vritablement dans le seul fait que chaque
instrument se voit dpossder d'un partie de son espace compositionnel, mais bien dans
la difficult d'obtenir, au final, une cohrence musical entre tous les instruments rels mais
aussi entre les instruments rels et l'instrument virtuel, tout en gardant une certaine
indpendance de chacun des instruments face au mta-instrument (indpendance rythmique
pour la flte et mlodique pour le violoncelle principalement). De part la structure du mtainstrument (synthse soustractive), la pice a tout de mme t labore dans une pense
spectraliste. D'ailleurs, son droulement en est rvlateur.
Quatre moments sont bien discernables dans Fo-Low. Du bruit nat une note
accompagne de l'harmonicit. Puis cette harmonicit se dgrade jusqu' ce que lche la
relation harmonique fondatrice de la sensation de hauteur du mta-instrument. La relation
rigide entre les frquences centrales du filtre en peigne se rompt laissant libres les filtres
d'voluer alatoirement dans le domaine frquentiel. S'en suit une phase dinharmonicit qui
va brutalement replonger dans le domaine de l'alatoire et du bruit. Fin de la pice.
36
Grgory Beller
Le droulement temporel est donc principalement structur sur une dialectique entre l'ordre
et le dsordre, le dterminisme et l'alatoire, le suivi et la divergence. Le titre Fo-Low
(suivre) dcrit ce qu'essaye de faire le mta-instrument durant toute la pice : Sorte d'alien
instrumental, glouton des paramtres des instruments rels, il va tenter de les suivre sans
jamais y arriver jusqu' l'implosion finale.
Les phases bruites du dbut et de la fin de la pice sont enregistres au
pralable car elles sont ralises en temps diffr. L encore, intervient cette dialectique
entre sons purs et bruits. Le patch Derivate.mxb utilis pour gnrer des squences de
sons bruits a t ralis avec MAX. C'est une sorte de synthse croise non linaire. Je
dsirais obtenir des sons bruits partir de sons harmoniques. Il m'est naturellement venu
alors l'esprit d'utiliser la drive d'un signal qui est trs sensible aux bruits. Mais je ne
voulais pas simplement rehausser les composantes hautes frquences du bruit prsent dans
de mauvais enregistrements. J'ai donc effectu une transformation non linaire entre deux
sons pour en obtenir un seul en sortie. Le principe est simple : grce l'objet delta~, on
observe les variations instantanes des deux sons en entre, d'un chantillon un autre.
Selon les signes des drives de ces deux sons (signes de x ou y ), le son rsultant va
tantt voluer comme le son 1 ou comme le son 2. Par exemple, si le son 1 monte (delta1
> 0) et que le son 2 descend (delta2 < 0). Alors le delta du son rsultant (delta3) sera gal
delta1 :
* Si les deux sons voluent dans le mme sens (delta1 * delta2 > 0), delta3 = delta2.
* Si les deux sons voluent dans les sens contraire (delta1 * delta2 < 0), delta3 = delta1.
37
Grgory Beller
C'est donc une transformation non linaire de bas niveau, mais qui a pour
avantage de donner un rsultat sonore assez intressant puisqu'elle ralise une sorte de mix
instantan des deux sons en entre, charg de bruit. Rsultat assez frappant lorsqu'on choisit
une percussion et un son harmonique. On obtient alors une percussion teinte du timbre du
son harmonique.
Le module jaune droite fait intervenir un troisime son. Selon le signe de sa
drive z , on switch entre delta1 et delta2.
Cet instrument m'a permis de raliser les parties introductrice et conclusive de la pice.
Fo-low a t joue par l'ensemble Futur-Musiques, lors de deux concerts :
W
D'ailleurs, elle ne fait pas intervenir la voix, car aucun interprte ntait disponible dans la
formation de dpart. Cependant le procd de suivi de hauteur utilis sapplique trs bien
la voix. Dailleurs la flte est un instrument vocal.
25
38
III.2
Grgory Beller
DisCutIon :
Je souhaite plutt dsigner cette pice par le terme : exprience sonore. En
effet, elle propose d'exprimenter par l'coute ce que peut comporter la prosodie comme
processus compositionnels. Ses buts, car elle a des buts (et c'est en cela qu'elle ne peut tre
une pice musicale, une oeuvre artistique), sont :
W
de nous faire entendre l'agencement structurel d'un matriau sonore connu par l'intonation
d'essayer de reconnatre les intentions et autres informations dlivres par les locuteurs
39
Grgory Beller
Ces essais sonores sont coutables sur le Cd-rom joint au mmoire. Ils permettent de donner
un avant-got de ce que sera DisCutIon. Une composition originale nomme XavierCocteau-Violon26 constitue un agencement primaire des squences les plus pertinentes.
26
40
Grgory Beller
IV
Questions ouvertes :
IV.1
41
Grgory Beller
grossier. Reprenons un patient qui a une lsion trs importante de l'hmisphre gauche, il est
donc aphasique, il est incapable de parler, il dit : ah da ya ya ... et quand vous lui
demandez ou que vous lui faites comprendre qu'il faut qu'il chante, il se met vous chanter
tous les airs qu'il connat. Bien sur, il aura du mal mais trs rapidement vous allez obtenir
des chansons qui vont stupfier tout l'entourage puisque ce malade, absolument incapable
d'mettre dans le langage parl le moindre son articul, devient capable d'mettre une suite
mlodique avec toutes les composantes musicales. Bref, il ne parle pas mais il chante ! C'est
vraiment extraordinaire.
Le deuxime exemple est beaucoup plus subtil, il fait rfrence des
expriences chez des sujets normaux. Je vous avais dit toute l'heure que pour apprcier les
capacits de l'oreille droite et gauche, de l'hmisphre droit et gauche, il fallait adresser des
messages concurrentiels dans chaque oreille. A ce moment-l, effectivement, vous mettiez
en comptition les deux oreilles. Imaginez que dans un casque, avec des paramtres
physiques et acoustiques, quivalents, vous adressiez dans l'oreille droite un signal parl
(vous racontez pendant 10, 15 ou 20 secondes une histoire) pendant que, dans un mme laps
de temps, vous envoyez dans l'oreille gauche un signal musical (1, 2 ou 3 airs de musique).
C'est ce que l'on appelle l'coute dichotique. Ensuite vous pouvez demander au sujet : ...
finalement qu'est que vous avez entendu ? . En fonction de sa rponse, vous allez voir s'il a
entendu prfrentiellement le langage ou la musique dans la mesure ou le message sonore
linguistique tait adress l'oreille gauche et le message musical l'oreille droite. Vous
pouvez contrler en faisant la stimulation inverse : Vous adressez l'oreille gauche de la
musique et l'oreille droite du langage. Il est sur que, dans la mesure ou vous adressez
l'oreille droite du langage, ce dernier va tre immdiatement capt par l'hmisphre gauche
et la musique sera scotomise, efface.
[...] Toutes les informations qui ncessitent un traitement par le langage, donc
raconter une histoire, expliquer quelque chose, donner un raisonnement, et bien sur, penser
de manire philosophique, tout ceci ne peut se faire ailleurs que dans l'hmisphre gauche
qui dispose non seulement du langage, mais du couple langage/pense.
A ce stade de l'interview, on est en face de dclarations manifestes d'une profonde diffrence
entre les traitements de la parole et de la musique. Il semble que les dcodages de ces deux
signaux se situent dans des zones bien distinctes. Ce qui laisse penser qu'ils ne peuvent
exprimer la mme chose; Et que toutes recherches concernant un espace sous-jacent ces
deux modes de communication n'est pas justifie. Mais le fonctionnement de notre cerveau
n'est pas si simple. Tout n'est pas blanc, ou noir.
42
Grgory Beller
Grgory Beller
Finalement, on s'aperoit que nos connaissances sur le cerveau ne sont pas assez solides
pour affirmer s'il existe ou non des processus communs au dcodage de la parole et de la
musique. Mais ce qui est important ici, c'est de constater que l'hypothse d'un traitement
commun ces deux modes de communication n'est pas caduque et reste pour le moment
viable d'un point de vue des neuro-sciences.
Vous avez dans l'hypothalamus, une nergie de faim, une nergie de soif, une
nergie de dfense et une nergie sexuelle. C'est lui qui gre le registre motionnel. 30
La clef est certainement l, dans l'hypothalamus ! Si l'on peut tre mu par
une belle musique, l'on peut aussi l'tre en entendant un enfant nous parler (par exemple) au
cours d'une discussion. Ces deux genres de signaux sonores activent alors probablement
les mmes zones de l'hypothalamus, mettant plus ou moins en rsonance telle ou telle partie
de notre tre motionnel. Cette partie du cerveau se rvle alors tre ce lien physique que
nous cherchions. Il existe bel et bien.
Ne rentrons pas tout de suite dans le registre des motions, bien que nous nous
apercevions de son poids dans notre question. Il semble que des liens entre la parole et la
musique s'tablissent un autre niveau et dans d'autres zones du cerveau. C'est ce que nous
explique Amlie Racette, tudiante qui effectue un doctorat en neuropsychologie clinique.
La musique peut-elle aider rcuprer la parole ?
Il nous est tous arriv d'utiliser la musique pour retenir un texte. Par exemple,
nous apprenons plus facilement l'alphabet en le chantant. Ce rle de la musique ne date pas
d'hier. Dans la tradition orale, les chansons ont longtemps t utilises pour transmettre des
histoires d'une gnration l'autre. Ceci soulve cependant certaines questions : comment la
musique peut-elle aider produire la parole ? Pourrait-elle aider les personnes aphasiques
rcuprer leur langage ?
Depuis plus de deux sicles, la littrature scientifique fait effectivement
mention de personnes aphasiques qui arrivent chanter correctement les paroles de chansons
connues alors que leur production spontane du langage parl est dficiente. Ds 1736, Olof
Dalin a fait la description d'une personne aphasique qui ne rptait qu'un seul mot, oui ,
mais qui, avec de l'aide, arrivait chanter son hymne nationale, de mme qu' rciter
certaines prires. La question est donc de savoir comment le support de type musical peut
permettre la rcupration du langage.
30
44
Grgory Beller
45
Grgory Beller
Il existe donc de bonnes raisons de croire que la musique puisse amliorer la production de
paroles chez certaines personnes aphasiques. Des thrapies orthophoniques se sont d'ailleurs
inspires de ce principe pour la radaptation de cette clientle.
Qu'est-ce que la thrapie d'intonation mlodique et rythme (Melodic
Intonation Therapy) ?
La thrapie d'intonation mlodique et rythme, qui en est la reprsentante
principale, met l'emphase sur un patron exagr et simplifi, progressivement diminu, du
rythme, de la prosodie et des accents pour les phrases travailles avec le thrapeute. Il en
rsulte une sorte de mlodie rythme deux tons. Cependant, cette thrapie ne semble
obtenir de rsultats positifs que chez certaines personnes aphasiques rpondant des critres
stricts comme avoir une capacit d'autocritique, une bonne motivation ainsi qu'un discours
svrement atteint (afin qu'une amlioration soit possible) et strotyp avec difficults de
rptition, caractristiques des aphasiques de Broca.
O en sont vos recherches ?
Mme si la parole chante a acquis une bonne rputation, leffet facilitant de
la musique sur le langage est encore peu connu parce que peu tudi. Pour l'instant, la
recherche n'a pu dmontrer que les personnes aphasiques produisent plus de mots
lorsquelles chantent que lorsquelles parlent. Des tudes empiriques sont donc ncessaires
pour valider et expliquer ce phnomne. En plus de faire avancer les connaissances sur la
place de la musique et du langage dans le cerveau, ces tudes possdent un intrt clinique :
elles permettront de vrifier sil y a de vritables raisons de penser que des personnes
aphasiques vont amliorer leur production du langage par la musique. L'ide m'est donc
venue de faire apprendre des chansons des personnes aphasiques afin d'tudier le rle de la
musique dans la rcupration des paroles de chansons. 31
Les liens entre la musique et la parole intressent aussi le monde mdical. Cette
mthode neuro-psychologique permettrait de soigner des patients atteints daphasie. Elle est
donc trs prometteuse et ncessaire. A cette thrapie, on peut ajouter celles des
orthophonistes qui visent rguler des problmes de prononciation par le chant.
A ce stade, on voit que de nombreux domaines assez loigns, provenant des sciences
exactes ou des sciences humaines, se rejoignent autour des mmes questions. De cette
symbiose nat d'autres domaines d'investigation. Voici maintenant l'avis d'un, sinon le,
spcialiste de la psycho-phontique : Ivan Fonagy.
31 http://www.aphasie.qc.ca/divers/la_musique.htm
46
IV.2
Grgory Beller
pas l'motion, mais la mlodie du verbe, l'intonation prise par le locuteur, la prosodie
autrement dit, est un facteur essentiel dans l'intensit de la charge motive porte par le mot.
Ivan Fonagy, dans la vive voix32, montre que l'existence et l'importance de la mimique
vocale deviennent apparentes au cours d'une rgression momentane de la communication
gestuelle, prlinguistique. Car le signal expressif appartient au systme de communication le
plus volu, la langue, mais en mme temps relve du stade archaque, autistique de ce que
l'on appelle l'acting , ou les mouvements corporels servent rduire directement,
immdiatement la tension (ex-pression = limination de tout ce qui cre une tension). Il
semble en effet qu'autrefois, la musique et la parole n'taient pas spares : Ainsi
fonctionnait le prlangage des dsirs et besoins inassouvis, qui consistait en une suite de
mouvements plus ou moins violents et coordonns, accompagns d'missions vocales
rduisant momentanment la tension psychique.
Ce ne sont pas tant les mots qui importent, qu'une prosodie particulire : Car
dans la rgression passagre des crises motives, ce sont toujours les lments prosodiques
qui dominent, tandis que la structure grammaticale est perturbe, et que les mots sont
relgus au second plan, servant avant tout de support l'intonation et au schma
rythmique. 33
L'intonation motive doit tre interprte comme une rgle de transformation,
une distorsion que l'on fait subir la phrase neutre, dtermine par des rgles de grammaire.
Ces rgles de transformation sont probablement indpendantes de telle ou telle langue. La
transformation est assez souvent assez importante pour que le message motif soit accessible
mme ceux qui ne comprennent pas la langue en question. Ces tendances paralinguistiques apparaissent mme en dehors de la communication verbale, dans la musique
europenne vocale et instrumentale partir du XVIme jusqu'au XXme sicles 34
L'angoisse, par exemple, s'exprime en franais, en anglais, en allemand, en
hongrois et dans la musique vocale europenne, par une forte rduction de la gamme
mlodique. Dans la Flte enchante de Mozart, quand la statue du Commandeur vient
32 I. FONAGY, 1983, la vive voix, essais de psycho-phontique
33 FONAGY et MAGDICS, 1963, Emotional patterns
34 Meyer, 1956, Emotion
47
Grgory Beller
48
Grgory Beller
49
Grgory Beller
50
Grgory Beller
du propre de la musique. 40
Dans l'interprtation artistique, l'intonation obit des lois assimilables celles
qui rgentent les formes musicales. Par l, elle s'loigne de sa fonction initiale qui est de
transmettre, de faon intelligible tous, des expriences et, avant tout, des sentiments.
Cependant, tout en s'loignant de la parole de tous le jours et en se rapprochant de la
musique, cette intonation, loin d'appauvrir, enrichit le message; ajoutant les moyens
d'expression musicaux aux possibilits de l'expression linguistique. Ainsi le message
motionnel est souvent mis en emphase par des distorsions plus importantes de la courbe
neutre : en largissant le registre. Les variations rythmiques plus importantes permettent
aussi des mises en valeur daccent, bien plus fortes que dans le langage parl usuel. Un bon
exemple est le Sprechgesang qui fait tendre la courbure prosodique naturelle vers le chant,
combinant donc, ces deux modes dexpression.
Sil existe comme le prtend I.Fonagy, un concept sous-jacent la parole et la
musique qui implique la communication des motions, alors il semble fort intressant
dtudier ces deux voix dexpression de front et de manire complmentaire, afin dextraire
dune telle tude comparative, des paradigmes concernant la communication sonore
motionelle. Jusqu aujourdhui, ltude des motions est envisage comme appartenant
aux domaines parapsychologiques. Peu de chercheurs en sciences pures sy intressent
comme le souligne R. Carlson et B. Granstorm : Les aspects motionnels de la langue
parle n'ont pas t tudi en dtail. Dans le futur, cette aire de recherche permettra de
mieux comprendre la relation entre la parole et l'expression musicale. 41
Le renoncement sengager dans ce domaine, pour linstant parascientifique
provient certainement de la versatilit des motions, de la difficult les dfinir ou bien
mme, de les connatre. De plus, il existe dans cette communication des motions, une
indtermination intrinsque qui la rend difficile analyser : Le rcepteur la possibilit
dinflencer la nature du message par son interprtation. Nous ne sommes pas tous
touchs de la mme manire par une pice musicale ou par la voix dun acteur. Nous
sommes sans cesse en train de filtrer des messages motionnels faisant de chacun de nous,
des antennes sentimentales dont les caractristiques sont diffrentes et qui plus est, variables
dans le temps. Pourquoi le discours dun mendiant fera tirer des larmes aux uns tout en
attisant la haine des autres, alors quil est le mme pour tout le monde. Cette ventuelle
multi-reprsentativit dun message motionnel par un rcepteur entrane une difficult
40 J. RISCHEL, 1990, Invariance in the linguistic expression, with disgression into music
51
Grgory Beller
certaine pour lanalyse. Je pense dailleurs que nous prouvons tous cette difficult au jour
le jour dans nos vies quotidiennes lorsque nous avons un "problme de communication".
IV.3
la musicalit ?
IV.3.a
l'artiste vocal d'assimiler la parole la musique l'aide d'une mlodicit leve qui prte
ses mots. La phrase semble se dplacer, monter et descendre en progressant dans le temps.
On pourrait concevoir la musicalit comme une dimension de profondeur de la mlodie
phrastique qui lui permet tantt de s'approcher, tantt de s'loigner du plein-chant.
La musicalit de la voix dpend de la rgularit de la distribution des frquences
fondamentales l'intrieur d'une syllabe. La mesure la plus approprie pour mesurer la
rgularit d'une succession de frquences est probablement celle de la redondance. En
considrant les frquences des vibrations successives comme une chane markovienne, il est
possible de dterminer l'information ou la redondance de la distribution des frquences. La
musicalit parat tre directement proportionnelle la redondance.
La voix humaine est perue comme du chant s'il elle dpasse un certain degr
de musicalit (cie de rgularit), sinon, elle est considre comme tant de la parole. Mais
cette dichotomie n'est pas universelle. Les Maoris, par exemple, distinguent quatre
catgories qu'ils dsignent par quatre termes diffrents : Le koorero correspond la parole,
le haka une parole stylise , mlodieuse, le karakia est de la mlope rituelle et le
waiata est du chant. On peut admettre, mme dans le cadre des langues indo-europennes,
des catgories intermdiaires entre chant et paroles quotidiennes. Klara Magdics42, par
exemple, relve neuf degrs de musicalit, de rgularit musicale dans la voix. La solennit,
la tendresse, la prononciation enjoue rapprochent la voix du ple positif, de la musicalit
maximum. La mlodicit de la parole croit avec la tendresse et dcroit brusquement dans
l'expression des motions agressives. Les clichs mlodiques du langage enfantin (na-nanre) ou du franais parisien sont toujours chantonns. Cette troisime dimension des
mouvements mlodiques joue dans toutes les langues un certain rle, sans avoir de fonction
41 R. CARLSON, B.GRANSTROM, 1990, Performance rules in a texte-to-speech system
52
Grgory Beller
IV.3.b
Emmanuel Nunes a mis le souhait de pouvoir passer d'une voix parle une voix chante
de faon continue et ce, par le biais d'un programme informatique. Cette ide d'un
Sprechgesang contrl manuellement posteriori, voudrait que d'une phrase parle puissent
merger des moments chants de manire trs raliste. Ce contrle ressemble fort un
contrle de la musicalit, dans le sens technique que nous avons dcrit jusqu'ici. Dans
Max/MSP, j'ai tent de raliser un tel programme. Grce aux objets Yin~ (estimateur de la
frquence fondamentale) et psych~ (Synthse PSOLA), ce patch nous permet de modifier en
temps rel la frquence fondamentale d'un signal de parole. J'utilise une table pour dcrire la
distorsion. La courbe dessine dans cette table ressemble d'ailleurs fortement une courbe
de distorsion puisqu'elle est en ralit une courbe de transfert entre-sortie (Fo rel en entre
et Fo de la synthse en sortie). On peut faire ainsi saturer Fo de manire ne percevoir plus
42
43
53
Grgory Beller
qu'un ton monocorde. On peut au contraire accentuer les accents ou mme les inverser. Tout
ceci en temps rel. Une courbe en escalier fait de la phrase parle, une vocalise. Si l'on place
en parallle une table linaire, on peut faire un mix entre les deux et ainsi passer de manire
continue et fluide d'une voix "normale" une voix "chante" ou harmonise. Ce programme
est trs simple et possde l'avantage d'influer sur la frquence fondamentale en temps rel.
En revanche, il ne peut agir sur le rythme et la dure. Il est en effet trs difficile de pouvoir
jouer sur ces paramtres temporels en temps rel tout en gardant un aspect naturel la
transformation. Ce dsir est d'ailleurs paradoxal.
Benoit Meudic, assistant musical l'IRCAM, travaille sur une pice dont un
passage est constitu d'un morphisme progressif du franais parl l'anglais parl, en temps
rel. Outre la difficult de la transition phontique, se dresse un obstacle bien plus grand : Le
changement de prosodie. Comme nous l'avons rappel lors de la premire partie, le Franais
et l'Anglais possdent des structures prosodiques fondamentalement diffrentes. Le Franais
possdent des accents fixes en fins de mots. L'Anglais est une langue temps accentus.
Cette diffrence dans les distributions des accents ne permet pas d'action en temps rel pour
faire ressembler une langue une autre sans passer par un apprentissage pralable. Prenons
comme exemple le Hongrois et le Franais. Toutes deux langues accents fixes. Le
Hongrois situe ses accents au dbut des mots. Si l'on essaye d'effectuer une telle transition
progressive du Franais vers le Hongrois, en dplaant les accents de la fin du mot au dbut,
cela suppose dj de connatre les frontires des mots (reconnaissance de la parole), mais
surtout de les prdire. On ne peut attendre l'information d'accent d'un mot Franais pour
dclencher une transformation puisqu'on aurait du l'effectuer ds le dbut de ce mot. Cette
causalit intrinsque est due la construction mme des groupes accentuels qui s'laborent
certainement en amont de la phrase ralise. Voil pourquoi un tel exercice de traduction
instantane n'est pas ralisable en temps rel sans l'appui d'un modle complexe et adaptatif.
On fera alors appel aux prcdents modles cits dans la premire partie. Une manire
simple serait peut-tre d'utiliser l'accent final du Franais comme pr accent marqueur pour
l'accent initial du Hongrois.
En ce qui concerne la transformation du rythme, elle ncessite aussi un
dcoupage segmental et une prdiction d'vnements qui s'accordent mal avec le temps rel.
Il semble que l'agencement des paramtres temporels de la voix parle ne puisse tre
aujourd'hui altr que par des transformations globales comme des variations de dbit par
44
54
Grgory Beller
55
Grgory Beller
IV.3.c Ecoute(s) :
Dure, hauteur, mais aussi timbre est pause sont des paramtres de la
musicalit. Leurs infinies combinaisons situes dans leurs contextes d'utilisation font de la
musicalit, une notion complexe dfinir et de surcrot mouvante. Sans oublier que comme
pour la communication des motions, la musicalit dpend fortement des oreilles du
rcepteur
Lors d'un entretien avec Roland Cahen48, nous nous sommes confronts la
difficult de dfinir deux des termes que nous employons ici : spontanit et musicalit. Il
avertit, il n'y a pas de naturalisme. . Lorsqu'on enregistre une discussion et que l'on la
reproduit ensuite, le contexte s'en trouve bien sur chang. On se retrouve dans une situation
acousmatique telle que Jacques Perrieux la dsigne : Lors de l'coute de parole enregistre,
on ne peut tre dans la situation de l'objet parlant. Il se cre un dcalage dont le manque
d'informations nous pousse reconstituer partir d'indices plus ou moins fiables ces
informations manquantes. Comme il nous manque la causalit instrumentale, on ne voit pas
la cause premire, l'action qui produit49, il ne reste qu'un son dsincarn. On va tricher
l'coute, de manire crative ou malhonnte. Comment la chose pourrait tre entendue
autrement ?
Lors de travaux avec des acteurs, R. Cahen leurs proposent d'enregistrer des
scnes de tous les jours durant leurs vies quotidiennes. Puis il les invitent reproduire ces
scnes dans deux contextes diffrents : Avec ou sans avoir couter l'enregistrement avant
l'action. Le rsultat de cette exprience est que l'on constate de grosses diffrences dans le
cas ou les acteurs n'ont pas entendu l'audio pralablement. Il en conclut que les scnes
relles sont beaucoup plus expressives que les scnes artificielles . Il semble que la
spontanit traduise l'instantanit dans ce cas. Jean Gilbert, dans son travail d'acteur,
cherche se dfaire des clichs mlodiques de manire faire resurgir une spontanit.
Stanyslavsky fait de mme.
L'autre avertissement de R. Cahen concerne la musicalit. La musique est
l'organisation abstraite des sons, des relations qui articulent des objets hirarchiquement
organiss qui ne possdent pas de sens et dont la forme se construit dans le temps. La parole,
quant elle, voit son articulation contrainte par des relations linguistiques et n'est pas faite
48
49
56
Grgory Beller
Ecouter c'est rechercher dans les indices du son sa provenance possible (la causalit) ; our
c'est couter le son sans se poser de question ; entendre c'est pratiquer l'coute rduite ;
comprendre c'est percevoir la signification des sons (langage). De ces quatre coutes, nous
ne retiendrons pas lour et renommons les trois suivantes :
-l'coute causale : identification de bruits informatifs (klaxon, porte qui
claque...)
-l'coute linguistique : qui permet la comprhension du sens des mots...
-l'coute musicale : des relations entre les sons...
De nombreuses pices tournent autour et jouent avec l'coute causale : Ainsi,
Yann Parentoen nous fait explorer le voyage sonore d'une lettre. Ce travail narratif grce aux
ambiances sonores, aux bruits et aux sources informatives nous fait voyager de la gare
Montparnasse jusqu'en Bretagne. De mme, la lettre de Alain Savouret, tire de sa sonate
baroque, imite les bruits d'une machine crire. La mme coute est sollicite, mais dans ce
cas, les bruits sont reproduits par synthse instrumentale, ce qui vient approfondir la
recherche sonore sur le lien de causalit. Les bourdons de l'Odysse raliss par le GRM de
57
Grgory Beller
Bourges sont des ambiances de grillons harmonises. Ds lors que l'illustratif devient
fonction dans le paysage musical, il est difficile de savoir comment s'exerce le passage de
l'coute causale l'coute musicale.
Lorsque nous parlons, les mots suscitent sans cesse l'coute linguistique de nos
interlocuteurs, mais qu'en est-il de la prosodie ? A quelles autres coutes nous rfrons nous
lorsque nous entendons quelqu'un parler ?
Pour R. Cahen, on peut dfinir la musique par ce qu'elle comporte : des
rptitions, des analogies, des diffrences, une conduite nergtique... La parole n'est pas
vraiment de la musique mais elle possde une dimension musicale. D'ailleurs la musique
vient originellement de la prosodie. Les chants grgoriens sont rythms par les accents du
latin. Le blues vient des palabres africains. Le tambour africain parle ( tais toi, tu parles
trop ).
Peut-on alors driver des structures musicales indites de langues
prosodiquement diffrentes. On peut imaginer un outil logiciel d'extraction automatique de
lignes mlodiques partir de contenus prosodiques pour composer musicalement ds lors
que l'on aurait approfondi les liens entre prosodie et musique... Il me semble que ce serait
trs intressant pour l'analyse des phnomnes paralinguistiques universaux. L'on se rendrait
certainement compte de structures communes tous et l'on pourrait alors comprendre
pourquoi certaine musique nous parle tous. Nous y reviendrons en dernire partie.
On voit bien, la lumire de cet entretien, qu'un son ne devient musical que selon l'coute
qu'on lui prte. C'est pour cela qu'on ne peut dfinir une musicalit au sens large et
universel, car chacun possde sa propre musicalit, son propre sens esthtique qui fera tantt
intervenir l'coute musicale, tantt intervenir l'coute causale. Nous avons vu quel point le
traitement de l'information sonore dans notre cerveau est complexe. Il ne semble alors pas
dangereux de faire l'hypothse que notre cerveau est capable de combiner diffrentes
coutes. L'coute d'une pice instrumentale permet de reconnatre l'arrive soudaine d'un
nouvel instrument dans un ensemble. Est-ce alors l'coute causale qui joue ou bien
seulement l'coute musicale ? Il parait plus prudent de penser que les deux participent le
dtection d'un tel vnement. Ce parallle nous permet maintenant de revenir nos
considrations sur la voix et sur sa musicalit. Comment entendons nous une voix ? Est-ce
que seul notre coute linguistique participe ce fait ? D'accord, cette coute nous permet de
reconnatre des mots et de les comprendre. Mais qu'en est-il de la participation de l'coute
musicale ? Ne serait-elle pas associe durant une conversation pour reconnatre des formes
universellement connues et contenues dans l'expression intonative ?
58
Grgory Beller
On est mme de comprendre un tranger nous demandant l'heure dans sa langue. L'coute
causale et la vision nous font reconnatre la voix de celui-ci ainsi que sa montre autour de
laquelle il fait un geste circulaire. Puis l'coute linguistique est droute cause de mots
qu'elle ne comprend pas. Enfin l'coute "prosodique" reconnat la question et nous engage
y rpondre. Cette coute "prosodique" me parait difficile dfinir dans le sens de Schaeffer
sans faire l'hypothse que notre cerveau combine toutes les coutes causale, linguistique et
musicale en mme temps pour en extraire les informations d'intention, d'motion et
d'intonation.
Cette musicalit identifiable dans les faits prosodiques est peut-tre mme la
naissance de ceux-ci. Et l'on pourrait se demander si, en ralit, il ne serait pas plus juste
de dire, du moins du point de vue physiologique, que dans l'laboration du message parl, ce
sont les timbres et les bruits qui accompagnent les lments musicaux. Car il est bien
certain qu'en fonction d'un contenu psychologique donn, ce sont d'abord le rythme et la
mlodie qui sont commands et raliss, en utilisant comme matire brute le son
fondamental encore informe et polyvalent qui sera ensuite faonn par la bouche et flanqu
de bruits qui aideront faire de lui le noyau d'une syllabe. 50 51
IV.3.d
que la voix est musicale. Musicien de formation, musicien dans l'me, il est devenu conteur
car on ne voulait pas, l'poque, de thtre musical. Le travail du conteur sur sa voix
consiste amliorer sa qualit phonatoire. Chacun de nous possde une note autour de
laquelle il oscille lorsqu'il parle. Cette note dfinit un registre dans lequel notre voix est
timbre. Quand je parle, quand ma voix est timbre, je suis autour du RE.
Lorsque je suis sur scne, que je raconte, l'ensemble des paramtres est conduit de manire
converger pour exprimer une intention. La voix fait partie de la composition de l'espace
acoustique au mme titre que les instruments de musique... C'est pourquoi, je tonalise .
Sur scne, l'intonation devient musicale : Elle devient tonalisation. Et ainsi, elle s'accorde
avec une percussion, car toute manifestation sonore a une tonalit.
50
G. FAURE, 1962, Aspects et fonctions linguistiques des variations mlodiques dans la chane parle
G. FAURE, 1962, Recherches sur les caractres et le rle des lments musicaux dans la prononciation
anglaise
52
Lentretien avec Abbi Patrix figure sur le CD-ROM joint.
51
59
Grgory Beller
Passive : Il enregistre simplement du mieux qu'il peut (ce qui peut tre trs complexe)
Patrix : Au bout du monde. Tout le spectacle est bas sur le travail de la voix. Se balanant
toujours entre le parler et le chanter, Il utilise aussi des nouvelles technologies : Sampling et
jeu en temps rel mais surtout, spatialisation. Alexis Blanchet, l'ingnieur du son a mis au
point un systme de sonorisation multi-diffusion totalement transparent, sans qualisation et
sans retour sur scne. La cohrence acoustique qui en rsulte rapproche tout le monde du
conteur, qui se permet durant le spectacle d'alterner entre voix amplifie capte par un micro
HF frontal et son acoustique direct. Le but est d'tablir un contact transparent, naturel avec le
public pour jouer avec, aprs. Le spectacle se termine sur le souffle du conteur sonoris de
telle manire que le lien de proximit n'est plus choquant, devenu invisible. C'est ce genre de
transformations dont nous parlions prcdemment qui peuvent paratre gnantes si elle ne
sont pas diriges, fonctionnalises musicalement car elles dtruisent le naturel de la voix.
Abbi Patrix a fait de nombreuses autres expriences dans la relation qui lie la
musique la parole. Dans Le Compagnon, spectacle ralis avec le violoniste Bernard
Chaize, Le conteur parle et s'arrte progressivement, et c'est le violon qui continue le
discours et qui raconte tout. Le musicien devient alors conteur. Dans l'histoire du galop de
cheval, Le soubassement rythmique jou par une percussion reprsente l'ternit. Les
60
Grgory Beller
61
Grgory Beller
V Le rapport parole/musique
Pome de Verlaine :
Et quand vous parliez, dessein distrait,
Je prtais l'oreille votre secret :
Car la voix, ainsi que les yeux de Celle
Qui vous fait joyeux et triste, dcle,
Malgr tout effort morose et rieur,
Et met au plein jour l'tre intrieur...
62
Grgory Beller
63
Grgory Beller
d'Abbi Patrix pour qui, nous avons tous une note autour de laquelle nous voluons de
manire personnelle. Cette volution est le reflet d'une identit prosodique qui s'accompagne
d'une identit culturelle et musicale.
Seule l'intriorit sans objet, la subjectivit abstraite se laisse exprimer par les
sons. Subjectivit abstraite qui est un moi entirement vide, sans autre contenu. La tche
principale de la musique consiste donc, non reproduire les objets rels, mais faire
rsonner le moi le plus intime, sa subjectivit la plus profonde. 56
La musique pourrait tre, en quelques sortes, une communication visant
mettre en liaison deux personnes dont les identits musicales sont semblables. Gardons
l'esprit qu'une des formes de rassemblement des tres rside dans l'coute d'une mme
musique. C'est sur ce principe que se crent des ethnies musicales dadolescents qui se
reconnaissent dans une mme identit grce un groupe ou un courant musical. Remarquons
que ces ethnies possdent bien souvent une manire de parler, voire un vocabulaire
propre. Cette manire exclusive de sexprimer nat de dviations, de distorsions d'un patron
standard toujours renouvel.
Le chant passe lui aussi pour une modulation de la voix; Don qui rvle une
parfaite matrise du son, il apporte ceux qui le possdent l'amour de tous et un certain
pouvoir sur le monde. Les composantes acoustiques (mlodie, intensit, timbre) et
rythmiques (articulation, tempo ou vitesse d'locution, dure des phones et des pauses)
peuvent varier avec le ton de la voix, qui est fonction de l'usage que l'on fait de celle-ci : Car
toute parole est oriente. 57
En effet, toute voix porte la marque unique de l'intriorit de chacun.
Mallarm entend dans la musique [...] la transcription sonore du verbe, la voix intrieure
de notre esprit . Toute me est une mlodie, qu'il s'agit de renouer; et pour cela, sont la flte
ou la viole de chacun. 58
Rousseau identifiait la musique la langue naturelle. C'est la raison pour
laquelle il considre la mlodie comme insparable du chant et de la parole. Le sens de la
musique est dans la mlodie, le prolongement de la voix humaine. Les sons n'ont de ralit
que parce qu'ils pousent et se fondent dans les intonations naturelles de la voix et dans
les inflexions de la langue. Il identifie aussi la composition musicale un unique principe
vital et organique : Le langage parl, sans s'interroger sur la dperdition sonore que cela
56
HEGEL, Esthtique
A. CHARVET, 2004, La voix et ses mtamorphoses dans les mtamorphoses d'Ovide
58 D. DUCARD, 1980, Le chant perdu de la langue : voix et criture potique
57
64
Grgory Beller
entrane invitablement.
Au manifeste mallarmen joignons la confession de foi de l'crivain
contemporain Louis Ren des Forts qui expose l'attirance de l'criture pour la musique,
souveraine. L'emprise qu'a toujours exerce la musique sur moi tient peut-tre ce qu'elle
procde plus que tout autre art des lois de la mort. Mais pour m'en tenir la musique
considre comme moyen d'expression, j'y vois surtout le milieu conducteur ou le double
courant de la pense et de l'motion a le plus de chance de s'tablir, cet change s'oprant par
la mdiation d'un idiome particulier, heureusement dlivr de la scorie des mots (soumis, il
est vrai, une syntaxe non moins stricte et mme plus savante que celle laquelle est
astreint l'crivain), mais o le rythme a toujours valeur souveraine.
Cette dclaration reflte une autre similarit entre musique et parole lie la
construction mme de ces deux langages. Certes, il semble que les moyens de
comprhension de ces deux formes de communication soient semblables de par leurs
natures. Cela provient certainement du fait que ce sont les deux seuls moyens pour l'Homme
de faire passer ses motions dans un message sonore. Mais il est des ressemblances encore
plus frappantes dans leurs laborations, en ce qui concerne leurs structures.
60
W. SLAWSON, 1990, Structure and association in desciptions of music, with a coda on linguistic analogies
65
Grgory Beller
elles apparaissent tout de mme attenantes deux sortes de messages: Les messages
smantiques et les messages esthtiques. Le point de vue smantique est une question
pose au monde extrieur , l'information smantique doit prparer une dcision des actes; Il
y a un caractre nettement utilitaire, mais surtout logique; Elle constitue un code normalis;
Elle est traduisible et commutable d'un canal l'autre. Par contre, l'information esthtique ne
se rfre pas un rpertoire universel, est de caractre personnel; le point de vue esthtique
n'a pas de caractre d'intentionnalit, il dtermine en fait des tats intrieurs, l'information
esthtique est spcifique au canal qui la transmet , elle n'est donc pas traduisible. Les
prescriptions rglementaires en cas d'incendie, les programmes communiqus aux
ordinateurs, les commandements militaires vhiculent de l'information smantique : Les
oeuvres d'art apportent surtout de l'information esthtique. 61
D'autre part, Moles considre les structures abstraites, constantes, qui soustendent la communication comme messages smantiques, les ralisations concrtes,
individuelles, qui constituent l'acte de communication comme des messages esthtiques.
Ainsi les rgles de la syntaxe, les phonmes, la partition musicale, le sujet que reprsente le
tableau relvent de la sphre smantique, d'autre part, les phrases individuelles, les sons de
la parole, une ralisation individuelle de l'oeuvre musicale, le maniement du pinceau qui
caractrise un peintre vhiculent de l'information esthtique.
Les deux dfinitions sont la fois complmentaires et contradictoires. L'oeuvre
musicale s'oppose en tant que source d'information esthtique l'oeuvre verbale, elle
appartient en mme temps, la sphre smantique, conformment la deuxime dfinition.
Pour viter de tels chevauchements, on aurait intrt distinguer les messages stylistiques
que constitue toute ralisation individuelle d'une structure virtuelle, verbale, musicale,
picturale ou autre, d'une part, et les messages esthtiques qui relvent d'un code non verbal,
d'autre part. La confusion inhrente la dfinition double propose par Abraham Moles est,
toutefois, stimulante et expressive. Elle met en vidence l'analogie profonde entre message
artistique non verbal (musical, pictural, chorgraphique) et le message contenu dans les faits
de style verbal. Les messages stylistiques communiqus l'aide de la manire de parler, de
la faon de s'exprimer ont un caractre prverbal, malgr le fait qu'ils sont parfaitement
intgrs l'acte verbal proprement dit. Les messages communiqus l'aide du style musical
sont, par contre, des messages prverbaux intgrs un acte de communication non verbale,
on pourrait dire prverbale.
61
66
Grgory Beller
67
Grgory Beller
G. FANT, A. KRUCKENBERG, L. NORD, 1990, Stress patterns and rythm in the reading of prose and
poetry with analogies to music performance
64
Logiciels de lIRCAM
65
J.B. PIERREHUMBERT, 1990, Music and the phonological principle: Remarks from the phoneticians's
bench
68
Grgory Beller
parole. Lcriture doit dcrire fidlement les donnes acoustiques de ces deux signaux. Or la
notation musicale nest pas restreinte aux attaques des notes et leurs hauteurs. Dans la
Sequenza III, Luciano Berio dcrit les tats motionnels dans lesquels linterprte doit
sincarner. Il sagit alors pour ce dernier, du mme travail quun acteur dclamant des
phrases avec tel ou tel sentiment dans la voix. Comme nous lavons vu, le registre
motionnel peut sexprimer autant dans la parole que dans la musique. Cest donc
certainement dans lcriture des motions que pourrait se rejoindre les auteurs de tous
horizons (compositeurs, crivains).
Cela dit, dautres similitudes structurelles existent outre laspect directement
motionnel. Slawson66 dcrit une analogie entre parole et musique provenant de remarques
sur les grammaires des compositions tonales des XVIII et XIXme sicle. Mais il va plus
loin en constatant que de nombreuses compositions du XXme sicle, aussi complexes
soient-elles, possdent aussi des caractristiques systmatiques comme les hirarchies de
rgles... Un compositeur choisit gnralement un systme (dodcaphonisme...) dans lequel il
peut s'exprimer . Il pose au dpart une contrainte lui permettant dvoluer et de dcrire un
espace des possibles. Cette contrainte est systmatique et garante de lintgrit dune uvre.
Le compositeur la cr le plus souvent avec des rgles dcriture ou bien avec un patch
MAX Puis il va sexprimer en respectant ou non ce systme initial. Il est important de
remarquer que ces dviations sont trs proches des distorsions prosodiques. En effet, on peut
comparer ce systme dlimitant au cadre normatif de la grammaire dune langue. Un
compositeur cr ainsi son propre langage musical et lexpose aux autres soit par une
description explicite et complmentaire, soit par une premire phase nonciative. Puis il
exprime son rapport personnel ce systme compris de tous par une utilisation plus ou
moins dtourne. Les dviations quil opre sont alors rvlatrices de sa personnalit.
Si les liens entre ces deux structurations de langage ne sont pas directes. Cela
est d lincroyable diversit des langages musicaux quont cre les compositeurs.
Difficile dy voir clair lorsquon est habitu un systme rigide et commun tous comme
peut ltre une langue Il est dailleurs difficile la plupart du temps dapprcier les
dviations dun compositeur par rapport au systme quil a rig tout en comprenant celui-ci
simultanment. Cependant, pour exprimer des motions, il possde la libert dlaborer cette
structure librement. Elle peut aussi se rvler le vhicule dune expressivit. Ce qui dcuple
le pouvoir expressif du langage musical par rapport la parole et explique lhtrognit du
69
Grgory Beller
W. SLAWSON, 1990, Structure and association in desciptions of music, with a coda on linguistic analogies
R. JAKOBSON, Musicologie et linguistique, musique en jeu N5
68
J. SUNDBERG, 1990, Music performance research: An overview
67
70
Grgory Beller
71
Grgory Beller
Pour le moment, lUniversit KTH (Sude) sest investie dans cette voie et
dblayer le terrain. LIRCAM sintresse aussi ce sujet, toujours dans le cadre musical.
Des rsultats sont dj accessibles concernant la modlisation du jeu dun interprte
particulier par lanalyse. Cette analyse est issue de la comparaison entre la partition MIDI et
des donnes de lalignement avec laudio. Autrement dit, le jeu dun interprte est modlis
grce ses dviations par rapport une partition qui se veut neutre et rfrentiel. Lors de ces
analyses72, Le laboratoire TMH de lUniversit KTH sest rendu compte de limportance
que pouvait jouer les fins de notes et les variations locales de tempo dans lexpressivit du
jeu dun interprte. Les articulations interviennent entre deux phrass selon la dfinition du
musicologue allemand Hermann Keller et : elles sont pour la mlodie, le meilleur moyen
dexprimer des motions. 73
Bien sr, dautres informations extrascorales participent la prosodie musicale
comme les variations de timbre par exemple.
Dans le cas de la parole, rappelons que la difficult est plus grande car nous ne possdons
pas de courbe neutre pouvant servir la comparaison. Si laspect structurel de la musique
semble tre plus riche que celui de la parole, il nen est pas de mme pour la prosodie
musicale qui possde moins de degrs de libert que la prosodie vocale.
Cependant, il faut mettre un bmol ce genre de dclaration puisque les
recherches visant comparer ces deux types de prosodie sont encore leurs phases initiales.
Tout est faire dans un domaine quil est difficile daborder car il requiert aussi bien un
savoir musical que linguistique. De manire pouvoir aboutir des rsultats fiables, il faut
tablir une relle collaboration entre ces deux sciences. Cela pourrait tre un sujet de
recherche conduit par deux tudiants en thse par exemple appartenant respectivement ces
deux chairs. Des travaux complmentaires et simultans ne seraient alors possible que par le
biais dun support technique commun comme par exemple, le format de fichiers prosodiques
que nous mentionnions dans la partie prcdente.
72
73
72
Grgory Beller
Conclusion
Ce mmoire a plusieurs vocations. La premire est celle que jai introduite ds
le dbut : Je nai en aucune faon tent de tirer des conclusions, mais seulement de nuancer
des frontires qui semblent encore aujourdhui bien solides et bien dfinies. La musique estelle un langage ? La parole est-elle musique ? Quimporte les rponses des questions qui
nont finalement pas beaucoup de sens. Ce qui importe, cest dviter toute catgorisation
htive qui pigerait lauditeur dans une coute rductrice de ces deux phnomnes. La parole
permet dchanger des messages smantiques dont on oublie trop la part musicale et
esthtique, pourtant fondatrice de nos personnalits.
De manire mettre en emphase ce propos, les compositeurs du XXme sicle
ont cr de nombreuses pices poussant au paroxysme la musicalit de la voix parle en
librant souvent celle-ci de son rle smantique. Ils lont fait revenir dans la musique
classique occidentale. Cette dernire possde dailleurs de nombreux gnes de la voix
parle puisque cest elle qui la certainement engendre.
On pourrait mme aller plus loin dans les consquences dun tel
accouchement en citant Askenfelt74. Il mentionne un parallle intressant entre les
dimensions timbrales de la voix chante et celles des instruments cordes frottes. Ce genre
de parallle pose une question fondamentale : Peut-tre que les proprits spectrales de la
voix servent de rfrences notre perception du timbre ? Et par extension, est-ce que le
rythme proviendrait du dbit de parole, que la mlodie natrait de lvolution de notre
frquence fondamentale ? A lvidence, il ne faut pas tenter de rpondre une question qui
ressemble fort : Qui de luf ou la poule est nat le premier ? Il est prfrable, pour
rendre compte des similarits entre la parole et la musique de constater que leurs volutions
sont trs diffrentes, mais quelles sont toutes relatives un domaine commun, dit de
communication prverbale. Une grande partie du langage musical dialogue avec le langage
naturel tel quel: celui de l'homme. 75 Je pense quil est trs important dans les recherches
futures danalyser ce canal de transmission qui pour certains est dj associ au
transfert dmotions . Que cette dclaration soit juste ou errone, il nen reste pas moins
que la question subsiste et quelle est fondatrice de nouveaux champs dinvestigations.
La deuxime vocation de ce mmoire est de vous exposer le travail que jai
74
73
Grgory Beller
effectu cette anne. La partie sur la synthse de la parole vous permet dapprcier un travail
dont le but est de synthtiser la prosodie dun locuteur spcifique. Ce travail nous a amen
dautres exploitations des donnes prosodiques que nous avons analyses. Jai tent de les
utiliser des fins purement musicales dans DisCutIon : Exprience sonore visant non
seulement associer la parole un matriau compositionnel, mais dnuder la parole de
sons rle smantique pour apprcier le rle narratif et informationnel de la prosodie. Jai
aussi essay durant cette anne de transformer cette dernire en temps rel. Difficult qui a
ma offert pour principale rcompense, la promesse dun dfi passionnant dans les annes
venir. Enfin, lattrait du matriau prosodique pour les compositeurs ma pouss dfinir un
format de fichiers, leurs permettant duser des donnes relatives lintonation pour
composer.
La troisime vocation de ce mmoire est douvrir des pistes pour dventuels
travaux futurs. Nous avons dfinit prsent ce format de fichiers prosodiques. La
formalisation et la ralisation restent tre dveloppes, ceci dans les prochains mois venir
grce laide de lquipe analyse/synthse de lIRCAM. Non seulement, les compositeurs
pourront les utiliser (Je pense notamment Jonathan Harvey qui dsire faire parler un
orchestre lt 2007), mais dautres chercheurs pourront sen servir comme des linguistes
par exemple : En effet, ce format est un bon outil de description de corpus en vue dtudes
statistiques. Associ un outil dextraction automatique de ses donnes, il peut se rvler
prcieux pour quiconque dsire tudier la prosodie.
Les rsultats de ces diverses analyses me semblent de bons moyens de pntrer
le rle de la communication prverbale. Mais seulement si on prend aussi en compte son
existence au sein de la musique. Cest pourquoi je prconise une tude complmentaire
visant mettre en vidence des paradigmes communs ces deux langages. Je pense que si
lon tudie, de front, le rle des articulations dans la musique et dans la parole ; La manire
dont la prosodie verbale et la prosodie musicale se construisent par distorsions dun patron
neutre fix au dpart (par la comparaison automatique de phrases mlodiques des phrases
intonatives par exemple); Et enfin, les similarits sonores (pauses, variations de dbit, de
timbres, de registres) qui existent entre ces deux modes dexpression ; Alors on pourra
mieux connatre et tracer les frontires de ce domaine commun la voix parle et
linterprtation musicale que certains comparent dj au berceau de nos motions.
75
74
Grgory Beller
Bibliographie
Dusterhoff, K. and Black, A., 1997, Generating F0 contours for speech synthesis using
the Tilt intonation theory
Black, A., 1997, Predicting the intonation of discourse segments from examples in
dialogue speech
Black, A. and Hunt, A., 1996, Generating FO contours from ToBI labels using linear
regression
Black, A. and Campbell, N., 1995, Predicting the intonation of discourse segments from
examples in dialogue speech, (Short version)
Black, A., 1995, Comparison of algorithms for predicting accent placement in English
speech synthesis
Hunt, A. and Black, A., 1996, Unit selection in a concatenative speech synthesis system
using a large speech database
Thse de Diemo Schwarz, 2004, Data-driven concatenative sound synthesis. IRCAM
Thse de Romain prudon, 2003, Synthse de la parole multilocuteur par slection d'units
acoustiques. LIMSI
Prudon R., d'Alessandro C., 2001, A selection/concatenation TTS synthesis system :
Databases developement,system design, comparative evaluation.
Prudon R., d'Alessandro C., et Boula de Mareil P, 2002, Prosody synthesis by unit
selection and transplantation on diphones
Bozkurt B., Dutoit T., Prudon R., d'Alessandro C., et Pagel V, 2002, Improving quality of
MBROLA synthesis for non-uniform units synthesis
Malfrre, Dutoit et Mertens, 1998, Automatic prosody generation using
suprasegmental Unit Selection
Thse de Christophe Blouin
Anne Lacheret-Dujour et Frdric Beaugendre.la prosodie du Franais. CNRS
Langage
Jacqueline Vaissire, 1997, Langues, prosodie, syntaxe
(www.cavi.univ-paris3.fr/ilpga/ed/dr/jvdr2/articlesJV/vaissiereatala1997.pdf)
Y. MENUHIN, 1979, Menuhin and Davis
J.M. ALBY, C. ALES, P. SANSOY, 1988, L'esprit des voix
75
Grgory Beller
Grgory Beller
chane parle
FAURE, 1962, Recherches sur les caractres et le rle des lments musicaux dans la
prononciation anglaise
La parole du monde, mythe de cration Dogons, Mercure de France
HAYES, A. LAHIRI, 1990, Durationnaly specified intonation in English end Bengali
K. SHERER, 1990, Emotion expression in speech music
HEGEL, Esthtique
DUCARD, 1980, Le chant perdu de la langue : voix et criture potique
DUCARD, 1980, Le chant perdu de la langue : voix et criture potique
KATZ, FELDOR, 1963, The structure of semantic theory
W. SLAWSON, 1990, Structure and association in desciptions of music, with a coda on
linguistic analogies
A. MOLES, 1958, Thorie de l'information
J. SUNDBERG: Music is a language of emotions. Speech is also a language of
emotions. .
FANT, A. KRUCKENBERG, L. NORD, 1990, Stress patterns and rythm in the reading
of prose and poetry with analogies to music performance
J.B. PIERREHUMBERT, 1990, Music and the phonological principle: Remarks from the
phoneticians's bench
R. JAKOBSON, Musicologie et linguistique, musique en jeu N5
SUNDBERG, 1990, Music performance research: An overview
WENNER-GREN INTERNATIONAL SYMPOSIUM SERIES, 1990, Music,
langage, speech and brain
JEKERT, 2003, Measurements and models of musical articulation
H. Keller, 1965, Phrasing and articulation
77
Grgory Beller
Autre rfrences :
78
Grgory Beller
79
Grgory Beller
Partitions de Fo-Low :
80