Arbach
Arbach
Arbach
Najib ARBACH
Université Rennes 2, LIDILE EA 3874
Résumé
Toute étude des phénomènes oraux nécessite, de fait, la consultation d‘un ensemble
d‘exemples oraux (constitués ou non sous forme de corpus structuré), et cette linguistique
du corpus oral (même si la pratique a précédé la terminologie), en tant que stricte
méthodologie, s‘est constituée dans différentes branches de la linguistique. Autrement dit, la
langue orale s‘est imposée en tant que sujet d‘étude sérieux et légitime par étapes
successives totalement hétérogènes géographiquement, chronologiquement et
thématiquement. Ce sont ces étapes qui sont détaillées dans le présent article afin d‘offrir
une vision générale de plusieurs branches linguistiques qui possèdent entre elles un point
commun essentiel : l‘étude de l‘oral. Ces branches qui ont permis à la linguistique des
corpus oraux de se constituer sont l‘acquisition du langage chez les enfants, la
lexicographie, la sociolinguistique et enfin la phonétique et son articulation avec
l‘enseignement des langues.
Mots-clés : corpus oral, linguistique de corpus, langue parlée, corpus de référence,
enseignement des langues.
Abstract
Any study of an oral phenomena necessarily requires the consultation of a set of oral
examples that may or may not have the form of a structured corpus. The linguistics of an
oral corpus, (even if the practice preceded the terminology,) as a strict methodology, was
constituted in different branches of linguistics. In other words, oral language has emerged as
a serious and legitimate subject of study in successive stages which are heterogeneous
geographically, chronologically, and thematically. These steps are detailed in this paper to
offer a general view of several linguistic disciplines that share an essential common point:
the study of the spoken language. The branches that have enabled the linguistics of oral
corpora to be constituted are the acquisition of language, lexicography, sociolinguistics and
finally phonetics and its articulation with the language teaching science.
Key Words : Spoken corpora, oral corpus linguistics, spoken language, monitor corpus,
teaching science.
Introduction
Le processus n‘est pas linéaire. Jusque dans les années 1980, soit soixante-
dix ans après Saussure, la langue parlée était encore considérée comme une
langue inférieure ou déclassée par rapport à la langue écrite, ou comme une
« langue populaire », indigne d‘être étudiée. Blanche-Benveniste et Jeanjean
(1987, p. 12) illustrent ce propos avec certains exemples d‘ouvrages où le
terme « populaire », usité pour la qualification du français parlé, est
accompagné « d‘adjectifs péjoratifs » (français « relâché », français
« populaire et argotique », français « familier »).
précision est nécessaire car nous verrons que l‘étude de l‘oral n‘est pas
systématiquement passée par la constitution d‘un corpus oral.
Bien avant toute technologie, l‘acquisition du langage chez l‘enfant est l‘un
des domaines précurseurs où les chercheurs s‘intéressèrent à la langue orale
pour des raisons évidentes : il va de soi que durant les premières années de
l‘enfant, la langue écrite n‘est pas maîtrisée et que le seul moyen d‘analyser
la langue en cours d‘acquisition passe par l‘analyse d‘un corpus oral.
Preyer observe son fils quotidiennement et note avec précision toutes ses
remarques. Il est le premier à transcrire phonétiquement et de manière très
détaillée les productions langagières de son fils, dont il fera un compte rendu
dans Die Seele des Kindes (Preyer, 1884). L‘étude couvre les productions
langagières de l‘enfant dès ses premières semaines et jusqu‘à la fin de sa
troisième année. Les travaux de Preyer restent néanmoins ceux d‘un
psychologue qui s‘est principalement intéressé aux processus cognitifs de
l‘acquisition du langage. Ce n‘est que quelques années plus tard qu‘une étude
focalisée principalement sur l‘acquisition du langage a eu lieu : William Stern
et son épouse Clara ont tenu des journaux sur leurs trois enfants durant dix-
huit ans, et ont publié Die Kindersprache (Stern et Stern, 1907), le premier
journal entièrement consacré au langage de l‘enfant.
Si les premières études de Taine et des Stern que nous avons présentées
étaient européennes, les études transversales en acquisition du langage qui
ont suivi ont été principalement américaines, entre 1926-1927 et jusqu‘en
1957 (McEnery et Wilson, 2001, p. 3). Les Américains prirent le relais car ils
considérèrent ces études européennes comme étant aléatoires, peu
scientifiques, peu fiables et comme décrivant des enfants qui ne reflétaient
pas un standard. Les travaux américains de la première moitié du XXe siècle
ont donc voulu remédier à ces lacunes en adaptant de nouvelles
méthodologies cherchant à octroyer une scientificité à ces corpus en
instaurant des critères tels l‘échantillonnage, la prise en compte de critères
métalinguistiques (situation d‘énonciation, sexe, milieu socio-économique,
âge et enfants spécifiques comme les jumeaux ou les enfants doués) et
l‘homogénéité des données, annonçant en cela les critères de constitution
des corpus scientifiques modernes (Arbach, 2015). L‘objectif formel des
corpus transversaux est l‘établissement de normes dans l‘acquisition du
langage grâce à de larges études quantitatives et comparatives.
3
Cependant, en raison de l‘importance du non-verbal dans le domaine de l‘acquisition du
langage, la véritable avancée technologique dans ce domaine ne se fera qu‘avec la
démocratisation des enregistrements vidéo.
années 1960 et 1970, naît une sociolinguistique interne qui place au centre
de ses intérêts l‘analyse des variations individuelles des locuteurs en se
basant sur des facteurs sociaux et démographiques, et non plus
exclusivement géographiques. Outre la dialectologie et la sociolinguistique, la
prise en compte des données orales a également concerné l‘analyse
conversationnelle.
Ainsi, l‘une des premières et plus célèbres enquêtes directes sur la variation
qui recueillait des données orales fut celle du Suisse Jules Gilliéron, dont le
collaborateur Edmond Edmont sillonna la France à bicyclette de 1897 à 1901
pour recueillir des informations sur la prononciation dans les régions
(Delais-Roussarie et Durand, 2003, p. 18). Les résultats obtenus ont permis
l‘élaboration de l’Atlas linguistique de la France en 1902, « un travail de
pionniers qui reste un grand ouvrage de référence » (Delais-Roussarie et
Durand, 2003, p. 18), mais la mort de Gilliéron en 1926 laisse la place vide et
la dialectologie en France s‘en trouve retardée (Chevalier et Encrevé, 1984, p.
66).
4
Il faudrait aussi citer le Multicultural Paris French (MPF), qui est projet sociolinguistique qui
vise à comparer entre le français contemporain de Paris et l‘anglais contemporain de
Londres. Toutefois, ce corpus est un projet créé dans les universités de Londres, à l‘image
d‘autres corpus francophones mais non français, tel que nous allons le voir dans la section
suivante.
5
À ce propos, cf. le numéro thématique de Langage consacré à l‘œuvre de William Labov,
« Hétérogénéité et variation : Labov, un bilan », numéro coordonné par Françoise Gadet,
Langage, n° 108, 1993.
6
Nous parlons bien des corpus constitués en France, et non des corpus francophones par
des équipes étrangères, tel le MPF ou le corpus Sankoff-Cedergren, constitué au Canada.
Il nous faut maintenant nous attarder davantage sur notre troisième point,
dans lequel nous expliciterons les liens entre phonétique et enseignement
des langues. Ces liens sont autrement plus complexes que ne le laisseront
entendre les lignes qui suivent, mais les limites de cet article nous imposent
de ne pas les évoquer.
Les figures les plus marquantes sont celles du phonéticien Wilhelm Viëtor
(1850-1918) en Allemagne, et de deux enseignants phonéticiens de langue en
France : Paul Passy (1859-1940) et l‘abbé Pierre-Jean Rousselot (1846-1924).
9
Concernant ces besoins, Puren (1988, p. 66) rapporte que la société de l‘époque préconisait
que la langue ne devait plus se confiner à « un instrument de culture littéraire ou de
gymnastique intellectuelle », mais devenir « un outil de communication au service [du]
développement des échanges économiques, politiques, culturels et touristiques qui
s‘accélère ».
10
L‘expression est rapportée par Enrica Galazzi (1995, p. 98).
11
Nous n‘avons cité les travaux de Martinet qu‘à titre d‘exemple, puisque nous nous
intéressons au corpus oral en tant qu‘objet scientifique. Mais il n‘est pas utile, ici, de
recenser toutes les enquêtes de dialectologie ne s‘étant pas reposées sur un corpus oral. Cf.
à ce sujet Pop (1950) ou Auroux (1979).
12
L‘Allemagne continua de payer ses dettes de guerre jusqu‘en 2010.
l‘anglais, nous comprenons que la réflexion sur la didactique des langues fut
principalement anglo-saxonne durant trois décennies.
Les didacticiens anglo-américains, à partir des années 1920, ont pour volonté
d‘enseigner l‘anglais rapidement et efficacement ; la vitesse de
l‘apprentissage doit primer sur l‘approfondissement des connaissances au
travers de textes littéraires. La langue est avant tout un instrument de
communication. Il faut enseigner l‘anglais vite et bien. Pour enseigner vite et
bien, les enseignants ont l‘intuition de donner la priorité dans l‘enseignement
à ce qui pourrait le plus probablement être utilisé en situation de
communication réelle. Ils entendent s‘éloigner de ce que Sinclair qualifiera
longtemps plus tard de « manufactured, doctored, lop-sided, unnatural,
peculiar, and even bizarre examples »13, inventés ou élicités pour les
méthodes d‘enseignement. Ainsi, l‘intuition de ces didacticiens suggérait que
les apprenants développeraient beaucoup plus rapidement leurs
compétences linguistiques si on leur enseignait comment la langue était
réellement utilisée. Et par usage réel, il faut entendre usage le plus commun :
les apprenants devaient assimiler rapidement le lexique le plus répandu, les
sens les plus courants et les constructions les plus fréquentes. Aussi fallait-il
donc éviter les formes et les constructions archaïques, rares, désuètes ou
appartenant à des registres trop soutenus ou trop spécifiques. Kennedy
confirme, a posteriori, l‘intuition qu‘eurent ses prédécesseurs :
La démarche est donc d‘établir, pour une langue donnée, une liste de
vocabulaire simplifiée, qui concentrerait en un nombre restreint le lexique le
plus usité de la langue, afin de permettre à l‘apprenant d‘acquérir
essentiellement les termes qui auront la plus grande probabilité d‘utilisation
en situation de communication réelle. Cette démarche est basée sur ce qui
était alors un postulat : dans une langue donnée, un nombre limité
d‘occurrences représente la plus grande partie de cette langue, et un grand
nombre d‘occurrence n‘apparaît que très rarement, et ne représente qu‘une
partie minime de la langue. Ce postulat sera formalisé par la loi de Zipf,
repris par Kennedy (1992, p. 335), qui affirme que « la linguistique de corpus
13
La citation provient d‘un article qui n‘a pas été publié. Elle est rapportée par De
Beaugrande (2000).
14
Thorndike (1874-1949) était un psychologue américain, qui travailla essentiellement sur
l‘intelligence animale et la pédagogie de l‘enseignement et de l‘éducation.
15
La Carnegie Corporation of New York est une fondation qui a pour vocation (entre autres)
l‘alphabétisation des adultes, les recherches en science de l‘éducation, la facilitation de
l‘accès des minorités et des femmes à l‘éducation ou la promotion des recherches en
pédagogie, dans l‘intérêt général.
16
Une polémique naquit du projet, accusé par certains, à droite, de détériorer le niveau de la
langue et de la culture françaises en développant l‘enseignement d‘un « français petit-nègre
pour étrangers fainéants et incapables, et par d‘autres à gauche d‘être un nouvel instrument
idéologique du colonialisme » (Puren, 1988, p. 208).
17
Gougenheim, Rivenc et Sauvageot (1956) nuancent la notion de « langue universelle » en
indiquant que d‘une part, le français n‘était « universel » qu‘en Europe, et que d‘autre part,
ceci ne concernait qu‘une aristocratie éduquée mais peu nombreuse.
La liste définitive de 1959 comporte – selon les termes des auteurs – 1475
mots, dont 1222 mots lexicaux et 253 mots grammaticaux. Cette liste fut
établie d‘après un calcul de fréquence sur un corpus oral recueilli auprès de
275 témoins provenant de 17 régions francophones. La volonté des auteurs à
habiliter la langue orale dans l‘enseignement des langues étant explicite :
18
Un grand nombre des anciennes colonies et protectorats français avait adopté la langue
française comme langue nationale, les facultés et écoles françaises voyaient un grand
nombre d‘étudiants étrangers venir y faire leurs études et un grand nombre de techniciens
étrangers venait accomplir des stages professionnels dans les entreprises françaises en
raison de l‘essor économique et industriel d‘après-guerre,
19
Voir les actes du Colloque « Français Fondamental, corpus oraux, contenus
d'enseignement. 50 ans de travaux et d'enjeux », École Normale Supérieure - Lettres et
Sciences Humaines (Lyon), décembre 2005 et notamment le volume 36 de la revue
Documents SIHFLES « De quelques enjeux et usages historiques du Français fondamental »,
https://journals.openedition.org/dhfles/1178 ; ainsi que Galazzi (2008).
20
Henri Frei a publié La grammaire des fautes en 1929, dans laquelle il analyse le français
« populaire » à partir d‘un corpus de lettres écrites par les combattants de la Première
Guerre mondiale.
ans après, l‘oral n‘était pas encore linguistiquement légitime, ce qui amplifie
le caractère pionnier et audacieux des auteurs du Français fondamental.
Après Damourette et Pichon, nous avons vu qu‘il y eut peu de corpus oraux
en France, au moins jusqu‘aux années 1980. En revanche, aux États-Unis, les
travaux fondateurs de Charles C. Fries (1887-1967) auront un impact plus
important. Il s‘était principalement intéressé à l‘enseignement de la langue
anglaise en tant que langue première et seconde, en publiant notamment
Teaching and learning English as a Foreign Language (1945), et The structure
of English : An introduction to the construction of English sentences (1952). En
ne considérant pas la langue orale comme une dépravation de la langue
écrite et authentique, Fries se démarque de la tendance des professeurs de
langue de son époque ; époque où l‘un de ses collègues, F.N. Scott21, compare
le langage des enfants à l‘école « au langage des animaux desquels ils
descendent », et le décrit comme constitué « de modulations de sons
primitifs, qui remontent probablement à l‘enfance de la race ». Fries voyait
au contraire dans la langue parlée « le langage réel » qu‘il lui fallait étudier et
analyser, contrairement aux habitudes de son époque qui décrivaient le
langage principalement à partir des textes littéraires classiques. Ainsi, dans
son ouvrage Structure of English, Fries cherche à identifier les
caractéristiques de la langue orale en analysant cinquante heures de
conversations téléphoniques, effectuées auprès de 300 locuteurs.
C‘est donc, encore une fois, l‘enseignement des langues qui a constitué un
prétexte pour la valorisation des données orales. L‘influence de Fries sur
l‘analyse de l‘oral, et notamment son influence sur Randolph Quirk, l‘inscrit
dans une lignée que n‘ont pas connue Damourette et Pichon. Longtemps
21
Cité par Peter H. Fries (2008, p. 98), la traduction est la nôtre.
22
DELIC : Description Linguistique Informatisée sur Corpus, ancienne équipe d‘accueil (EA
3779) de l‘Université de Provence. A aujourd‘hui rejoint TALEP : Traitement Automatique du
Langage Ecrit et Parlé.
Dans d‘autres cas, le corpus est constitué de façon optimale pour une
recherche précise ; dans ce cas de figure, les transcriptions et les annotations
trop spécifiques le rendent inexploitables pour d‘autres perspectives. Toutes
ces raisons font qu‘il y a en France un nombre important de « corpus
fantômes », pour employer les termes de Baude (2006, p. 3), soit des corpus
inexploitables pour des raisons juridiques, personnelles ou scientifiques. À
un autre niveau, un certain conservatisme français qui subsiste encore vis-à-
vis de la langue parlée est à souligner. Boulton évoque cet aspect en ces
termes :
Conclusion
Cet article nous a permis de vérifier que l‘intérêt pour la langue orale et la
constitution de corpus oraux sont des démarches nées au gré d‘intérêts
ponctuels à des époques et des lieux différents. Mais quelques traits parfois
communs sont toutefois à souligner. Nous avons aussi pu constater que dans
la plupart des domaines, l‘intérêt pour la langue orale est né en Europe, mais
de nombreux facteurs historiques ont fait en sorte que les travaux des
pionniers n‘ancrèrent pas l‘étude de la langue parlée dans la tradition
européenne : ce furent souvent les Anglo-saxons qui réinventèrent l‘approche
empirique de l‘oral et instaurèrent des bases théoriques et méthodologiques
que l‘Europe, et la France plus particulièrement, ne suivirent que
tardivement.
Références bibliographiques
Arbach, N. (2015). Constitution d’un corpus oral de FLE : enjeux théoriques et
méthodologiques (Thèse de doctorat). Université Rennes 2, Rennes,
France.
Arbach, N., et Ali, S. (2013). Aspects théoriques et méthodologiques de la
représentativité des corpus, Corela. Cognition, représentation, langage,
[en ligne], HS-13, 1-16. Récupéré de :
https://journals.openedition.org/corela/3029.
Auroux, S. (1979). La catégorie du parler et la linguistique. Romantisme,
9(25), 157-178.
Balthasar, L., et Bert, M. (2005). La plateforme ―Corpus de langues parlées en
interaction‖ (CLAPI). Historique, état des lieux, perspectives. Lidil,
AUTEUR
Najib ARBACH est docteur en sciences du langage de l‘Université Rennes 2
(2005) et ATER à l‘Université Sophia-Antipolis de Nice. Il est rattaché à l‘unité
de recherche Linguistique Ingénierie et Didactique des Langues (LIDILE), EA
3874, Université Rennes 2. Sa thèse de doctorat est intitulée Constitution d’un
corpus oral de FLE : enjeux théoriques et méthodologiques. Ses principales
publications sont :
- Arbach, N., et Ali, S. (2013). « Aspects théoriques et méthodologiques de la
représentativité des corpus », Corela. Cognition, représentation, langage, (HS-
13).
- Arbach, N. (2015). Constitution d’un corpus oral de FLE : enjeux théoriques et
méthodologiques (Thèse de doctorat). Université Rennes 2, Rennes.