Découvrez des millions d'e-books, de livres audio et bien plus encore avec un essai gratuit

À partir de $11.99/mois après l'essai. Annulez à tout moment.

Analyse des données textuelles
Analyse des données textuelles
Analyse des données textuelles
Livre électronique777 pages7 heures

Analyse des données textuelles

Évaluation : 0 sur 5 étoiles

()

Lire l'aperçu

À propos de ce livre électronique

L’analyse des données textuelles (ADT) permet d’explorer et de visualiser les recueils de textes les plus divers : œuvres littéraires, transcriptions d’entretien, discours politiques, dossiers de presse, documents d’archives, enquêtes en ligne avec questions ouvertes, fichiers de réclamations, sondages de satisfaction. Le présent ouvrage procède à une présentation rigoureuse des méthodes de l’ADT, qui combinent statistique exploratoire, visualisations, procédures de validation quantitative et approche qualitative (retour au texte). Plaçant le texte au centre de l’analyse, l’ADT répond pleinement aux attentes des humanités numériques. Plusieurs niveaux de lecture sont possibles : les développements plus techniques paraissent dans des encadrés, tandis que des programmes illustratifs simples (en Python et R) sont donnés en annexe. Le propos est systématiquement illustré par des applications concrètes issues de corpus variés (données d’enquête, romans, discours politiques) et réalisées avec des logiciels en libre accès.

Ludovic Lebart, ex-directeur de recherche au Centre national de la recherche scientifique (CNRS), est statisticien et enseignant- chercheur à Télécom ParisTech. Ses sujets de recherche sont la statistique multi­dimensionnelle, la qualité des enquêtes socio- économiques, l’inférence statistique en analyse des données et les logiciels d’analyse des données qualitatives et textuelles. Il est l’auteur de nombreux livres sur ces thèmes traduits en plusieurs langues.

Bénédicte Pincemin est chargée de recherche en linguistique au CNRS, au sein de l’Institut d’histoire des représentations et des idées dans les modernités de l’École normale supérieure de Lyon. Elle est membre du projet Textométrie, qui développe le logiciel TXM. Ses travaux portent sur la modélisation de la textualité et de l’activité interprétative pour l’analyse sémantique de corpus.

Céline Poudat est linguiste et maître de conférences en analyse du discours à l’Université Côte d’Azur à Nice. Elle étudie les typologies textuelles et les genres de la communication médiée par les réseaux, qu’elle explore avec les méthodes de l’analyse de données textuelles et de la linguistique de corpus. Elle codirige le consortium national français Corpus, Langues et Interactions.
LangueFrançais
Date de sortie7 août 2019
ISBN9782760550544
Analyse des données textuelles
Auteur

Ludovic Lebart

Ludovic Lebart, ex-directeur de recherche au Centre national de la recherche scientifique (CNRS), est statisticien et enseignant- chercheur à Télécom ParisTech. Ses sujets de recherche sont la statistique multi­dimensionnelle, la qualité des enquêtes socio- économiques, l’inférence statistique en analyse des données et les logiciels d’analyse des données qualitatives et textuelles. Il est l’auteur de nombreux livres sur ces thèmes traduits en plusieurs langues.

Auteurs associés

Lié à Analyse des données textuelles

Livres électroniques liés

Mathématiques pour vous

Voir plus

Articles associés

Catégories liées

Avis sur Analyse des données textuelles

Évaluation : 0 sur 5 étoiles
0 évaluation

0 notation0 avis

Qu'avez-vous pensé ?

Appuyer pour évaluer

L'avis doit comporter au moins 10 mots

    Aperçu du livre

    Analyse des données textuelles - Ludovic Lebart

    INTRODUCTION

    L’analyse des données textuelles (ADT) exposée dans ce livre se situe à l’intersection de plusieurs disciplines : la linguistique, l’analyse du discours, la statistique, l’informatique, le traitement des enquêtes socio-économiques, la psychosociologie et le marketing, pour ne citer que les principales. La démarche s’appuie à la fois sur les travaux d’un courant aux dénominations changeantes (statistique lexicale, statistique linguistique, linguistique quantitative, lexicométrie), qui associe depuis plus d’un demi-siècle la méthode statistique à l’étude des textes, et sur des domaines de la statistique : la statistique multidimensionnelle, l’analyse des données, la théorie de l’apprentissage, la fouille de données et de textes (data mining, text mining).

    Les humanités numériques sont une des priorités actuelles de la recherche¹. S’agissant d’intégrer les possibilités du numérique à la recherche scientifique, le traitement des données textuelles est un enjeu majeur pour les sciences humaines et sociales. L’approche ADT présentée ici répond à ces attentes. Elle propose de nouveaux moyens d’observation des corpus textuels en plaçant le texte au centre du dispositif. Elle combine non seulement les possibilités exploratoires et inférentielles des traitements quantitatifs de grands volumes d’archives, mais aussi la proximité au texte et la souplesse des traitements qualitatifs.

    Souvent, pour la discipline connue sous le nom de fouille de textes (text mining), les textes ne sont pas un objet d’intérêt en soi, mais des supports d’information dont il s’agit de dégager le contenu sémantique. Ce point de vue répond à des demandes spécifiques (dispositifs de veille industrielle ou stratégique, synthèse d’informations en entreprise), mais s’éloigne de la conception du texte dans les sciences humaines et sociales, qui le considèrent comme une référence et le placent au cœur de l’analyse.

    ***

    La phase d’exploration de la statistique que nous présentons est l’étape préliminaire de toute connaissance scientifique. Par les inductions qu’elle permet, les hypothèses qu’elle suggère, l’exploration précède l’expérimentation (lorsque celle-ci est possible) et peut conduire à une modélisation adaptée, non dogmatique.

    Or la diversité des produits logiciels disponibles et l’accessibilité des outils, conjuguées à la fragmentation des disciplines conduisent parfois à des utilisations intempestives ou peu pertinentes. C’est pourquoi les auteurs de ce livre ont cru indispensable d’insister sur les principes théoriques des principales méthodes d’exploration et de rendre transparente la chaîne « théorie – méthode – programme – application – interprétation ».

    L’outil informatique est universellement utilisé pour des tâches qui impliquent le recueil automatique ou la saisie et le traitement de grands ensembles de textes. Cette diffusion renforce à son tour la demande d’outils d’analyse des textes qui émane des praticiens et des chercheurs. Confrontés à des textes nombreux, recueillis dans des enquêtes socio-économiques, des entretiens, des investigations littéraires, des archives historiques ou des bases documentaires, ou encore à des sous-produits d’activités transactionnelles dans un cadre de fichiers très volumineux (Big Data), les chercheurs attendent en effet une aide en matière de classement, de description, de comparaisons…

    Le choix d’une stratégie de recherche ne peut être opéré qu’en fonction d’objectifs clairement explicités ex ante. Quel type de texte(s) analyse-t-on ? Pour tenter de répondre à quelles questions ? Désire-ton étudier le vocabulaire d’un texte en vue d’en faire un commentaire stylistique ? Cherche-t-on à découvrir et identifier des contenus à travers les réponses à un questionnaire ? S’agit-il de mettre en évidence les motivations pour l’achat d’un produit à partir d’opinions exprimées dans des entrevues ? Souhaite-t-on dresser un panorama de corpus politiques échelonnés dans le temps ? Bien entendu, aucune méthode d’analyse figée une fois pour toutes ne saurait répondre entièrement à des questions aussi diversifiées.

    Il nous est cependant apparu que, dans un grand nombre d’analyses textuelles, un même ensemble de méthodes apportait un éclairage irremplaçable pour avancer vers la solution des problèmes évoqués.

    Les ouvrages Analyse statistique des données textuelles (Lebart et Salem, 1988) et Statistique textuelle (Lebart et Salem, 1994) concernaient d’abord l’analyse exploratoire des réponses aux questions ouvertes dans les enquêtes et ensuite les analyses exploratoires de corpus de textes plus généraux. Depuis ces dates, parallèlement à l’expansion des domaines d’application faisant intervenir des textes, la science statistique a elle-même connu de nouveaux développements, souvent liés aux possibilités de calcul (comme les méthodes de validation par rééchantillonnage, les cartes auto-organisées). De nouveaux langages informatiques libres, s’appuyant sur les langages de base classiques, forment de nouvelles strates plus proches de l’utilisateur et du technicien et facilitent l’implémentation de méthodes statistiques (le langage R) ou la manipulation de chaînes de caractères ou de textes (le langage Python). Il fallait donc prendre en compte ces évolutions, ces outils ainsi que les travaux réalisés depuis la parution des ouvrages précités.

    ***

    Le premier chapitre, L’analyse statistique des données textuelles : champs et objets d’étude, évoque à la fois les disciplines concernées (linguistique de corpus, traitement automatique des langues, statistique, fouille de textes [text mining], théorie de l’apprentissage…), les problèmes rencontrés et les approches possibles. Il précise la nature du matériau de base qui peut être composé de textes rassemblés en corpus, de réponses à une question ouverte, d’entrevues, de courriels, de messages brefs…

    Le second chapitre, Les unités d’analyse et les observations, est consacré à l’étude des unités statistiques que les procédures devront découper, reconnaître ou construire (formes, lemmes, segments répétés, locutions). Il aborde les propriétés de ces unités et les aspects fondamentaux de l’approche quantitative des textes et précise leur pertinence respective en fonction des champs d’application.

    Le troisième chapitre, Les unités en contexte, est consacré à la phase de retour au texte, avec son enrichissement par les outils que sont, entre autres, les concordances et les mesures de cooccurrences. La chaîne textuelle ne peut en effet être réduite à une succession d’unités n’ayant aucun lien les unes avec les autres, car beaucoup des effets de sens du texte résultent justement de la disposition relative des mots, de leurs juxtapositions ou de leurs cooccurrences éventuelles.

    Le quatrième chapitre, Exploration, visualisation, validation et inférence : les principes de base, plus mathématique que les précédents, présente les fondements des instruments de visualisation et de validation qui seront modulés et diversifiés dans la suite de l’ouvrage.

    Le cinquième chapitre, L’analyse en composantes principales, introduit la méthode d’analyse descriptive multidimensionnelle utilisée dans les domaines les plus divers et probablement la plus populaire. Adaptée aux mesures de différentes natures et échelles, plutôt qu’aux comptages (fréquences), elle est assez largement utilisée pour traiter des recueils textuels, notamment dans la littérature internationale.

    Le sixième chapitre, L’analyse des correspondances, présente les techniques de base de la méthode de description des tableaux binaires et des tables de contingence qui nous semble la plus adaptée aux tableaux de fréquences lexicales ou tableaux termes × documents.

    Le septième chapitre, La classification des mots et des textes, est consacré aux techniques de classification dites « non supervisées » (clustering). Regrouper des objets similaires est une activité cognitive structurante qui s’exerce depuis les classes de maternelle jusqu’aux laboratoires les plus spécialisés. On sélectionne dans cette flore de méthodes celles qui paraissent les plus performantes, les plus lisibles et les plus transparentes pour le domaine complexe des textes.

    Pour compléter ces visualisations et représentations synthétiques variées, le huitième chapitre, Les stratégies d’analyse et la complémentarité entre analyse factorielle et classification, applique les outils présentés aux chapitres précédents à la description des associations entre mots et entre textes. Il fournit des exemples d’application en vraie grandeur, commentés du point de vue de la méthode statistique. Il illustre les règles de lecture et d’interprétation des résultats obtenus et fait le point sur la portée méthodologique des outils en insistant sur la synergie résultant de leur utilisation simultanée.

    Enfin le neuvième chapitre, L’articulation entre les analyses exploratoires et confirmatoires, situe les méthodes et les problèmes de la statistique exploratoire dans le cadre général des outils statistiques plus décisionnels. Les liens avec la démarche exploratoire sont à la fois techniques et pragmatiques, qu’il s’agisse des méthodes de la stylométrie, qui s’attachent à la forme des textes, ou des méthodes de discrimination textuelle et des outils de reconnaissance de thèmes (Topic Modeling), qui traitent du contenu des textes. Plusieurs exemples mettent en évidence la complémentarité des approches, déjà lisible dès l’examen de leurs substrats théoriques. Dans un domaine fondamentalement interdisciplinaire, ces exemples montrent que les instruments de visualisation fournissent le cadre critique qui permet une utilisation lucide des outils plus décisionnels.

    Le cheminement méthodologique auquel nous invitons le lecteur verra ses étapes illustrées par des corpus de textes provenant de sphères de recherche très différentes. Les résultats présentés à ces occasions concernent des textes littéraires, des corpus de réponses libres dans des enquêtes françaises et internationales, et des discours politiques. Le parti a été pris ici de ne pas présenter une prise en charge fine des structures internes des textes (philologie numérique) pour se concentrer sur les résultats que l’on peut obtenir avec les représentations les plus communes des textes.

    L’ensemble des exemples devrait permettre au lecteur d’apprécier la variété des applications réalisées et potentielles ainsi que la complémentarité des divers traitements, et ce, tout en progressant d’une part, dans l’assimilation et la maîtrise des méthodes, et d’autre part, dans la capacité à évaluer et critiquer les résultats.

    Pourquoi des illustrations par Python et R ?

    Cet ouvrage n’est pas un manuel d’utilisation lié à un logiciel ou à un environnement particulier, mais une ouverture sur le pourquoi et le comment des traitements statistiques en analyse de texte. Il est destiné aux utilisateurs qui n’apprécient pas de n’utiliser que des boîtes noires, qui veulent savoir comment tout cela fonctionne.

    Si les langages Fortran et C ont joué un rôle moteur et fondamental pendant les premières décennies des analyses de texte sur ordinateur, ils sont maintenant accompagnés d’outils plus proches de la pensée. Afin d’illustrer à la fois les démarches et les formules mathématiques, nous avons choisi, parmi ces outils, Python pour la gestion et la préparation des textes, et R pour les traitements statistiques.

    Il ne s’agit certes que d’illustrations, mais les quelques lignes de code élémentaire et commenté que nous publions permettent quand même, par exemple, de calculer une table lexicale (mots × textes) à partir d’une série de textes sans limites de taille, puis de décrire cette table par analyse des correspondances (graphiques inclus), avec tracé de l’arbre de longueur minimale. Le moteur théorique est donc mis à nu pour inspection, analyse et vérification.

    Dans les annexes Python des chapitres 2 et 3, comme dans les annexes R des chapitres 4 à 7, il n’est fait appel à aucun logiciel spécialisé, et pourtant le lecteur curieux peut déjà procéder à de vraies analyses avec visualisation. Il peut savoir que ces calculs sont à portée de main et y lire une matérialisation rigoureuse des formules mathématiques utilisées. Il ne s’agit donc pas simplement de formation professionnelle d’utilisateurs, mais bien d’un effort d’interdisciplinarité et de pédagogie, voire de démystification et d’épistémologie.

    Ceci ne concurrence en aucune façon, au niveau du confort d’utilisation et de la richesse des options offertes, les logiciels dont une sélection est décrite dans l’annexe sur les logiciels d’analyse des données textuelles. Pour le travail de tous les jours, les utilisateurs et développeurs peuvent en effet avoir intérêt à utiliser des modules existants et ouverts, ou à tout le moins diffusés gratuitement, développés et maintenus par des collègues spécialistes ou par des communautés expertes et dynamiques.

    En fin de volume, précédant l’annexe sur les logiciels précitée, l’annexe Corpus décrit les recueils de textes et de données numériques utilisés au cours des différents chapitres. Ceux-ci sont librement téléchargeables, comme les codes Python et R figurant en annexe des chapitres et les logiciels à diffusion libre mentionnés dans l’annexe sur les logiciels d’analyse des données textuelles.

    1. Citons par exemple, en France, la TGIR (Très Grande Infrastructure de Recherche) Huma-Num ; au Canada, le Centre de recherche interuniversitaire sur les humanités numériques, basé à Montréal ; et, sur le plan international, l’ampleur et la vitalité de l’Alliance of Digital Humanities Organizations (ADHO), coordonnant la conférence DH et plusieurs revues scientifiques majeures du domaine.

    CHAPITRE 1

    L’analyse statistique des données textuelles

    Champs et objets d’étude

    Avec le tournant du numérique et le développement du Web, notre rapport au texte et aux données textuelles s’est trouvé bousculé, transformant les pratiques et les modèles traditionnels. L’ensemble des domaines prenant le texte pour objet a dû s’ajuster et évoluer, tandis que les approches informatiques et statistiques du texte ont aujourd’hui plus que jamais un rôle à jouer pour assurer le lien entre l’humain et les « masses de données ».

    Confronté à une pléthore de méthodes, de programmes et de logiciels, le chercheur qui souhaite analyser un ensemble de données textuelles est souvent un peu désorienté: quelle méthode, quel outil choisir parmi des offres qui sont souvent concurrentes ? Quelles sont les méthodes complémentaires ? Comment les articuler ?

    Parmi les méthodes disponibles pour analyser un ensemble de données textuelles, la statistique exploratoire multidimensionnelle, qui est au cœur de cet ouvrage, a donné lieu à de nombreuses implémentations et applications dans des cadres de recherche variés.

    C’est dans le champ de l’analyse des données textuelles qu’ont été conçues et que se sont développées les méthodes et les parcours méthodologiques décrits au fil des chapitres qui vont suivre. Le présent chapitre entend ainsi proposer un aperçu de ce champ de recherche en restituant son histoire, ses principes et ses relations avec d’autres disciplines.

    1. LE CHAMP DE L’ANALYSE STATISTIQUE DES DONNÉES TEXTUELLES (ADT)

    Le champ de l’analyse statistique des données textuelles est un champ méthodologique actif et innovant en Europe et à l’international¹, qui a trouvé un équilibre fait de dialogue et d’interdisciplinarité impliquant statisticiens, linguistes, informaticiens et chercheurs du texte dans les sciences humaines et sociales. Nous dresserons un panorama du champ en deux temps : après avoir balisé le temps des origines, marqué par les développements complémentaires de la statistique lexicale et de l’analyse multidimensionnelle, nous tenterons de synthétiser les grandes lignes de la démarche ADT.

    1.1 La statistique lexicale et l’analyse multidimensionnelle lexicale

    Les approches quantitatives de la langue existent de longue date et pour les langues les plus diverses. Dans la seconde moitié du XIXe siècle, les pionniers de comptages et calculs de fréquence en linguistique sont des psycholinguistes (Levelt, 2014), ce qui n’est peut-être pas étonnant, la psychologie étant, si l’on excepte l’économie, la branche des sciences humaines la plus précoce en matière d’efforts de quantification. Ce sont les fréquences de phonèmes qui sont recensées dans un premier temps (Förstemann, 1846 ; Bourdon, 1892). Toutefois, comme le souligne Levelt (2014), Bourdon est sans doute le premier à parler des distributions de fréquence, de diphones (digrammes de phonèmes) et des rôles des flexions et des mots grammaticaux dans le contexte d’une approche libre et moderne, qui annonce à la fois Saussure et la statistique lexicale². Puis le début du XXe siècle est marqué par des travaux qui font encore référence aux distributions lexicales (Estoup, 1916 ; Zipf, 1935). Le champ de l’ADT à proprement parler ne s’est constitué que dans les années 1960 (Brunet, 2016, chapitre 21), à la croisée de deux courants de recherche complémentaires : la statistique lexicale et l’analyse multidimensionnelle lexicale.

    La statistique lexicale s’est illustrée notamment à travers les travaux de Yule (1944), Busa (1951), Guiraud (1954, 1960), Gougenheim et l’équipe du CREDIF (Gougenheim et al., 1956), Évrard et l’équipe du LASLA (Delatte et al., 1962), Muller (1964, 1967, 1968), Tournier (1967, 1975) et l’équipe du laboratoire de l’École normale supérieure (ENS) de Saint-Cloud. Elle a développé un ensemble de mesures et de méthodes visant à décrire et caractériser le vocabulaire d’un texte ou d’un ensemble de textes et, précurseure des humanités numériques, elle a accompagné le tournant de l’analyse lexicale vers une utilisation des ordinateurs pour les traitements statistiques de données textuelles. Ses études ont notamment permis de décrire le corpus de grands auteurs de la littérature française, en s’appuyant sur les premières données de ce qui deviendra le Trésor de la langue française, puis Frantext. Le discours politique a également été l’un des domaines d’application privilégiés de la statistique lexicale et de l’analyse du sens particulier que revêtent les mots en lien avec les idéologies (Tournier, 2010).

    Selon une approche probabiliste du texte, celui-ci est vu comme un « sac de mots », le produit d’un tirage avec ou sans remise dans une urne et les notions d’« échantillonnage » et d’« écarts à la moyenne » sont fondamentales. On s’interroge ainsi sur les modalités de prélèvement d’un échantillon d’un texte ou d’un corpus et sur la valeur d’échantillon d’un ensemble textuel pour décrire normes et usages. Dans la mesure où rares sont les corpus véritablement exhaustifs d’un usage discursif ou d’un locuteur donné, on est dans tous les cas amené à se poser la question de la représentativité de tout corpus et de tout jeu de données pour être en mesure de généraliser les interprétations découlant de l’observation des données étudiées (voir 1.3 infra).

    La question est d’autant plus cruciale que dans une telle démarche empirique, le corpus fait figure de norme : un corpus mal construit ou peu représentatif expose l’analyste à des interprétations limitées, et dans tous les cas non généralisables. En revanche, les textes ou les ensembles textuels que contient un corpus rigoureusement constitué peuvent être comparés de manière fructueuse les uns aux autres : par exemple, qu’est-ce qui caractérise le Père Goriot par rapport à l’ensemble des romans de la Comédie humaine de Balzac ? Ou plus largement, quelles sont les spécificités des romans de Balzac par rapport à l’ensemble des romans du XIXe siècle ? Ou encore, quelles sont celles des discours de Jacques Chirac dans le corpus des présidents de la Ve République ? Soulignons que l’approche est nécessairement contrastive puisqu’une fréquence n’a pas de valeur absolue et ne peut donc être interprétée que par comparaison. Partitionner un corpus (le diviser en parties) permet ainsi d’analyser les fréquences observées.

    En ce sens, les chercheurs ont développé des mesures permettant d’estimer les variations de vocabulaire d’un texte à un autre, la richesse lexicale des textes les uns par rapport aux autres indépendamment de leur étendue, ou encore d’apprécier l’évolution des discours en diachronie avec des indicateurs comme l’accroissement lexical (Brunet, 1988, 2009, 2016) ou les spécificités chronologiques (Salem, 1988, 1991).

    Le champ de l’ADT s’est également édifié sur les travaux de l’analyse multidimensionnelle lexicale, qui a connu d’importants développements en France. Sous l’impulsion de Benzécri (1977a) et de Benzécri et al. (1973, 1981), un ensemble de méthodes dédiées au traitement statistique des tableaux de données a été développé. Les méthodes d’analyse en axes principaux (ou méthodes factorielles) et les méthodes de classification, qui font l’objet des chapitres 4 à 7 du présent ouvrage, ont été au cœur des recherches de ce courant. Si certaines de ces méthodes remontent elles-mêmes au début du siècle, elles avaient surtout été appliquées à la psychologie (tests d’intelligence ou de mémoire, détermination de facteurs cachés, etc.). Il s’agissait alors de l’analyse factorielle classique (factor analysis), fondée par Spearman (1904) et perfectionnée par Thurstone (1947), qui se proposait déjà d’aller au-delà des apparences en faisant émerger des variables échappant à l’observation directe. De même, l’Analyse en Composantes Principales (ACP, voir chapitre 5) de Hotelling (1933) se rapproche des travaux de Karl Pearson (1901).

    Benzécri est semble-t-il le premier à appliquer les méthodes multidimensionnelles aux données linguistiques (Benzécri et al., 1973, 1981) après avoir notamment dirigé la thèse d’Escofier-Cordier (1965), proposant une méthode d’analyse inductive des données linguistiques à l’opposé de la conception chomskyenne qui prévalait à l’époque (Benzécri et al., 1981, p. 4) :

    Nous proposons une méthode portant sur les problèmes fondamentaux qui intéressent un linguiste. Et cette méthode […] effectuera une abstraction quantitative, en ce sens que partant de tableaux de données les plus divers, elle construira, par le calcul, des quantités qui pourraient mesurer des entités nouvelles, situées à un niveau d’abstraction supérieur à celui des faits recensés d’abord.

    La statistique lexicale et l’analyse multidimensionnelle ont ainsi uni leurs efforts et articulé leurs méthodes en parcours complémentaires d’exploration des données textuelles.

    L’ADT est marquée par l’interdisciplinarité et la diversité des données textuelles. On peut néanmoins distinguer deux grandes familles d’application, qui fondent leurs développements sur des données textuelles de nature différente : les textes et corpus (écrits ou oraux) d’une part, et d’autre part, les textes nombreux comportant un important volume de métadonnées comme les réponses aux questions ouvertes (section 3).

    On pourrait peut-être dire, même si cette affirmation est certainement trop tranchée par rapport aux usages que l’on observe, que les textes et les corpus sont plutôt l’objet de la textométrie, qui prolonge la lexicométrie en investissant le texte dans toutes ses dimensions. Par rapport à la lexicométrie, qui conçoit le texte comme un ensemble de mots, la textométrie tient compte du tissu textuel, explorant tant la linéarité des unités ou des séquences qui le constituent que la diversité des informations linguistiques et les résonnances fréquentielles ou cooccurrentielles des unités au fil du texte.

    Par ailleurs, les recueils automatiques de messages courts, les questions ouvertes et les données d’enquêtes se prêtent particulièrement bien aux statistiques multidimensionnelles lexicales, qui font plus particulièrement l’objet des chapitres 4 à 9 de l’ouvrage.

    Sous-tendu par ces deux orientations qui en dessinent les contours, le champ de l’ADT reste unifié par un fond méthodologique et des principes communs, dont nous tâchons de restituer quelques éléments dans la section suivante.

    1.2 La démarche et les parcours méthodologiques

    Figure 1.1

    Démarche ADT

    1.2.1 Une démarche raisonnée

    Toute analyse statistique requiert ainsi un problème dûment posé, et c’est pour répondre à une question de recherche que le chercheur interroge ses données. Le problème (1) peut être ciblé (observe-t-on des différences significatives entre les hommes et les femmes dans les mots qu’ils jugent les plus agréables ?) ou au contraire plus large et plus exploratoire (quels sont les textes ou les mots qui s’opposent le plus dans mon corpus ?). Il est important de garder à l’esprit que quelle que soit la pertinence de l’hypothèse considérée, le traitement produira des résultats. L’hypothèse doit donc être rigoureusement pensée en amont si l’on souhaite pouvoir interpréter les résultats de manière pertinente.

    Dans les deux cas, on suppose un rapport particulier de l’analyste aux données textuelles (2) exploitées. Qu’elles se présentent sous la forme de corpus textuels ou de données d’enquêtes (questions ouvertes), on part du principe que le chercheur a une certaine connaissance de ses données, soit parce qu’il a constitué son corpus ou en connaît les principes de constitution, soit parce qu’il a réalisé et mis en œuvre son enquête ou en connaît le protocole et la problématique. Le chercheur est ainsi censé connaître les données qu’il interroge, ce qui lui permet d’élaborer des hypothèses pertinentes et d’interpréter les résultats obtenus. Ainsi l’ADT est moins compatible avec une démarche de découverte et d’exploration de données totalement inconnues, qu’avec un objectif de lecture sous un autre angle de données déjà familières.

    Une fois le problème posé et les données textuelles établies, se pose la question du choix des méthodes appliquées (3), impliquant également une connaissance éclairée des mesures et des outils exploités (Chartier et Meunier, 2011 ; Meunier, 2017). Cependant, une méthode mal appliquée, ou qui serait peu pertinente étant donnés les objectifs de l’analyste, fournira quand même des résultats. Et nous connaissons tous la propension naturelle de l’être humain à interpréter et à voir du sens dans tout rapprochement ou dans toute opposition de deux objets, quelle que soit la méthode adoptée. Cette idée de « connaissance éclairée » ne renvoie pas seulement à une connaissance mathématique de la méthode, de sa formule ou de son implémentation³. Il s’agit aussi d’une connaissance d’utilisateur éclairé, permettant de répondre aux questions suivantes:

    Que permet la méthode que je mobilise ? Quel est son principe général ?

    Quelles sont les données qu’elle nécessite en entrée ?

    Quels sont les résultats qu’elle fournit et qu’est-ce que je peux en dire ?

    En dernier lieu, la finalité d’une analyse statistique demeure naturellement l’interprétation (4). Il s’agit de répondre aux questions posées au départ : quelles sont les oppositions linguistiques les plus significatives du corpus, et quels sont les textes les plus proches ou les plus éloignés ? Quelles sont les caractéristiques du corpus et les spécificités des sous-ensembles qui le constituent ? Réglée par l’interprétation, la démarche ADT est cyclique, comme le montre la figure 1.1. Elle se construit par le biais d’allers-retours incessants de l’anticipation de la structure à l’explication d’un détail.

    1.2.2. Des jalons méthodologiques

    Afin d’avoir une vue d’ensemble et de se repérer dans les différentes méthodes qui vont être successivement présentées dans les chapitres de notre ouvrage, nous prendrons pour point de départ la représentation synthétique qui suit (figure 1.2).

    Une fois les données textuelles définies (corpus ou questionnaires, voir section 3 du présent chapitre) se pose la question du choix des unités d’analyse et des observables sur lesquels seront appliquées les méthodes. Cette question sera développée au fil du chapitre 2.

    Nous avons vu que notre démarche est sous-tendue par une finalité interprétative et une attention particulière aux textes. Dans cet esprit, le retour au (con)texte est déterminant et balise régulièrement les interprétations. Les méthodes d’exploration des unités en contexte seront présentées au chapitre 3.

    Les méthodes multidimensionnelles sont au cœur de ce livre : le chapitre 4 pose les grands principes de ces méthodes d’exploration, de visualisation et d’inférence. Les chapitres suivants se concentrent sur les méthodes les plus exploitées par les acteurs du champ : les méthodes factorielles (ou analyses en axes principaux) sont d’abord exposées, de l’analyse en composantes principales (chapitre 5) dédiée au traitement des tableaux de mesures numériques, à l’analyse des correspondances (chapitre 6) consacrée aux tableaux de fréquences. Le chapitre 7 propose ensuite un panorama synoptique des méthodes de classification, de la classification hiérarchique aux arbres additifs et aux cartes auto-organisées.

    Figure 1.2

    Statistique exploratoire pour les textes : une vue synoptique

    Il ne s’agit pas seulement de bien comprendre le détail de chaque méthode : il faut également savoir les combiner et les articuler suivant son objectif de recherche et la nature des données textuelles considérées. Ainsi, on privilégie des méthodes différentes si l’on dispose d’un petit nombre de gros textes (des romans par exemple), ou d’un grand nombre de textes courts (par exemple des avis d’internautes, des réponses succinctes à une question ouverte). Les méthodes factorielles et de classification nécessitent un nombre suffisant d’éléments (typiquement des textes), ne serait-ce que pour qu’on puisse conférer un sens aux regroupements. De son côté, la concordance est plus limitée pour l’examen de listes de mots que pour des textes rédigés. Enfin, si l’on dispose d’informations externes sur les textes, on pourra les exploiter pour regrouper ceux-ci ou les utiliser à titre illustratif dans une analyse factorielle, par exemple. C’est là l’objet du chapitre 8, qui propose des stratégies d’analyse concrètes en insistant sur la complémentarité entre visualisations par axes principaux et classifications.

    Enfin les décisions que l’on peut prendre à partir de textes (attributions d’auteurs, pouvoir prédictif de réponses à des questions ouvertes, affectations d’un document à un thème), qui échappent au domaine de l’exploration pure (thème central de l’ouvrage), sont abordées au chapitre 9, L’articulation entre les analyses exploratoires et confirmatoires, précisément dans leur lien, leur interaction et leur validation par les outils d’exploration et de visualisation de données.

    2. LES DISCIPLINES VOISINES

    Du fait de sa position particulière de champ de recherche méthodologique, l’ADT s’est construite dans le dialogue interdisciplinaire : des chercheurs d’horizons multiples mobilisent ses méthodes pour explorer des ensembles de données textuelles qui peuvent être très variés. Le champ s’est ainsi structuré au gré des interactions et des coopérations, favorisant des parcours méthodologiques et des mesures spécifiques, se nourrissant en retour des recherches sur les objets investigués.

    Ainsi en va-t-il des recherches sur le(s) discours et de la connivence que l’ADT entretient depuis ses origines avec l’analyse du discours ou la stylistique, mais également des recherches menées dans les domaines du texte et de la textualité, de la linguistique textuelle (Adam, 2015) ou de la sémantique des textes (Rastier, 2001, 2011), qui développent au plan théorique des affinités fortes avec la démarche textométrique (voir par exemple Pincemin, 2012a). Ces disciplines dialoguent régulièrement avec l’ADT, mobilisant ses méthodes pour analyser et dégager des régularités linguistiques et des typologies textuelles qu’elles interprètent ensuite suivant leurs objectifs descriptifs et leurs grilles d’analyse propres. Plus récemment, on peut reconnaître dans la lecture à distance (distant reading) de Moretti (2013) une forme d’expérimentation dans le domaine littéraire de propositions et d’outils de l’ADT.

    Outre ces échanges, l’ADT est amenée à se positionner par rapport à des domaines et à des disciplines connexes qui partagent son intérêt pour l’exploration des données textuelles et le traitement statistique des textes. Il en va ainsi de la linguistique de corpus, du traitement automatique des langues, de la fouille de textes (text mining) et de l’analyse qualitative. C’est sur ces quatre domaines méthodologiques et applicatifs que se concentre la présente section : nous en exposerons les grands principes et tenterons de restituer les rapports qu’elles entretiennent avec l’ADT.

    2.1. La linguistique de corpus

    2.1.1. Les objectifs

    La linguistique de corpus est un courant qui vise à décrire la diversité des usages langagiers au moyen de corpus. Encourageant les études empiriques de la variation et des usages langagiers et le recours aux données authentiques et attestées, la linguistique de corpus se revendique d’être une discipline expérimentale et outillée.

    Suivant l’orientation plus déductive ou plus inductive qu’empruntent les analystes, on distingue classiquement deux types d’approches : les approches plus déductives sur corpus (corpus-based), dans lesquelles le corpus est mobilisé pour éprouver la validité d’une construction linguistique posée au départ ; et les approches inductives (corpus-driven), dans lesquelles les constructions linguistiques récurrentes sont induites du corpus (Tognini-Bonelli, 2001).

    Les premières approches, qui se concentrent essentiellement sur la question des attirances entre les mots, qu’on appelle aussi collocations (voir section 3.2 du chapitre 2 pour plus de détails), sont de loin les plus répandues dans le champ. Elles ont permis de mettre au jour d’intéressants écarts entre les règles décrites par la grammaire et les faits linguistiques observés (voir notamment Biber et al. [1999], pour l’anglais).

    De leur côté, les approches inductives, moins répandues, visent à mettre au jour des constructions linguistiques inédites, sans modèle ni catégorisation linguistique antérieure. On peut voir un exemple de ces approches dans les séquences récurrentes non idiomatiques (lexical bundles) de Biber et al. (1999), qui extraient des séquences de type I don’t know if, rappelant les segments répétés proposés et utilisés antérieurement par Salem (1984) (voir aussi section 3.1 du chapitre 2). On assiste à des débats similaires à ceux qui ont agité la lexicométrie sur la question du lemme (voir section 1.2 du chapitre 2).

    La linguistique de corpus explore la question du choix linguistique d’un usage à l’autre : pourquoi choisit-on telle structure syntaxique plutôt que telle autre ? Pourquoi choisit-on tel adjectif plutôt que tel autre, qui est pourtant son synonyme ? Par exemple, suivant son acception, le nom résolution attirera des adjectifs d’intensité différents : comparer la ferme résolution (d’un individu) et la forte résolution (d’un écran). Ces variations sont interprétées d’un point de vue fonctionnel d’un usage à l’autre, en faisant référence aux caractéristiques communicationnelles et situationnelles des usages. La question des contextes et des registres discursifs est en effet cruciale dans cette démarche, qui s’ouvre ainsi aux sciences sociales.

    2.1.2. Les méthodes et les outils d’analyse

    En termes d’outillage, la linguistique de corpus se rapproche de la démarche textométrique développée sur les corpus textuels et pratique peu l’analyse multidimensionnelle, bien que l’étude de Biber (1988) ait contribué à la diffusion de l’Analyse en Composantes Principales dans le champ – méthode qui sera précisément exposée dans le chapitre 5 de cet ouvrage.

    La linguistique de corpus recourt plus souvent aux méthodes que l’on dit « qualitatives » et les approches « fondées sur le corpus » (corpus-based) sont de loin les plus répandues. Dans la mesure où le chapitre 3 est spécifiquement dédié aux méthodes permettant un retour textuel et contextuel aux données, nous nous limiterons à un bref panorama.

    L’analyse des spécificités (section 4 du chapitre 3) ou la recherche des mots-clés (keywords) est régulièrement proposée, permettant de cibler les unités sur lesquelles l’analyste concentrera ses efforts, et qu’il observera ensuite contextuellement avec la concordance.

    La collocation est l’un des objets majeurs de la linguistique de corpus, et comme en ADT, on recourt à trois fenêtres d’observation pour explorer les réalisations contextuelles d’une unité:

    La concordance, qui offre une vue alignée verticale des réalisations d’une unité permettant d’explorer sa syntagmatique⁴.

    La cooccurrence, qui explore le voisinage élargi de l’unité, c’est-à-dire les unités qui adviennent fréquemment avec l’unité en question, dans le même contexte, mais pas forcément immédiatement avant ou après.

    Les séquences, qui dégagent statistiquement les régularités les plus fréquentes sur le plan syntagmatique de la linéarité textuelle (séquences clés, n-grammes ou séquences récurrentes non idiomatiques, segments répétés : voir la section 3 du chapitre 2).

    2.1.3. Les relations et les passerelles entre la linguistique de corpus et l’ADT

    ADT et linguistique de corpus ont de nombreux points communs.

    Les deux approches se préoccupent de la question de l’objectivation, qui est assurée par la représentativité du corpus et par l’application raisonnée des méthodes et, le cas échéant, le contrôle de celles-ci (voir les méthodes de rééchantillonnage [bootstrap], chapitre 4 et suivants). Ces deux éléments légitiment la portée généralisante des faits locaux observés. L’ADT se nourrit parfois des travaux de la linguistique de corpus pour qualifier les corpus qu’elle explore, par exemple pour les genres et les types de textes.

    Comme l’ADT, la linguistique de corpus s’intéresse aux distributions et a une conception contextuelle du sens.

    Enfin, les deux approches ont une finalité interprétative : des résultats statistiques ne valent que s’ils sont interprétés⁵.

    En revanche, la linguistique de corpus et l’ADT n’ont pas le même cahier des charges. La linguistique de corpus vise d’abord à décrire les usages langagiers. Elle se fonde donc sur une grille d’interprétation et d’analyse linguistique et fonctionnelle. L’ADT est à la croisée de l’ensemble des disciplines qui fondent leurs interprétations sur des données textuelles. En ce sens, son champ est plus large, et ses interfaces interprétatives sont multiples. Les résultats d’une analyse factorielle peuvent ainsi étayer une hypothèse historique, marketing ou psychologique…

    2.2. Le traitement automatique des langues

    2.2.1. Les objectifs

    Le traitement automatique des langues (TAL) est un domaine qui vise à formaliser les descriptions linguistiques dans la perspective du développement d’une application informatique. De manière générale, le TAL a une double visée théorique et applicative : sur le plan théorique, il développe des modèles et des systèmes formels simulant les mécanismes des langues naturelles qui permettront d’implémenter des applications informatiques. En ce sens, les théories linguistiques construites dans ce cadre présentent l’intérêt d’être vérifiables et opérationnelles. La notion de « visée applicative » est ainsi cruciale et parfaitement assumée, particulièrement depuis que le Web a considérablement accru les besoins en informatique documentaire. C’est probablement ce qui explique que le terme traitement automatique des langues, qui renvoyait à la base à la linguistique informatique dans son versant appliqué (comme l’ingénierie linguistique), est aujourd’hui la dénomination la plus courante pour référer à l’ensemble du domaine. Les exigences en matière de traitements documentaires efficaces sur des données massives et hétérogènes ont par ailleurs relégué au second plan les approches linguistiques les plus formelles⁶, effaçant plus encore la frontière entre théorie et application(s).

    Les applications du TAL sont nombreuses et diversifiées. Historiquement, la traduction automatique (TA) a été la première application développée. En effet, si les recherches engagées par Weaver dans les années 1950 commencent avec enthousiasme, elles s’étiolent rapidement devant l’ampleur de la tâche, qui s’avère largement plus complexe que la simple mise en correspondance de deux dictionnaires imaginée au départ. Le décisif rapport ALPAC (1966) marque la fin du financement de la TA aux États-Unis et oriente la linguistique informatique vers le générativisme et l’intelligence artificielle. Les développements se concentrent alors sur des applications de dialogue homme-machine qui demeurent encore aujourd’hui des applications de prédilection du TAL (voir la multiplication actuelle des agents virtuels en ligne). Les recherches en TA et en TAL reprennent après 1975, l’acquisition du traducteur Systran par la communauté européenne ayant notamment remotivé les investisseurs. Avec les besoins croissants de traitement de documents multilingues, la TA et la traduction assistée par ordinateur (TAO) restent des applications productives du TAL, tandis que le développement du Web a particulièrement accru les besoins en fouille de données et de textes (voir section 2.3 du présent chapitre), de l’indexation automatique à l’extraction d’information ou la classification de documents. Si les applications commerciales du TAL portant sur l’écrit sont encore les plus répandues à l’heure actuelle (moteurs de recherche, systèmes de TA, correcteurs orthographiques et syntaxiques, etc.), différentes applications de reconnaissance de la parole et de synthèse vocale sont disponibles. Avec le succès des données multimodales, les recherches sur les traitements combinant écrit et oral se sont particulièrement intensifiées, si bien que le multimodal pourrait bien être au cœur des développements dans les années à venir.

    2.2.2. Les niveaux d’analyse

    L’ensemble des applications que nous venons de parcourir illustre le vaste champ de la linguistique informatique. Le développement de ces systèmes est soumis à celui de modèles linguistiques en mesure de répondre aux problèmes spécifiques que pose chaque application. Dans cette perspective se pose la question des différents niveaux de représentation linguistique à considérer, qu’on se situe du

    Vous aimez cet aperçu ?
    Page 1 sur 1