Corela 560
Corela 560
Corela 560
Édition électronique
URL : http://journals.openedition.org/corela/560
DOI : 10.4000/corela.560
ISSN : 1638-573X
Éditeur
Cercle linguistique du Centre et de l'Ouest - CerLICO
Référence électronique
Marie-Paule Jacques, « Structure matérielle et contenu sémantique du texte écrit », Corela [En ligne],
3-2 | 2005, mis en ligne le 27 décembre 2005, consulté le 19 avril 2019. URL : http://
journals.openedition.org/corela/560 ; DOI : 10.4000/corela.560
Corela – cognition, représentation, langage est mis à disposition selon les termes de la licence
Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions
4.0 International.
Structure matérielle et contenu sémantique du texte écrit 1
1. Introduction
1 Nous nous intéressons ici à l’articulation de la structure matérielle et du contenu
sémantique de documents textuels écrits, en nous appuyant sur l’idée que la matérialité
d’un texte participe à son sens.
2 A l’heure où les documents écrits se multiplient, un accès sélectif au contenu textuel
devient un réel enjeu. Nul n’est désormais en mesure de lire intégralement tous les
documents produits sur un sujet donné, il faut trier, cibler certains segments textuels
selon le type d’information recherchée. Des outils toujours plus performants doivent
permettre de faire face à l’inflation des écrits et à la nécessité d’un accès rapide à
l’information.
3 La rapidité peut être obtenue par l’automatisation de la caractérisation du contenu d’un
document, par l’extraction automatique de segments pertinents, c’est-à-dire des
segments dans lesquels se trouve l’information pertinente pour représenter les idées et
thématiques principales du document. Si on associe à cela un outil de visualisation
dynamique1, on offre à l’utilisateur le moyen de naviguer sans se perdre dans des
documents longs tels que des rapports, des comptes-rendus de projet, des thèses, une
documentation globale, etc., et d’emprunter divers chemins en fonction de ses besoins
pour puiser l’information désirée.
4 Pour cela, il est nécessaire non seulement de pouvoir déterminer automatiquement de
quoi les documents parlent, mais aussi de savoir où ils parlent de ce dont ils parlent, et
encore où ils reviennent sur ce dont ils ont déjà parlé afin de mettre en évidence des
continuités/contiguïtés ou ruptures/distances thématiques. Il s’agit de considérer le
document comme constitué de segments organisés dans des parties, établissant
éventuellement entre eux des liens à distance et des dépendances hiérarchiques,
permettant de structurer leur contenu. C’est par la prise en compte de cette structure
que l’appréhension et la représentation du contenu du document peuvent être enrichies :
la structure donne forme et sens au contenu, nous la concevons comme le fil d’Ariane
d’une navigation sélective, c’est en la gardant en vue que le navigateur peut cheminer
dans un document long au format numérique sans s’égarer.
5 Même si nous sommes guidée par des questions liées au traitement automatique, notre
perspective est essentiellement et avant tout linguistique, notre étude se situe dans le
cadre d’une linguistique de l’écrit. Nous nous proposons de décrire les propriétés des
documents textuels écrits afin de déterminer comment des éléments spécifiques de l’écrit
peuvent être exploités à des fins de traitement automatique.
6 Nous défendrons ici l’idée que la prise en compte de la structure matérielle – à la
définition de laquelle nous consacrons le début de cet article – d’un document textuel est
susceptible d’apporter une plus-value non négligeable pour la caractérisation de son/ses
contenu(s), et ce parce que les deux sont indissolublement liés. Sur le plan de
l’automatisation, il est d’autant plus pertinent de chercher à comprendre tout le parti que
l’on peut tirer de la structure matérielle que celle-ci est relativement aisée à repérer dans
un document numérique, surtout sous les formats qu’adoptent les textes conçus pour des
supports numériques (html, sgml, xml…). Par document numérique, nous entendons aussi
bien un document textuel disponible sous format numérique mais conçu pour être lu et/
ou diffusé sous un autre format (papier ou autre), qu’un document textuel conçu pour
être lu et/ou consulté sur un support numérique (par exemple, les pages du Web, les
livres électroniques, etc.). Nous nous focalisons en tout premier lieu sur le premier type
indiqué – document conçu pour le papier –, mais, comme ces deux types ne sont pas
cloisonnés et que des passages du document conçu pour un support papier vers un format
adapté à une consultation électronique sont possibles, nos propositions s’étendront au
second type.
7 Les éléments de structure auxquels nous nous intéressons particulièrement ici sont les
titres à l’intérieur des documents, c’est-à-dire les titres de sections et sous-sections. Nous
montrerons (section 4.3) que ces éléments participent à la structuration des documents
sur deux plans : sur le plan matériel, visuel, ils découpent et hiérarchisent le texte ; et sur
le plan du contenu, ils peuvent jouer divers rôles qui vont de l’annonce d’une thématique
à l’introduction de référents dans le discours, en passant par la focalisation sur des
référents déjà présents.
8 Afin d’éclairer notre intérêt pour les titres, nous commencerons par exposer l’arrière-
plan théorique sur lequel peut s’appuyer la prise en compte de la structure matérielle des
textes écrits, après avoir défini celle-ci (section 2). Nous précisons de quelle façon les
aspects liés à la matérialité du texte peuvent être exploités pour des tâches de traitement
automatique, en donnant quelques exemples de recherches qui articulent le repérage de
certains types d’informations dans le texte à la prise en compte de caractéristiques
matérielles (section 3). Nous indiquons ensuite les premiers résultats de la recherche
menée sur les fonctions des titres (section 4). Dans la section 5, nous revenons sur les
perspectives de recherche à développer.
9 Avant toute chose, il semble essentiel de préciser ce que nous entendons par structure
matérielle des textes. S’agissant, comme nous l’avons indiqué précédemment, de
documents écrits, c’est-à-dire conçus pour un support papier – et non de documents
sonores, ou bien d’écrits qui seraient une transposition ou une transcription d’une forme
orale –, les textes présentent des propriétés liées à leur support matériel. Une feuille de
papier, de même qu’un écran d’ordinateur, de téléphone portable ou de livre
électronique, offrent un certain espace sur lequel se dispose le texte. Cette propriété
permet à l’espace de jouer un rôle dans la construction de la signification.
10 Pour illustrer ceci, arrêtons-nous sur une figure que nous empruntons à et qui, dans son
texte d’origine, constitue un « Extrait du réseau terminologique construit par SYNTEX
autour du candidat terme modèle conceptuel ».
12 Il est parfaitement possible de trouver une formulation discursive pour une figure telle
que la figure 1, mais on remarquera que cette formulation est bien moins économique que
sa source écrite, et de ce fait il est à craindre que son traitement soit lourd sur le plan
cognitif : le destinataire de la formule risque d’avoir oublié le premier terme mentionné
avant même d’entendre le dernier – d’autant plus que les termes donnés en exemple
présentent un certain niveau de complexité à la fois syntaxique et cognitive.
13 Dès lors que l’on a à traiter des séries, des ensembles ou des catégories, dès que l’on a à
introduire des découpages et des hiérarchisations, l’écrit, de par ces propriétés de
matérialité et de spatialisation que nous venons d’illustrer, s’avère particulièrement
approprié. Et ce parce que l’écrit implique un traitement cognitif différent de celui requis
par l’oral, précisément lié à sa matérialité.
14 Pour , l’écrit est un transformateur cognitif : le passage de la dimension linéaire de l’oral à
la dimension spatiale de l’écrit implique une modification du traitement de la langue, en
ce que l’introduction d’une dimension spatiale permet des manipulations formelles qui en
retour transforment la pensée et les opérations mentales.
Afin de montrer ceci, autorisons-nous quelques petites manipulations de la figure 1 :
15 La figure 2 propose une liste de termes que la mise en forme matérielle met tous sur le
même plan. Dans la figure 3, le simple déplacement du premier terme vers le centre suffit
à lui accorder un statut spécifique par rapport aux autres éléments : on peut ainsi le
comprendre comme un titre, comme le descripteur d’une catégorie formée des autres
éléments, comme le plus petit dénominateur commun de ce qui suit, etc. De telles
manipulations (dont nous ne donnons ici qu’un exemple très simplifié) ne sont pas sans
incidence sur le plan conceptuel : selon la place physique qui lui sera accordée dans la
liste, la première expression sera ou ne sera pas constituant d’une catégorie, ou bien en
sera un exemplaire privilégié, etc. Appliquées sur une vaste échelle, les manipulations
formelles permises par un support écrit sont effectivement de nature à modifier en
profondeur les opérations mentales mises en jeu.
16 Ces quelques exemples mettent aussi en évidence le fait que l’organisation matérielle du
texte n’est finalement que le reflet de son organisation logique. Là où l’auteur d’un
document veut introduire une rupture, veut manifester une dépendance, veut exprimer
une série, ou tout autre opération de structuration, il a à sa disposition, en plus des
moyens lexicaux fournis par sa langue, des moyens liés à la mise en forme matérielle du
texte. Celle-ci est donc à prendre tout à fait au sérieux comme composante à part entière
du message. Le Modèle d’Architecture Textuelle, que nous présentons maintenant, offre
un cadre théorique pour cela.
17 Parmi les fondements du Modèle d’Architecture Textuelle (par la suite MAT)3, deux idées
essentielles, illustrées par notre « jeu » de manipulations de la section précédente, sont à
retenir : d’une part l’idée que les propriétés matérielles des textes traduisent les
intentions de signification des auteurs du texte, d’autre part l’idée que tout ce qui est
signifié par la mise en forme matérielle possède une relation d’équivalence avec une
formulation discursive développée, c’est ce que nous avons mis en évidence dans notre
commentaire de la figure 1. Ces deux aspects, que nous allons brièvement expliciter dans
cette section, justifient de considérer les aspects visuels, c’est-à-dire les propriétés de
mise en forme matérielle des textes, avec beaucoup d’attention et de les prendre en
compte de la façon la plus fine possible dès lors que l’on vise des applications ayant pour
but d’accéder au contenu des textes.
18 Pour le MAT, les éléments de mise en forme matérielle constituent des traces
d’opérations réalisées par les acteurs textuels : « les acteurs textuels sont tous les
intervenants dans la mise en forme matérielle du texte. Ils comprennent, entre autre :
l’auteur, l’éditeur, le metteur en page, le typographe, etc. » . Ceux-ci, à leur choix,
traduisent par une mise en forme spécifique leurs intentions de signification.
Considérons, par exemple, une mise en forme matérielle telle que celle représentée par la
figure 4.
19 Selon , une telle réalisation R1 peut être « mise en correspondance avec une phrase telle
que la suivante : p1 : J’introduirai ce premier chapitre par une histoire de la linguistique » (Ibid.).
référents sont dans le texte, et qui formule les opérations que l’auteur accomplit dans la
construction de son texte.
21 Le MAT se fonde sur l’idée que « une des propriétés majeures du métadiscours associé à
un énoncé est qu’il peut être réduit dans une proportion aussi importante que
permise par le contexte de la communication, tout en laissant des traces de cette
réduction […]. On dira donc que R1 est le résultat de diverses réductions opérées sur la
métaphrase p1. La nature des traces indique celle des réductions : transformations
syntaxiques (« j’introduirai » / « introduction »), éléments lexicaux (« titre »), propriétés
typo-dispositionnelles, mais aussi ponctuation. » (Ibid., nous soulignons).
22 En résumé, le premier acteur textuel qu’est l’auteur organise son texte selon ses
intentions de communication, par des opérations métatextuelles telles que celle
explicitée par la métaphrase p1. Les métaphrases rendant compte des opérations
d’organisation du texte peuvent être réduites à divers degrés (de ‘aucune réduction’ à
‘réduction totale’), non sans laisser dans le texte des traces de diverses natures à partir
desquelles le destinataire – le lecteur – construit son interprétation du texte.
23 La mise en forme matérielle, et notamment la typographie, la disposition, les effets tels
que le soulignement, la mise en caractère gras, en italique, la numérotation, les puces,
l’indentation, etc., ne sont donc pas dans ce modèle des éléments d’embellissement du
texte, destinés à en améliorer la qualité esthétique, mais bien des éléments fonctionnels.
C’est à ce titre qu’il est nécessaire de les intégrer dans les applications. Signalons
d’ailleurs que, pour l’oralisation de l’écrit – par exemple pour offrir à des non-voyants
une contrepartie orale de certains documents écrits –, F. Maurel analyse très
soigneusement les caractéristiques morpho-dispositionnelles des textes à transposer
automatiquement de l’oral à l’écrit, et propose un système apte à les prendre en compte.
24 Une précision s’impose toutefois : il n’y a aucune convention associée à la mise en forme
matérielle des textes. Selon sa réalisation, selon le texte, une portion de texte en italique
ou en gras n’aura pas la même fonction. Elle pourra, par exemple, signifier une insistance,
ou introduire un nouveau concept ou un nouveau terme dans le texte, ou encore signaler
un propos rapporté… On ne peut établir de correspondance de type bijectif entre une
mise en forme matérielle et une intention de signification définie. L’important est le
contraste entre différents éléments du texte5 car ce contraste permet de définir les objets
textuels : « un objet textuel est un segment de texte rendu perceptible par un jeu de
contrastes de la mise en forme matérielle. Ainsi, parmi les objets textuels, on trouve les
définitions, les énumérations, les parties, les titres, etc. » .
25 Certains des objets textuels mentionnés dans la citation qui précède, quoiqu’ils ne se
signalent pas par une mise en forme matérielle invariable, sont particulièrement
intéressants pour des tâches qui impliquent un accès au contenu du texte, comme
l’acquisition de connaissances : les définitions permettent d’accéder aux connaissances du
domaine, les énumérations permettent de repérer certaines informations, et nous
verrons plus loin que les titres ont des fonctions diversifiées. La caractérisation de ces
divers objets textuels pour des tâches de traitement automatique fait la part belle à leurs
propriétés typo-dispositionnelles.
31 Il est donc indispensable, si l’on veut assurer le repérage des définitions dans les textes,
de prendre en compte leurs caractéristiques typo-dispositionnelles au même titre que
leurs caractéristiques lexico-syntaxiques : « [l’étude des définitions dans les textes] vise
une modélisation fine des réalisations linguistiques des définitions, c’est-à-dire des
réalisations de mise en forme matérielle grâce auxquelles ces objets textuels sont rendus
perceptibles en discours. Les configurations de marqueurs qui doivent permettre de
construire des filtres pour le repérage des définitions dans les textes incluent des
marqueurs visuels : ponctuation, typographie, disposition. » .
32 Les définitions ne sont pas les seuls objets textuels dans la modélisation desquels le
marquage visuel joue un rôle important. Pour les énumérations, la mise en forme
matérielle se range parmi les indices essentiels. Même si, là encore, une énumération
peut être marquée par des moyens strictement lexico-syntaxiques, c’est le plus souvent à
des caractéristiques typo-dispositionnelles qu’elle se reconnaît. La figure 6 comporte
deux exemples d’énumérations, la première est organisée par des marqueurs
d’intégration linéaire (MIL) , la seconde par une typo-disposition spécifique renforcée par
une numérotation.
33 De même que les définitions, les énumérations sont des objets textuels précieux dans la
mesure où « énumérer c’est conférer une égalité d’importance à un ensemble d’objets » .
Une énumération donne en effet accès à un ensemble d’items rassemblés sous un critère
commun. Dans certains cas, elle permet d’atteindre une collection d’entités rassemblées
sous une même étiquette : « L’identité de statut des constituants au sein de l’énumération
exprime l’identité de statut des entités recensées dans le monde » .
34 Ces propriétés font donc des énumérations des objets textuels à privilégier lorsqu’on veut
constituer certaines ressources lexicales à partir d’un corpus. C’est pourquoi en ont fait la
cible privilégiée d’une recherche d’Entités Nommées (EN), « appellation générique pour
les noms propres désignant des personnes, des lieux ou des organismes » . Pour la
réalisation de cette tâche, leur approche a ceci d’original par rapport aux approches
généralement utilisées en linguistique de corpus pour l’acquisition de connaissances
qu’elle « exploite des informations sur la structure des documents pour acquérir des
données » (Ibid.). Ceci est rendu possible par le fait que leur terrain d’investigation est
constitué de pages web, donc au format html, et que ce format comporte des indications
de mise en forme matérielle : les listes qui constituent les énumérations « visuelles »,
telles que le second exemple de la figure 6, sont soit intégrées dans des tables, soit
marquées par des balises spécifiques (<ul> ou <ol>). La méthode d’acquisition intègre donc,
parmi les analyseurs chargés de la moisson et du filtrage des pages web, un analyseur de
liste qui s’appuie sur de telles marques pour repérer les EN candidates.
35 L’évaluation de la méthode (que nous n’exposerons pas plus en détail, se reporter à ), met
en évidence la nécessité de faire coopérer des analyses du lexique et des structures
syntaxiques et une analyse des marques de structuration du document car nombre
d’énumérations associent étroitement des marques lexicales et des marques visuelles.
36 Ces deux exemples empruntés au champ de l’acquisition de connaissances à partir de
textes montrent de quelle façon la mise en forme matérielle des textes peut être mise à
profit pour le repérage de segments textuels supposés receler un type spécifique
d’informations. La recherche que nous présentons maintenant n’adopte pas tout à fait le
même angle d’attaque. Il ne s’agit plus de modéliser les diverses formes sous lesquelles un
objet textuel particulier se présente dans les textes afin de permettre son repérage, mais
d’explorer la gamme de fonctions remplies par un objet textuel – les titres de section –
afin de déterminer le type d’informations que l’on peut en tirer pour une caractérisation
des contenus des documents.
41 Notre recherche a pour objectif non seulement d’identifier les fonctions remplies par les
titres, mais aussi d’inventorier les marqueurs formels de ces fonctions. L’hypothèse sous-
jacente est qu’une caractérisation fine de chaque titre est susceptible d’enrichir la
caractérisation des contenus d’un document. Nous envisageons « cet Objet Textuel
spécifique qu’est le titre en termes d’instruction métadiscursive du scripteur à l’attention
des lecteurs. » . Selon ce point de vue, les titres induisent certains processus interprétatifs
et annoncent certains contenus. Nous pensons qu’il est possible de distinguer le type de
contenu que le titre annonce par le prélèvement d’indicateurs dans son environnement.
42 Nous avons basé notre étude8 sur l’analyse d’un corpus de textes de trois origines
différentes : des documents de travail produits dans le domaine de la gestion des
déplacements, des articles scientifiques du domaine de l’ingénierie des connaissances (ces
textes servent de substrat au projet CEDERILIC), des articles scientifiques du domaine de
la géopolitique, téléchargés sur le site web de l’IFRI. Tous les textes sont sous format
électronique et ont a priori été rédigés pour un format papier, ou pour un format mixte
dans le cadre du projet CEDERILIC. Notre premier traitement de ces textes a consisté à
baliser les titres, soit en nous appuyant sur les éléments de formatage conservés dans les
documents numériques, soit en mettant en œuvre quelques heuristiques simples. Le
corpus a été constitué de telle façon que chacun des trois sous-ensembles comporte un
nombre comparable de titres : 345 / 348 / 348, ce qui donne un nombre total de 1041
titres.
43 L’ensemble des corpus a ensuite été intégré dans une base de données, les titres figurant
dans une table spéciale. L’objectif à ce stade est d’enrichir chaque titre d’annotations
concernant ses relations avec le reste du texte. Puisque nous voulons évaluer l’hypothèse
que la caractérisation d’un titre peut permettre de caractériser le contenu du texte
adjacent, il est nécessaire de cerner la façon dont le titre s’intègre – ou ne s’intègre pas –
au texte. C’est pourquoi les annotations se sont focalisées sur le fait que les constituants
d’un titre sont ou non repris dans la suite du texte. Les indications sur les reprises des
titres nous paraissent éclairer le rôle joué par le titre. Par exemple, si un titre est repris
par un pronom, cela témoigne à la fois d’une intégration syntaxique importante du titre
et d’une capacité à introduire un référent dans le discours de telle manière que celui-ci
est accessible à une anaphore pronominale, c’est-à-dire est placé au centre de l’attention,
comme on le voit dans l’extrait suivant, où nous mettons en caractères gras la reprise
pronominale du titre.
[1] 2.4.3 Les données météorologiques
Elles sont recueillies par des stations météoroutières.
44 Si on compare cet exemple avec l’extrait reproduit en [2], dans lequel aucun des mots
présents dans le titre ne réapparaît dans la section titrée, on voit nettement se dessiner
des modalités fondamentalement différentes d’intégration du titre dans le texte, qui
distinguent des fonctions hétérogènes du titre, nous les détaillerons dans la section
suivante.
[2] b. Ascension et chute de John D. Rockefeller
De très nombreux entrepreneurs, souvent des aventuriers risquant leur fortune
personnelle, tentèrent leur chance dans l’exploration pétrolière à partir des années
1860. Acquérant des droits sur de minuscules parcelles ou sur des milliers
d’hectares, ils furent les acteurs de l’ère héroïque de l’histoire pétrolière
49 On peut globalement dire que les titres de section dans des documents textuels jouent un
rôle sur deux plans, sur le plan matériel et sur le plan notionnel.
50 1. sur le plan matériel, ils subdivisent et en même temps regroupent et hiérarchisent.
Avant même de prendre en compte leur contenu sémantique, les titres organisent le texte
d’une façon immédiatement visible, ce que montre l’image de page figure 7.
51 Le type de segmentation illustré par la figure 7 joue un rôle bien au-delà d’un repérage
visuel de la structure du texte. En donnant à voir une hiérarchisation des sections, c’est
déjà une structuration d’ordre sémantique qui est construite : les places qu’occupent les
différentes sections dans la structure globale du texte sont à traiter en termes de
relations de subordination, de juxtaposition, de coordination, qui sont plus précisément
spécifiées par le contenu notionnel des titres. Le lecteur est sensible à l’emboîtement et
au parallélisme qui lui permettent de construire mentalement le squelette du discours.
d’une thématique, en passant par la focalisation sur certains référents. Ce sont ces
fonctions que nous exposons maintenant (section 4.3.1), puis nous indiquerons en quoi la
caractérisation de types de titres peut aider à la caractérisation du contenu du document
(section 4.3.2).
56 A un pôle du continuum, les titres référentiels sont un ensemble de titres dont la fonction
essentielle est de préciser le ou les référents dont la suite du texte va parler. A l’autre
pôle, les titres thématiques n’introduisent pas dans le discours un référent précis, mais
plutôt délimitent un cadre thématique dans lequel s’inscrit ce dont on va parler : un
domaine d’activité, un domaine de connaissances, un point de vue, une situation spatio-
temporelle, etc., spécifiques. Ces deux pôles renvoient à des processus interprétatifs
différents : il s’agit dans le premier cas, d’attirer l’attention du lecteur sur un ou des
référents du discours particulier(s), dans le second, de canaliser certaines de ses
connaissances d’arrière-plan. Entre les deux pôles, les catégories (B), (C), (D) constituent
un mixte de ces deux extrêmes. Nous caractérisons chacune des catégories par la fonction
qui y domine :
• des titres qui essentiellement jouent un rôle dans la gestion des référents du discours ;
• des titres qui jouent un rôle dans la gestion des référents du discours, tout en jouant un rôle
dans la définition de la thématique textuelle ;
• des titres mi-référentiels, mi-thématiques ;
• des titres qui jouent un rôle dans la définition de la thématique textuelle, tout en ayant aussi
un rôle dans la gestion des référents ;
• des titres qui essentiellement jouent un rôle dans la définition de la thématique textuelle.
• Revenons plus précisément sur chacun de ces types et sur les indices qui permettent de les
distinguer.
57 Le type (A) représente les titres référentiels par excellence, c’est-à-dire les titres
exclusivement voués à la gestion des référents du discours. Une caractéristique formelle
essentielle de ces titres, liée à leur fonction, est qu’ils sont formés de syntagmes
nominaux, parfois réduits à un nom seul. Ils interviennent dans la gestion des référents
selon trois modalités.
1. Le titre focalise l’attention du lecteur sur un référent déjà installé dans le discours.
58 Dans l’extrait qui suit, le plan de directive a été introduit, sous une forme quelque peu
différente, dans le titre 7.3.1. Le titre 7.3.1.2 le remet au premier plan, au centre de
l’attention. Le référent peut ensuite être repris comme topic de la première phrase de la
section.
[5 ]7.3.1 PLAN DE REFERENCE D’UNE DIRECTIVE
7.3.1.1 PAGE DE GARDE OU PAGE DE COUVERTURE
[…]
7.3.1.2 PLAN D’UNE DIRECTIVE
Ce plan de directive est communiqué à titre de référence, c’est-à-dire qu’il indique
le niveau d’information à donner. […]
59 2. Le titre introduit un nouveau référent dans le discours.
60 Dans ce cas de figure, le référent n’est pas mentionné dans le texte antérieur.
[6] Le programme de défense anti-missile
Le programme de défense anti-missile (MD) reçoit 7.5 milliards de dollars dans le
projet de budget pour 2003.
61 La distinction entre ces deux premiers types repose exclusivement sur le repérage d’une
introduction préalable du référent exprimé par le titre, car pour ce qui est des indices
formels liés aux reprises, ils sont similaires. En effet, la reprise intervient immédiatement
après le titre, elle concerne soit la totalité du titre, soit le nom tête du syntagme nominal
qui constitue le titre (par exemple, Bulletin prévisionnel est repris par Ce bulletin). Elle est
généralement le sujet de la phrase et adopte un déterminant défini ou démonstratif.
62 3. Le titre prépare l’introduction d’un référent dans le discours.
63 Le référent exprimé dans le titre fait l’objet d’une introduction, en position saillante, dans
la première (ou éventuellement la seconde) phrase du paragraphe. Ce n’est qu’après cette
introduction, liée souvent à une explicitation ou une justification de ce que le référent a à
voir avec le propos global, que ce référent devient le topic des phrases qui suivent.
[7] 5.3. La réutilisation L’une des techniques proposées pour faciliter le processus de
modélisation, en ingénierie des besoins comme en ingénierie des connaissances, est
la réutilisation de modèles. Elle devient un objectif prépondérant. Il s’agit de
réutiliser des modèles (ou des parties de modèles) conçus sous une forme
générique, précédemment développés et stockés dans des bibliothèques
spécialisées.
64 On voit dans l’extrait ci-dessus qu’après son introduction dans la première phrase de la
section, la réutilisation (de modèles) est repris par un pronom, puis fait l’objet d’un énoncé
définitoire marqué par il s’agit de…
65 Ces titres préparatoires se reconnaissent à la répétition du titre dans une position autre
que sujet de la phrase, avec une variation limitée à un éventuel changement de
déterminant (par exemple, article indéfini / article défini).
66 Le type (B) reste près du pôle référentiel, selon les modalités que nous venons d’exposer.
Mais tout en assurant la gestion d’un référent, ces titres commencent aussi à dire quelque
chose de ce référent : ils en prédiquent quelque chose, ou indiquent le point de vue selon
lequel on va en parler, etc. Ces titres aussi sont essentiellement des syntagmes nominaux.
[8] C -- Les agences fédérales civiles, utilisatrices concurrentes
Au-delà de la communauté du renseignement et des forces armées américaines, les
agences fédérales civiles font également usage d’imagerie spatiale pour mener à
bien leur mission.
67 Par rapport au type référentiel « pur », ces titres présentent la particularité de pouvoir
être segmentés en deux parties : une première partie exprime le référent, une seconde
partie exprime une prédication ou un cadrage thématique par rapport à ce référent, et
c’est la première partie qui fait l’objet d’une reprise.
68 Le type (C) associe « à parts égales » une fonction référentielle et une fonction
thématique.
[9] 3.4.3 COMPARAISON DES SOLUTIONS
Les différentes solutions envisagées seront comparées selon les critères suivants :
* coût global (études, rréalisation, maintenance),
* évolutivité (en précisant les axes d’ évolution), […]
69 Le titre introduit un référent qui est repris dans la première phrase, les solutions, mais
sous l’angle de la comparaison, repris sous la forme verbale comparées.
70 La différence de ces titres avec les titres (B) réside dans le fait que des reprises des
différents mots du titre se répartissent au fil du texte, avec, comme on le voit ci-dessus,
une possibilité de variation morphologique de certains mots du titre. Cette répartition
des reprises dans le texte contribue à constituer la thématique de la section.
71 Avec l’exemple illustrant le type (D), qui classe des titres dont la fonction première est la
délimitation d’un cadre thématique mais qui jouent tout de même un rôle dans la gestion
des référents, nous pouvons voir que la répartition des reprises est un des traits
marquants des titres qui se rangent du côté du pôle thématique. Ils font volontiers l’objet
de reprises éparses des mots qui les constituent, quoique ce ne soit pas une condition
nécessaire.
72 Un autre trait est lié à leur forme, ils regroupent des formes variées telles que syntagme
prépositionnel, syntagme verbal, ou encore phrase. Dans les cas, toujours possibles, où ce
sont des syntagmes nominaux, ceux-ci sont alors des syntagmes nominaux bipartites, leur
bipartition étant marquée par une coordination ou par une ponctuation interne (virgule,
point-virgule, deux-points, tiret, etc.), comme le montre l’extrait qui suit.
[10] 4.2.3. Une première formalisation des prototypes : pondération des attributs et
valeurs
Nous avons dégagé, à partir de ces analyses des similarités extensionnelles, quatre
prototypes correspondant globalement à des comportements différents. Ce sont
ensuite les fréquences de cooccurrence des valeurs d’attributs qui nous ont permis
de pondérer attributs et valeurs pour chacun de ces comportements.
73 Le titre prépare l’introduction du référent de prototypes, qui n’est réellement installé dans
le discours que par la première phrase du paragraphe. Cependant, la fonction première de
ce titre n’est pas référentielle, elle est de canaliser l’attention du lecteur sur la
formalisation des prototypes et plus particulièrement sur ce qui constitue la première
formalisation, c’est-à-dire la pondération des attributs et des valeurs. Le titre ouvre un espace
thématique qui est ensuite déployé dans la section, ce que montrent les diverses reprises
des mots constituant le titre. D’une certaine manière, de tels titres condensent le contenu
de la section titrée pour délimiter, canaliser les connaissances et inférences qui devront
être mobilisées par le lecteur pour une interprétation de ce qui suit.
74 Le type (E) représente le parangon du titre thématique.
[11] 4.1.3. D’un point de vue technique
Premièrement, l’interface a été conçue pour inciter les étudiants à utiliser certains
outils (même si l’on savait à l’avance que, en toute hypothèse, les étudiants font ce
qu’ils veulent ; ainsi, certains ont utilisé un outil externe de mail) ; en l’occurrence,
parce que nous étions focalisés sur la dynamique du groupe, nous les avons incités à
utiliser des outils de travail synchrones lors de phases collectives (aspects « naturel
et convivial »), alors que le synchrone n’est généralement pas synonyme
d’accélération d’une prise de décision commune. Deuxièmement, l’articulation des
outils synchrones et asynchrones ne fait pas l’objet d’un dispositif technique, mais
de l’intervention d’un des étudiants (le rédacteur), rôle attribué par émergence.
Enfin, la circulation des données entre les étapes ne fait pas l’objet d’un dispositif
technique ; elle est gérée par le tuteur, afin que celui -ci soit partie intégrante de
l’activité.
75 Ce titre n’introduit aucun référent dans le discours, il indique au lecteur que ce qui suit
relève d’un certain point de vue (en fait, c’est ce qui est introduit dans le titre 4.1.,
Spécificités du contexte pédagogique, qui est, tout au long de la section, examiné selon divers
points de vue) et, ce faisant, lui fournit un cadre interprétatif pour l’ensemble du propos
subséquent.
76 L’ébauche de typologie que nous venons de présenter dans cette section ne prétend pas
épuiser le sujet, elle vise à couvrir les types de titres présents dans notre corpus. Il reste à
vérifier dans quelle mesure elle peut se montrer appropriée aux titres de journaux, aux
titres de chapitres de romans, aux titres de poèmes ou à d’autres sortes de titres… Et pour
les documents de type informatif tels que ceux qui constituent notre corpus, sans doute
serait-elle enrichie et/ou affinée par l’intégration de documents relevant de registres
sensiblement différents. Elle nous permet toutefois d’indiquer comment l’identification
d’un type pour un titre donné est susceptible d’enrichir l’accès au contenu d’un
document.
77 Le parti que l’on peut tirer d’une telle typologie réside dans le fait que le type d’un titre
constitue un indicateur au moins partiel du contenu de la section titrée, ce qui permet de
cibler des zones potentiellement propices à l’expression de certaines informations.
78 Les titres à composante référentielle, et particulièrement les titres qui assurent
l’introduction d’un nouveau référent dans le discours, peuvent être liés à une définition :
[12] 3.3. Normalisation
La normalisation est un processus particulier de conceptualisation fondé sur
l’analyse de corpus […]. La normalisation consiste en une interprétation
sémantique dans le but de structurer des concepts et des relations sémantiques.
[13] 2.7 Les systèmes embarqués d’information des automobilistes
Ces systèmes embarqués se regroupent en deux catégories principales, ceux qui
reçoivent et émettent (notamment les radiotéléphones et les postes de CB), ceux qui
reçoivent seulement (postes radiophoniques, balises, informatique embarquée de
guidage).
79 Même si le début de la section ne comporte pas une définition « canonique », une section
ouverte par un titre référentiel livre généralement des informations à propos du référent
mentionné dans le titre :
[14] 2.4.2 La visualisation du trafic
Cette visualisation s’effectue essentiellement par le suivi vidéo en temps réel.
80 De même, ces titres à composante référentielle peuvent former le premier maillon d’une
chaîne topicale12 :
représentants de la société civile d’exprimer leurs préoccupations, la réflexion sur les politiques
nationales, etc.
[18] Pour une « mondialisation durable »
La mondialisation est un processus hétérogène, inégal selon les secteurs, et dont
certains pays restent largement exclus. Il peut être mis au service de la croissance
et du développement économique, à condition d’être encadré par des principes et
des institutions de gouvernance globale, et aussi d’être promu par les
gouvernements nationaux. Les réactions contre la mondialisation à la fin des
années
1990 ont souligné le caractère incomplet des institutions de gouvernance globale
(notamment en matière d’environnement), et le manque de transparence et
d’ouverture des institutions économiques internationales. L’une des voies
d’évolution consiste à accroître la transparence de ces institutions et la possibilité
pour certains représentants de la société civile d’exprimer leurs préoccupations au
cours des processus de décision. Cette évolution est désormais amorcée et doit être
poursuivie. Au-delà, la gouvernance globale suppose à la fois de nouvelles
institutions et une meilleure articulation entre certaines institutions existantes.
Mais les politiques nationales sont tout aussi fondamentales pour soutenir le
mouvement d’ouverture et promouvoir ses conséquences positives. La réflexion sur
la gouvernance globale risquerait d’être une fuite en avant si elle se substituait à la
réflexion sur les politiques nationales.
87 On a donc avec un titre tel que celui-ci un point de vue particulier à partir duquel saisir
l’ensemble de ce qui est dit dans la section, et dont il faut tenir compte pour la
représentation du contenu du texte ; dans cet exemple, alors que l’expression politiques
nationales est présente dans divers endroits du document dont l’extrait est issu, elle
acquiert dans le cadre instauré par le titre une valeur nouvelle.
88 A notre sens, la caractérisation des titres vient en complément d’autres techniques
d’analyse textuelle. Elle ne fournit pas à elle seule les moyens d’un accès au contenu du
document, mais permet d’affiner la représentation de celui-ci. Ce que nous avons esquissé
jusqu’ici montre surtout que tous les titres dans les documents informatifs n’ont pas les
mêmes fonctions et que leur inclusion dans une représentation partielle du contenu du
texte doit être modulée selon ces fonctions. Nous en déduisons qu’il n’est sans doute pas
pertinent de mentionner systématiquement la totalité des titres d’un document quand on
veut en construire une représentation, et que les titres, comme le reste du texte, peuvent
et doivent être filtrés.
89 Comme nous venons de le montrer, les titres jouent un rôle d’organisateurs textuels, à la
fois en termes de découpage de la matière du texte et de structuration de son contenu.
Afin de saisir plus complètement leur contribution à la construction du sens du texte,
ainsi que celle d’autres éléments de structuration matérielle du texte, et dans l’objectif
d’inclure davantage les informations de structuration visibles à la surface du texte dans
un traitement automatique visant un accès au contenu textuel, il est essentiel d’une part
de mieux cerner les fonctions de ces divers éléments, d’autre part de déterminer quels
types d’informations de mise en forme matérielle doivent enrichir le texte sous format
numérique.
3. Relation d’emboîtement, chacun des titres reprend une partie du précédent (de même
niveau) en le restreignant :
[21] L’univers des think tanks, "seconde économie" de l’influence politique
La corruption des think tanks
Quelques exemples de la corruption des think tanks
94 Quoique ces trois titres soient tous de même niveau, ils réalisent des découpages
successifs au sein de l’univers instauré par le titre précédent. Nous pouvons représenter
ceci sous forme d’emboîtements :
95 On peut noter ici que ce sont des titres de niveau 1, ce qui n’est sans doute pas étranger à
cette configuration. En effet, leur intégrant n’est autre que le document lui-même, on voit
que ces titres retracent le cheminement d’un propos qui se construit et se précise.
4. Relation de « conclusion », le dernier titre rassemble les contenus précédents selon une
perspective particulière
[22] 3.2. Continuité sémantique
3.2.1. Sémantique interprétative
3.2.2. Sémantique opérationnelle
3.2.3. Sémantique formelle
3.2.4. Articulation des différentes sémantiques
96 Là encore, le dernier titre ne peut être à une autre place que celle de dernier titre. Le
contenu de la section qu’il titre fait référence à et s’appuie sur le contenu des trois
sections précédentes. Si celles-ci semblent occuper des espaces similaires, cette dernière
section, se nourrissant de ce qui la précède, englobe en quelque sorte les trois premières.
97 Ces quatre exemples, nullement exhaustifs, montrent que le fait pour certaines sections
d’être « sœurs » au sein d’une section de rang plus élevé n’implique pas un seul et même
type de relation entre elles. Il se dessine ici un parallèle avec les énumérations qui
recouvrent des modes de structurations variées . Si les sections et sous-sections
constituent un découpage du texte en blocs perceptibles dans la matérialité du texte, la
façon dont ces blocs se succèdent, se précisent, se reprennent, se modifient, etc., au sein
d’un bloc plus englobant qu’est la section supérieure n’est pas uniforme.
98 Si on veut considérer un document non de façon plate, mais comme un objet structuré, et
si on veut exploiter cette structure pour un accès sélectif au contenu du document,
l’exploration des fonctions des éléments de structuration des textes tels que les titres, les
sections, les paragraphes, …, reste à faire. Au moins deux études récentes allant dans
cette direction sont à signaler.
104 Pour donner un exemple de l’influence du genre, revenons à notre corpus d’étude (décrit
dans la section 4.2). Dans celui-ci, chacun des trois sous-ensembles ne comporte pas les
mêmes quantités des différents types de titres identifiés (décrits dans la section 4.3.1). On
peut faire l’hypothèse, intuitivement plausible, que la fréquence d’emploi de ces
différents types est corrélée à ce que D. Biber appelle le « registre de texte », c’est-à-dire
que les textes privilégient tel ou tel type de titre en fonction de leurs caractéristiques
fonctionnelles et sociales : le public visé, les intentions de l’auteur, la fonction du
document (convaincre, expliquer, décrire, informer, former, …), etc.
105 Malgré notre quantité limitée de données, nous voyons déjà se dessiner des différences
remarquables, notamment dans l’emploi de formes de titres ou de configurations
« marginales ».
106 Premier exemple, certaines formes de titres caractéristiques d’une fonction thématique,
comme par exemple les titres qui ont la forme d’une phrase, sont significativement sous-
représentées dans les textes professionnels, voire même pas représentées du tout. Nous
avons dans notre corpus en tout et pour tout 35 titres de forme phrase, ce qui justifie que
nous la qualifiions de marginale. C’est essentiellement dans les textes du domaine
géopolitique qu’ils se concentrent : 63 % des occurrences ; les autres occurrences se
trouvent toutes dans les articles scientifiques du domaine Ingénierie des connaissances.
Un test de Chi-deux, significatif à une probabilité <.001, montre que cette répartition n’est
pas due au hasard. Nous l’interprétons comme un premier indice d’une corrélation entre
forme / fonction du titre et registre de texte.
107 Deuxième exemple, la configuration « titre + reprise anaphorique par pronom » suit une
distribution totalement inverse. Marginale elle aussi, puisque notre corpus n’en fournit
que 6 occurrences15, elle se trouve massivement (84 %) dans les textes professionnels.
108 Le fait qu’on soit d’un côté, face à des textes essentiellement informatifs, des textes de
travail qui décrivent un état de choses (principalement comment s’organise la gestion des
déplacements sur le réseau routier de l’agglomération), et de l’autre côté, face à des
textes dans lesquels il s’agit d’argumenter une analyse géopolitique, n’est assurément pas
étranger à de telles disparités.
109 Pour une réelle exploitation des titres et, au-delà, de tous les éléments de structuration
matérielle des textes (sections, paragraphes, alinéas, etc.), il est nécessaire d’établir une
« grammaire » de ces éléments, ou plutôt des grammaires reliées à des genres de texte,
grammaires qui seraient des modèles différenciés de structuration des textes.
110 On pourra ainsi tirer parti des indications de mise en forme et de structuration présentes
dans certains documents électroniques, à l’instar de la recherche sur le repérage des
Entités Nommées que nous avons présentée dans la section 3.
111 Car de plus en plus, les documents numériques comporteront des informations de
structuration logique de leur contenu, celles-là mêmes qui peuvent être exploitées
dynamiquement pour créer des vues adaptées au lecteur . Cette possibilité de générer, par
exemple à travers une feuille de style, une vue particulière, constitue selon nous une
métaphore de la fonction de la structuration matérielle des textes : comme le font très
justement remarquer , le contenu « n’est appréhendable qu’à travers une mise en
forme », il est absolument impossible de le saisir autrement que « sous une forme
sémiotique lisible », pour reprendre la formulation des auteurs. En ce sens, tout élément
de structuration matérielle contribue à la sémiotisation du contenu et, pour opérer celle-
ci, les documents numériques comportent donc tout à la fois ce contenu et un ensemble
d’informations qui peuvent être utilisées comme autant d’instructions pour la mise en
forme de ce contenu. C’est là une richesse considérable pour les futurs systèmes de
traitements automatiques, nous revenons dans la conclusion sur ce qu’apporte cette
dualité.
6. Conclusion
112 Nous avons avancé un certain nombre d’arguments pour étayer l’idée que la structuration
matérielle d’un document peut être mise à contribution pour l’accès à son contenu
sémantique. Nous avons commencé par montrer comment l’inscription du texte sur un
support matériel peut être porteuse de signification : ce qui est matérialisé par la
disposition et les propriétés typographiques peut être considéré comme la contrepartie
d’un énoncé discursif dans lequel la signification se construit via des formes lexicales et
syntaxiques.
113 Ainsi, comme l’indique le Modèle d’Architecture Textuelle, qui fournit un cadre théorique
adéquat, les faits de structuration matérielle sont partie prenante de la signification du
texte. Il semble donc pertinent d’intégrer la prise en compte de la mise en forme
matérielle et des objets textuels qu’elle rend perceptibles à des tâches automatiques
visant un accès au contenu des documents, d’autant plus que de nouveaux formats de
documents numériques tels xml comportent des informations explicites pour la
génération de vues des documents.
114 Cela signifie qu’au lieu de traiter du texte brut, avec souvent des marques de paragraphes
ou de fin de ligne pour toute indication de mise en forme, les systèmes de traitements
automatiques auront affaire à des données structurées, balisées. Si l’on veut que cette
nouvelle richesse soit une réelle plus-value pour l’accès au contenu sémantique des
documents, il faut savoir mettre en relation les indications fournies par ce balisage et le
contenu sémantique qu’il permet effectivement de produire, autrement dit, il faut savoir
l’interpréter, l’inclure dans un calcul du sens pour pouvoir l’exploiter.
115 C’est dans cette perspective que s’inscrit notre analyse des fonctions des titres de section,
et que s’ouvre un champ de recherches en linguistique et en traitement automatique des
langues.
BIBLIOGRAPHIE
Aït El Mekki T., Nazarenko A. (2002), « Comment aider un auteur à construire l’index d’ouvrage ?
L’architecture du système IndDoc », Colloque International sur la Fouille de Textes (CIFT), Tunisie,
p. 141-157.
Bachimont B., Crozat S. (2004), « Instrumentation numérique des documents : pour une
séparation fonds/forme », Information-Interaction-Intelligence, vol. 4(1), p. 95-103.
Biber D. (1988), Variation Accross Speech and Writing, Cambridge, Cambridge University Press.
Charlet J., Aït El Mekki T., Bourigault D., Nazarenko A., Teulier R., Toledano B. (2004),
« CEDERILIC : constitution d’un livre et d’un index numérique », In P. Enjalbert et M. Gaio (Eds.),
7e Colloque International sur le Document Electronique, La Rochelle, 22-25 juin, Europia, p. 187-204.
Charolles M. (2002), « Organisation des discours et segmentation des écrits », Inscription Spatiale
du Langage : structures et processus, Toulouse, 29-30 janvier, Prescot, p. 31-39.
Cornish F. (1998), « Les "chaînes topicales" : leur rôle dans la gestion et la structuration du
discours », Cahiers de Grammaire, vol. 23, p. 19-40.
Ferret O., Grau B., Minel J.-L., Porhiel S. (2001), « Repérage de structures thématiques dans des
textes », TALN’2001, Tours, 2-5 juillet, p. 163-172.
Gala Pavia N. (2003), Un modèle d’analyseur syntaxique robuste fondé sur la modularité et la
lexicalisation de ses grammaires, Doctorat Nouveau Régime, Université Paris 11.
Ho-Dac M., Jacques M.-P., Rebeyrolle J. (2004), « Sur la fonction discursive des titres », In
S. Porhiel et D. Klingler (Eds.), L’unité texte, Pleyben, Perspectives, p. 125-152.
Jackiewicz A. (2004), « Les séries linéaires dans le discours : marques, opérations et structures
sous-jacentes. » Journée de l’ATALA : Modéliser et décrire l’organisation discursive à l’heure du document
numérique, La Rochelle, 22-25 juin.
Jackiewicz A., Minel J.-L. (2003), « L’identification des structures discursives engendrées par les
cadres organisationnels », TALN’2003, vol. 1, Batz-sur-Mer, 11-14 juin, p. 155-164.
Jacquemin C., Bush C. (2000a), "Combining Lexical and Formatting Cues for Named Entity
Acquisition from the Web", In H. Schutze (Ed.), Joint Sigdat Conference On Empirical Methods In
Natural Language Processing And Very Large Corpora (EMNLP/VLC-2000), Hong Kong.
Jacquemin C., Bush C. (2000b), « Fouille du Web pour la collecte d’Entités Nommées », In E. Wehrli
(Ed.), TALN’2000, Lausanne, 16-18 Octobre.
Jacques M.-P. (2003), Approche en discours de la réduction des termes complexes dans les textes
spécialisés, Doctorat Nouveau Régime, Université Toulouse II Le Mirail.
Jacques M.-P., Mojahid M., Sarda L. (2001), « Repérer les structures du texte Eléments pour la
construction d’un modèle d’analyse », Colloque International sur le Document Electronique, Toulouse,
24-26 Octobre, Europia, p. 99-113.
Laignelet M. (2004). Les titres et les cadres de discours temporels. Université Toulouse II le Mirail.
Lambrecht K. (1994), Information Structure And Sentence Form, Cambridge, Cambridge University
Press.
Luc C. (2000), Représentation et composition des structures visuelles et rhétoriques du texte. Approche
pour la génération de textes formatés, Doctorat Nouveau Régime, Université Paul Sabatier.
Luc C., Mojahid M., Virbel J. (2001a), « Système notationnel de l’architecture textuelle par image
de page », Colloque International sur le Document Electronique, Toulouse, 24-26 Octobre, Europia,
p. 233-245.
Maurel F. (2004), « De l’écrit à l’oral : analyses et générations », TALN’2004, vol. 1, Fès, Maroc,
19-22 avril, p. 289-298.
Minel J.-L., Desclés J.-P., Cartier E., Crispino G., Ben Hazez S., Jackiewicz A. (2001), « Résumé
automatique par filtrage sémantique d’informations dans des textes », Technique et Science
Informatiques, vol. 20(3), p. 369-395.
Mitkov R. (1998), "Robust Pronoun Resolution with Limited Knowledge", Proceedings of the 18th
International Conference on Computational Linguistics (COLING’98 / ACL’98), Montréal, Canada.
Pascual E., Péry-Woodley M.-P. (1997), « Modèles de texte pour la définition », Actes des 1ères J.S.T.
de l’AUPELF-UREF Réseau FRANCIL, Avignon, p. 137-145.
Péry-Woodley M.-P. (2000), Une pragmatique à fleur de texte : approche en corpus de l’organisation
textuelle, Toulouse, Equipe de Recherche en Syntaxe et Sémantique.
NOTES
1. La présente recherche s’inscrit dans le cadre du projet Cognitique « Visualisation dynamique de
textes : extraction sélective, affichage spatial multi-échelle et observation des stratégies de
lecture » dont le responsable est C. Jacquemin, voir : pour le texte de présentation du projet.
2. Il semble à peu près assuré que modèle conceptuel devrait à l’oral recevoir une intonation
spécifique qui signale son statut autonymique : l’expression est employée non pas pour signifier
mais pour parler d’elle-même, ce que nous décidons de traduire par la mise en italique.
3. Quelques écrits fondateurs et récapitulatifs de ce modèle sont, dans l’ordre chronologique, .
Nous évoquerons dans la prochaine section une exploitation pratique de ce modèle pour le
repérage d’éléments spécifiques dans les textes.
4. Une image de page est une représentation des éléments de mise en forme et/ou des
informations textuelles pertinents pour l’analyse .
5. Dans , nous avons montré comment s’appuyer sur ce contraste pour désambiguïser plusieurs
interprétations possibles de l’architecture textuelle.
6. Notre présentation succincte synthétise les descriptions de , qui ont pour cadre théorique le
MAT.
7. Pour l’un des textes des corpus sur lesquels cette recherche se base, pour lequel nous n’avions
aucune indication de mise en forme, nous nous sommes appuyées sur la présence d’une
numérotation et d’une marque de fin de ligne pour distinguer les titres de section.
8. On en trouvera un exposé plus complet dans .
9. On ne considère pas comme reprise une répétition d’un mot grammatical du titre (préposition,
article, …).
10. La notion de topic d’une phrase dénote une relation d’« à-propos »: « The topic of a sentence
is the thing which the proposition expressed by the sentence is about. » .
11. Il faut noter que nous employons ici le terme thématique dans un sens non technique, pour
signifier « l’ensemble des sujets, idées et propositions qui sont développés dans un discours, qui
constituent le centre des préoccupations » (à partir de la définition du Petit Robert 96 de thème et
thématique), et non dans le sens de la distinction faite en linguistique entre thème et rhème.
12. Sur la notion de chaîne topicale, cf.
13. La première partie du titre introduit le « thème » (toujours en un sens non technique, voir
note 11) principal de la section : celle-ci concernera le plan appelé Interim Force. La seconde
partie introduit un référent – les brigades interarmes intermédiaires – relié à ce thème. Pour
mieux comprendre l’extrait, précisons que le texte précédent indique : « le plan "Interim Force"
entreprend de mettre sur pied 5, 6 ou même 8 brigades interarmes d’ici à 2007 ».
14. Le découpage en paragraphes a toutefois retenu l’attention de D. Bessonnat .
15. Ce faible effectif interdit l’emploi d’un Chi-deux.
RÉSUMÉS
Nous montrons dans cet article l’articulation de la structure matérielle et du contenu sémantique
des documents textuels. Nous défendons l’idée que la caractérisation automatique du contenu
textuel bénéficierait d’une meilleure compréhension du rôle de la structure matérielle et qu’il est
d’autant plus pertinent de chercher à l’inclure dans des traitements automatiques que cette
structure matérielle est explicitée sous les formats qu’adoptent les textes conçus pour des
supports numériques (par ex. html ou xml). Nous inscrivons notre recherche dans le cadre du
Modèle d’Architecture Textuelle, qui fournit un modèle théorique pour la définition et l’analyse
des objets textuels signalés par des propriétés de mise en forme matérielle. Nous nous focalisons
plus particulièrement sur l’analyse des fonctions d’un de ces objets textuels, les titres de section,
et sur la façon de les exploiter pour un accès automatique au contenu du document.
My aim in this article is to demonstrate that natural language processing, especially automatic
analysis of the content of a textual document, may benefit from a greater understanding of how
the visual properties of texts intervene in the construction of meaning. It is particularly worth
studying the role of layout in meaning insofar as layout features may be explicitly mentioned in
xml documents. I adopt the point of view of the model of text architecture, which provides a
theoretical framework to analyze layout and visual features. I focus on the analysis of the varied
functions of headings in a text and I show how to exploit headings to characterize the content of
the section they head.
INDEX
Mots-clés : propriétés matérielles des textes, structuration du discours, Modèle d’Architecture
Textuelle, fonctions des titres de section, traitement automatique, navigation intradocumentaire
Keywords : visual properties of texts, discourse structure, model of text architecture, function of
headings, natural language processing, intra-document navigation
AUTEUR
MARIE-PAULE JACQUES
ERSS - UMR 5610, Université de Toulouse-Le Mirail