Logique Linguistique Et Informatique
Logique Linguistique Et Informatique
Logique Linguistique Et Informatique
Christian Retor, Universit Bordeaux 1 quipe Signes linguistiques, grammaire et sens : algorithmique logique de la langue INRIA-Futurs, LaBRI -C.N.R.S. et Dpartement des Sciences du Langage Universit Bordeaux 3
Linguistique et informatique :une longue histoire . . . . . . . . . . . . . . . . . . . Exemple doutils de linguistique computationnelle . . . . . . . . . . . . . . . . . . Linguistique computationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Niveaux danalyse de la langue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modles informatiques et mathmatiques en linguistique . . . . . . . . . . . . Un classique:grammaire gnrative et langages formels . . . . . . . . . . . . Logique et grammaire : un lien naturel et traditionnel . . . . . . . . . . . . . . . . Syntaxe et smantique des langues en thorie des types . . . . . . . . . . . Rseaux de dmonstration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc.
2 3 5 7 10 13 19 24 45 46
Suiv.
Le Graal: la traduction automatique (il faut savoir tout traiter pour y parvenir) Aide la traduction: domaine spcique repre les expressions idiomatiques (aller bon train) propose pour chaque mot ou expression des traductions les assemble avec les choix du lecteur (viter au maximum la reprsentation des connaissances) Linterface homme/machine en langue naturelle par exemple: interrogation de BD en langage naturel Quels sont les lms des annes cinquante qui passent actuellement Bordeaux?
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Correcteurs orthographiques (pas simple): Quels livres crois-tu quil sait que je pense que tu as lus? Gnration automatique de bulletins mto, de comptes-rendus,.. Rsum automatique Recherche dinformation (notamment sur le web) production laitire / production de lait production minire / production de mine(s)??? reconnaissance de la parole (par ex. pour sous-titrage) ncessite une analyse morpho-syntaxique pour fonctionner en temps rel
Plan
Dbut
Fin
Prc.
Suiv.
Linguistique computationnelle
(ou linguistique informatique) Un domaine interdisciplinaire : mathmatiques logique thorie des langages probabilits informatique algorithmique gnie logiciel linguistique paramtres phonologiques grammaire gnrative syntaxe structurale philosophie du langage
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Formalisation des thories linguistiques vrication ou rfutation dhypothses linguistiques surtout si celles-ci sont de nature algorithmique ex. les modles syntaxiques doivent admettre des algorithmes dapprentissage efcaces partir dexemples positifs
Dveloppement des thories informatiques et mathmatiques, pour elles-mmes, ventuellement pour dautres objectifs
Plan
Dbut
Fin
Prc.
Suiv.
morphologie structure des mots morphologie drivationnelle [formation des mots] prxes, sufxes, nom composs, etc. changement de catgorie possible noblenoblesse petitpetitesse maisonmaisonnette camioncamionnette carpecarpette?
morphologie exionnelle [dclinaisons, conjugaisons] en gnral pas de changement de categorie (sauf except, part present) arriver arriv[er][ons] cheval chevaux syntaxe tude de la structure de la phrase *Je fais la rparer Je la fais rparer * [[Pierre [mange une]] pomme] Pierre [mange [une pomme]]
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
smantique tude du sens des mots, des phrases hors contexte smantique lexicale sens des mots et relation entre eux livre, imprimer (objet concret), lire (contenu abstrait) smantique logique 2 aspects indpendants smantique vriconditionnelle dterminer les conditions dans lesquelles un nonc est Vrai ou Faux ou . . . (sens = formule logique) smantique compositionnelle calcul du sens dun constituant partir du sens des parties (-calcul pour grer la composition du sens et les substitutions) pragmatique utilisation de la langue pour communiquer dans un contexte nonciatif Rfrence des indexicaux: 1et 2personnes (je, nous, vous), ici, maintenant, dmonstratifs, . . . Allons plutt dans ce restaurant.
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
probabilits, statistiques marquage des parties du discours sur un texte en fonction des n mots prcdents : si les mots prcdents sont article, nom, adjectif il est peu probable que le mot suivant soit article sauf apposition
Plan
Dbut
Fin
Prc.
Suiv.
grammaires formelles morphologie: automates dtats nis, transducteurs nombres, dates chanterons chanter 1pers. pl. , futur syntaxe gnrative, thorie des langages formels [La [petite brise]] [la glace] [La petite] [[brise [la glace]] Il [regarde [une passante]] [avec des lunettes noires]. Il [regarde [une [passante [avec des lunettes noires]]] Elle [[a trouv] [son [parapluie bizarre]]] Elle [[[a trouv] [son parapluie]] [bizarre]] Syntaxe tendue vers la smantique: * Ili a revendu un livre que Pierrei a lu. Combien de livres que Pierrei a lus a-t-ili revendu?
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
logique logique pour la smantique tous les mdecins sont des conducteurs (donc) tous les mdecins franais sont des conducteurs franais *(donc) tous les bons mdecins sont des bons conducteurs Javais trois pices, jen ai perdu une. Je la cherche. *Javais trois pices, jen ai perdu deux. Je la range dans ma poche. une particularit dans la famille logique linaire logique pour la syntaxe structure danalyse = dduction formelle = graphe
Plan
Dbut
Fin
Prc.
Suiv.
do grammaires formelles, hirachie de Chosmky Distinction comptence /performance : la grammaire / ce quon utilise Le loup a dvor la chvre. La chvre que le loup a dvor avait mang le chou. ? Le chou que la chvre que le loup a dvor avait mang appartenait au passeur. ?? Le passeur auquel le chou que la chvre que le loup a dvor avait mang appartenait possde plusieurs bateaux. ??? Les bateaux que le passeur auquel le chou que la chvre que le loup a dvor avait mang appartenait possde sont des barges.
quelle est lallure des rgles (exprimant la comptence des locuteurs), c.--d.la situation des langues dans cette hirarchie abstraite?
2 principes:
Plan
Dbut
Fin
Prc.
Suiv.
les langages rguliers ne sufsent pas: (ex. prcdent) Sujet1 Sujet2 Sujet3 ... Verbe3 Verbe2 Verbe1
les langages hors-contextes non plus: (compltives NL) Sujet1 Sujet2 Sujet3 ... Verbe1 Verbe2 Verbe3
un peu plus que hors-contexte, mais avec analyse polynomiale : TAG ou grammaires hors-contexte avec mouvements
Plan
Dbut
Fin
Prc.
Suiv.
Tout groupe nominal doit recevoir un cas, et seul un verbe conjugu donne un cas. Il semble que lt arrive. Lt semble arriver. * Il semble que lt arriver. * Il semble lt arriver.
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Un pronom doit tre gouvern par son antcdent (position relative dans larbre danalyse) Le chien de Carlotta pense que il ne laime pas. il= l tout les autres galits sont possibles Le chien de Carlotta pense que il ne saime pas. il=s tout les autres galits sont possibles * Ili a aim deux livres que Chomskyi a crit. Combien de livres que Chomsky a crit a-t-ili aims?
Plan
Dbut
Fin
Prc.
Suiv.
Plan
Dbut
Fin
Prc.
Suiv.
Quanticateurs gnraliss La langue prsente dautres quanticateurs: la plupart, les, un grand nombre de, peu de, La plupart des politiciens ont lu un livre dconomie. les nombres sont aussi des sortes de quanticateurs: Mettre huit gouttes dans trois cuillres soupe deau. 3x8=24 gouttes? 8 gouttes?
Plan
Dbut
Fin
Prc.
Suiv.
Interprtation, mondes possibles, intentionnalit Smantique vriconditionnelle: le sens dun nonc est lensemble des conditions qui le rendent vrai il sidentie avec la classe des mondes possibles dans lesquels il est vrai. Cet tudiant croit que Chomsky est informaticien. Dans tous les mondes possibles compatibles avec les croyances de cet tudiant, Chomsky est un informaticien.
Lectures de re et de dicto James Bond croit que lun des chercheurs du laboratoire est un espion. James Bond pense que Blofeld est un espion. James Bond a trouv un microlm dans le laboratoire.
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Compositionnalit Frege le sens du tout est construit partir du sens des parties. Paul, que je connais, nest pas arriv. Limites de la compositionnalit: Si un paysan possde un ne, alors ili lej bt. Si (pa Ane(a) P aysan(p) P oss(p,a)) alors B a t(p,a). 2 a et 2e p LIBRES??
Limites dune approche purement logique Javais trois trombones dans ma poche, je les ai tous perdus sauf un. Je le range dans un tiroir. * Javais trois trombones dans ma poche, jen ai perdu deux. Je le range dans un tiroir.
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Aspects smantiques des catgories syntaxiques Les catgories ou parties du discours ont une contre partie logique. Parallle entre les catgories fondamentales Verbes et Noms les Prdicats et les Individus de la logique.
Groupes nominaux: individus (individus ou variables dindividus quantiables) Verbes, groupes verbaux: prdicats Adjectifs partage les caractres avec les noms (accord, dclinaisons) et avec les verbes (expriment un prdicat) Groupes prpositionnels : ni des prdicats, ni des individus
Plan
Dbut
Fin
Prc.
Suiv.
techniques logiques: grammaires catgorielles systmes dductifs lambda calcul logique dordre suprieur
Plan
Dbut
Fin
Prc.
Suiv.
Objectifs concrets
Analyse dun nonc produisant une reprsentation de son sens. Interrogation en langue naturelle, traduction. Produire un nonc partir dune reprsentation smantique. Gnration de texte, rponse en langue naturelle une recherche dinformation, traduction.
Point darticulation: syntaxe, smantique compositionnelle Point fort des grammaires catgorielles (qui sont aussi un calcul logique).
Plan
Dbut
Fin
Prc.
Suiv.
Ingrdients Formalisme syntaxique tourn vers la smantique: grammaires catgorielles Formalisme naturel pour la smantique compositionnelle : logique dordre suprieur vue dans le lambda calcul simplement typ. Morphologie: catgories daccord ou unication de traits ou traitement pralable et catgories "accordes" ou module avec des transducteurs Cot syntaxe on pourrait compiler la grammaire en une grammaire de rcriture plus efcace (RCG)
Plan
Dbut
Fin
Prc.
Suiv.
Schma gnral Cot syntaxique: On associe aux mots une formule dcrivant leur comportement syntaxique. Un calcul logique permet dattribuer une catgorie un compos partir de la catgorie syntaxique des constituants. (Les rgles ne dpendent pas de la langue considre.) Si la catgorie dune suite de mots est S , on a affaire une phrase. Cot smantique: chaque mot correspond un type smantique driv du type smantique et un terme qui dcrit son comportement smantique. chaque assemblage syntaxique correspond une opration sur les termes smantiques lobjet phrase on associe ainsi une formule logique.
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Grammaires de Lambek (1958) Une grammaire de Lambek = un lexique Lex Lex(mot) = un ensemble ni de types (comportement syntaxique de mot) Types ou formules L ::= P = {S,sn,n,...} ssi | L L | L L S
m1 mn Langage(Lex)
i ti Lex(mi ) t1 , . . . ,tn
Gramaires lexicalises = seul le lexique diffre dun langage un autre les rgles sont les mmes pour tous les langages
Plan
Dbut
Fin
Prc.
Suiv.
Cot smantique, on utilise deux types pour reprsenter les formules logiques. e individus t valeurs de vrits
Dormir: e t fonction qui pour un individu dit si le fait quil dorme est vrai ou faux. Aimer: e (e t) fonction qui pour un individu dit si le fait quil dorme est vrai ou faux. Notation x.u la fonction qui la variable x associe le terme u Pour calculer (x.u) t on remplace x par t dans u. Exemple (xy.((aime y )x))M arieP ierre = y.((aime y )M arie) = aimeP ierreM arie aime: e (e t) Pierre, Marie: e
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Quelques exemples de typages dans le lexique syntagmes nominaux, noms propres: sn nom communs: pomme, voiture : n le, la, les, une, des, ... : sn n dort : sn S mange: (sn S ) sn, sn S rouge: n n qui (relatif): (n n) (sn S ) oui: S , n ("Oui.", "Un oui franc et massif") Quelques exemples de typage attendus du systme voiture qui vient de passer: n la voiture qui vient de passer: sn mange une pomme: sn S
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Quelques exemples de types smantiques syntagmes nominaux: noms propres e nom communs: pomme, voiture : e t le, la, les, une, des, ... : (e t) e dort : e t mange: e (e t), e t rouge: (e t) (e t) qui (relatif): (e t) ((e t) (e t)) oui: t, (e t) ("Oui.", "Un oui franc et massif")
Plan
Dbut
Fin
Prc.
Suiv.
. . . [ A] . . . . . . B i A B
qui lie A
A A B e B
. . . . . . [ A] . . . B i B A
qui lie A
B A B
Plan
Dbut
Fin
Prc.
Suiv.
Sens des connecteurs et des rgles u : B A signie que si u est suivi de v : A alors uv : B u : B A signie que si u est prcd de v : A alors vu : B exemple: la : sn n voiture : n permet dobtenir la voiture : sn (modus ponens ou limination)
les rgles dintroduction permettent de faire apparatre puis disparatre des constituants ctifs: si u : A B et v : B C on a uv : A C en effet on a avec x : C uvx : C avec deux modus ponens et donc uv : A C avec une rgle dintroduction exemple: tre `s : (n n) (n n) donne tre `s tre `s : (n n) (n n)
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Lien CFG grammaires de Lambek Mots : terminaux Types et sous-types : non-terminaux CFG grammaire de Lambek CFG CFG en forme normale de Greibach si X aT U V ajouter au lexique a : ((X V ) U ) T La grammaire de Lambek obtenue est faiblement quivalente la CFG (assez facile) grammaire de Lambek CFG Grammaire de Lambek, taille max dun type: k pour chaque squent dmontrable A,B C o A,B,C sont de taille k prendre une rgle C AB pour chaque a : A du lexique prendre une rgle A a La CFG (en forme normale de Chomsky) obtenue est faiblement quivalente (conjecture de Chomsky 63, preuve de Pentus 93)
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Types syntaxiques, types smantiques (Montague 1970) Formules logiques crites en calcul simplement typ avec 2 types: individus e, valeurs de vrits t. prdicat n places : fonction n arguments : Constantes logiques , , : t (t t) , : (e t) t Correspondance types syntaxiques / types smantiques S = t sn = e n = e t phrases: valeurs de vrits individus prdicats un argument e (e (e ( t))) e (e (e ( e)))
Un exemple de mini lexique On va construire un lexique analysant la (!) phrase: Certains noncs parlent deux-mmes. Type syntaxique u Type smantique u Reprsentation smantique : -terme de type u xv variable ou constante x de type v noncs n = E "noncs" est un nom commun e t = E du point de vue smantique cest un prdicat une place xe (enonceet x) ce prdicat est la fonction qui a tout individu x associe la valeur de vrit de "x est un nonc"
GEOCAL CIRM Logic Linguistics 13 fvrier 2006
mot
Plan
Dbut
Fin
Prc.
Suiv.
mot
Type syntaxique u Type smantique u Reprsentation smantique : -terme de type u xv variable ou constante x de type v parlent_de (sn S ) sn = P parler_de attend sa droite un groupe nominal, et sa gauche un groupe nominal pour produire une phrase e (e t) = P du point de vue smantique "parler_de" est un prdicat deux places y e xe ((parler_dee(et) x)y ) cest--dire une fonction qui prend deux individus et rend vrai si et seulement si le second argument (le sujet) parle du premier (lobjet)
Plan
Dbut
Fin
Prc.
Suiv.
Type syntaxique u Type smantique u Reprsentation smantique : -terme de type u xv variable ou constante x de type v eux-mmes ((sn S ) sn) (sn S ) = X "eux-mmes" (objet) attend sa gauche un verbe transitif, pour produire une phrase la quelle il manque un sujet (e (e t)) (e t) = X du point de vue smantique, "eux-mmes" prend un prdicat deux places P (x,y ) (le verbe transitif) et rend un prdicat une place P e(et) xe ((P x)x) le prdicat fabriqu par "eux-mmes" partir de P (x,y ) est P (x,x)
mot
Plan
Dbut
Fin
Prc.
Suiv.
mot
Type syntaxique u Type smantique u Reprsentation smantique : -terme de type u xv variable ou constante x de type v certains (S (sn S )) n = C "certains" (sujet) attend droite un nom puis une phrase laquelle il manque un sujet pour donner une phrase.
(e t) ((e t) t) = C tant donn un prdicat une place P (nom commun) et un prdicat une place Q (groupe verbal) "certains" fabrique une formule close P et Qet ((et)t (xe (t(tt) (P x)(Q x)))) la formule fabrique par "certains" est xP (x) Q(x)
Plan
Dbut
Fin
Prc.
Suiv.
mot
certains
noncs
parlent_de
eux-mmes
Type syntaxique u Type smantique u Reprsentation smantique : -terme de type u xv variable ou constante x de type v (S (sn S )) n = C (e t) ((e t) t) = C P et Qet ((et)t (xe (t(tt) (P x)(Q x)))) n=E e t = E xe (enonceet x) (sn S ) sn = P e (e t) = P y e xe ((parler_dee(et) x)y ) ((sn S ) sn) (sn S ) = X (e (e t)) (e t) = X P e(et) xe ((P x)x)
Plan
Dbut
Fin
Prc.
Suiv.
(snS )sn S
X P,X
C,E,P,X
Plan
Dbut
Fin
Prc.
Suiv.
C ,E ,P ,X -terme correspondant :
e e t X (e e t) e t e P ,X e t e t
((cC eE )(xX pP ))
Plan
Dbut
Fin
Prc.
Suiv.
Calcul de la smantique variable := -termes smantiques (de mmes types) (P et Qet ((et)t (xe ((P x)(Q x)))))(xe (enonceet x)) (P e(et) xe ((P x)x))(y e xe ((parler_dee(et) x)y )) (Qet ((et)t (xe (t(tt) (enonceet x)(Q x))))) (xe ((parler_dee(et) x)x)) ((et)t (xe ((enonceet x)((parler_dee(et) x)x)))) en dautres termes : x : e (enonce(x) parler_de(x,x))
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Rsum de la mthode Grammaire dnie commme un lexique qui chaque mot associe des types. Analyse syntaxique = typage de la phrase par le type S = dmonstration de S dans une logique sensible aux ressources Correspondance types syntaxiques / types smantiques analyse syntaxique / dmonstration dmonstration intuitionniste = lambda terme (linaire) qui exprime la structure compositionnelle Mettre les lambda termes smantiques (non linaires) la place des mots beta rduction la formule correspondant au "sens" de lnonc Ici systme trs pauvre (surtout syntaxiquement) logiques plus sophistiques par ex. logique multimodale Moortgat avec postulats en plus des rgles.
GEOCAL CIRM Logic Linguistics 13 fvrier 2006
Plan
Dbut
Fin
Prc.
Suiv.
Rseaux de dmonstration
Si analyse = dmonstration.... il ne faut pas avoir plusieurs dmonstrations pour une mme analyse. Alors on arrive rendre compte de la complexit instantane de comprhension dune phrase pour les relatives imbriques, la porte des quanticateurs, .... Dsol, pas de transparents, voir: Mark E. Johnson. Proof nets and the complexity of processing center-embedded constructions. In C. Retor, editor. Special Issue on Recent Advances in Logical and Algebraic Approaches to Grammar, volume 7(4) of Journal of Logic Language and Information. Kluwer, 1998, pages 433447. Glyn Morrill. Incremental processing and acceptability. Computational Linguistics, 26(3):319 338, 2000. Christian Retor, The logic of categorial grammars lecture notes. INRIA Research Report 5703 2005.
Plan
Dbut
Fin
Prc.
Suiv.
Conclusion
Pour un petit fragment, on sait tablir une relation calculable entre certains aspects du sens (grosso modo qui fait quoi) et la forme dun nonc. Dun point de vue syntaxique le fragment est bien trop restreint: constituants discontinus Je ne sais pas . extraction mdiane La personne quei jai vu ti hier rapellera. pronoms clitiques des langues romanes: Je la fais rparer. Je sais la rparer.
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.
Dun point de vue smantique aussi, le modle est trop restreint: Le temps, le lieu, ... ne sont pas pris en compte. Pour rester compositionnel, il faut rafner la prsentation de la logique. La corfrence entre pronoms et rfrents nest pas bien prise en compte. Lajout de paramtres complique le modle. La smantique des mondes possibles est trs peu raliste. Lien avec la smantique lexicale difcile (logiquement, celle-ci peut se voir comme des relations entre prdicats dordre suprieur).
Dun point de vue pratique, ces techniques manquent de ressources (sauf Grail pour le nerlandais) Absence de lexiques sufsants (acquisition sur corpus annot, Grail) Complexit des algorithmes danalyse (supertagging, minimization dans les rseaux, Grail) Mauvaise gestion des phrases incorrectes, pourtant frquentes. Moralit: il reste bien des questions intressantes.
GEOCAL CIRM Logic Linguistics 13 fvrier 2006 Plan Dbut Fin Prc. Suiv.