Un langage formel d'encodage des fonctions lexicales et son application à la modélisation des collocations Sylvain Kahane & Alain Polguère LaTTiCe/TALaNa OLST (Univ. Paris 7)(Univ. de Montréal) ATALA, Paris - 13 jan. 2001
Kahane & Polguère, ATALA, 13 jan Le concept de fonction lexicale [FL] est en totale adéquation avec les phénomènes linguistiques dont il doit rendre compte. Objectif: donner des bases formelles à l'encodage traditionnel pour le rendre "calculable" Plan 1. Cadre théorique : la théorie Sens-Texte 2. Liens lexicaux et fonctions lexicales 3. Encodage explicite 4. Encodage algébrique 5. Conclusion Introduction
Kahane & Polguère, ATALA, 13 jan Cadre théorique: Théorie Sens-Texte Ouvrage fondateur : Îolkovskij & Mel'ãuk 1965, 1967 Ouvrage de référence : Mel'ãuk 1988, Dependency Syntax. Les postulats de base une langue est une correspondance entre des sens et des textes une correspondance Sens-Texte est décrite par un système formel simulant l’activité d’un sujet parlant niveaux intermédiaires (syntaxiques et morphologiques) Nature des représentations (de base) : sémantique :graphe de relations prédicat-argument syntaxique :arbre de dépendance morphologique : suite de mots phonologique : suite de phonèmes
Kahane & Polguère, ATALA, 13 jan Représentation sémantique sens = invariant de paraphrase Pierre voit des chats noirs partout Nœud = sémantème = signifié d'une lexie Arc = dépendance sémantique = relation prédicat-argument Structure communicative (thème-rhème, donné-nouveau, …) Nœud dominant = tête sémantique = sens qui “résume” (un verre à vin vs. un verre de vin)
Kahane & Polguère, ATALA, 13 jan Module sémantique et syntaxique profond La maladie de Pierre a duré 6 semaines Pierre a été malade pendant 6 semaines hiérarchisation + lexicalisation
Kahane & Polguère, ATALA, 13 jan Dérivation sémantique On a dérivation sémantique dans l'un des 3 cas suivants : 1) même sens : dérivation sémantique vide ou quasi-vide –synonymie (vélo ~ bicyclette) –conversion (acheter ~ vendre) –dérivation nominale/verbale/etc. (vente ~ vendre) –lien de généricité (rivière ~ cours d’eau) 2) sens opposé : antonymie (interdire ~ autoriser, petit ~ grand) 3) une lexie désigne un élément de la situation désignée par l’autre lexie –participant (nageur pour nager, destinataire pour envoyer) –circonstant (lit pour dormir, piscine pour nager) –caractéristique d’un participant ou circonstant (irritable pour s’irriter, buvable pour boire, etc.).
Kahane & Polguère, ATALA, 13 jan Collocation (relation base-collocatif) Collocation = expression semi-idiomatique, intermédiaire entre locution et expression libre (du point du vue de la compositionalité sémantique) Pas une cooccurrence “fréquente” de lexies Une collocation est une combinaison de mots qui n’est pas produite librement : elle est constituée d’une base (argument, méchant, brouillard, …) que le locuteur choisit librement en fonction de son sens et d’un collocatif (massue pour argument, comme une teigne pour méchant, épais pour brouillard, …) choisi pour exprimer un sens donné (ici, ‘intense’) en fonction de la base, c’est-à-dire de façon contrainte.
Kahane & Polguère, ATALA, 13 jan Lien conceptuel entre dérivation et collocation colère de X envers Y à cause de Z colère forte, incroyable, indescriptible, insurmontable, terrible, _sans nom_, aveugle, hystérique, folle, sauvage, violente, furieuse fureur, ire, rage en colère < fou, ivre de colère fâché, monté [contre N=Y] < _hors de soi_ éprouver, ressentir de la colère, être en colère < bouillir de colère se fâcher < enrager, tempêter [contre N=Y]
Kahane & Polguère, ATALA, 13 jan Liens lexicaux : point de vue formel relation orientée et typée: assassin =action typique assassiner assassiner =1er actant typique assassin colère =intensification aveugle Lien lexical: L 1 =f L 2 Notation fonctionnelle: f(L 1 ) = L 2 L 1 = mot-clé, L 2 = valeur, f = nom de la fonction lexicale Encodage des liens lexicaux = correspondance : R E avecR = ens. des couples de lexies E = langage formel un encodage définit une partition de R granularité de l'encodage
Kahane & Polguère, ATALA, 13 jan Fonction lexicale : point de vue linguistique L 1 f L 2 L' 1 fL' 2 L 2 ajoute le même contenu sémantique et a le même comportement syntaxique vis-à-vis de L1 que L'1 vis-à-vis de L'2 FL = lexème généralisé (signifiant variable, signifié vague) colère aveugle / peur bleue / amour fou / chance de cocu … décharger sa colère / donner un conseil / conduire une voiture...
Kahane & Polguère, ATALA, 13 jan Applications et projets Connaissance de la langue Paraphrase : la plus grande partie du pouvoir paraphrastique est lexical Traduction automatique Génération de texte Analyse (colère aveugle / colère sourde) Université de Montréal (Mel'ãuk, Polguère) DEC (Dictionnaire Explicatif et Combinatoire) : –description lexicale complète: définition, sous-cat, … –4 volumes, 508 vocables ou 1600 lexies LAF (Lexique Actif du Français) –dico de combinatoire lexicale grand public (éd. Duculot) –3000 entrées, maquette de 150 entrées DiCo (dico électronique)
Kahane & Polguère, ATALA, 13 jan Encodage traditionnel (DEC) Îolkovski & Mel'ãuk 1965 (Modèle Sens-Texte) Encodage basé sur la paraphrase linguistique et combinant contenu sémantique et patron syntaxique Ex: IncepOper 1 (colère) = se mettre en ~ Contenu sém: commencer ( Incep ) à ressentir ( Oper 1 ) de la colère Patron synt: 1er actant de la valeur = 1er actant du mot-clé Inconvénients: non explicite, notamment patron syntaxique (extraction d'information délicate); non clairement formalisé et donc mal maîtrisé Avantages: bonne granularité, bonne couverture, économique dans les cas simples
Kahane & Polguère, ATALA, 13 jan Encodage DEC : exemples ValeurDECPatron synt //fâchéA1A[^1] ~ aveugle, sauvage, violenteMagnA[^#] en [~]A1A[^1,#] //“fam” monté [contre N=Y]Magn+A1A[^1,2] ~ froideA2NonPerm1Fact0A[^#] empreint, chargé [de Ø/ART ~]A2ManifA[^Ω,#] ~ sourdeA2NonPerm1Manif-ATTR->explicitementA[^#] fou, ivre [de ~]Degrad(esprit)-Sympt23A[^1,#] [yeux] exorbités [(de ~)]A1Excess--dim(yeux)-Sympt123A[^µ,#] ~ brusque, subiteinattendueA[^#] //_hors de soi_Degrad(esprit)-Sympt23A[^1]
Kahane & Polguère, ATALA, 13 jan Encodage explicite Kahane & Polguère, work in progress Une fonction lexicale est encodée par un couple: (contenu sémantique, patron syntaxique) Contenu sémantique = portion de graphe sémantique (hiérarchisé) Patron syntaxique = partie du discours + valence syntaxique profonde
Kahane & Polguère, ATALA, 13 jan Encodage explicite : contenu sémantique Sens simples Non[X]‘X n'a pas lieu’ Minus[X]‘X diminue’ Incep[X]‘X commence’ Fact[X]‘X fonctionne’ Caus[X,Y]‘X cause Y’ Real[X,Y]‘X réalise Y’ Magn[X]‘X est intense’ Manif[X,Y]‘X se manifeste dans Y’ Plus[X]‘X augmente’ Sympt[X,Y]‘X est révélé par Y’ # : mot-clé 1, 2, 3 : actants sémantiques de # Ω : autre participant (non identifié) : autre participant identifié ^ : modification (‘tel que’) & : coordination (‘et’)
Kahane & Polguère, ATALA, 13 jan Contenu sémantique complexe Real[1,#]^Magn (‘1 réalise intensément #’) ex: X déchaîne sa colère sur Y Real 1 2 ^ 1 # Magn {1}^(#^Magn)‘[1] qui ressent # intense’ ex: [X] ivre de colère Sympt[#,‘poings’]‘# est révélé par les poings (de 1)’ ex: X serre les poings de colère Caus[Ω,Minus[#&Manif[#]]‘Ω cause la diminution de # et de sa manifestation’ ex: Ω adoucit la colère de X
Kahane & Polguère, ATALA, 13 jan Encodage explicite : exemples valeursémsynt aveugle, folle, sauvage{#}^MagnA[#^] sourde, froide, rentrée{#}^Non[Manif[#]]A[#^] brusque, subite, soudaine{#}^‘soudain’A[#^] empreint, chargé [de Ø/ART ~]{Ω}^Manif[#,Ω]A[Ω^,#] fou [de ~] {1}^(#^Magn^Manif[#])A[1^,#] blanc, blême, pale [de ~] {µ/1}^Sympt[#,‘visage’]A[µ/1^,#] rouge<écarlate<cramoisi [de ~] {µ/1}^Sympt[#,‘visage’]A[µ/1^,#] [yeux] exorbités [(de ~)]{µ}^Sympt[#,‘yeux’]A[µ^,#]
Kahane & Polguère, ATALA, 13 jan valeursémsynt être [en ~], éprouver, ressentir [ART ~] #V[1,#] bouillir, bouillonner [(de (ART) ~)]#^MagnV[1,#] fulminer [(de ~ contre N=Y)]#^MagnV[1,#,2] se fâcherIncep[#]V[1] se mettre, “fam” se foutre [en ~]Incep[#]V[1,#] NÉG décolérer Cont[#]V[1] s’abandonner, céder, donner libre cours [à A-poss=X ~] Perm[1,Fact[#]]V[1,#] retenir, réprimer, réfréner, dominer, contenir [ART ~]Non[Perm[1,Fact[#]]]V[1,#] laisser sortir, libérer [A-poss=X ~]Real[1,#]V[1,#] déchaîner, décharger [ART ~ sur N=Y] Real[1,#]^MagnV[1,#,2] _déverser sa bile_ [sur N=Y]Real[1,#^Magn]V[1,2] passer [A-poss=X ~ sur N=Ω] Real[1,#]^{‘Ω est un substitut de 2’} V[1,#,Ω] tourner, retourner [A-poss=X ~ contre N=Y’] Incep[Real[1,#'[1,2']]]^Fin[Real[1,#]] V[1,#,2'] Encodage explicite : exemples
Kahane & Polguère, ATALA, 13 jan ravaler, refouler, réprimer [ART ~]Non[Perm[1,Manif[#]]]V[1,#] étouffer [ART ~]Caus[1,Minus[Manif[#]]]V[1,#] _faire les gros yeux_ [à N=Y]Caus[1,Manif[#]]V[1,2] sortir de ses gondsCaus[1,Manif[#]^Magn]V[1] crier < hurler [A-poss=X ~ à N=Y]Caus[1,Manif[#]^Magn]V[1,#,2] tempêter [contre N=Y] Caus[1,Manif[#]^Magn]V[1,2] écumer [(de (ART) ~)] Sympt[#^Magn,‘sécrétion’] V[1,#] serrer [les poings de ~]Sympt[#,‘poings’/‘dents’]V[1,µ,#] bégayer, “fam” bafouiller [de ~]Sympt[#,‘parole’]V[1,#] étouffer, s'étouffer, s'étrangler, suffoquer [de ~]Sympt[#^Magn,‘souffle’]V[1,#] _les yeux [Clit-dat=X] sortir de la tête_ Sympt[#,‘yeux’]V[1] trépigner [(de ~)]Sympt[#,‘gestuelle’]V[1,#] crier, hurler [de ~]Sympt[#,‘cri’]V[1,#]
Kahane & Polguère, ATALA, 13 jan Encodage algébrique Kahane & Polguère, work in progress Une FL est encodée par une expression algébrique L'encodage algébrique est défini à partir de l'encodage explicite : FL simples opérations algébriques : produit, fusion Avantage : structure algébrique sur l'ensemble des FL s'apparente à la langue naturelle (cf. DEC et LAF)
Kahane & Polguère, ATALA, 13 jan Encodage algébrique: FL simples algsémsyntalg sémsynt Func 0 #V[#] S 0 #N Func i #V[#,i] V 0 #V Oper i #V[i,#]A 0 #A ManifManif[#,Ω]V[#,Ω]Adv 0 #Adv Fact 0 Fact[#]V[#]Sympt 13 Sympt[#, ]V[ ,#] Fact i Fact[#] V[#,i]Sympt 23 Sympt[#, ]V[1,#] Real i Real[i,#]V[i,#] Sympt 123 Sympt[#, ]V[ ,1,#] MagnA/Adv[#^]{#}^Magn Sympt 132 Sympt[#, ] V[ ,#,1] A i {i}^#A[i^,#]… Adv i {i}^#Adv[i^,#] S i iN
Kahane & Polguère, ATALA, 13 jan Encodage algébrique : produit FL syntagmatiques f.gc(f) # c(g) pos(f)[d(f) # d(g) ] Incep.gIncep[c(g)] V[d(g)] Caus.gCaus[Ω,c(g)]V[Ω,d(g)] Caus i.gCaus[i,c(g)]V[i,d(g)] FL paradigmatiques f.gc(f) # c(g),i i(g) pos(f)[d(f) i i(g) ] A i.g{i(g)}^c(g)A[i(g)^,d'(g)] Conv 21.gc(g)pos(g)[d(g) 1(g) 2(g),2(g) 1(g) ]
Kahane & Polguère, ATALA, 13 jan Produit de FL: exemples algsémsynt Incep.MinusIncep[Minus[#]]V[#] Caus.MinusCaus[Ω,Minus[#]]V[Ω,#] Incep.Oper 1 Incep[#]V[1,#] Caus 1.Func 2 Caus[1,#]V[1,#,2] Incep.Func 1 Incep[#]V[#,1] Non.Perm 1.Fact 0 Non[Perm[1,Fact[#]]]V[1,#] Conv 21.Manif Manif[#,Ω]V[Ω,#] A 2.Manif{Ω}^Manif[#,Ω]A[Ω^,#] A 2.Non.Perm 1.Fact 0 {#}^Non[Perm[1,Fact[#]]]A[#^] A 1.Non.Manif{#}^Non[Manif[#]]A[#^]
Kahane & Polguère, ATALA, 13 jan Produit et composition Caus 2 (Oper 1 (L)) Oper 1 (L) L 2 1 Caus 2.Oper 1 (L) L 2 cause que 1 ressent L 2 met 1 en colère
Kahane & Polguère, ATALA, 13 jan Encodage algébrique : fusion / f(L) paraphrase de L+f(L) ex: en colère //fâché colère aveugle //fureur se mettre en colère //se fâcher crier sa colère à Y //tempêter contre Y L'opérateur / supprime # du patron syntaxique: / A i {i}^#A[i^,…] / Oper i #V[i,…] / Magn#^Magnpos(#)[d(#)] f.gc(f) # c(g),i i(f) pos(f)[d(f) i i(g) ] / Magn.g c(g)^Magnpos(g)[d(g)] f. / Magn c(f) # #^Magn pos(f)[d(f)] X déchaîne sa ~ sur YReal[1,#]^Magn= / Magn.Real 1 X décharge sa ~ sur YReal[1,#^Magn]= Real 1. / Magn
Kahane & Polguère, ATALA, 13 jan Encodage LAF Une FL est encodée par une expression linguistique (paraphrase) algébriqueLAF Oper 1 X ressent # Oper 2 Y est la cible de # Oper 3 Z est la raison de # Func 0 X a lieu Incep.f1(f) commence à f-er Caus.fΩ cause que f (Ω fait f-er) A 1.f[1(f)] qui f A 2.f[2(f)] que f Conv 12.fpassif ? conversion lexicale ? Rôle thématique : colère de X envers Y à propos de Z peur de X à propos de Y
Kahane & Polguère, ATALA, 13 jan Conclusion 4 encodages :DEC LAF (paraphrase linguistique) Encodage explicite Encodage algébrique Quel encodage pour quel usage ? –Encodage pour l'encodeur –Encodage pour le lecteur humain –Encodage pour une application Projets –Problèmes : couverture, granularité, rôles thématiques, … –Conversion : explicite algébrique LAF –Développement du DiCo dans le nouvel encodage –Activation des FL en génération de texte ou en TA