La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

4 - Les automates et les lexiques morphologiques : le contenu mot fléchilemmepartie du discourstraits de flexion Habituellement, un lexique morphologique.

Présentations similaires


Présentation au sujet: "4 - Les automates et les lexiques morphologiques : le contenu mot fléchilemmepartie du discourstraits de flexion Habituellement, un lexique morphologique."— Transcription de la présentation:

1 4 - Les automates et les lexiques morphologiques : le contenu mot fléchilemmepartie du discourstraits de flexion Habituellement, un lexique morphologique dédié au TAL doit permettre de retrouver pour tout mot fléchi dune langue son lemme avec sa partie du discours et ses traits de flexion. En français, selon les parties du discours, les traits de flexion sont les suivants : verbes oPour les verbes, le mode, le temps, le nombre, la personne et éventuellement le genre (pour le participe passé). adjectifs oPour les adjectifs, le nombre et le genre. noms oPour les noms, le nombre et éventuellement le genre (pour certains types de noms). pronoms oPour les pronoms, le nombre, le genre et éventuellement la personne et le cas (pronoms personnels). déterminants oPour les déterminants, le nombre et le genre.

2 4 - Les automates et les lexiques morphologiques : limplémentation automate Une des façons les plus compactes et les plus efficaces dimplémenter un lexique morphologique est dutiliser un automate : oLalphabet de lautomate est celui utilisé pour composer les mots fléchis de la langue. oLes mots reconnus par lautomate sont les mots fléchis de la langue. oAux états acceptants sont attachées les informations qui permettent de retrouver le lemme et les traits de flexion. différence de mots Une façon de coder le lemme correspondant au mot fléchi est dutiliser la notion de différence de mots : on indique le nombre de lettres à supprimer dans le mot fléchi à partir de la fin et le suffixe qui va venir prendre la place des lettres supprimées.

3 4 - Les automates et les lexiques morphologiques : limplémentation minimiser Le codage du lemme associé à laide de la différence de mots permet de minimiser davantage lautomate. La procédure de minimisation consiste à appliquer récursivement à partir des états terminaux une procédure didentification des états qui se comportent de la même façon (même information qui y est attachée et même ensemble de transitions qui en sont issues). mots composés Les mots composés compliquent la recherche du lemme car il faut indiquer comment le faire pour chacun des mots simples qui les composent.

4 4 - Les automates et les lexiques morphologiques : exercices 1.Définir un automate détats finis acyclique minimal qui implémente toutes les formes des verbes suivants à lindicatif présent : piger, percer, payer et parer. 2.Améliorer le système de différences de mots utilisé pour coder le lemme associé à un mot fléchi dans le cas des verbes des familles de geler ou acheter. 3.On implémente un lexique morphologique sous forme dun arbre préfixe. Imaginer un algorithme qui transforme larbre préfixe en un automate minimal. 4.Concevoir un lexique morphologique qui permette de trouver toutes les flexions dun lemme donné.

5 5 - Les lexiques fondés sur les structures de traits : définitions structures de traits Les structures de traits sont une façon souple et adaptée au traitement informatique dencoder linformation linguistique attachée aux entrées dun lexique, quelle soit morphologique, syntaxique ou sémantique. noms de traits valeurs de traitscloses ouvertes Une structure de traits est une fonction dun ensemble de noms de traits vers un ensemble de valeurs de traits. La fonction peut être totale pour les structures de traits closes ou partielle pour les structures de traits ouvertes. récursive Une structure de traits peut être récursive : les valeurs de traits peuvent être elles-mêmes des structures de traits. ré-entrante co- indexées Une structure de traits ouverte peut être ré-entrante : les valeurs de traits peuvent être co- indexées pour indiquer quelles représentent bien le même objet et pas deux objets identiques. Dans ce dernier cas, on évite en général les structures cycliques.

6 5 - Les lexiques fondés sur les structures de traits : définitions matrices attribut- valeur Les structures de traits sont habituellement représentées sous forme de matrices attribut- valeur (Attribute Value Matrix ou AVM). automates acycliques Les structures de traits ré-entrantes peuvent être représentées sous forme d automates acycliques : oLes états de lautomate représentent les valeurs de traits. oLes étiquettes des transitions représentent des noms de traits, les transitions représentant les correspondances noms/valeurs. oLétat initial représente la structure de traits toute entière. oLes état acceptants sont les états terminaux et ils sont porteurs des valeurs de traits atomiques.

7 5 - Les lexiques fondés sur les structures de traits : définitions équations de chemins Les structures de traits récursives sans ré-entrance peuvent être représentées sous forme d équations de chemins. Un chemin dans une structure de traits est une suite de noms de traits (éventuellement vide) qui permet de retrouver la valeur dun trait. Une équation de chemin peut être de deux types : ochemin = valeur atomique ochemin = valeur atomique pour exprimer laffectation dune valeur atomique à un trait; ochemin = chemin ochemin = chemin pour exprimer légalité de deux valeurs de traits mais cela ne permet pas dexprimer la co-indexation (à moins de donner un sens particulier à légalité).

8 5 - Les lexiques fondés sur les structures de traits : subsomption et unification subsume Une structure de traits en subsume une autre si elle est plus générale. Formellement, une structure de traits S 1 subsume une structure de traits S 2 si : oPour tout trait t de S 1 de valeur atomique v, il existe un trait t de S 2 de valeur atomique v. oPour tout trait t de S 1 de valeur une structure de traits S 1, il existe un trait t de S 2 de valeur une structure de traits S 2 qui est subsumée par S 1. oPour tous chemins c et c dans S 1 qui mènent à la même valeur co-indexée, il existe deux chemins c et c dans S 2 qui mènent à la même valeur co-indexée. relation dordre La relation de subsumption est une relation dordre sur les structures de traits.

9 5 - Les lexiques fondés sur les structures de traits : subsomption et unification unifiables Deux structures de traits S 1 et S 2 sont unifiables si elles en subsument une même troisième. Dans ce cas, lensemble des structures de traits qui sont subsumées par S 1 et S 2 a un élément minimum quon appelle lunificateur le plus général (Most General Unifier ou MGU) de S 1 et S 2 que lon peut noter S 1 S 2. unification semi-treillis Lopération qui associe à deux structures de traits S 1 et S 2 la structure S 1 S 2 et quon appelle l unification de S 1 et de S 2, avec la relation de subsomption fait de lensemble des structures de traits un semi-treillis.

10 5 - Les lexiques fondés sur les structures de traits : héritage généralisationshéritage Dans un lexique où les entrées ont la forme de structures de traits, il est nécessaire dexprimer les généralisations à laide dune relation d héritage qui est lopposé dune relation de subsumption. Pour définir une structure de traits S, on peut alors indiquer un ensemble de structures {S 1, S 2, … S n } dont S hérite auquel sajoute une partie S 0 propre à S. Le contenu de S résulte alors de lunification de S 1, S 2, … S n et S 0. monotone Si lhéritage est monotone, léchec de lunification de S 1, S 2, … S n et S 0 entraîne léchec dans la définition de la la structure de traits. avec défauts Si lhéritage est avec défauts, on peut définir S même si S 1, S 2, … S n sont unifiables entre elles mais pas avec S 0 ; on utilise une unification avec défauts qui nest plus symétrique et qui, en cas de conflit, privilégie linformation venant de S 0.

11 5 - Les lexiques fondés sur les structures de traits : typage cohérence de linformation En attribuant à chaque valeur de trait un type, on contraint cette valeur à se situer dans un domaine bien précis, ce qui permet de mieux contrôler la cohérence de linformation contenue dans les structures de traits. factoriser linformation Le typage des structures de traits permet aussi de factoriser linformation dans le mesure où un type permet de résumer un ensemble dinformations et où les différents types sont organisés selon une hiérarchie dhéritage. dhéritage multiple On dispose dun ensemble de noms de types organisé par une relation dhéritage multiple.

12 5 - Les lexiques fondés sur les structures de traits : typage structure de traits typée Une structure de traits typée sur un ensemble fini de traits Traits et sur une hiérachie de types (Types, ) est un quadruplet (Q, r,, ) tel que : Q est un ensemble fini de nœuds, r est un élément particulier de Q, sa racine, est une fonction partielle de Q x Traits dans Q, est une fonction partielle de Q dans Types. La fonction induit une structure darbre sur Q avec r comme racine.

13 5 - Les lexiques fondés sur les structures de traits : typage subsomption On étend la relation de subsomption entre structures de traits non typées à des structures de traits typées. Une structure de traits typée S 1 subsume une structure de traits typée S 2 si : Si deux chemins 1 et 2 de S 1 conduisent au même nœud, alors 1 et 2 sont aussi deux chemins de S 2 qui conduisent à un même noeud. Pour tout chemin de S 1 de type éventuel t 1, est aussi un chemin de S 2. Si dans S 1, a un type t 1, alors il a dans S 2 un type t 2 qui hérite de t 1. La relation de subsomption définit un ordre partiel sur les structures de traits typées. Lunification entre structures de traits typées se transpose naturellement à partir de lunification entre structures de traits non typées.

14 5 - Les lexiques fondés sur les structures de traits : typage contraintes En général, la hiérarchie de types est associée à des contraintes grâce à une fonction C qui associe éventuellement à chaque type t une structure de traits typés C(t). structure de traits typésbien formée Une structure de traits typés S est bien formée si pour tout chemin de S qui mène à une valeur S de type t pour lequel existe une contrainte C(t), C(t) et S ont le même ensemble de traits et C(t) subsume S. Les contraintes de la hiérarchie de types doivent vérifier les propriétés suivantes : Pour tout type t pour lequel C(t) existe, C(t) a le type t et est une structure de traits bien formée. Si t 1 est un type qui hérite dun autre type t 2, alors C(t 2 ), si elle existe, subsume C(t 1 ), qui existe nécessairement.

15 5 - Les lexiques fondés sur les structures de traits : exercices 1.Unifier les structures de traits typées suivantes sachant quil nexiste aucun type héritant à la fois de verb_st et noun_st mais que verb_st hérite de agr-pos : et 2.Construire une hiérarchie de types pour un lexique des verbes pouvant prendre des compléments dobjet directs ou indirects, nominaux ou phrastiques.


Télécharger ppt "4 - Les automates et les lexiques morphologiques : le contenu mot fléchilemmepartie du discourstraits de flexion Habituellement, un lexique morphologique."

Présentations similaires


Annonces Google