Intelligence Artificiel Avancé – IFT6010 Session Hiver 2003 Université de Montréal Département d’Informatique et de Recherche Opérationnelle Link Grammar Présenté par Ziad Khairallah Professeur: Mr Philipe Langlais
Introduction La langue humaine est un phénomène développé depuis des siècles dont une analyse syntaxique et sémentique est impliqué a un niveau élevé pour quelle soit compris par un être humain. Plusieurs types de grammaire utilisé pour structurer un language donnée. PCFGPCFG PCFG lexicaliséPCFG lexicalisé Data oriented parsing (DOP)Data oriented parsing (DOP) Link GrammarLink Grammar …
Link Grammar Propriétés : Hors-contexte Lexicalisé (grammaire distribuée parmi les mots, definition séparé pour chaque mot) Grande possibilité d’utilisation d’un type donné. Associations des mots liés syntaxiquement et sémentiquement.
Link Grammar Link GrammarDefinition: Une link grammar consiste a un ensemble de mots reliés entre eux a l’aide d’un lien pour chaque mot:
Link Grammar Link Grammar Ce diagramme nous montre comment les liens sont satisfaisant dans la phrase: The cat chased a snake. Un ensemble de liens qui satisfait les conditions est appelé un linkage.
Link Grammar Dans une link grammar, une phrase correcte gramaticalement si et seulement si satisfait les conditions suivantes: Planarité (Planarity): –Les liens ne se croisent pas quand ils sont construit au dessus des mots. Connectivité (Connectivity): –Les liens doivent connecter tout les mots dans une phrase. Satisfaction: –Les liens satisfaient les conditions des liens de chaque mot dans la phrase. Exclusion: –2 liens differents ne peuvent pas connecter la même paire de mots.
Link Grammar Link Grammar Exemple d’une phrase qui n’appartient pas au language: the Mary chased cat.
Link Grammar Link Grammar Les liens sont reliés par des connecteurs. Ex: D+ (+ lien a droite du mot concerné) D- (- lien a gauche du mot concerné) D- (- lien a gauche du mot concerné) Chaque mot peut avoir plusieurs connecteurs qui forme sa formule. Ex: cat : D- & (O- or S+)
Link Grammar Link Grammar Une liste de ces formules est appelé un dictionaire :
Link Grammar Link Grammar Forme Disjonctive Pour des raisons mathématiques et pour faciliter les calcules(recherche) dans l’algorithme, la formule est écrite sous forme disjonctive. Exemple: formule pour “cat”: & D- & {B+} & (O- or S+) correspond aux 8 disjoints: (S, B))((D)(S,B)) (B))((D,O)(B)) (S))((D)(S)) ( ))((D,O)( ))
Link Grammar Link GrammarParsage L’analyse d’une phrase dans une link grammar fait une recherche approfondie sur chaque disjoint pour chaque mot dans la phrase, et verifie si le resultat de la connection forme un lien correcte. Le parseur mémorise chaque linkage produit. L’algorithme original est de l’ordre O(n 3 ) ou n est le nombre des disjoints.
Link Grammar Link GrammarAlgorithme Suposons au debut qu’il y a 2 mots L et R reliés ensembles par les connecteurs respectives l’ et r’. Notations: next(l’) = l (connecteur qui suit l’ dans la liste) next(r’) = r (connecteur qui suit r’ dans la liste) Si l est le dernier elements du liste => next(l)= NIL L R l’l r r’
Link Grammar Link GrammarAlgorithme 1er cas : s’il n’existe pas un mot W entre le domaine [L…R] =>l = r =NIL si l et r n’est pas egale a NIL; le lien entre L et R est invalide. L R l’l r r’
Link Grammar Link GrammarAlgorithme 2ieme cas : s’il existe au moins un mot W entre le domaine [L…R]. Et soit d le disjoint de W et par notation: left(d)= le 1er connecteur a gauche de d. right(d)= le 1er connecteur a droite de d. Par planarité W ne peut pas être lié avec un mot a l’exterieur des bornes L et R. L R l’l r r’ W
Link Grammar Link GrammarAlgorithme Par connectivité (l) doit être connecté par un mot du reste de la phrase; On cherche un mot W tel que (l) soit connecté avec left(d). Verifions s’il existe une solution entre [L…W]. L R l’l r r’ W left(d) d right(d)
Link Grammar Link GrammarAlgorithme Alors; Si next(l) et next(left(d)) = NIL, alors la recherche est finis dans [L…W]. L R l’l r r’ W left(d) d right(d) Passons la recherche entre [W…R] par recursivité sur right(d) et (r).
Link Grammar Link GrammarPre-Processor A cause de la recherche dans l’algorithme qui depends forcement sur les nombres des disjoints, l’éxécution sera lente,on peut l’accelerer en éliminant des disjoints qui contient des connecteurs qui n’ont pas des analogues dans la phrase. Cette étape est appelé “pruning”.
Link Grammar Link Grammar Post Processing Le parseur (l’analyseur) produira un ou plusieurs liens possible qui satisfait la link grammar. Mais a cause de quelques important phénomène en anglais qui sont impossible de les capturer dans une link grammar, alors il en resulte des liens incorrecte. Le “post processing” choisira les meilleurs liens en les verifiant a l’aide d’un ensemble des règles, et le lien qui ne satisfait pas les règles sera rejeté.
Link Grammar Link Grammar Demarchement du processus: Phrase pour analyser Trouver formule Pour chaque mot Construction des disjoints Pour chaque mot de La formule Pre-processorPlusieurs “linkage”Post-processing linkages
Link Grammar Probabiliste Link Grammar Probabiliste Nouvelle Approche Approximation: Le plus fameux des modèles de langues statistiques, le “3-GRAM”: –Simplicité. P(w3/w1w2) –Efficasité. Estimation en comptant les mots et l’implémentation d’une table de recherche. Ignore des informations sémentiques et syntaxiques qui sont importantes dans les langues naturelles pour qu’elles soient compris par un être humain.
Link Grammar Probabiliste Link Grammar Probabiliste Nouvelle Approche Approximation: Une approche a été proposé pour une link grammar probabiliste qui préserve les notions efficasse du 3- gram, en ajoutant plus d’informations statistiques. Des paires de mots adjacents dans une phrase forment l’historique du mot prédicté dans la même phrase. La grammaire sera constitué de liste de paires de mots liés entre elles avec un ou plusieurs mots.
Link Grammar Probabiliste Link Grammar Probabiliste Modele Probabiliste Formation d’un lien: Depend de 2 connecteurs l et r des 2 mots L et R. Choix d’un mot W avec un disjoint d pour se lié avec L et R. Un choix d’une orientation O( , , ) décide si d est lié avec l ou r ou les 2 ensembles.
Link Grammar Probabiliste Link Grammar Probabiliste Modele Probabiliste Un ensemble de paramètres: Pr(W,d,O/L,R,l,r) = Pr(W/L,R,l,r)*Pr(d/W,l,r)*Pr(O/d,l,r). Soit L un linkage d’un ensemble de lien l et soit S une phrase. Alors la probabilité de générer S avec un linkage L est: Pr(S, L ) = Pr(Wo,do) Pr(W,d,O/L,R,l,r).
Link Grammar Probabiliste Link Grammar Probabiliste Modele Probabiliste Algorithme pour determiner une meilleur estimation des paramètres: Basant sur 2 types de probabilités: –Pri(L,R,l,r), la probabilité inside; que les mots entre L et R soient liés ensemble avec une satisfaction de l et r. – Pro(L,R,l,r), la probabilité outside; que les mots a l’exterieur de L et R soient liés ensemble avec une satisfaction des connecteurs a l’extérieur de l et r.
Link Grammar Probabiliste Link Grammar Probabiliste Modele Probabiliste Soit S une phrase formée des mots Wo….Wn-1, la probabilité de générer S par la grammaire est: Pr(S) = Pr(Wo,d)*Pri(0,n,right[d],Nil) Avec Pro(0,n,right[d],Nil) = Pr(Wo,d)
Conclusion Conclusion La domination du modèle trigram reste au-dessus des modèles probabilistes des langues naturelles. Mais la motivation d’améliorer un modèle probabiliste pour une link grammar se situe dans le fait que c’est un formalisme simple, a qui un degré élevé de léxicalisation, et qu’il existe un algorithme d’analyse efficasse
References References 1.Daniel Sleator and Davy Temperley, Parsing English with a Link Grammar, Carnegie Mellon University Computer Science technical report CMU-CS , October Daniel Sleator and Davy Temperley, Parsing English with a Link Grammar, Third International Workshop on Parsing Technologies, August John Lafferty, Daniel Sleator, and Davy Temperley, Grammatical Trigrams: A Probabilistic Model of Link Grammar, Proceedings of the AAAI Conference on Probabilistic Approaches to Natural Language, October, S. Della Pietra, J. Lafferty, J. Gillett, Inference and Estimation of a Long-Range Trigram Model.