Vers une analyse syntaxique à granularité variable Thèse présentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille.

Vers une analyse syntaxique à granularité variable Thèse présentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille I spécialité Informatique par Tristan Vanrullen sous la direction de Philippe Blache en présence des membres du jury Patrick Paroubek Monique Rolbert Laurent Romary Eric Villemonte de la Clergerie Eric Wehrli Laboratoire Parole et Langage d’Aix-en-Provence – CNRS UMR École Doctorale de Mathématiques et Informatique de Marseille Bonjour, Je vais vous présenter l’ensemble de mon travail au LPL dans le cadre de ma thèse intitulée « Vers une Analyse Syntaxique à Granularité variable » dirigée par Philippe Blache

Introduction Construire un modèle et des outils d’analyse qui permettent d’intégrer des données de la linguistique formelle en répondant aux besoins et problèmes actuels L’ensemble de mon travail a eu pour but de construire un modèle et des outils d’analyse -essentiellement syntaxique- permettant d’intégrer des données de la linguistiques formelle à un système répondant aux besoins et problèmes actuels

Situation Problèmes actuels Linguistique Formelle et TALN
Robustesse (corpus tout venant) Réutilisabilité (composants, ressources) [Villemonte de la Clergerie] [Romary] Efficacité (complexité de l’information vs complexité du traitement) Linguistique Formelle et TALN Fidélité théorique vs Visée applicative Tenter de combiner les deux Approche symbolique vs numérique Approche symbolique basée sur les contraintes Formalisme des Grammaires de Propriétés [Blache] Évaluation des systèmes [Carroll] [Paroubek] 1/ Les problèmes actuels en analyse syntaxique automatique sont principalement liés à la question de la robustesse des analyseurs, c.a.d. de leur capacité à traiter des corpus tout-venant. La réutilisation des outils et des ressources est aussi un problème face à l’évolution constante des techniques et des représentations de données. De façon générale, les systèmes d’aujourd'hui sont encore confrontés à l’opposition qui existe entre une représentation de l’information de plus en plus complexe et la nécessité de produire cette représentation en temps acceptable. 2/ Mon travail se situe à l’interface entre les domaines de la linguistique formelle et du Traitement Automatique des Langues Naturelles. Du point de vue linguistique, il est nécessaire de produire des représentations expérimentables et fidèles à la théorie qu’elles expriment. Du point de vue Informatique, la visée applicative des systèmes implique des choix et des simplifications qui s’opposent à cette fidélité J’ai tenté avec ce travail de combiner les deux directions. Concrètement, le besoin d’une approche susceptible de produire une information symbolique tout en offrant la souplesse et la puissance de calcul des approches numériques s’est orienté vers le formalisme des Grammaires de Propriétés, basé sur les contraintes. L’évaluation des systèmes m’a préoccupé tout au long de ce travail, afin de vérifier la validité des techniques proposées. 3/ Dans ce travail, j’ai tenté de répondre à plusieurs besoins apparemment conflictuels: Tout d’abord, le besoin d’une analyse tantôt superficielle, tantôt profonde, que les systèmes actuels peinent à implanter efficacement. En synthèse vocale, par exemple, une information superficielle suffit la plupart du temps pour calculer des données métriques, mais il est parfois nécessaire d’approfondir l’analyse afin de choisir parmi plusieurs hypothèses ambiguës. Les systèmes qui cherchent à répondre à cette question utilisent la plupart du temps une analyse en deux étapes, dans laquelle la seconde utilise comme entrée la sortie de la première. Je tenterai ici de proposer une réponse à ce besoin. Enfin, l’interaction de plusieurs interprétations au sein d’un même paradigme ou entre plusieurs paradigmes (syntaxique, sémantique, prosodique, gestuel, etc.) doit de plus en plus être traitée pour rendre compte de phénomènes linguistiques complexes. Là encore, l’approche que je propose permettra d’implanter efficacement un système capable de traiter de front (avec une même grammaire) plusieurs modalités et leurs interactions. Transition/ Une façon d’aborder et de traiter l’ensemble de ces problèmes et besoins se trouve dans la perspective du réglage de la granularité des analyses Besoins actuels Analyse superficielle, profonde ou combinée [Hinrichs & Simov 04] Ambiguïté / déterminisme Analyse multi grammaticale et multimodale

Granularité variable Granularité Granularité variable
Niveau de traitement des données d’entrée Niveau de représentation de la sortie Diversité des paradigmes interprétatifs Syntaxe, sémantique, prosodie, pragmatique etc. Multiplicité des interprétations dans un même paradigme interprétatif Chunks, constructions, dépendances, etc. Granularité variable Sélection de granularité dans une même interprétation / entre interprétations Paramétrable Guidée par le contexte Qu’entend-on par granularité? 1/ Traditionnellement, en analyse syntaxique automatique, la notion de granularité 2/ désigne le niveau de traitement des données d’entrée 3/ ainsi que le niveau de représentation de la sortie (richesse, complexité des structures produites). 4/ La granularité, de ce point de vue ne concerne pas que le paradigme de l’analyse syntaxique, mais par exemple ceux de la sémantique, de la pragmatique etc. 5/ Elle est directement liée, dans un paradigme donné, à la structuration des représentations et à la coexistence potentielle de plusieurs niveaux de structuration (chunks, constructions plates ou arborescentes, dépendances etc.) 6/ Introduire la variabilité dans la granularité des analyses suppose donc 7/ Une sélection de granularité dans une interprétation donnée ou entre plusieurs interprétations. 8/ Cette sélection doit être paramétrable et 9/ Être guidée par le contexte. Transition/ A partir de cette définition, il est possible de regrouper les problèmes en plusieurs ensembles

ambiguïté / déterminisme
Granularité variable Expressivité Profondeur de l’analyse plate / emboîtée Diversité de l’analyse ambiguïté / déterminisme Diversité interprétative Multi grammaticalité Multi modalité Robustesse Granularité variable Tolérance à l’agrammaticalité Informativité préservée Modularité Réflexivité Processus redéfinissables Spécifications hors logiciel Généricité des formats Système auto adaptable Décisions révisables 1/ La granularité variable concerne tout d’abord l’expressivité d’un système et de son modèle théorique. 2/ La robustesse des traitements est directement corrélée à la finesse et à la souplesse des représentations grammaticales, c’est-à-dire à leur granularité. 3/ Un système permettant une telle sélection de granularité doit avant tout être modulaire, générique et conçu de telle sorte que les spécifications puissent être fournies hors du moteur d’analyse. 4/ Autant que possible, il faut que le système puisse régler de façon autonome la sélection de granularité entre plusieurs hypothèses, ce qui implique une réflexivité rendant ses décisions révisables. Transition/ La réponse que je propose pour cette question passe par la spécification d’un modèle théorique et le choix d’une implantation adéquate

Expressivité Robustesse Profondeur de l’analyse plate / emboîtée Diversité de l’analyse ambiguïté / déterminisme Diversité interprétative Multi grammaticalité Multi modalité Tolérance à l’agrammaticalité Informativité préservée Modèle théorique Grammaires de Propriétés Spécification sémantique Représentation (graphes) Implantation Paradigme Orienté Objet Mécanismes de contrôle Représ. des connaissances Modularité 0/ Le modèle théorique permettra de répondre aux problèmes de robustesse et d’expressivité, Tandis que l’implantation sera directement liée aux besoins de modularité et de réflexivité. 1/ Les Grammaires de Propriétés permettent de prendre en compte l’ensemble de ces premiers besoins 2/ Apporter une spécification sémantique des GPs et se doter d’un modèle de représentation générique (tel que les graphes) permet de représenter aussi la diversité et la multiplicité des analyses. Cette modélisation permet aussi d’extraire les spécifications du processus d’analyse, en les rendant ainsi redéfinissables. 3/ Du point de vue de l’implantation, le choix du paradigme Orienté Objet rend possibles la modularité, la redéfinition des processus, ainsi que la réflexivité du système. 4/ Implanter une mesure générale et des mécanismes de contrôle effectivement basés sur des métaheuristiques, permettra de régler l’ambiguïté, de contrôler l’agrammaticalité de l’input et de décider quand un approfondissement s’avère nécessaire. 5/ La représentation des connaissances choisie (DTD + XML) permet pour sa part de rendre les formats génériques et réutilisables. Réflexivité Processus redéfinissables Spécifications hors logiciel Généricité des formats Système auto adaptable Décisions révisables

Sommaire Modèle théorique Implantation Evaluation Conclusion
Je vais à présent développer la conception du modèle théorique, Puis je présenterai l’implantation d’un système répondant aux critères qui ont été exposés précédemment Enfin, je proposerai plusieurs évaluation de ce système avant de conclure.

Modèle Théorique Grammaires de Propriétés Modèle de représentation
Spécification sémantique Modèle de représentation Graphes 1/ Le modèle théorique que j’ai développé s’appuie sur le formalisme des grammaires de propriétés, pour lequel j’ai constuit une spécification sémantique. 2/ La représentation des spécifications, des grammaires et des analyses suppose un modèle cohérent, suffisamment général, pour lequel une algorithmique générique et des métaheuristiques sont programmables. C’est pour cela que j’ai choisi le modèle des graphes comme support pour représenter la totalité des données à traiter. 3/ Afin de guider le processus d’analyse et de rendre opérationnelles les possibilités offertes par le modèle théorique, j’ai défini une mesure de contrôle, la densité de satisfaction, qui permet en outre de mesurer la qualité relative des hypothèses d’analyse Mesure de contrôle Densité de satisfaction

Les Grammaires de Propriétés (GPs)
Formalisme basé sur les contraintes [Blache 01] - Une grammaire représente l’information syntaxique par un ensemble de contraintes (propriétés) Une caractérisation est un état des propriétés par rapport à l’input Propriétés - Contraintes typées - Portant sur des catégories - Caractéristiques de catégories - Indépendantes, non hiérarchisées, peuvent être relâchées Types de propriété Description Obligation Ensemble de catégories obligatoires , uniques et mutuellement exclusives Unicité Ensemble de catégories devant être uniques Exigence Ensembles de catégories dont la cooccurrence est requise Exclusion Ensembles de catégories dont la cooccurrence est exclue Linéarité Précédence linéaire entre catégories Dépendance Relation de dépendance entre catégories, accord de traits Grammaire Catégorie etc. Propriétés C2 C1/C2 C3/C2 C1 C3 C1/C3 C2/C3 C1/C5 C4

Caractérisation - Grammaticalité  Reconnaissance - État des contraintes évaluées ou non (P-, P+, P0) - Possibilité de relâcher tout ou partie des contraintes Grammaire Propriétés Catégorie etc. La caractérisation, dans le formalisme des GPs, offre la possibilité de décrire le taux de grammaticalité d’une construction. Contrairement aux techniques de reconnaissance, qui cherchent à construire des structures en reconnaissant dans l’input des patrons prédéfinis, une caractérisation induit une ou plusieurs structures à partir de l’input P+ P- P0 Input

Présence ou non d’un élément dans l’input Nombre de propriétés simultanément satisfiables Nombre de fois qu’une propriété est satisfiable Ordre des éléments dans l’input Correspondance de traits Caractéristiques des propriétés (non) Disponibilité Cardinalité de la propriété Capacité d’une propriété Rang des termes Traits Obligation + Unicité Exigence Exclusion Linéarité Dépendance ++

Spécification sémantique des GPs
Termes : catégories analysées Propriétés : relations sur les termes Satisfaisabilité d’une contrainte: - Fonction de la disponibilité des termes - Fonction des traits et du rang des termes Cardinalité d’un type de contrainte: Nombre de propriétés de même type pouvant être simultanément satisfaites Capacité d’une contrainte: Nombre de fois qu’une même propriété peut être satisfaite Terme t : Disponibilité w rangDeb, rangFin Ensemble de traits Propriété P : Arité : [1;∞] Satisfaction : Disponibilité d(w1, warité) Satisfaisabilité s(t1, tarité) Cardinalité : [0;∞] Capacité : [0;∞]

Spécification sémantique des GPs
Obligation Symbole + Arité 1 Satisfaction d(w1)=w1 et s(t1)=vrai Cardinalité [1; ∞] Capacité [0;1] Unicité Symbole 1 Arité 1 Satisfaction d(w1)=w1 et s(t1)=vrai Cardinalité [0; ∞] Capacité [0;1] Linéarité Symbole << Arité 2 Satisfaction d(w1, w2)= w1  w2 s(t1, t2)= t1.fin < t2.debut Cardinalité [0; ∞] Capacité [0; ∞] Dépendance Symbole ~~ Arité 2 Satisfaction d(w1, w2)= w1  w2 s(t1, t2)= t1.trait < t2.trait Cardinalité [0; ∞] Capacité [0; ∞] Exigence Symbole => Arité 2 Satisfaction d(w1, w2)= w1 s(t1, t2)= 1  2 Cardinalité [0; ∞] Capacité [0; ∞] Exclusion Symbole # Arité 2 Satisfaction d(w1, w2)= w1 s(t1, t2)= 1  ¬2 Cardinalité [0; ∞] Capacité [0; ∞]

Spécification Sémantique + Grammaire  Caractérisation
Modèle de graphes Spécification Sémantique + Grammaire  Caractérisation

Hypergraphe permettant l’analyse
Modèle de graphes Hypergraphe permettant l’analyse

Modèle de graphes

Densité de satisfaction
Mesure de contrôle Densité de satisfaction Intérêt: Contrôler le nombre de contraintes satisfaites et non satisfaites Mesurer la qualité d’une caractérisation et d’une construction Établir un seuil de filtrage Elle est évaluée et propagée dans le graphe de caractérisation Densité de satisfaction locale (DSL) Qualité immédiate d’une caractérisation Densité de satisfaction propagée ( DSP ): - Qualité historique d’une caractérisation

Mesure de contrôle propriétés catégories

Exemple DSP = 0.71 DSL = 0.8 DSL = 0.5 DSP= 0.46 DSP = 0.83 DSL = 0.83
Nom [Commun,F é m., Sing.] D terminant [Masc., Sing.] peinture le Input Étiquetage Obligation DSL=1.0 DSP=1.0 Unicit Lin arit pendance DSL=0.5 DSP=0.5 Exigence + => ~~ Nombre Genre << 1 SN [F DSL=0.83 /DSP=0.83 Verbe [ind.,pr s.,3p.,Plur.] s è chent SV [ - , Plur.] DSL=1.0 /DSP=1.0 DSP=.83 DSP=.92 Phrase DSL=0.8 / DSP=0.718 DSP=0.46 Types de propriété Catégories Propriétés Niveau 1 Niveau 2 DSP = 0.71 DSL = 0.8 DSL = 0.5 DSP= 0.46 DSP = 0.83 DSL = 0.83 DSP = 1 DSL = 1 DSL = 0.5 DSP = 0.5

Implantation

Architecture Manutention Expériences Linguistiques Applications TALN
LPL-Suite Plateforme Accolade SeedParser Deep parser Shallow Parser Chunker Module Segmenteur Module Etiqueteur N-Grammes Module Analyseur Grammaire Module Dictionnaire Lexique Boite à outils : Fréquenceur, Phonétiseur, Apprentissage, Formatage. Formats DTD + XML Textes

Algorithmes d’analyse dans SeedParser
Préanalyse 1. Pour chaque item de l’input 1.a. Créer une instance de nœud catégoriel associée à une arborescence de traits 1.b. Attribuer un numéro de rang à ce nœud Caractérisation Choisir une souche de caractérisation SC Tant qu’une création de nœuds est possible 2.a. Pour chaque élément E de la souche 2.a.i Évaluer les propriétés P liées à E 2.a.ii Si P  (P+  P-), instancier P

Algorithmes d’analyse dans SeedParser
Projection Choisir une souche de projection SP Tant qu’une création de nœuds catégoriels a lieu 2.a Pour chaque catégorie C de la grammaire 2.a.i Construire un graphe prototype C’ 2.a.ii Pour tout sous-ensemble cohérent S de SP - Si S satisfait les propriétés de C Et si S supporte les seuils de densité Alors - créer une instance C’’ de C’ - connecter C’’ à la caractérisation Déterminisation en fin d’analyse Lister toutes les catégories en conflit {cliques} Dans chaque clique C 2.a Chercher un ensemble de catégories E qui maximise la somme des densités de satisfaction 2.b Supprimer les autres catégories de la clique Déterminisation temps réel

Accolade {GUI de LPLSuite}
Modules et ressources dictionnaire lexique - étiqueteur et analyseurs spécification des GPs GPs Analyse syntaxique pas à pas / par lot paramétrage temps réel expérimentation

Évaluation

Complexité des analyseurs
Chunker C(Nmots)= k x Nmots Shallow parser C(Nmots)= k x C x N2mots Conclusions Polynomialité des traitements: [Vashtisht03] Les phrases structurées guident l’analyse. - Grande constante multiplicative: Réductible par précompilation de la spécification sémantique Deep parser C(Nmots)= k x C x N2,4mots Seed parser C(Nmots)= k x C x N2,3mots

Qualité des analyseurs
Sans ressources de référence - multiplexage de plusieurs analyseurs amélioration empirique des grammaires correction des analyseurs paramètres texte Texte analysé parser parseur Texte analysé Multiplexeur Autres données -erreurs -statistiques

Avec références Parseurs dans la campagne d’évaluation EASY: 14 participants 1 Million de mots à analyser 1 référence annotée manuellement Plusieurs scores par participant Précision / Rappel / Fmesure Correspondance à la référence stricte ou Floue (1) Fmesure(Shallow Parser) = 79.7 % Fmesure(Deep Parser) = 85.9 % Fmesure(Seed Parser) = 82.5 % Moyenne des scores par catégorie de Fmesure floue

Deep Parser Shallow Parser Seed Parser

Deep parser Seed parser Shallow parser

lexique  étiquetage  analyse
Interprétation Remarques Influence de la chaîne de traitement lexique  étiquetage  analyse Différences de grammaires entre les parseurs Différents processus de déterminisation Comment évaluer la référence ? ex: Vp vs Adj Améliorations possibles Réapprentissage pour l’étiqueteur Correction des grammaires Meilleur choix des seuils de densité Évaluer les analyses ambiguës

Conclusion

Expressivité Robustesse Profondeur de l’analyse plate / emboîtée Diversité de l’analyse ambiguïté / déterminisme Diversité interprétative Multi grammaticalité Multi modalité Tolérance à l’agrammaticalité Informativité préservée Modèle théorique Grammaires de Propriétés Spécification sémantique Représentation (graphes) Implantation Programmation Objet Mécanismes de contrôle DTD + XML déterminisation Modularité Réflexivité Processus redéfinissables Spécifications hors logiciel Généricité des formats Système auto adaptable Décisions révisables autodétermination

perspectives Granularité variable: Améliorations possibles
- Formaliser et implanter le processus d’autodétermination Approfondissement d’analyse en contexte Automatique Paramétrable Améliorations possibles Lexique / Dictionnaire Étiquetage, grammaires et analyseurs  EASY Complexité Compilation des spécifications sémantiques Optimisation des algorithmes Corrélations linguistique / cognition Importance relative des propriétés / justification cognitive? Poids sur les contraintes

Annexes Application à la synthèse vocale
Application à la communication assistée Précisions sur la spécification des GPs Contraintes et propriétés vs CSP Détails d’analyse Autodétermination Multi grammaticalité / Multi modalité Remarques Générales

Syntaix (1996) [Di Cristo] MBRola Texte Signal Pho. Voix (diphones)
Règles Module Phonétiseur Module Prosodique Règles Lexique Module Segmenteur N-Grammes Module Etiqueteur Grammaire Module Chunker Module Métrique

Syntaix (2005) MBRola Voix (diphones) Texte Signal Pho. Syntaix GUI
Module Segmenteur Boite à outils: … Phonétiseur … LPL-Suite Analyseur Grammaire Etiqueteur N-Grammes Dictionnaire Lexique Syntaix (2005) Module Prosodique Module Métrique Règles

Plateforme de Communication Alternative
PCA Plateforme de Communication Alternative Prédiction d’un mot à partir de ses premières lettres et du contexte courant Reformulation textuelle à partir d’icônes

Précisions sur la spécification des GPs
Cardinalité de la propriété (non) disponibilité des élément décrits Capacité d’une propriété Propriété Exemples dans un SN Obligation Oblig(N) Oblig(Pro) Le chat / *Le chat chat Unicité Uniq(Det) *Le le chat Exigence Exig(N[com],Det) *Chat / Paul Exclusion Excl(GA, Sup) *le plus bien Linéarité Lin(Det,N) *Chat le Dépendance Dep(Det.genre,N.genre) Dep(Det.nombre,N.nombre) Dep(Det.X,N.X) *Le chaise / La chaises Le chaise / *La chaises *Le chaise / *La chaises Rang des éléments Accords de traits

Résolution de contraintes avec les GPs
Algorithme de SeedParser vs Moteur CSP Un CSP généraliste résout des clauses Littéraux, logique binaire, non arithmétiques Reprogrammer un CSP spécifique aux GPs ? Introduire une mesure variable de la satisfaisabilité Arithmétiser les contraintes Traiter la reconnaissance de traits hors satisfaction de contraintes Traçabilité des caractérisations ? Introduire une représentation sous forme de graphe par ex. Autres algorithmes - Deep Parser (arcs couvrants) - Grammaires précompilées et shallow parsers (coins-gauches/droits) Versions Prolog / CHR SGBDR

Détails d’analyse

faire apparaître une information minimale
Autodétermination Définir des critères de déclenchement Dans des contextes trop interprétables résorber l’ambiguïté Dans des contextes trop agrammaticaux faire apparaître une information minimale La mesure de contrôle sera la densité de satisfaction Définir un processus de révision de décisions - Itérations convergentes - Mesure / Filtre Passe Haut / Filtre Passe Bas

Multigrammaticalité et multimodalité
Annotation Morphosyntaxique prosodique Phonétique gestuelle pragmatique Sémantique Grammaire Syntaxique 1 Grammaire Syntaxique 2 Grammaire Sémantique GPs + spécification sémantique + modèle de graphes Possibilité de faire coexister plusieurs spécifications sémantiques Possibilité de faire cohabiter plusieurs grammaires en une seule Interaction inter-grammaticale possible avec un marquage des grammaires (grammaires colorées) Conflits au sein d’une même couleur Collaboration entre couleurs Grammaire Syntaxique 3 Grammaire Syntactico-sémantique Mimogestuel Prosodie Pragmatique Sémantique Syntaxe

Remarques générales Quels nouveaux types de propriétés sont spécifiables ? Facultativité Interdiction Contiguïté Relations ternaires (coordination, apposition, etc.) Quels types de propriétés ne peuvent être définis ? - Contraintes lexicales Contraintes de constituance indirecte Certaines propriétés sont explosives - Contraintes lacunaires (¬X) Contraintes trop satisfiables Caractérisation puis projection ?

Vers une analyse syntaxique à granularité variable Thèse présentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille.

Présentations similaires

Présentation au sujet: "Vers une analyse syntaxique à granularité variable Thèse présentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Vers une analyse syntaxique à granularité variable Thèse présentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille.

Présentations similaires

Présentation au sujet: "Vers une analyse syntaxique à granularité variable Thèse présentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille."— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back