Vers une analyse syntaxique à granularité variable Thèse présentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
L-System et modélisation de plantes…
Processus d'expression du besoin
Résolution de problèmes et logiciel de calcul symbolique
IREMIA : Institut de REcherche en Mathématiques et Informatique Appliquées Université de la Réunion Uniformisation des mécanismes de conception de SMA.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Affichage interactif, bidimensionnel et incrémental de formules mathématiques Hanane Naciri et Laurence Rideau INRIA Sophia Antipolis CARI'2000.
Reconnaissance de la parole
Urbanisation de Systèmes d'Information
M.E.D.A.L. Module dEnseignement à Distance pour lArchitecture Logicielle Alain VAILLY Diapositive n° 1 IUP MIAGE - Université de NANTES IUP-MIAGE 3ème.
Equipe optimisation TempoSoft
Perspectives Multiples, les spécifications informatiques
Analyse Sémantique de Requêtes en Langue Naturelle pour un Agent Assistant d’Interface. Un modèle de réécriture procédurale conduite par relaxation de.
Par Aline Mahot et Charlyne Routier
Chap 1 Grammaires et dérivations.
Modélisation des systèmes non linéaires par des SIFs
Reconnaissance de la parole
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Pour un système formel de description linguistique
La création de sinistre, la sélection à des fins de consultation, modification ou impression sont accessibles grâce à la barre de menu à gauche de l'écran.
RÉSOLUTION DE PROBLÈMES
Décodage des informations
Techniques de test Boulanger Jean-Louis.
MOT Éditeur de modèles de connaissances par objets typés
Vers des composants TAL réutilisables
Reconnaissance Vocale
1 CSI3525: Concepts des Languages de Programmation Notes # 3: Description Syntaxique des Languages.
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
Démonstrateur Lingway
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Chapitre 3 Syntaxe et sémantique.
1 Couplage dun langage de contrôle de formatage avec un système de formatage existant DEA ISC : 1 avril 2003 Fateh Boulmaiz
Programmation non procédurale Le projet ECOLE 2000
Sensibilisation a la modelisation
Typologie des outils L ’exerciseur Le tutoriel :
Patrons de conceptions de créations
TRAITEMENT INSTRUMENTÉ DE CORPUS
Architecture d’un système expert
Paradigmes des Langages de Programmation
Le formalisme utilisé pour Lexical Functional Grammar Lionel Clément Signes - Labri Mosaïque 1er décembre 2006.
Traitement de la parole : Synthèse et reconnaissance
Vers une analyse syntaxique à granularité variable Tristan Van rullen
Algorithmes et Programmation
Théories, formalismes, modèles Sylvain Kahane Modyco, Université Paris 10 - Nanterre Mosaïque, Paris, 1/12/2006.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
5ième Classe (Mercredi, 19 octobre) Prog CSI2572.
Pour les nuls débutants
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université.
Initiation à la conception des systèmes d'informations
François CARCENAC,Frédéric BONIOL ONERA-DTIM Zoubir MAMMERI IRIT
Introduction Formalisation de GUST basée sur GUP (GUST = Grammaire d’Unification Sens-Texte, Kahane 2001) (GUP = Grammaire d’Unification Polarisée, Kahane.
Du discours aux modèles… Une tentative d’articulation
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Synthèse de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage
Principes et définitions
L T I Laboratoire de Téléinformatique 2 Projet de semestre Parseur XML basé sur la DTD : Buts –Utiliser la grammaire définissant un type de fichiers XML.
TEXT MINING Fouille de textes
- Exemple de détermination de tolérance de localisation
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Architecture de la formation
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
XML : un métalangage pour la description de documents structurés XML a été défini par le consortium W3 en fonction de 2 objectifs: Compenser les limitations.
IFT 703 Informatique cognitive ACT-R Modèle symbolique et perceptuel
Modélisation des Actions Mécaniques Première sti2d
Personnalisation de l’apprentissage des langues en ligne Marie-Noëlle Godin Conceptrice pédagogique.
Transmodalité – Multimodalité Fabrice Maurel IRIT – Toulouse Directeur : Luis Fariñas Del Cerro Équipe DIAMANT – Nadine Vigouroux Concours CNRS CR
Transcription de la présentation:

Vers une analyse syntaxique à granularité variable Thèse présentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille I spécialité Informatique par Tristan Vanrullen sous la direction de Philippe Blache en présence des membres du jury Patrick Paroubek Monique Rolbert Laurent Romary Eric Villemonte de la Clergerie Eric Wehrli Laboratoire Parole et Langage d’Aix-en-Provence – CNRS UMR 6057 École Doctorale de Mathématiques et Informatique de Marseille Bonjour, Je vais vous présenter l’ensemble de mon travail au LPL dans le cadre de ma thèse intitulée « Vers une Analyse Syntaxique à Granularité variable » dirigée par Philippe Blache

Introduction Construire un modèle et des outils d’analyse qui permettent d’intégrer des données de la linguistique formelle en répondant aux besoins et problèmes actuels L’ensemble de mon travail a eu pour but de construire un modèle et des outils d’analyse -essentiellement syntaxique- permettant d’intégrer des données de la linguistiques formelle à un système répondant aux besoins et problèmes actuels

Situation Problèmes actuels Linguistique Formelle et TALN Robustesse (corpus tout venant) Réutilisabilité (composants, ressources) [Villemonte de la Clergerie] [Romary] Efficacité (complexité de l’information vs complexité du traitement) Linguistique Formelle et TALN Fidélité théorique vs Visée applicative Tenter de combiner les deux Approche symbolique vs numérique Approche symbolique basée sur les contraintes Formalisme des Grammaires de Propriétés [Blache] Évaluation des systèmes [Carroll] [Paroubek] 1/ Les problèmes actuels en analyse syntaxique automatique sont principalement liés à la question de la robustesse des analyseurs, c.a.d. de leur capacité à traiter des corpus tout-venant. La réutilisation des outils et des ressources est aussi un problème face à l’évolution constante des techniques et des représentations de données. De façon générale, les systèmes d’aujourd'hui sont encore confrontés à l’opposition qui existe entre une représentation de l’information de plus en plus complexe et la nécessité de produire cette représentation en temps acceptable. 2/ Mon travail se situe à l’interface entre les domaines de la linguistique formelle et du Traitement Automatique des Langues Naturelles. Du point de vue linguistique, il est nécessaire de produire des représentations expérimentables et fidèles à la théorie qu’elles expriment. Du point de vue Informatique, la visée applicative des systèmes implique des choix et des simplifications qui s’opposent à cette fidélité J’ai tenté avec ce travail de combiner les deux directions. Concrètement, le besoin d’une approche susceptible de produire une information symbolique tout en offrant la souplesse et la puissance de calcul des approches numériques s’est orienté vers le formalisme des Grammaires de Propriétés, basé sur les contraintes. L’évaluation des systèmes m’a préoccupé tout au long de ce travail, afin de vérifier la validité des techniques proposées. 3/ Dans ce travail, j’ai tenté de répondre à plusieurs besoins apparemment conflictuels: Tout d’abord, le besoin d’une analyse tantôt superficielle, tantôt profonde, que les systèmes actuels peinent à implanter efficacement. En synthèse vocale, par exemple, une information superficielle suffit la plupart du temps pour calculer des données métriques, mais il est parfois nécessaire d’approfondir l’analyse afin de choisir parmi plusieurs hypothèses ambiguës. Les systèmes qui cherchent à répondre à cette question utilisent la plupart du temps une analyse en deux étapes, dans laquelle la seconde utilise comme entrée la sortie de la première. Je tenterai ici de proposer une réponse à ce besoin. Enfin, l’interaction de plusieurs interprétations au sein d’un même paradigme ou entre plusieurs paradigmes (syntaxique, sémantique, prosodique, gestuel, etc.) doit de plus en plus être traitée pour rendre compte de phénomènes linguistiques complexes. Là encore, l’approche que je propose permettra d’implanter efficacement un système capable de traiter de front (avec une même grammaire) plusieurs modalités et leurs interactions. Transition/ Une façon d’aborder et de traiter l’ensemble de ces problèmes et besoins se trouve dans la perspective du réglage de la granularité des analyses Besoins actuels Analyse superficielle, profonde ou combinée [Hinrichs & Simov 04] Ambiguïté / déterminisme Analyse multi grammaticale et multimodale

Granularité variable Granularité Granularité variable Niveau de traitement des données d’entrée Niveau de représentation de la sortie Diversité des paradigmes interprétatifs Syntaxe, sémantique, prosodie, pragmatique etc. Multiplicité des interprétations dans un même paradigme interprétatif Chunks, constructions, dépendances, etc. Granularité variable Sélection de granularité dans une même interprétation / entre interprétations Paramétrable Guidée par le contexte Qu’entend-on par granularité? 1/ Traditionnellement, en analyse syntaxique automatique, la notion de granularité 2/ désigne le niveau de traitement des données d’entrée 3/ ainsi que le niveau de représentation de la sortie (richesse, complexité des structures produites). 4/ La granularité, de ce point de vue ne concerne pas que le paradigme de l’analyse syntaxique, mais par exemple ceux de la sémantique, de la pragmatique etc. 5/ Elle est directement liée, dans un paradigme donné, à la structuration des représentations et à la coexistence potentielle de plusieurs niveaux de structuration (chunks, constructions plates ou arborescentes, dépendances etc.) 6/ Introduire la variabilité dans la granularité des analyses suppose donc 7/ Une sélection de granularité dans une interprétation donnée ou entre plusieurs interprétations. 8/ Cette sélection doit être paramétrable et 9/ Être guidée par le contexte. Transition/ A partir de cette définition, il est possible de regrouper les problèmes en plusieurs ensembles

ambiguïté / déterminisme Granularité variable Expressivité Profondeur de l’analyse plate / emboîtée Diversité de l’analyse ambiguïté / déterminisme Diversité interprétative Multi grammaticalité Multi modalité Robustesse Granularité variable Tolérance à l’agrammaticalité Informativité préservée Modularité Réflexivité Processus redéfinissables Spécifications hors logiciel Généricité des formats Système auto adaptable Décisions révisables 1/ La granularité variable concerne tout d’abord l’expressivité d’un système et de son modèle théorique. 2/ La robustesse des traitements est directement corrélée à la finesse et à la souplesse des représentations grammaticales, c’est-à-dire à leur granularité. 3/ Un système permettant une telle sélection de granularité doit avant tout être modulaire, générique et conçu de telle sorte que les spécifications puissent être fournies hors du moteur d’analyse. 4/ Autant que possible, il faut que le système puisse régler de façon autonome la sélection de granularité entre plusieurs hypothèses, ce qui implique une réflexivité rendant ses décisions révisables. Transition/ La réponse que je propose pour cette question passe par la spécification d’un modèle théorique et le choix d’une implantation adéquate

ambiguïté / déterminisme Expressivité Robustesse Profondeur de l’analyse plate / emboîtée Diversité de l’analyse ambiguïté / déterminisme Diversité interprétative Multi grammaticalité Multi modalité Tolérance à l’agrammaticalité Informativité préservée Modèle théorique Grammaires de Propriétés Spécification sémantique Représentation (graphes) Implantation Paradigme Orienté Objet Mécanismes de contrôle Représ. des connaissances Modularité 0/ Le modèle théorique permettra de répondre aux problèmes de robustesse et d’expressivité, Tandis que l’implantation sera directement liée aux besoins de modularité et de réflexivité. 1/ Les Grammaires de Propriétés permettent de prendre en compte l’ensemble de ces premiers besoins 2/ Apporter une spécification sémantique des GPs et se doter d’un modèle de représentation générique (tel que les graphes) permet de représenter aussi la diversité et la multiplicité des analyses. Cette modélisation permet aussi d’extraire les spécifications du processus d’analyse, en les rendant ainsi redéfinissables. 3/ Du point de vue de l’implantation, le choix du paradigme Orienté Objet rend possibles la modularité, la redéfinition des processus, ainsi que la réflexivité du système. 4/ Implanter une mesure générale et des mécanismes de contrôle effectivement basés sur des métaheuristiques, permettra de régler l’ambiguïté, de contrôler l’agrammaticalité de l’input et de décider quand un approfondissement s’avère nécessaire. 5/ La représentation des connaissances choisie (DTD + XML) permet pour sa part de rendre les formats génériques et réutilisables. Réflexivité Processus redéfinissables Spécifications hors logiciel Généricité des formats Système auto adaptable Décisions révisables

Sommaire Modèle théorique Implantation Evaluation Conclusion Je vais à présent développer la conception du modèle théorique, Puis je présenterai l’implantation d’un système répondant aux critères qui ont été exposés précédemment Enfin, je proposerai plusieurs évaluation de ce système avant de conclure.

Modèle Théorique Grammaires de Propriétés Modèle de représentation Spécification sémantique Modèle de représentation Graphes 1/ Le modèle théorique que j’ai développé s’appuie sur le formalisme des grammaires de propriétés, pour lequel j’ai constuit une spécification sémantique. 2/ La représentation des spécifications, des grammaires et des analyses suppose un modèle cohérent, suffisamment général, pour lequel une algorithmique générique et des métaheuristiques sont programmables. C’est pour cela que j’ai choisi le modèle des graphes comme support pour représenter la totalité des données à traiter. 3/ Afin de guider le processus d’analyse et de rendre opérationnelles les possibilités offertes par le modèle théorique, j’ai défini une mesure de contrôle, la densité de satisfaction, qui permet en outre de mesurer la qualité relative des hypothèses d’analyse Mesure de contrôle Densité de satisfaction

Les Grammaires de Propriétés (GPs) Formalisme basé sur les contraintes [Blache 01] - Une grammaire représente l’information syntaxique par un ensemble de contraintes (propriétés) Une caractérisation est un état des propriétés par rapport à l’input Propriétés - Contraintes typées - Portant sur des catégories - Caractéristiques de catégories - Indépendantes, non hiérarchisées, peuvent être relâchées Types de propriété Description Obligation Ensemble de catégories obligatoires , uniques et mutuellement exclusives Unicité Ensemble de catégories devant être uniques Exigence Ensembles de catégories dont la cooccurrence est requise Exclusion Ensembles de catégories dont la cooccurrence est exclue Linéarité Précédence linéaire entre catégories Dépendance Relation de dépendance entre catégories, accord de traits Grammaire Catégorie etc. Propriétés C2 C1/C2 C3/C2 C1 C3 C1/C3 C2/C3 C1/C5 C4

Les Grammaires de Propriétés (GPs) Caractérisation - Grammaticalité  Reconnaissance - État des contraintes évaluées ou non (P-, P+, P0) - Possibilité de relâcher tout ou partie des contraintes Grammaire Propriétés Catégorie etc. La caractérisation, dans le formalisme des GPs, offre la possibilité de décrire le taux de grammaticalité d’une construction. Contrairement aux techniques de reconnaissance, qui cherchent à construire des structures en reconnaissant dans l’input des patrons prédéfinis, une caractérisation induit une ou plusieurs structures à partir de l’input P+ P- P0 Input

Les Grammaires de Propriétés (GPs) Présence ou non d’un élément dans l’input Nombre de propriétés simultanément satisfiables Nombre de fois qu’une propriété est satisfiable Ordre des éléments dans l’input Correspondance de traits Caractéristiques des propriétés (non) Disponibilité Cardinalité de la propriété Capacité d’une propriété Rang des termes Traits Obligation + Unicité Exigence Exclusion Linéarité Dépendance ++

Spécification sémantique des GPs Termes : catégories analysées Propriétés : relations sur les termes Satisfaisabilité d’une contrainte: - Fonction de la disponibilité des termes - Fonction des traits et du rang des termes Cardinalité d’un type de contrainte: Nombre de propriétés de même type pouvant être simultanément satisfaites Capacité d’une contrainte: Nombre de fois qu’une même propriété peut être satisfaite Terme t : Disponibilité w rangDeb, rangFin Ensemble de traits Propriété P : Arité : [1;∞] Satisfaction : Disponibilité d(w1, warité) Satisfaisabilité s(t1, tarité) Cardinalité : [0;∞] Capacité : [0;∞]

Spécification sémantique des GPs Obligation Symbole + Arité 1 Satisfaction d(w1)=w1 et s(t1)=vrai Cardinalité [1; ∞] Capacité [0;1] Unicité Symbole 1 Arité 1 Satisfaction d(w1)=w1 et s(t1)=vrai Cardinalité [0; ∞] Capacité [0;1] Linéarité Symbole << Arité 2 Satisfaction d(w1, w2)= w1  w2 s(t1, t2)= t1.fin < t2.debut Cardinalité [0; ∞] Capacité [0; ∞] Dépendance Symbole ~~ Arité 2 Satisfaction d(w1, w2)= w1  w2 s(t1, t2)= t1.trait < t2.trait Cardinalité [0; ∞] Capacité [0; ∞] Exigence Symbole => Arité 2 Satisfaction d(w1, w2)= w1 s(t1, t2)= 1  2 Cardinalité [0; ∞] Capacité [0; ∞] Exclusion Symbole # Arité 2 Satisfaction d(w1, w2)= w1 s(t1, t2)= 1  ¬2 Cardinalité [0; ∞] Capacité [0; ∞]

Spécification Sémantique + Grammaire  Caractérisation Modèle de graphes Spécification Sémantique + Grammaire  Caractérisation

Hypergraphe permettant l’analyse Modèle de graphes Hypergraphe permettant l’analyse

Modèle de graphes

Densité de satisfaction Mesure de contrôle Densité de satisfaction Intérêt: Contrôler le nombre de contraintes satisfaites et non satisfaites Mesurer la qualité d’une caractérisation et d’une construction Établir un seuil de filtrage Elle est évaluée et propagée dans le graphe de caractérisation Densité de satisfaction locale (DSL) Qualité immédiate d’une caractérisation Densité de satisfaction propagée ( DSP ): - Qualité historique d’une caractérisation

Mesure de contrôle propriétés catégories

Exemple DSP = 0.71 DSL = 0.8 DSL = 0.5 DSP= 0.46 DSP = 0.83 DSL = 0.83 Nom [Commun,F é m., Sing.] D terminant [Masc., Sing.] peinture le Input Étiquetage Obligation DSL=1.0 DSP=1.0 Unicit Lin arit pendance DSL=0.5 DSP=0.5 Exigence + => ~~ Nombre Genre << 1 SN [F DSL=0.83 /DSP=0.83 Verbe [ind.,pr s.,3p.,Plur.] s è chent SV [ - , Plur.] DSL=1.0 /DSP=1.0 DSP=.83 DSP=.92 Phrase DSL=0.8 / DSP=0.718 DSP=0.46 Types de propriété Catégories Propriétés Niveau 1 Niveau 2 DSP = 0.71 DSL = 0.8 DSL = 0.5 DSP= 0.46 DSP = 0.83 DSL = 0.83 DSP = 1 DSL = 1 DSL = 0.5 DSP = 0.5

Implantation

Architecture Manutention Expériences Linguistiques Applications TALN LPL-Suite Plateforme Accolade SeedParser Deep parser Shallow Parser Chunker Module Segmenteur Module Etiqueteur N-Grammes Module Analyseur Grammaire Module Dictionnaire Lexique Boite à outils : Fréquenceur, Phonétiseur, Apprentissage, Formatage. Formats DTD + XML Textes

Algorithmes d’analyse dans SeedParser Préanalyse 1. Pour chaque item de l’input 1.a. Créer une instance de nœud catégoriel associée à une arborescence de traits 1.b. Attribuer un numéro de rang à ce nœud Caractérisation Choisir une souche de caractérisation SC Tant qu’une création de nœuds est possible 2.a. Pour chaque élément E de la souche 2.a.i Évaluer les propriétés P liées à E 2.a.ii Si P  (P+  P-), instancier P

Algorithmes d’analyse dans SeedParser Projection Choisir une souche de projection SP Tant qu’une création de nœuds catégoriels a lieu 2.a Pour chaque catégorie C de la grammaire 2.a.i Construire un graphe prototype C’ 2.a.ii Pour tout sous-ensemble cohérent S de SP - Si S satisfait les propriétés de C Et si S supporte les seuils de densité Alors - créer une instance C’’ de C’ - connecter C’’ à la caractérisation Déterminisation en fin d’analyse Lister toutes les catégories en conflit {cliques} Dans chaque clique C 2.a Chercher un ensemble de catégories E qui maximise la somme des densités de satisfaction 2.b Supprimer les autres catégories de la clique Déterminisation temps réel

Accolade {GUI de LPLSuite} Modules et ressources dictionnaire lexique - étiqueteur et analyseurs spécification des GPs GPs Analyse syntaxique pas à pas / par lot paramétrage temps réel expérimentation

Évaluation

Complexité des analyseurs Chunker C(Nmots)= k x Nmots Shallow parser C(Nmots)= k x C x N2mots Conclusions Polynomialité des traitements: [Vashtisht03] Les phrases structurées guident l’analyse. - Grande constante multiplicative: Réductible par précompilation de la spécification sémantique Deep parser C(Nmots)= k x C x N2,4mots Seed parser C(Nmots)= k x C x N2,3mots

Qualité des analyseurs Sans ressources de référence - multiplexage de plusieurs analyseurs amélioration empirique des grammaires correction des analyseurs paramètres texte Texte analysé parser parseur Texte analysé Multiplexeur Autres données -erreurs -statistiques

Qualité des analyseurs Avec références Parseurs dans la campagne d’évaluation EASY: 14 participants 1 Million de mots à analyser 1 référence annotée manuellement Plusieurs scores par participant Précision / Rappel / Fmesure Correspondance à la référence stricte ou Floue (1) Fmesure(Shallow Parser) = 79.7 % Fmesure(Deep Parser) = 85.9 % Fmesure(Seed Parser) = 82.5 % Moyenne des scores par catégorie de Fmesure floue

Qualité des analyseurs Deep Parser Shallow Parser Seed Parser

Qualité des analyseurs Deep parser Seed parser Shallow parser

lexique  étiquetage  analyse Interprétation Remarques Influence de la chaîne de traitement lexique  étiquetage  analyse Différences de grammaires entre les parseurs Différents processus de déterminisation Comment évaluer la référence ? ex: Vp vs Adj Améliorations possibles Réapprentissage pour l’étiqueteur Correction des grammaires Meilleur choix des seuils de densité Évaluer les analyses ambiguës

Conclusion

ambiguïté / déterminisme Expressivité Robustesse Profondeur de l’analyse plate / emboîtée Diversité de l’analyse ambiguïté / déterminisme Diversité interprétative Multi grammaticalité Multi modalité Tolérance à l’agrammaticalité Informativité préservée Modèle théorique Grammaires de Propriétés Spécification sémantique Représentation (graphes) Implantation Programmation Objet Mécanismes de contrôle DTD + XML déterminisation Modularité Réflexivité Processus redéfinissables Spécifications hors logiciel Généricité des formats Système auto adaptable Décisions révisables autodétermination

perspectives Granularité variable: Améliorations possibles - Formaliser et implanter le processus d’autodétermination Approfondissement d’analyse en contexte Automatique Paramétrable Améliorations possibles Lexique / Dictionnaire Étiquetage, grammaires et analyseurs  EASY Complexité Compilation des spécifications sémantiques Optimisation des algorithmes Corrélations linguistique / cognition Importance relative des propriétés / justification cognitive? Poids sur les contraintes

Fin

Annexes Application à la synthèse vocale Application à la communication assistée Précisions sur la spécification des GPs Contraintes et propriétés vs CSP Détails d’analyse Autodétermination Multi grammaticalité / Multi modalité Remarques Générales

Syntaix (1996) [Di Cristo] MBRola Texte Signal Pho. Voix (diphones) Règles Module Phonétiseur Module Prosodique Règles Lexique Module Segmenteur N-Grammes Module Etiqueteur Grammaire Module Chunker Module Métrique

Syntaix (2005) MBRola Voix (diphones) Texte Signal Pho. Syntaix GUI Module Segmenteur Boite à outils: … Phonétiseur … LPL-Suite Analyseur Grammaire Etiqueteur N-Grammes Dictionnaire Lexique Syntaix (2005) Module Prosodique Module Métrique Règles

Plateforme de Communication Alternative PCA Plateforme de Communication Alternative Prédiction d’un mot à partir de ses premières lettres et du contexte courant Reformulation textuelle à partir d’icônes

Précisions sur la spécification des GPs Cardinalité de la propriété (non) disponibilité des élément décrits Capacité d’une propriété Propriété Exemples dans un SN Obligation Oblig(N) Oblig(Pro) Le chat / *Le chat chat Unicité Uniq(Det) *Le le chat Exigence Exig(N[com],Det) *Chat / Paul Exclusion Excl(GA, Sup) *le plus bien Linéarité Lin(Det,N) *Chat le Dépendance Dep(Det.genre,N.genre) Dep(Det.nombre,N.nombre) Dep(Det.X,N.X) *Le chaise / La chaises Le chaise / *La chaises *Le chaise / *La chaises Rang des éléments Accords de traits

Résolution de contraintes avec les GPs Algorithme de SeedParser vs Moteur CSP Un CSP généraliste résout des clauses Littéraux, logique binaire, non arithmétiques Reprogrammer un CSP spécifique aux GPs ? Introduire une mesure variable de la satisfaisabilité Arithmétiser les contraintes Traiter la reconnaissance de traits hors satisfaction de contraintes Traçabilité des caractérisations ? Introduire une représentation sous forme de graphe par ex. Autres algorithmes - Deep Parser (arcs couvrants) - Grammaires précompilées et shallow parsers (coins-gauches/droits) Versions Prolog / CHR SGBDR

Détails d’analyse

faire apparaître une information minimale Autodétermination Définir des critères de déclenchement Dans des contextes trop interprétables résorber l’ambiguïté Dans des contextes trop agrammaticaux faire apparaître une information minimale La mesure de contrôle sera la densité de satisfaction Définir un processus de révision de décisions - Itérations convergentes - Mesure / Filtre Passe Haut / Filtre Passe Bas

Multigrammaticalité et multimodalité Annotation Morphosyntaxique prosodique Phonétique gestuelle pragmatique Sémantique Grammaire Syntaxique 1 Grammaire Syntaxique 2 Grammaire Sémantique GPs + spécification sémantique + modèle de graphes Possibilité de faire coexister plusieurs spécifications sémantiques Possibilité de faire cohabiter plusieurs grammaires en une seule Interaction inter-grammaticale possible avec un marquage des grammaires (grammaires colorées) Conflits au sein d’une même couleur Collaboration entre couleurs Grammaire Syntaxique 3 Grammaire Syntactico-sémantique Mimogestuel Prosodie Pragmatique Sémantique Syntaxe

Remarques générales Quels nouveaux types de propriétés sont spécifiables ? Facultativité Interdiction Contiguïté Relations ternaires (coordination, apposition, etc.) Quels types de propriétés ne peuvent être définis ? - Contraintes lexicales Contraintes de constituance indirecte Certaines propriétés sont explosives - Contraintes lacunaires (¬X) Contraintes trop satisfiables Caractérisation puis projection ?