Vers une analyse syntaxique à granularité variable Tristan Van rullen

Slides:



Advertisements
Présentations similaires
Rencontre avec… DICTIONNAIRES EN LIGNE ET OUTILS DE TRADUCTION
Advertisements

Implémentation de la gestion de réseau dans Windows 2000 et plus
Yann Chevaleyre et Jean-Daniel Zucker
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Système formel Nous avons introduit : signes de variables (x, y, z, …), de constantes (0, 1), d’opérations (+, ), de relations (=, ) Axiomes : ce sont.
Chap 1 Grammaires et dérivations.
Pour un système formel de description linguistique
La base textuelle FRANTEXT
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Apprentissages scolaires
La communication de ce document est soumise à autorisation de France Télécom R&D (Nom du fichier) - D1 - 01/03/2000 France Télécom R&D Énoncé Représentation.
Représentations des objectifs à atteindre dans l’apprentissage des langues: processus qualifiant et compétences plurilingues Patrick Chardenet Maître de.
SOCLE COMMUN LIRE ET COMPRENDRE
Quelques exemples de modules pédagogiques à lusage des classes prépa Colloque E prep Sophia Antipolis 6-7 mai 2002.
Vers des composants TAL réutilisables
Reconnaissance Vocale
Rappels de logique des prédicats du 1er ordre
LIN 1750 DGD 11 Prosodie.
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
Démonstrateur Lingway
La résolution de la référence et son évaluation: un Atelier de Traitement de la Référence mettant en œuvre les « représentations mentales » Andrei Popescu-BelisISSCO,
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Forum des Industries de la Langue, 17 mars 2010
Chapitre 2 La description du langage
VOUS ALLEZ ASSISTER A UNE DEMONSTRATION DU FONCTIONNEMENT DE LA BASE DE DONNEES DIPOUEST OUBLIEZ SOURIS ET CLAVIER ET LAISSEZ-VOUS GUIDER.
Le projet de terminologie
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
1. Orientation Fin de 3ème Orientation Fin de 3ème 2.
Jacques Nicolas INRIA /IRISA Rennes
MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS
Marie-Françoise Bourdeau 29 novembre 2007
TRAITEMENT INSTRUMENTÉ DE CORPUS
L'application Social Buddies Powered by V2.5 ( )
1 OpenCom 1000 OpenAttendant 500 Répartition automatique intégrée des appels dans l'OpenCom 1000.
2.1 Le sujet et la question de recherche
OBJETS ET MÉTHODES DE RECHERCHE EN DIDACTIQUE DES LANGUES-CULTURES
Labov, (2001) Les linguistes s'accordent à penser que nous étudions la structure générale du langage, et non la compilation de faits particuliers sur.
Atelier de l’évaluation n°3 Hébergé grâce à l’appui de l’Institut BEI Le 17 mars SOLEP atelier n°3 17 mars 2014 SOLEP.
Y a t-il une vie avant SI et CIT ?
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
L’enseignement des compétences grammaticales
Processus de conception architecturale 2
Démo animée de l’utilisation de l’outil d’autoévaluation. Familiarisez vous avec l’interface et les différentes fonctions de l’application en ligne. (Cliquez.
Le formalisme utilisé pour Lexical Functional Grammar Lionel Clément Signes - Labri Mosaïque 1er décembre 2006.
Architecture et modularité du modèle L'exemple de GUST et des grammaires de correspondance polarisées Sylvain Kahane Modyco, Université Paris.
Bordeaux - Juin HAL – Le contenu / Les acteurs
PRESENTATION DE L’ATELIER : EXPOSE SUR MON PAYS D’ORIGINE
François Macary : chair HL7 France cochair IHE Laboratory Committee
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Approches Formelles en Systèmes d'information
Human Knowledge La nouvelle génération de moteurs sémantiques.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Théories, formalismes, modèles Sylvain Kahane Modyco, Université Paris 10 - Nanterre Mosaïque, Paris, 1/12/2006.
Probabilités et Statistiques
7 mai André Revuz 1 Situations fondamentales et curriculums Guy Brousseau.
Master 2 COGNITION LANGAGE EMOTIONS, Spécialité CLE Responsable : Pr.F.Labrell Laboratoire d’adossement : CLEA (Cognition, Langage, Emotions et Acquisitions)
Côté descriptifCôté formelPropositionCôté informatiqueConclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université.
Introduction et Généralités sur l’Algorithmique
Du discours aux modèles… Une tentative d’articulation
Vers une analyse syntaxique à granularité variable Thèse présentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille.
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Synthèse de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage
TEXT MINING Fouille de textes
Didactique(s) Introduction La didactique du français: un exemple parmi d’autres didactiques.
Le Traitement Automatique des Langues (TAL)
Approche de tutorat par niveaux Préparation aux rédactions littéraires Julie Beauchemin en collaboration avec Dominique Lemay.
Règles d’or à suivre en rédaction
Sciences du langage et de la communication Responsable du pilier : Corinne Rossari Professeure de linguistique française Présentation : Tobias von Waldkirch.
Personnalisation de l’apprentissage des langues en ligne Marie-Noëlle Godin Conceptrice pédagogique.
Transcription de la présentation:

Vers une analyse syntaxique à granularité variable Tristan Van rullen Vers une analyse syntaxique à granularité variable Tristan Van rullen. Laboratoire Parole et Langage, UMR 6057 CNRS Univ. de Provence, 29 Av. R. Schuman 13621 Aix-en-Provence, France tristan.vanrullen@lpl.univ-aix.fr

Analyse syntaxique Vous avez dit granularité ? Une réponse avec les Grammaires de propriétés Techniques d’analyse et granularités différentes Sélection de granularité entre techniques d’analyse

Les problèmes de granularité Texte Texte découpé en mots étiquetés grammaticalement. Texte découpé en blocs syntaxiques Tokenisation, tagger Analyser, parser, chunker L’analyse syntaxique dans les traitements automatiques des langues naturelles

L’analyse syntaxique automatique: Un contexte pour la réaliser: Théorie syntaxique Choix déterministes ou non Choix d’une technique Des variables mesurables pour l’évaluer Couverture Efficacité Qualité Complexité

Texte quelconque L’analyse syntaxique: approches courantes et domaines d’ application différentes exigences selon l’application Texte scientifique. Texte littéraire. Textes normatifs. Textes spécifiques. Texte journalistique. Proportion d’informations extraites du texte analysé. Analyse stricte Analyse superficielle Analyse statistique Règles Grammaticales. Corpus d’ apprentissage Règles versus apprentissage

L’analyse syntaxique : quel cadre épistémologique? Ouvrons le sens Choisir une axiomatique Rester libre de la théorie Syntaxe = découpage d’un texte en groupes dotés d’une catégorie

L’analyse syntaxique : notre problème? comment développer un outil d’analyse tantôt superficiel, tantôt profond et pouvant intégrer plusieurs interprétations pour une même entrée? réaliser une analyse plus ou moins profonde en fonction du contexte gérer des interprétations concurrentes pour un même texte (par ex. un contour syntaxique et un contour prosodique)   Analyse à granularité variable Sélection de granularité entre techniques

L’analyse syntaxique : quels autres problèmes? Ne pas perdre de vue: Le fait que nous mettons vis à vis des traitements informatiques et des théories linguistiques exigence de rapidité versus complexité des solutions théoriques Le fait que nous devons pouvoir évaluer les techniques Qu’est-ce qu’évaluer un analyseur?

Evaluation: un carrefour pour les analyseurs Pas de grand corpus de référence en Français Evaluation subjective Evaluation automatique? Empirique toujours semi-automatique

Les Grammaires de Propriétés Description Obligation Ensemble de catégories obligatoires et uniques Unicité Ensemble de catégories devant être uniques Exigence Ensembles de catégories dont la cooccurence est obligatoire Exclusion Ensembles de catégories dont la cooccurence est exclue Linéarité Précédence linéaire entre catégories Dépendance Relation de dépendance entre catégories

Les Grammaires de Propriétés Exemples Obligation Oblig = {N, AP, Pro} Unicité Uniq = {Det, Sup, AP[card], AP[card], PP, Pro, Rel} Exigence N[com]  Det Compl  N Exclusion AP  Sup N Pro Pro AP AP[card]  Det[ind] Linéarité Det<N Det<AP N<PP N<Sup N*<N Sup<PP N<Rel N<Compl Dépendance Det N AP N Sup N PP N Rel N

Granularité (1) Différents analyseurs = différentes granularités analyseurs de surface Rapides mais pauvres Analyseurs superficiels symboliques Parenthésage amélioré Analyseurs profonds Information riche / domaine specifique

Un analyseur de surface: Chink/Chunk (A1) Granularité (2) Un analyseur de surface: Chink/Chunk (A1) function words / mots outils [La célébration] [du dixième anniversaire] [de la mort] [de Max] [Pol Fouchet va commencer] [par un colloque universitaire] … La célébration du dixième anniversaire de la mort de Max Pol Fouchet va commencer par un colloque universitaire …

Complexité(A1)=M*Nm*k Instructions / nombre de mots Pour Chink/Chunk (échelle logarithmique)

Granularité (3) Un analyseur superficiel basé sur les Grammaires de propriétés (A2) une grammaire précompilée avec coins gauches, coins droits et constituents. La célébration de le dixième anniversaire de la mort de Max Pol Fouchet va commencer … [(P) [(NP)La célébration] [(PP)de [(NP)le[(AP)dixième]anniversaire]][(PP)de [(NP)la mort]] [(PP)de Max Pol Fouchet] [(VP)va commencer]…

complexité(A2)= M*C*(Nm²+Nm)*k Instructions / nombre de mots Pour A2 (échelle logarithmique)

Granularité (4) Un analyseur superficiel basé sur les Grammaires de propriétés(A3) coins gauches et vérification dynamique des propriétés La célébration de le dixième anniversaire de la mort de Max Pol Fouchet va commencer … [(P) [(NP)La celebration [(PP)de [(NP)le[(AP)dixième]]]] [(NP)anniversaire [(PP)de [(NP)la mort [(PP)de [(NP)Max Pol Fouchet]]]]] [(VP)va commencer …

Granularité (5) Un analyseur profond basé sur les Grammaires de Propriétés (A4) Toutes les propriétés sont vérifiées dynamiquement. La célébration de le dixième anniversaire de la mort de Max Pol Fouchet va commencer … [(P) [(NP)La célébration [(PP)de [(NP)le [(AP)dixième]]]] [(NP)anniversaire [(PP)de [(NP)la mort [(PP)de[(NP)Max Pol Fouchet]]]]] [(VP)va commencer …

complexité(A4)=k*(Nm2.4) Instructions / nombre de mots Pour A4 (échelle logarithmique)

Et l’évaluation? (1) Un multiplexeur pour les bornes Opérateurs d’ensemble entre des ensembles de frontières Pondération sur les analyseurs et les catégories Une évaluation dénote l’importance relative d’une technique par rapport à une autre Une évaluation est une sélection entre techniques

Et l’évaluation?(2) un multipleur est un évaluateur Tagged text parser Bracketed text parser Bracketed text Evaluater or Multiplexer parameters Other data -errors -statistics

Experiences (1) Deux expériences. 13236 phrases extraites du journal français 2 types d’étiquetage Les experts (CLIF) Le programme (WinBRILL) Un simple multiplexeur Intersections Poids toujours à 1.

Experiences(2) 1ère experience Les analyseurs sont-ils sensibles à l’étiquetage? Tagged text Bracketed text parser

Experiences(3)  = 1ère expérience (2x4)²=64 Trop d’information tue l’information Tester deux analyseurs (A1 and A2) est suffisant pour démontrer l’importance de l’étiquetage.  =

Resultats (1): 1ère Experience

Resultats (2): 1ère Experience

Conclusions (1) l’étiquetage automatique (POS tagging) donne des résultats pertinents pour la notion de frontière par rapport à un étiquetage expert. Les algorithmes sont sensibles à la qualité de l’étiquetage.

Experiences (4) Seconde Expérience les frontières communes nous informent-elles sur l’importance relative des analyseurs testés? Catégories syntaxiques Pertes de données Taille et pertinence des ‘chunks’

Experiences(5) 2ème expérience: A2, A3 et A4 sont testés  = traiter des données hiérarchiques plus de fichiers sont évalués  =

Resultats (1): 2ème Experience

Resultats (1): 2ème Experience

Conclusions (2) Les frontières communes nous informent sur l’originalité ou le conformisme des analyseurs les unes par rapport aux autres. La connaissance de ce que fait chaque analyseur (catégories reconnues, erreurs typiques, etc…) nous permet de paramétrer les opérateurs ensemblistes du multiplexeur ainsi que les poids associés à chacun d’entre eux..

Conclusions et perspectives (1) Nous pouvons imaginer de combiner les sorties de différents analyseurs pour améliorer l’analyse générale, affiner ou simplifier les informations en fonction du contexte: le multiplexeur réalise la sélection de granularité entre techniques.

Conclusions et perspectives (2) Les frontières communes détectées entre deux analyses éliminent les blocs malformés ainsi que les moins remarquables. Par la même occasion, la taille des blocs augmente sans perdre les informations linguistiques fournies par chaque type d’analyse.

Conclusions et perspectives (3) Enfin, Nous avons défini et approché deux sortes d’analyse syntaxique à plusieurs niveaux de granularité. Des tests sont en préparation pour une mise en concurrence des groupes syntaxiques avec des groupes prosodiques et des groupes sémantiques, toujours à l’aide des Grammaires de propriétés.