Vers une analyse syntaxique à granularité variable Tristan Van rullen Vers une analyse syntaxique à granularité variable Tristan Van rullen. Laboratoire Parole et Langage, UMR 6057 CNRS Univ. de Provence, 29 Av. R. Schuman 13621 Aix-en-Provence, France tristan.vanrullen@lpl.univ-aix.fr
Analyse syntaxique Vous avez dit granularité ? Une réponse avec les Grammaires de propriétés Techniques d’analyse et granularités différentes Sélection de granularité entre techniques d’analyse
Les problèmes de granularité Texte Texte découpé en mots étiquetés grammaticalement. Texte découpé en blocs syntaxiques Tokenisation, tagger Analyser, parser, chunker L’analyse syntaxique dans les traitements automatiques des langues naturelles
L’analyse syntaxique automatique: Un contexte pour la réaliser: Théorie syntaxique Choix déterministes ou non Choix d’une technique Des variables mesurables pour l’évaluer Couverture Efficacité Qualité Complexité
Texte quelconque L’analyse syntaxique: approches courantes et domaines d’ application différentes exigences selon l’application Texte scientifique. Texte littéraire. Textes normatifs. Textes spécifiques. Texte journalistique. Proportion d’informations extraites du texte analysé. Analyse stricte Analyse superficielle Analyse statistique Règles Grammaticales. Corpus d’ apprentissage Règles versus apprentissage
L’analyse syntaxique : quel cadre épistémologique? Ouvrons le sens Choisir une axiomatique Rester libre de la théorie Syntaxe = découpage d’un texte en groupes dotés d’une catégorie
L’analyse syntaxique : notre problème? comment développer un outil d’analyse tantôt superficiel, tantôt profond et pouvant intégrer plusieurs interprétations pour une même entrée? réaliser une analyse plus ou moins profonde en fonction du contexte gérer des interprétations concurrentes pour un même texte (par ex. un contour syntaxique et un contour prosodique) Analyse à granularité variable Sélection de granularité entre techniques
L’analyse syntaxique : quels autres problèmes? Ne pas perdre de vue: Le fait que nous mettons vis à vis des traitements informatiques et des théories linguistiques exigence de rapidité versus complexité des solutions théoriques Le fait que nous devons pouvoir évaluer les techniques Qu’est-ce qu’évaluer un analyseur?
Evaluation: un carrefour pour les analyseurs Pas de grand corpus de référence en Français Evaluation subjective Evaluation automatique? Empirique toujours semi-automatique
Les Grammaires de Propriétés Description Obligation Ensemble de catégories obligatoires et uniques Unicité Ensemble de catégories devant être uniques Exigence Ensembles de catégories dont la cooccurence est obligatoire Exclusion Ensembles de catégories dont la cooccurence est exclue Linéarité Précédence linéaire entre catégories Dépendance Relation de dépendance entre catégories
Les Grammaires de Propriétés Exemples Obligation Oblig = {N, AP, Pro} Unicité Uniq = {Det, Sup, AP[card], AP[card], PP, Pro, Rel} Exigence N[com] Det Compl N Exclusion AP Sup N Pro Pro AP AP[card] Det[ind] Linéarité Det<N Det<AP N<PP N<Sup N*<N Sup<PP N<Rel N<Compl Dépendance Det N AP N Sup N PP N Rel N
Granularité (1) Différents analyseurs = différentes granularités analyseurs de surface Rapides mais pauvres Analyseurs superficiels symboliques Parenthésage amélioré Analyseurs profonds Information riche / domaine specifique
Un analyseur de surface: Chink/Chunk (A1) Granularité (2) Un analyseur de surface: Chink/Chunk (A1) function words / mots outils [La célébration] [du dixième anniversaire] [de la mort] [de Max] [Pol Fouchet va commencer] [par un colloque universitaire] … La célébration du dixième anniversaire de la mort de Max Pol Fouchet va commencer par un colloque universitaire …
Complexité(A1)=M*Nm*k Instructions / nombre de mots Pour Chink/Chunk (échelle logarithmique)
Granularité (3) Un analyseur superficiel basé sur les Grammaires de propriétés (A2) une grammaire précompilée avec coins gauches, coins droits et constituents. La célébration de le dixième anniversaire de la mort de Max Pol Fouchet va commencer … [(P) [(NP)La célébration] [(PP)de [(NP)le[(AP)dixième]anniversaire]][(PP)de [(NP)la mort]] [(PP)de Max Pol Fouchet] [(VP)va commencer]…
complexité(A2)= M*C*(Nm²+Nm)*k Instructions / nombre de mots Pour A2 (échelle logarithmique)
Granularité (4) Un analyseur superficiel basé sur les Grammaires de propriétés(A3) coins gauches et vérification dynamique des propriétés La célébration de le dixième anniversaire de la mort de Max Pol Fouchet va commencer … [(P) [(NP)La celebration [(PP)de [(NP)le[(AP)dixième]]]] [(NP)anniversaire [(PP)de [(NP)la mort [(PP)de [(NP)Max Pol Fouchet]]]]] [(VP)va commencer …
Granularité (5) Un analyseur profond basé sur les Grammaires de Propriétés (A4) Toutes les propriétés sont vérifiées dynamiquement. La célébration de le dixième anniversaire de la mort de Max Pol Fouchet va commencer … [(P) [(NP)La célébration [(PP)de [(NP)le [(AP)dixième]]]] [(NP)anniversaire [(PP)de [(NP)la mort [(PP)de[(NP)Max Pol Fouchet]]]]] [(VP)va commencer …
complexité(A4)=k*(Nm2.4) Instructions / nombre de mots Pour A4 (échelle logarithmique)
Et l’évaluation? (1) Un multiplexeur pour les bornes Opérateurs d’ensemble entre des ensembles de frontières Pondération sur les analyseurs et les catégories Une évaluation dénote l’importance relative d’une technique par rapport à une autre Une évaluation est une sélection entre techniques
Et l’évaluation?(2) un multipleur est un évaluateur Tagged text parser Bracketed text parser Bracketed text Evaluater or Multiplexer parameters Other data -errors -statistics
Experiences (1) Deux expériences. 13236 phrases extraites du journal français 2 types d’étiquetage Les experts (CLIF) Le programme (WinBRILL) Un simple multiplexeur Intersections Poids toujours à 1.
Experiences(2) 1ère experience Les analyseurs sont-ils sensibles à l’étiquetage? Tagged text Bracketed text parser
Experiences(3) = 1ère expérience (2x4)²=64 Trop d’information tue l’information Tester deux analyseurs (A1 and A2) est suffisant pour démontrer l’importance de l’étiquetage. =
Resultats (1): 1ère Experience
Resultats (2): 1ère Experience
Conclusions (1) l’étiquetage automatique (POS tagging) donne des résultats pertinents pour la notion de frontière par rapport à un étiquetage expert. Les algorithmes sont sensibles à la qualité de l’étiquetage.
Experiences (4) Seconde Expérience les frontières communes nous informent-elles sur l’importance relative des analyseurs testés? Catégories syntaxiques Pertes de données Taille et pertinence des ‘chunks’
Experiences(5) 2ème expérience: A2, A3 et A4 sont testés = traiter des données hiérarchiques plus de fichiers sont évalués =
Resultats (1): 2ème Experience
Resultats (1): 2ème Experience
Conclusions (2) Les frontières communes nous informent sur l’originalité ou le conformisme des analyseurs les unes par rapport aux autres. La connaissance de ce que fait chaque analyseur (catégories reconnues, erreurs typiques, etc…) nous permet de paramétrer les opérateurs ensemblistes du multiplexeur ainsi que les poids associés à chacun d’entre eux..
Conclusions et perspectives (1) Nous pouvons imaginer de combiner les sorties de différents analyseurs pour améliorer l’analyse générale, affiner ou simplifier les informations en fonction du contexte: le multiplexeur réalise la sélection de granularité entre techniques.
Conclusions et perspectives (2) Les frontières communes détectées entre deux analyses éliminent les blocs malformés ainsi que les moins remarquables. Par la même occasion, la taille des blocs augmente sans perdre les informations linguistiques fournies par chaque type d’analyse.
Conclusions et perspectives (3) Enfin, Nous avons défini et approché deux sortes d’analyse syntaxique à plusieurs niveaux de granularité. Des tests sont en préparation pour une mise en concurrence des groupes syntaxiques avec des groupes prosodiques et des groupes sémantiques, toujours à l’aide des Grammaires de propriétés.