La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Vers une analyse syntaxique à granularité variable Tristan Van rullen

Présentations similaires


Présentation au sujet: "Vers une analyse syntaxique à granularité variable Tristan Van rullen"— Transcription de la présentation:

1 Vers une analyse syntaxique à granularité variable Tristan Van rullen
Vers une analyse syntaxique à granularité variable Tristan Van rullen. Laboratoire Parole et Langage, UMR 6057 CNRS Univ. de Provence, 29 Av. R. Schuman Aix-en-Provence, France

2 Analyse syntaxique Vous avez dit granularité ?
Une réponse avec les Grammaires de propriétés Techniques d’analyse et granularités différentes Sélection de granularité entre techniques d’analyse

3 Les problèmes de granularité
Texte Texte découpé en mots étiquetés grammaticalement. Texte découpé en blocs syntaxiques Tokenisation, tagger Analyser, parser, chunker L’analyse syntaxique dans les traitements automatiques des langues naturelles

4 L’analyse syntaxique automatique:
Un contexte pour la réaliser: Théorie syntaxique Choix déterministes ou non Choix d’une technique Des variables mesurables pour l’évaluer Couverture Efficacité Qualité Complexité

5 Texte quelconque L’analyse syntaxique: approches courantes et domaines d’ application différentes exigences selon l’application Texte scientifique. Texte littéraire. Textes normatifs. Textes spécifiques. Texte journalistique. Proportion d’informations extraites du texte analysé. Analyse stricte Analyse superficielle Analyse statistique Règles Grammaticales. Corpus d’ apprentissage Règles versus apprentissage

6 L’analyse syntaxique : quel cadre épistémologique?
Ouvrons le sens Choisir une axiomatique Rester libre de la théorie Syntaxe = découpage d’un texte en groupes dotés d’une catégorie

7 L’analyse syntaxique : notre problème?
comment développer un outil d’analyse tantôt superficiel, tantôt profond et pouvant intégrer plusieurs interprétations pour une même entrée? réaliser une analyse plus ou moins profonde en fonction du contexte gérer des interprétations concurrentes pour un même texte (par ex. un contour syntaxique et un contour prosodique)   Analyse à granularité variable Sélection de granularité entre techniques

8 L’analyse syntaxique : quels autres problèmes?
Ne pas perdre de vue: Le fait que nous mettons vis à vis des traitements informatiques et des théories linguistiques exigence de rapidité versus complexité des solutions théoriques Le fait que nous devons pouvoir évaluer les techniques Qu’est-ce qu’évaluer un analyseur?

9 Evaluation: un carrefour pour les analyseurs
Pas de grand corpus de référence en Français Evaluation subjective Evaluation automatique? Empirique toujours semi-automatique

10 Les Grammaires de Propriétés
Description Obligation Ensemble de catégories obligatoires et uniques Unicité Ensemble de catégories devant être uniques Exigence Ensembles de catégories dont la cooccurence est obligatoire Exclusion Ensembles de catégories dont la cooccurence est exclue Linéarité Précédence linéaire entre catégories Dépendance Relation de dépendance entre catégories

11 Les Grammaires de Propriétés
Exemples Obligation Oblig = {N, AP, Pro} Unicité Uniq = {Det, Sup, AP[card], AP[card], PP, Pro, Rel} Exigence N[com]  Det Compl  N Exclusion AP  Sup N Pro Pro AP AP[card]  Det[ind] Linéarité Det<N Det<AP N<PP N<Sup N*<N Sup<PP N<Rel N<Compl Dépendance Det N AP N Sup N PP N Rel N

12 Granularité (1) Différents analyseurs = différentes granularités
analyseurs de surface Rapides mais pauvres Analyseurs superficiels symboliques Parenthésage amélioré Analyseurs profonds Information riche / domaine specifique

13 Un analyseur de surface: Chink/Chunk (A1)
Granularité (2) Un analyseur de surface: Chink/Chunk (A1) function words / mots outils [La célébration] [du dixième anniversaire] [de la mort] [de Max] [Pol Fouchet va commencer] [par un colloque universitaire] … La célébration du dixième anniversaire de la mort de Max Pol Fouchet va commencer par un colloque universitaire …

14 Complexité(A1)=M*Nm*k
Instructions / nombre de mots Pour Chink/Chunk (échelle logarithmique)

15 Granularité (3) Un analyseur superficiel basé sur les Grammaires de propriétés (A2) une grammaire précompilée avec coins gauches, coins droits et constituents. La célébration de le dixième anniversaire de la mort de Max Pol Fouchet va commencer … [(P) [(NP)La célébration] [(PP)de [(NP)le[(AP)dixième]anniversaire]][(PP)de [(NP)la mort]] [(PP)de Max Pol Fouchet] [(VP)va commencer]…

16 complexité(A2)= M*C*(Nm²+Nm)*k
Instructions / nombre de mots Pour A2 (échelle logarithmique)

17 Granularité (4) Un analyseur superficiel basé sur les Grammaires de propriétés(A3) coins gauches et vérification dynamique des propriétés La célébration de le dixième anniversaire de la mort de Max Pol Fouchet va commencer … [(P) [(NP)La celebration [(PP)de [(NP)le[(AP)dixième]]]] [(NP)anniversaire [(PP)de [(NP)la mort [(PP)de [(NP)Max Pol Fouchet]]]]] [(VP)va commencer …

18 Granularité (5) Un analyseur profond basé sur les Grammaires de Propriétés (A4) Toutes les propriétés sont vérifiées dynamiquement. La célébration de le dixième anniversaire de la mort de Max Pol Fouchet va commencer … [(P) [(NP)La célébration [(PP)de [(NP)le [(AP)dixième]]]] [(NP)anniversaire [(PP)de [(NP)la mort [(PP)de[(NP)Max Pol Fouchet]]]]] [(VP)va commencer …

19 complexité(A4)=k*(Nm2.4)
Instructions / nombre de mots Pour A4 (échelle logarithmique)

20 Et l’évaluation? (1) Un multiplexeur pour les bornes
Opérateurs d’ensemble entre des ensembles de frontières Pondération sur les analyseurs et les catégories Une évaluation dénote l’importance relative d’une technique par rapport à une autre Une évaluation est une sélection entre techniques

21 Et l’évaluation?(2) un multipleur est un évaluateur Tagged text parser
Bracketed text parser Bracketed text Evaluater or Multiplexer parameters Other data -errors -statistics

22 Experiences (1) Deux expériences.
13236 phrases extraites du journal français 2 types d’étiquetage Les experts (CLIF) Le programme (WinBRILL) Un simple multiplexeur Intersections Poids toujours à 1.

23 Experiences(2) 1ère experience
Les analyseurs sont-ils sensibles à l’étiquetage? Tagged text Bracketed text parser

24 Experiences(3)  = 1ère expérience (2x4)²=64
Trop d’information tue l’information Tester deux analyseurs (A1 and A2) est suffisant pour démontrer l’importance de l’étiquetage. =

25 Resultats (1): 1ère Experience

26 Resultats (2): 1ère Experience

27 Conclusions (1) l’étiquetage automatique (POS tagging) donne des résultats pertinents pour la notion de frontière par rapport à un étiquetage expert. Les algorithmes sont sensibles à la qualité de l’étiquetage.

28 Experiences (4) Seconde Expérience
les frontières communes nous informent-elles sur l’importance relative des analyseurs testés? Catégories syntaxiques Pertes de données Taille et pertinence des ‘chunks’

29 Experiences(5) 2ème expérience: A2, A3 et A4 sont testés  =
traiter des données hiérarchiques plus de fichiers sont évalués =

30 Resultats (1): 2ème Experience

31 Resultats (1): 2ème Experience

32 Conclusions (2) Les frontières communes nous informent sur l’originalité ou le conformisme des analyseurs les unes par rapport aux autres. La connaissance de ce que fait chaque analyseur (catégories reconnues, erreurs typiques, etc…) nous permet de paramétrer les opérateurs ensemblistes du multiplexeur ainsi que les poids associés à chacun d’entre eux..

33 Conclusions et perspectives (1)
Nous pouvons imaginer de combiner les sorties de différents analyseurs pour améliorer l’analyse générale, affiner ou simplifier les informations en fonction du contexte: le multiplexeur réalise la sélection de granularité entre techniques.

34 Conclusions et perspectives (2)
Les frontières communes détectées entre deux analyses éliminent les blocs malformés ainsi que les moins remarquables. Par la même occasion, la taille des blocs augmente sans perdre les informations linguistiques fournies par chaque type d’analyse.

35 Conclusions et perspectives (3)
Enfin, Nous avons défini et approché deux sortes d’analyse syntaxique à plusieurs niveaux de granularité. Des tests sont en préparation pour une mise en concurrence des groupes syntaxiques avec des groupes prosodiques et des groupes sémantiques, toujours à l’aide des Grammaires de propriétés.


Télécharger ppt "Vers une analyse syntaxique à granularité variable Tristan Van rullen"

Présentations similaires


Annonces Google