La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Présentations similaires


Présentation au sujet: "Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS "— Transcription de la présentation:

1 Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus
Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS Séminaire du groupe Langage et Cognition Orsay, 5 décembre 2000

2 Analyseurs robustes Caractéristiques générales :
analyse par étapes déterministes plutôt que globale et recursive resultats exploitables quelle que soit la ‘propreté’ du texte en entrée applications réelles approches diverses grammaires [Joshi 61] / statistiques [Church 88]

3 Fondements linguistiques
“Certains accessoires inappropiés modifient la position normale de pilotage.” Grammaires Syntagmatiques Noyau (chunks) [Certains accessoires]NP [inappropiés]AP [modifient]VP [la position]NP [normale]AP [de pilotage]PP. S O C A Certains accessoires inappropiés modifient la position normale de pilotage. Grammaires de Dépendances A A C C Systèmes Mixtes [Certains accessoires]NP [inappropiés]AP [modifient]VP [la position]NP [normale]AP [de pilotage]PP. SUBJ(accessoires,modifier) NADJ(accesoires, inappropiés) OBJ(modifier,position)

4 Quelques Analyseurs robustes
CASS (Abney, 91; 96) Fidditch (Hindle, 93); ENGCC (Karlsson et al. 95) ; FDG (Functional Dependency Grammar, Conexor, Tapanainen et Järvinen, 97); Sextant (Grefenstette, 94); Analyseur du GREYC (Giguet et Vergne, 97); IFSP (Aït-Mokhtar et Chanod, 97);

5 Plan de ce séminaire Problématique de la thèse
Architecture générale proposée: Reconfigurabilité Adaptabilité Un parseur modulaire Chunking (a) Grammaire noyau (b) Module de diagnostic (c) Grammaires spécialisées Dépendances Conclusions et perspectives

6 1. Problématique de la thèse
Texte “libre” en grandes quantités Grande variété de phénomènes Encodage de l’information formes appauvries (phrases dans des mails, titres “télégraphiques”…) formes enrichies (marques structurelles, marques pragmatiques…)

7 Variété et Hétérogénéité des corpus
Phénomènes “non standard” pour une grammaire : séquences linguistiques ou extralinguistiques non modelisées Présents dans les corpus de façon hétérogène: fréquents dans tous les domaines particuliers à un type de corpus .

8 Exemples de Phénomènes “non standard”
Télécoms : l'italien STET s'allie avec l'américain ATT (Les Echos) L’Ecole des hautes études en sciences sociales (EHESS, 54 boulevard Raspail, Paris 6) accueille du 28 janvier au 6 mars “Les images médiatiques et la ville” , une exposition comprenant timbres de France, d’Allemagne, d’Espagne et des pays de l’ex-bloc de l’Est. (Le Monde)

9 Autres Exemples “non standard”
Sur les modèles à partir de 1966 : 1 - Enlevez les caches plastiques (4) qui se trouvent sur le côté intérieur du tambour, 2 - Repérez les deux ouvertures qui permettent d'accéder aux molettes de réglage. (Manuel technique) oui là je malheureusement je / je peux vous le confirmer (Transcription de l’oral)

10 Problèmes actuels Ensemble de phénomènes “non standard”: pourcentage considérable dans les corpus. Les architectures des analyseurs actuels ne permettent pas une adaptation facile à des domaines différents. Analyse syntaxique input Grammaire output

11 2. Architecture Proposée
Réconfigurabilité (modularité) Adaptabilité (apprentissage)

12 Réconfigurabilité (modularité)
input Grammaire ‘noyau’ G0 Module de ‘diagnostic’ Grammaires spécialisées G1 G2 G3 Gn output

13 Adaptabilité (apprentissage)
input Ressources lexico-sém. Grammaire ‘noyau’ G0 Module apprentissage Module de ‘diagnostic’ Grammaires spécialisées G1 G2 G3 Gn Analyse préliminaire output

14 Récapitulatif sur l’architecture
Réconfigurabilité des grammaires en fonction du contenu des corpus (modularité: grammaire noyau et grammaires spécialisées) ; Adaptabilité du résultat par rapport à des structures déjà bien analysées (apprentissage).

15 3. Création d’un parseur modulaire
Entrée: texte étiquetté morphologiquement (tagged) Sortie: texte découpé en constituants avec liste de relations de dépendance pour chaque phrase

16 Moteur utilisé Parseur incrémental mixte Moteur écrit en C++
(S. Aït-Mokhtar, J.P. Chanod, C.Roux) Moteur écrit en C++ indépendant des règles de la grammaire expressions regulières améliorées avec traits Nous utilisons ce moteur pour créer notre propre… découpage en constituants (chunking) extraction de dépendances De façon modulaire

17 Vue d’ensemble du parseur
input Parseur Extraction de dépendances Chunking Traitements morphologiques output

18 3.1 Chunking Découpage en constituants
Approche modulaire linguistiquement motivée (prise en compte de la variété de phénomènes dans des corpus très différents) Trois étapes de traitement différentes faites par: un grammaire noyau un module de diagnostic des grammaires spécialisées

19 Vue d’ensemble du parseur
input Chunking Extraction de dépendances Traitements morphologiques g2 noyau diagnostic gn g1 output

20 (a) Grammaire Noyau Ensemble de règles de l’analyseur permettant
le découpage d’un corpus en constituants ; l’envoi de quelques phrases vers le module d’extraction de dépendances ; garantisant un taux de couverture minimale pour tout corpus (e.g. 25%); un rappel et une précision maximales quel que soit le type de corpus (e.g. plus que 90%).

21 Mesures couverture: phrases analysées correctement avec GN
total des phrases rappel: phrases ratées par GN précision: phrases analysées correctement phrases couvertes

22 Découpage en constituants
Méthode d’analyse (sur corpus étiquetté): marquage de segments de base NP AP PP FV IV GV marquage de segments additionnels selon la version de la grammaire BG SBC ANP PNP PFV S; marquage de phrases de premier niveau.

23 Méthode Découpage en segments de base:
“En dépit d’un désaccord persistant, les principaux acteurs politiques du pays ont donné leur feu vert à la réunion d’une conférence qui relancerait le processus démocratique.” [Le Monde] 22>PP{En NP{dépit}} PP{d' NP{un désaccord}} AP{persistant}, NP{les AP{principaux} acteurs} AP{politiques} PP{du NP{pays}} FV{ont donné} NP{leur feu} AP{vert} PP{à NP{la réunion}} PP{d' NP{une conférence}} qui FV{relancerait} NP{le processus} AP{démocratique}.

24 Méthode Découpage en segments additionnels
Marquage de phrases de premier niveau 22>S{ANP{PP{En NP{dépit}} PP{d' NP{un désaccord}} AP{persistant},} NP{les AP{principaux} acteurs} PNP{ AP{politiques} PP{du NP{pays}}} FV{ont donné} PFV{NP{leur feu} AP{vert} PP{à NP{la réunion}} PP{d' NP{une conférence}} SBC{BG{qui} FV{relancerait}} NP{le processus} AP{démocratique}}.}

25 Objectifs de la Grammaire Noyau
Analyser des phrases de premier niveau structures couvertes par la Grammaire Noyau quel que soit le type de corpus; Détecter des phrases de deuxième niveau pour lesquelles il faudra des modules d’analyse spécialisés.

26 Module de ‘diagnostic’
Architecture Module noyau input Chunking et Tri premier niveau deuxième niveau Modules spécialisés Module de ‘diagnostic’ Dépendances output

27 Versions Création de plusieurs versions de la grammaire
Moyen de contrôler la diversité de structures des corpus tout venant Chaque version plus riche que la précédente (admettant des structures plus complexes du point de vue de l’analyse syntaxique)

28 Versions Maintient d’un taux de précision et de rappel très élévés
Quand la précision et le rappel vont se dégrader de façon considérable par l’ajout de nouvelles règles dans la grammaire noyau, on aura atteint un seuil (limite entre premier et deuxième niveau) Les phrases analysées avec une précision faible auront besoin de traitements syntaxiques plus puissants

29 Versions Version Caractéristiques Longueur moyenne V1
0 ou 1 constituants dans PFV 6 mots/phrase V2 ANP et PNP (du NP sujet) 7 mots/phrase V3 2 constituants dans PFV 11 mots/phrase V4 n constituants dans PFV 15 mots/phrase V5 1 sbc et 1 virgule dans PNP et PFV 17 mots/phrase V6 2 sbc et 2 virgules dans PFV 18 mots/phrase V7 coordinations non ambiguës 19 mots/phrase

30 Evaluation Grammaire Noyau
Corpus de test: mots Corpus d’évaluation: mots Domaines: journaux (Le Monde, Libération) rapports scientifiques (chimie, physique, médecine) rapports juridiques manuels techniques (tracteur, moto, photocopieur) documents d’économie et finances

31 Résultats du chunking

32 Module de ‘diagnostic’
Rappel architecture Module noyau input Chunking et Tri premier niveau deuxième niveau Module de ‘diagnostic’ Modules spécialisés Dépendances output

33 (b) Module de diagnostic
Les phrases en entrée ont été partiellement découpées en constituants de base par le module noyau En raison de la présence de structures de deuxième niveau ce découpage peut être imprécis totalement erroné

34 Exemples d’analyse erroné
443>MAX{NP{SURVEILLANCE} NP{La surveillance} des apparentés PP{de NP{patients}} atteints PP{de NP{mélanome}} FV{est abordée} PFV{PP{dans NP{le chapitre}} NP{Prévention} AP{secondaire}} .}

35 Exemples d’analyse imprécis
176>MAX{NP{Le secteur} PNP{non structuré} FV{est formé} : - NP{des démarcheurs} ( NP{vendeurs} PP{de NP{rue}} et PP{de NP{marchés}} PP{aux NP{puces}} ) ;} 177>MAX{- NP{des clubs} et NP{des associations} (NP{groupements} PP{de NP{femmes}} , principalement ) ;} 178>MAX{- NP{des tavernes} ( PP{des NP{banlieues}} ) .}

36 Buts du module de diagnostic
détecter le ou les phénomène(s) syntaxiques complexes présents dans chaque phrase les orienter vers la grammaire spécialisée correspondante Module fondamental car les traitements syntaxiques suivants dépendent du diagnostic établi ici.

37 (c) Modules spécialisés
Chacun est dedié à l’analyse d’un phénomène spécifique ; Une même phrase peut être dirigée à plus d’un module si elle contient plus d’un phénomène ; Enumérations, coordinations ambiguës… Titres, listes…

38 Module de ‘diagnostic’
Rappel architecture input Chunking et Tri premier niveau deuxième niveau Module de ‘diagnostic’ Modules spécialisés Dépendances output

39 3.2 Extraction de dépendances
Relations syntaxiques entre les mots d’une phrase; Entrée: phrase découpée en constituants; Sortie: liste de dépendances pour chaque phrase; SUBJ(peuvent,accessoires) COMP_INF(peuvent,nuire) VPP(nuire,à,sécurité) NPP(sécurité,de,conduite) 344>MAX{S{NP{Des accessoires} PNP{mal installés ou mal conçus} FV{peuvent} PFV{IV{nuire} PP{à NP{la sécurité}} PP{de NP{conduite}}} .}}

40 Extraction de dépendances
SUBJ COMP VN VADJ VPP VAG VADV NN NPP NADJ ADJN Jean mange une pomme Jean mange une pomme Jean est pompier Jean est gentil Jean vient de Paris Jean est appellé par Paul Jean vient rapidement Jean Dupont est gentil Jean mange une pomme du jardin Jean mange une pomme verte Jean craint ses vieux ennemis

41 Evaluation des dépendances
…sur des phrases de premier niveau

42 Récapitulatif sur l’évaluation
Grammaire Noyau Couverture minimale = 20 % Rappel = entre 97 % et 100 % Précision segmentation = 91 % Précision moyenne des dépendances = 91,5 %

43 4. Conclusions Analyse syntaxique robuste
Approche modulaire et adaptative Modularité linguistiquement motivée: étude de la diversité de phénomènes syntaxiques sur des corpus tout venants Apprentissage symbolique: utilisation de structures analysées avec haute précision pour améliorer le resultat final.

44 … et perspectives Modularité
amélioration du module de diagnostic (en cours) définition de phénomènes de deuxième niveau création de modules spécialisés Adaptabilité -introduction de stratégie(s) d’apprentissage symbolique


Télécharger ppt "Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS "

Présentations similaires


Annonces Google