La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS.

Présentations similaires


Présentation au sujet: "Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS."— Transcription de la présentation:

1 Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS éminaire du groupe Langage et Cognition Séminaire du groupe Langage et Cognition Orsay, 5 décembre 2000 Orsay, 5 décembre 2000

2 Analyseurs robustes analyse par étapes déterministes plutôt que globale et recursive resultats exploitables resultats exploitables quelle que soit la propreté du texte en entrée -- applications réelles approches diverses approches diverses grammaires [Joshi 61] / statistiques [Church 88] Caractéristiques générales :

3 Fondements linguistiques Certains accessoires inappropiés modifient la position normale de pilotage. Certains accessoires inappropiés modifient la position normale de pilotage. Grammaires Syntagmatiques Noyau (chunks) Grammaires Syntagmatiques Noyau (chunks) Grammaires de Dépendances Grammaires de Dépendances Systèmes Mixtes Systèmes Mixtes [ Certains accessoires] NP [inappropiés] AP [modifient] VP [la position] NP [normale] AP [de pilotage] PP. Certains accessoires inappropiés modifient la position normale de pilotage. [Certains accessoires] NP [inappropiés] AP [modifient] VP [la position] NP [normale] AP [de pilotage] PP. SUBJ(accessoires,modifier) NADJ(accesoires, inappropiés) OBJ(modifier,position) C OS A A CC A

4 Quelques Analyseurs robustes CASS (Abney, 91; 96) Fidditch (Hindle, 93); Fidditch (Hindle, 93); ENGCC (Karlsson et al. 95) ; ENGCC (Karlsson et al. 95) ; FDG (Functional Dependency Grammar, Conexor, Tapanainen et Järvinen, 97); FDG (Functional Dependency Grammar, Conexor, Tapanainen et Järvinen, 97); Sextant (Grefenstette, 94); Sextant (Grefenstette, 94); Analyseur du GREYC (Giguet et Vergne, 97); Analyseur du GREYC (Giguet et Vergne, 97); IFSP (Aït-Mokhtar et Chanod, 97); IFSP (Aït-Mokhtar et Chanod, 97);

5 Plan de ce séminaire 1.Problématique de la thèse 2.Architecture générale proposée: ReconfigurabilitéReconfigurabilité AdaptabilitéAdaptabilité 3.Un parseur modulaire ChunkingChunking (a) Grammaire noyau (b) Module de diagnostic (c) Grammaires spécialisées DépendancesDépendances 4.Conclusions et perspectives

6 1. Problématique de la thèse Texte libre en grandes quantitésTexte libre en grandes quantités Grande variété de phénomènesGrande variété de phénomènes Encodage de linformationEncodage de linformation formes appauvries (phrases dans des mails, titres télégraphiques…)formes appauvries (phrases dans des mails, titres télégraphiques…) formes enrichies (marques structurelles, marques pragmatiques…)formes enrichies (marques structurelles, marques pragmatiques…)

7 Variété et Hétérogénéité des corpus Phénomènes non standard pour une grammaire : séquences linguistiques ou extralinguistiques non modelisées Présents dans les corpus de façon hétérogène: fréquents dans tous les domaines fréquents dans tous les domaines particuliers à un type de corpus. particuliers à un type de corpus.

8 Exemples de Phénomènes non standard LEcole des hautes études en sciences sociales (EHESS, 54 boulevard Raspail, Paris 6) accueille du 28 janvier au 6 mars Les images médiatiques et la ville, une exposition comprenant timbres de France, dAllemagne, dEspagne et des pays de lex-bloc de lEst. (Le Monde) Télécoms : l'italien STET s'allie avec l'américain ATT (Les Echos)

9 Autres Exemples non standard Sur les modèles à partir de 1966 : 1 - Enlevez les caches plastiques (4) qui se trouvent sur le côté intérieur du tambour, 2 - Repérez les deux ouvertures qui permettent d'accéder aux molettes de réglage. (Manuel technique) oui là je malheureusement je / je peux vous le confirmer (Transcription de loral)

10 Problèmes actuels Ensemble de phénomènes non standard: pourcentage considérable dans les corpus. Ensemble de phénomènes non standard: pourcentage considérable dans les corpus. Les architectures des analyseurs actuels ne permettent pas une adaptation facile à des domaines différents. Les architectures des analyseurs actuels ne permettent pas une adaptation facile à des domaines différents. input output Grammaire Analyse syntaxique

11 2. Architecture Proposée Réconfigurabilité (modularité) Adaptabilité (apprentissage)

12 Réconfigurabilité (modularité) input output Grammaire noyau G Grammaire noyau G 0 Grammaires spécialisées G1G1G1G1 G2G2G2G2 G3G3G3G3… GnGnGnGn Module de diagnostic

13 Adaptabilité (apprentissage) Module apprentissage Analyse préliminaire Ressources lexico-sém. input output Grammaire noyau G 0 Grammaires spécialisées G1G1G1G1 G2G2G2G2 G3G3G3G3… GnGnGnGn Module de diagnostic

14 Récapitulatif sur larchitecture Réconfigurabilité des grammaires Réconfigurabilité des grammaires en fonction du contenu des corpus (modularité: grammaire noyau et grammaires spécialisées) ; Adaptabilité du résultat Adaptabilité du résultat par rapport à des structures déjà bien analysées (apprentissage).

15 3. Création dun parseur modulaire Eée: Entrée: texte étiquetté morphologiquement (tagged) Sortie: Sortie: texte découpé en constituants avec liste de relations de dépendance pour chaque phrase

16 Moteur utilisé Parseur incrémental mixte (S. Aït-Mokhtar, J.P. Chanod, C.Roux) Moteur écrit en C++ Moteur écrit en C++ indépendant des règles de la grammaire indépendant des règles de la grammaire expressions regulières améliorées avec traits Nous utilisons ce moteur pour créer notre propre… découpage en constituants (chunking) découpage en constituants (chunking) extraction de dépendances extraction de dépendances De façon modulaire

17 Vue densemble du parseur input output Chunking Extraction de dépendances Traitements morphologiques Parseur

18 3.1 Chunking Découpage en constituants Découpage en constituants Approche modulaire linguistiquement motivée (prise en compte de la variété de phénomènes dans des corpus très différents) Approche modulaire linguistiquement motivée (prise en compte de la variété de phénomènes dans des corpus très différents) Trois étapes de traitement différentes faites par: Trois étapes de traitement différentes faites par: un grammaire noyau un grammaire noyau un module de diagnostic un module de diagnostic des grammaires spécialisées des grammaires spécialisées

19 Vue densemble du parseur input output Chunking Extraction de dépendances Traitements morphologiques g2g2 noyau diagnostic gngn g1g1

20 (a) Grammaire Noyau Ensemble de règles de lanalyseur permettantpermettant le découpage dun corpus en constituants ;le découpage dun corpus en constituants ; lenvoi de quelques phrases vers le module dextraction de dépendances ;lenvoi de quelques phrases vers le module dextraction de dépendances ; garantisant garantisant un taux de couverture minimale pour tout corpus (e.g. 25%); un taux de couverture minimale pour tout corpus (e.g. 25%); un rappel et une précision maximales quel que soit le type de corpus (e.g. plus que 90%). un rappel et une précision maximales quel que soit le type de corpus (e.g. plus que 90%).

21 Mesures couverture: couverture: phrases analysées correctement avec GN total des phrases total des phrases rappel: rappel: phrases ratées par GN total des phrases précision: précision: phrases analysées correctement phrases couvertes

22 Découpage en constituants Méthode danalyse (sur corpus étiquetté): Méthode danalyse (sur corpus étiquetté): marquage de segments de base marquage de segments de base NP AP PP FV IV GV marquage de segments additionnels selon la version de la grammaire marquage de segments additionnels selon la version de la grammaire BG SBC ANP PNP PFV S; marquage de phrases de premier niveau. marquage de phrases de premier niveau.

23 Méthode 22>PP{En NP{dépit}} PP{d' NP{un désaccord}} AP{persistant}, NP{les AP{principaux} acteurs} AP{politiques} PP{du NP{pays}} FV{ont donné} NP{leur feu} AP{vert} PP{à NP{la réunion}} PP{d' NP{une conférence}} qui FV{relancerait} NP{le processus} AP{démocratique}. En dépit dun désaccord persistant, les principaux acteurs politiques du pays ont donné leur feu vert à la réunion dune conférence qui relancerait le processus démocratique. [Le Monde] Découpage en segments de base: Découpage en segments de base:

24 22>S{ANP{PP{En NP{dépit}} PP{d' NP{un désaccord}} AP{persistant},} NP{les AP{principaux} acteurs} PNP{ AP{politiques} PP{du NP{pays}}} FV{ont donné} PFV{NP{leur feu} AP{vert} PP{à NP{la réunion}} PP{d' NP{une conférence}} SBC{BG{qui} FV{relancerait}} NP{le processus} AP{démocratique}}.} Découpage en segments additionnels Découpage en segments additionnels Marquage de phrases de premier niveau Marquage de phrases de premier niveau Méthode

25 Objectifs de la Grammaire Noyau Analyser des phrases de premier niveau Analyser des phrases de premier niveau structures couvertes par la Grammaire Noyau quel que soit le type de corpus; Détecter des phrases de deuxième niveau Détecter des phrases de deuxième niveau pour lesquelles il faudra des modules danalyse spécialisés.

26 Architecture premier niveau deuxième niveau deuxième niveau Chunking et Tri Chunking et Tri Modules spécialisés Modules spécialisés Module de diagnostic Dépendances output input Module noyau

27 Création de plusieurs versions de la grammaire Création de plusieurs versions de la grammaire Moyen de contrôler la diversité de structures des corpus tout venant Moyen de contrôler la diversité de structures des corpus tout venant Chaque version plus riche que la précédente (admettant des structures plus complexes du point de vue de lanalyse syntaxique) Chaque version plus riche que la précédente (admettant des structures plus complexes du point de vue de lanalyse syntaxique) Versions

28 Maintient dun taux de précision et de rappel très élévés Maintient dun taux de précision et de rappel très élévés Quand la précision et le rappel vont se dégrader de façon considérable par lajout de nouvelles règles dans la grammaire noyau, on aura atteint un seuil (limite entre premier et deuxième niveau) Quand la précision et le rappel vont se dégrader de façon considérable par lajout de nouvelles règles dans la grammaire noyau, on aura atteint un seuil (limite entre premier et deuxième niveau) Les phrases analysées avec une précision faible auront besoin de traitements syntaxiques plus puissants Les phrases analysées avec une précision faible auront besoin de traitements syntaxiques plus puissants Versions

29 Versions VersionCaractéristiquesLongueur moyenne V10 ou 1 constituants dans PFV 6 mots/phrase V2ANP et PNP (du NP sujet) 7 mots/phrase V32 constituants dans PFV11 mots/phrase V4n constituants dans PFV15 mots/phrase V51 sbc et 1 virgule dans PNP et PFV 17 mots/phrase V62 sbc et 2 virgules dans PFV18 mots/phrase V7coordinations non ambiguës19 mots/phrase

30 Evaluation Grammaire Noyau Corpus de test: mots Corpus de test: mots Corpus dévaluation: mots Corpus dévaluation: mots Domaines: Domaines: -journaux (Le Monde, Libération) -rapports scientifiques (chimie, physique, médecine) -rapports juridiques -manuels techniques (tracteur, moto, photocopieur) -documents déconomie et finances

31 Résultats du chunking

32 Rappel architecture premier niveau deuxième niveau deuxième niveau Chunking et Tri Chunking et Tri Modules spécialisés Modules spécialisés Module de diagnostic Dépendances output input Module noyau

33 Les phrases en entrée ont été partiellement découpées en constituants de base par le module noyau Les phrases en entrée ont été partiellement découpées en constituants de base par le module noyau En raison de la présence de structures de deuxième niveau ce découpage peut être En raison de la présence de structures de deuxième niveau ce découpage peut être imprécis imprécis totalement erroné totalement erroné (b) Module de diagnostic

34 Exemples danalyse erroné 443>MAX{NP{SURVEILLANCE} NP{La surveillance} des apparentés PP{de NP{patients}} atteints PP{de NP{mélanome}} FV{est abordée} PFV{PP{dans NP{le chapitre}} NP{Prévention} AP{secondaire}}.}

35 176>MAX{NP{Le secteur} PNP{non structuré} FV{est formé} : - NP{des démarcheurs} ( NP{vendeurs} PP{de NP{rue}} et PP{de NP{marchés}} PP{aux NP{puces}} ) ;} 177>MAX{- NP{des clubs} et NP{des associations} (NP{groupements} PP{de NP{femmes}}, principalement ) ;} 178>MAX{- NP{des tavernes} ( PP{des NP{banlieues}} ).} Exemples danalyse imprécis

36 détecter le ou les phénomène(s) syntaxiques complexes présents dans chaque phrase détecter le ou les phénomène(s) syntaxiques complexes présents dans chaque phrase les orienter vers la grammaire spécialisée correspondante les orienter vers la grammaire spécialisée correspondante Buts du module de diagnostic Module fondamental car les traitements syntaxiques suivants dépendent du diagnostic établi ici. Module fondamental car les traitements syntaxiques suivants dépendent du diagnostic établi ici.

37 (c) Modules spécialisés Chacun est dedié à lanalyse dun phénomène spécifique ; Chacun est dedié à lanalyse dun phénomène spécifique ; Une même phrase peut être dirigée à plus dun module si elle contient plus dun phénomène ; Une même phrase peut être dirigée à plus dun module si elle contient plus dun phénomène ; Enumérations, coordinations ambiguës… Enumérations, coordinations ambiguës… Titres, listes… Titres, listes…

38 Rappel architecture premier niveau deuxième niveau deuxième niveau Chunking et Tri Chunking et Tri Modules spécialisés Modules spécialisés Module de diagnostic Dépendances output input

39 3.2 Extraction de dépendances Relations syntaxiques entre les mots dune phrase; Relations syntaxiques entre les mots dune phrase; Entrée: phrase découpée en constituants; Entrée: phrase découpée en constituants; Sortie: liste de dépendances pour chaque phrase; Sortie: liste de dépendances pour chaque phrase; SUBJ(peuvent,accessoires) COMP_INF(peuvent,nuire) VPP(nuire,à,sécurité) NPP(sécurité,de,conduite) 344>MAX{S{NP{Des accessoires} PNP{mal installés ou mal conçus} FV{peuvent} PFV{IV{nuire} PP{à NP{la sécurité}} PP{de NP{conduite}}}.}}

40 Extraction de dépendances SUBJ COMP VN VADJ VPP VAG VADV NN NPP NADJ ADJN Jean mange une pomme Jean mange une pomme Jean est pompier Jean est gentil Jean vient de Paris Jean est appellé par Paul Jean vient rapidement Jean Dupont est gentil Jean mange une pomme du jardin Jean mange une pomme verte Jean craint ses vieux ennemis

41 Evaluation des dépendances …sur des phrases de premier niveau

42 Récapitulatif sur lévaluation Couverture minimale = 20 % Couverture minimale = 20 % Rappel = entre 97 % et 100 % Rappel = entre 97 % et 100 % Précision segmentation = 91 % Précision segmentation = 91 % Précision moyenne des dépendances = 91,5 % Précision moyenne des dépendances = 91,5 % Grammaire Noyau

43 4. Conclusions Analyse syntaxique robuste Analyse syntaxique robuste Approche modulaire et adaptative Approche modulaire et adaptative Modularité linguistiquement motivée: Modularité linguistiquement motivée: étude de la diversité de phénomènes syntaxiques sur des corpus tout venants Apprentissage symbolique: Apprentissage symbolique: utilisation de structures analysées avec haute précision pour améliorer le resultat final. utilisation de structures analysées avec haute précision pour améliorer le resultat final.

44 … et perspectives Modularité Modularité -amélioration du module de diagnostic (en cours) -définition de phénomènes de deuxième niveau -création de modules spécialisés Adaptabilité Adaptabilité -introduction de stratégie(s) dapprentissage symbolique


Télécharger ppt "Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS."

Présentations similaires


Annonces Google