EASY Campagne EASY Campagne d’Évaluation des Analyseurs Syntaxiques
EASY Présentation Déroulement de la campagne Conclusion
EASY I. Présentation I.1. Cadre général La campagne EASY fait partie de l’initiative EVALDA du programme Technolangue Campagne inspirée par le projet PEAS du LIMSI réalisé avec 2 analyseurs (GREYC et XEROX) => evaluation en constituants => evaluation des relations de dépendances et/ou fonctionnelles
EASY 4 I.2. Objectifs 1. Conception d'une méthodologie d'évaluation des analyseurs syntaxiques -définition d'un formalisme pivot indépendant d’une théorie linguistique particulière -définition des métriques d'évaluation 2. Évaluation -développement des outils d’évaluation des résultats 3. Création d'une ressource linguistique validée -ressource obtenue en combinant automatiquement les données annotées par les participants 4. Synergie entre les campagnes d’évaluation Technolangue
EASY 5 I.3. Partenaires Participants : CEA - Fontenay aux Roses GREYC - Caen INRIA - Rocquencourt ERSS - Toulouse LORIA - Nancy LPL - Aix en Provence Synapse - Toulouse Systal/Pertimm - Asnières s/ Seine XRCE Xerox - Grenoble FT R&D - Lannion Tagmatica - Paris Valoria - Vannes LATL - Genève LIRMM - Montpellier Fournisseurs de corpus : – ATILF / ILF - Nancy – DELIC – Aix en Provence – ELDA - Paris – LLF - Paris – STIM / AP-HP - Paris Coordinateurs : – ELDA - Paris – LIMSI - Orsay
EASY Constitution du Corpus 1 M de mots - Journaux - Textes littéraires - Questions - Transcriptions d’oral - Pages Web - Textes de spécialité (médecine) - Courriers électroniques Annotation du corpus de référence 73 K mots - 5 organismes Constituants et relations Format PEAS (XML) Outil : éditeur HTML Normalisation Segmentation en mots et en énoncés Analyse par les systèmes participants 17 analyseurs Transformation des analyses Format PEAS (XML) Évaluation Rappel & précision Frontières croisées Guide d’annotation II. Déroulement de la campagne
EASY 7 II.1. Constitution du corpus 1 million de mots - 1 million de mots - 6 types de corpus issus de sources hétérogènes: - corpus médical : 6 documents -> 105 kmots (EQUER) - corpus littéraire : 4 documents -> 275 kmots (Frantext) - corpus de méls : 2500 messages -> 120 kmots (correspondance personnelle anonymisée) - corpus général : 4 documents -> 260 kmots (Le Monde, Senat, MLCC, site web) - corpus de transcription de l'oral : 9 heures -> 100 kmots (Corpus du français parlé (DELIC) + émissions radiophonique ESTER) - corpus de questions : 3334 questions -> 140 kmots (TREC, AMARYLLIS)
EASY II.2. Normalisation Découpage en mots : –Pas de formes composées non marquées sur les noms (savon de Marseille) –Une liste de mots-outils reconnus comme des composés (au_dessus-de, sans_que,…) Découpage en énoncés longs -> éviter des relations de dépendances inter-énoncés : 1.Pour brancher l ’ appareil, vous devez : V é rifier votre installation é lectrique. Si celle-ci n ’ est pas aux normes, votre garantie ne fera plus effet. Relier le cordon d ’ alimentation à votre appareil, … 2.Le directeur affirma : « Je ne peux pas accepter une telle situation. », devant le Conseil d ’ Administration qui resta m é dus é. 3.Transcriptions d ’ oral : pas de marques … Au final chaque analyseur pouvant prendre en entrée une segmentation différente ou sa propre segmentation un réalignement sera nécessaire
EASY 9 II.3. Annotations de référence - définition du formalisme pivot PEAS, adapté en collaboration avec les participants (constituants et relations) - 73 kmots annotés par 5 organismes : -ATILF -> 15 kmots (littéraire) -DELIC -> 15 kmots (oral transcrit) -ELDA -> 20 kmots (questions, méls, web, compte-rendus, rapports, oral, …) -LLF -> 15 kmots (Le Monde) -STIM / APHP -> 8 kmots (medical)
EASY Annotation des constituants terminaux (non imbriqués, et les plus petits possibles) : –Groupe Nominal (GN), –Groupe Prépositionnel (GP), –Noyau Verbal (NV), –Groupe Adjectival (GA), –Groupe Adverbial (GR), –Groupe Verbal Prépositionnel (PV) Exemples : Le panneau inférieur de cette porte est ouvert maintenant. La porte est dans la nécessité de s’ouvrir. 6 groupes syntaxiques Annotation des constituants
EASY Annotation des relations entre mots, groupes de mots : Sujet-Verbe, Auxiliaire-Verbe Argument-Verbe, Modifieur-Verbe, Modifieur-Nom, Modifieur-Adjectif, Modifieur-Adverbe, Attribut du sujet ou de l’objet, Coordination, Apposition, Complémenteur 11 relations syntaxiques c Annotation des relations
EASY Transcription en HTML Fichier HTML Texte segmenté en mots et en énoncés
EASY Annotation manuelle segmentation Fichier HTML annoté …
EASY Transcription en HTML Fichiers HTML …
EASY Annotation des relations Fichier HTML annoté …
EASY Où sont localisées les Canaries … Format de sortie XML
EASY Outils de visualisation (fourni par E. Giguet)
EASY 18 II.4. Analyse par les participants -la campagne de test a eu lieu de mi-octobre à mi-décembre les participants disposaient de 7 jours au cours de cette période pour analyser le corpus et retourner leurs résultats -corpus fourni sous plusieurs formats : brut, segmenté en énoncés et mots, segmenté et étiqueté (Brill / Grace) -Projection des résultats de chaque analyseur dans le formalisme PEAS/EASY
EASY 19 II.5. Evaluation des résultats Deux pistes d’évaluation par énoncé : -analyse ambiguë / non ambiguë Rappel et Précision sur : -les frontières de constituants (limite des constituants stricts en prec/rapp sur oral delic par fichier) -l’existence et la validité des relations Calcul des résultats par : -type de relation (sujet-verbe, etc.) -type de constituant (GN, NV, GA, etc.) Les résultats seront également réalisés par type de corpus (journalistique, littéraire, s, etc.) permettant de situer les analyseurs en fonction des spécificités de ces documents.
EASY Exemple de résultat obtenu dans le pré-projet PEAS Pour la précision: EASY
Exemple de résultat obtenu dans le pré-projet PEAS Pour le rappel: EASY
22 Conclusions: Certaines références restent à annoter et à valider Certaines références restent à annoter et à valider Analyse des résultats en cours, résultats pratiquement terminés pour les constituants. Analyse des résultats en cours, résultats pratiquement terminés pour les constituants. Les résultats définitifs sont prévus pour la rentrée. Les résultats définitifs sont prévus pour la rentrée. Résultats attendus: Résultats attendus: => Etat de l’art sur les analyseurs syntaxiques => Corpus annoté manuellement => Corpus de grande taille obtenu par “vote majoritaire” des meilleurs analyseurs après validation manuelle pour les analyses divergentes. => Package d’évaluation pour pouvoir rejouer la campagne EASY