La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

EASY Campagne EASY Campagne d’Évaluation des Analyseurs Syntaxiques.

Présentations similaires


Présentation au sujet: "EASY Campagne EASY Campagne d’Évaluation des Analyseurs Syntaxiques."— Transcription de la présentation:

1 EASY Campagne EASY Campagne d’Évaluation des Analyseurs Syntaxiques

2 EASY Présentation Déroulement de la campagne Conclusion

3 EASY I. Présentation I.1. Cadre général La campagne EASY fait partie de l’initiative EVALDA du programme Technolangue http://www.elda.org/easyhttp://www.limsi.fr/Recherche/CORVAL/easy Campagne inspirée par le projet PEAS du LIMSI réalisé avec 2 analyseurs (GREYC et XEROX) => evaluation en constituants => evaluation des relations de dépendances et/ou fonctionnelles

4 EASY 4 I.2. Objectifs 1. Conception d'une méthodologie d'évaluation des analyseurs syntaxiques -définition d'un formalisme pivot indépendant d’une théorie linguistique particulière -définition des métriques d'évaluation 2. Évaluation -développement des outils d’évaluation des résultats 3. Création d'une ressource linguistique validée -ressource obtenue en combinant automatiquement les données annotées par les participants 4. Synergie entre les campagnes d’évaluation Technolangue

5 EASY 5 I.3. Partenaires Participants : CEA - Fontenay aux Roses GREYC - Caen INRIA - Rocquencourt ERSS - Toulouse LORIA - Nancy LPL - Aix en Provence Synapse - Toulouse Systal/Pertimm - Asnières s/ Seine XRCE Xerox - Grenoble FT R&D - Lannion Tagmatica - Paris Valoria - Vannes LATL - Genève LIRMM - Montpellier Fournisseurs de corpus : – ATILF / ILF - Nancy – DELIC – Aix en Provence – ELDA - Paris – LLF - Paris – STIM / AP-HP - Paris Coordinateurs : – ELDA - Paris – LIMSI - Orsay

6 EASY Constitution du Corpus 1 M de mots - Journaux - Textes littéraires - Questions - Transcriptions d’oral - Pages Web - Textes de spécialité (médecine) - Courriers électroniques Annotation du corpus de référence 73 K mots - 5 organismes Constituants et relations Format PEAS (XML) Outil : éditeur HTML Normalisation Segmentation en mots et en énoncés Analyse par les systèmes participants 17 analyseurs Transformation des analyses Format PEAS (XML) Évaluation Rappel & précision Frontières croisées Guide d’annotation II. Déroulement de la campagne

7 EASY 7 II.1. Constitution du corpus 1 million de mots - 1 million de mots - 6 types de corpus issus de sources hétérogènes: - corpus médical : 6 documents -> 105 kmots (EQUER) - corpus littéraire : 4 documents -> 275 kmots (Frantext) - corpus de méls : 2500 messages -> 120 kmots (correspondance personnelle anonymisée) - corpus général : 4 documents -> 260 kmots (Le Monde, Senat, MLCC, site web) - corpus de transcription de l'oral : 9 heures -> 100 kmots (Corpus du français parlé (DELIC) + émissions radiophonique ESTER) - corpus de questions : 3334 questions -> 140 kmots (TREC, AMARYLLIS)

8 EASY II.2. Normalisation Découpage en mots : –Pas de formes composées non marquées sur les noms (savon de Marseille) –Une liste de mots-outils reconnus comme des composés (au_dessus-de, sans_que,…) Découpage en énoncés longs -> éviter des relations de dépendances inter-énoncés : 1.Pour brancher l ’ appareil, vous devez : V é rifier votre installation é lectrique. Si celle-ci n ’ est pas aux normes, votre garantie ne fera plus effet. Relier le cordon d ’ alimentation à votre appareil, … 2.Le directeur affirma : « Je ne peux pas accepter une telle situation. », devant le Conseil d ’ Administration qui resta m é dus é. 3.Transcriptions d ’ oral : pas de marques … Au final chaque analyseur pouvant prendre en entrée une segmentation différente ou sa propre segmentation un réalignement sera nécessaire

9 EASY 9 II.3. Annotations de référence - définition du formalisme pivot PEAS, adapté en collaboration avec les participants (constituants et relations) - 73 kmots annotés par 5 organismes : -ATILF -> 15 kmots (littéraire) -DELIC -> 15 kmots (oral transcrit) -ELDA -> 20 kmots (questions, méls, web, compte-rendus, rapports, oral, …) -LLF -> 15 kmots (Le Monde) -STIM / APHP -> 8 kmots (medical)

10 EASY Annotation des constituants terminaux (non imbriqués, et les plus petits possibles) : –Groupe Nominal (GN), –Groupe Prépositionnel (GP), –Noyau Verbal (NV), –Groupe Adjectival (GA), –Groupe Adverbial (GR), –Groupe Verbal Prépositionnel (PV) Exemples : Le panneau inférieur de cette porte est ouvert maintenant. La porte est dans la nécessité de s’ouvrir. 6 groupes syntaxiques Annotation des constituants

11 EASY Annotation des relations entre mots, groupes de mots : Sujet-Verbe, Auxiliaire-Verbe Argument-Verbe, Modifieur-Verbe, Modifieur-Nom, Modifieur-Adjectif, Modifieur-Adverbe, Attribut du sujet ou de l’objet, Coordination, Apposition, Complémenteur 11 relations syntaxiques c Annotation des relations

12 EASY Transcription en HTML Fichier HTML Texte segmenté en mots et en énoncés

13 EASY Annotation manuelle segmentation Fichier HTML annoté …

14 EASY Transcription en HTML Fichiers HTML …

15 EASY Annotation des relations Fichier HTML annoté …

16 EASY Où sont localisées les Canaries … Format de sortie XML

17 EASY Outils de visualisation (fourni par E. Giguet)

18 EASY 18 II.4. Analyse par les participants -la campagne de test a eu lieu de mi-octobre à mi-décembre 2004 -les participants disposaient de 7 jours au cours de cette période pour analyser le corpus et retourner leurs résultats -corpus fourni sous plusieurs formats : brut, segmenté en énoncés et mots, segmenté et étiqueté (Brill / Grace) -Projection des résultats de chaque analyseur dans le formalisme PEAS/EASY

19 EASY 19 II.5. Evaluation des résultats Deux pistes d’évaluation par énoncé : -analyse ambiguë / non ambiguë Rappel et Précision sur : -les frontières de constituants (limite des constituants stricts en prec/rapp sur oral delic par fichier) -l’existence et la validité des relations Calcul des résultats par : -type de relation (sujet-verbe, etc.) -type de constituant (GN, NV, GA, etc.) Les résultats seront également réalisés par type de corpus (journalistique, littéraire, emails, etc.) permettant de situer les analyseurs en fonction des spécificités de ces documents.

20 EASY Exemple de résultat obtenu dans le pré-projet PEAS Pour la précision: EASY

21 Exemple de résultat obtenu dans le pré-projet PEAS Pour le rappel: EASY

22 22 Conclusions: Certaines références restent à annoter et à valider Certaines références restent à annoter et à valider Analyse des résultats en cours, résultats pratiquement terminés pour les constituants. Analyse des résultats en cours, résultats pratiquement terminés pour les constituants. Les résultats définitifs sont prévus pour la rentrée. Les résultats définitifs sont prévus pour la rentrée. Résultats attendus: Résultats attendus: => Etat de l’art sur les analyseurs syntaxiques => Corpus annoté manuellement => Corpus de grande taille obtenu par “vote majoritaire” des meilleurs analyseurs après validation manuelle pour les analyses divergentes. => Package d’évaluation pour pouvoir rejouer la campagne EASY


Télécharger ppt "EASY Campagne EASY Campagne d’Évaluation des Analyseurs Syntaxiques."

Présentations similaires


Annonces Google