EASY Campagne EASY Campagne d’Évaluation des Analyseurs Syntaxiques.

Slides:



Advertisements
Présentations similaires
Echanges de Données Informatisées LABOratoires-commanditaires
Advertisements

Scenari-Plateform Module Audio / Ircam Développé par Paul Rouget
Épreuve pratique en Terminale Mercatique
EPEUVE ECRITE Spécialité Marketing. EPREUVE DE SPECIALITE La partie écrite Durée: 4 heures Coefficient: 7 RAPPEL : Epreuve de spécialité coefficient 12.
Formation SIST Méthode de construction des sites SIST nationaux
Dialogue et analyse de phrases
Évaluation de la prononciation des noms propres par 4 convertisseurs graphème-phonème en français Philippe Boula de Mareüil1, Christophe  d’Alessandro1,
IUT d’Orsay, département informatique
Présentation Organet : service de gestion du déroulement des épreuves écrites dans les établissements centres d’examen Organet est un produit pour l’affectation.
Présentation Mars 2007 Organet II: service de gestion du déroulement des épreuves dans les établissements centres d’examen Organet II est un produit pour.
1 Programme de la journée Échange sur les programmes de 1 ère et de Terminale Les épreuves écrites et orales Conception de sujets doral.
EVALUER L’INFORMATION
Présentation du journal Scolaweb et de l’administration du site.
Présentation du Tableau de Bord Reims – Janvier 2011.
Le portail des sports des associations de la ville de Nice
Appel d’offres DAFPEN ac-montpellier
Bonjour, Je suis votre guide pour cette visite de votre nouveau logiciel HDS. Je vais vous montrer comment préparer une note de frais.
TPE : Le carnet de bord Contenu Tenue Exemple Objectifs
TRAVEL MANAGEMENT Comment créer un nouvel utilisateur ?
Rajouter une rubrique Vous accédez à la partie administration du site que vous venez de créer. Votre login(identifiant) et votre mot de passe vous ont.
Vue générale de Sharpdesk
Appel doffres DAFPEN
Guide d'utilisation de Microsoft Weft Il s'agit de convertir un ou des fichiers Police de caractères (font) généralement de type.ttf en un ou des fichiers.eot.
Enseignement Spécifique (Coefficient 7) Enseignements de spécialité (Coefficient 9)
Vers des composants TAL réutilisables
Ressources web : évaluer leur validité et leur fiabilité... © Français et Informatique
ELE792. Projet de fin d'études en. génie électrique GTS792
Séance d'information aux étudiants Présentation préparée par: Ghyslain Gagnon Professeur au département de génie électrique ELE792PROJET DE FIN D'ÉTUDES.
Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Forum des Industries de la Langue, 17 mars 2010
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Alexandra Bujold Marie-Pier Moreau Alix Pampalon
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
Secrétaire à la CARTE  
Le FLE en contexte migratoire
Gadget pour les mises à jour du Service clients Pour le client utilisateur final de Novell.
Pourquoi est-il nécessaire d'installer de nouveaux logiciels sur votre ordinateur ? J'exclus de cette présentation l'installation de nouveaux matériels.
Vers une analyse syntaxique à granularité variable Tristan Van rullen
Fédération de Tir de la Broye Présentation du nouveau programme de gestion des sociétés de tir de gestion des sociétés de tir et.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Réunion des directeurs d’unités ST2I 30 octobre 2007 Réseau Doc-ST2I Missions et perspectives (MI2S)
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
L’empreinte écologique La consommation avertie. La situation actuelle Comment va l’environnement à l’heure où on se parle?Comment va l’environnement à.
Dominique LAURENT Patrick SEGUELA
Guide de référence rapide sur © 2012 Microsoft Corporation. Tous droits réservés. Lync Web App Participer à une réunion Lync avec le système audio de votre.
IEN REFERENT – Jean-Paul MORIN Mai 2010
Les épreuves du baccalauréat STG
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
TALN 08 juin 2005  ELRA/ELDA CA /1 Atelier TALN’05 EASy - EQueR EVALDA.
Modélisation des documents: DTD et Schéma
L’Education nationale Bref historique, environnement administratif et débat d’actualité, le tout en 3 heures ! Bernard Desclaux, directeur de CIO Pour.
( ) Collège de Maisonneuve
Informatique et Sciences du Numérique
Module d’auto-apprentissage
Guide de l’agent Service-Public Local Téléformulaires.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Construire une phrase de base
Scénario Les scénarios permettent de modifier la position, taille … des calques au cours du temps. Son fonctionnement est très proche de celui de Macromedia.
Nous allons maintenant sélectionner le bouton pour le format MEDLINE et retenir les options 20 résultats par page et Sort by Most Recent (tri par plus.
Les calques Les Template (modèles) Les Comportements Les scénarios Les formulaires Les CSS Le serveur Web de l’UTC Présentation.
Google Keep. Pourquoi Google Keep ?  Google Keep est une application de téléphone intelligent et une extension de Google Chrome, qui permet de prendre.
HARMONISATION DES PRATIQUES PEDAGOGIQUES BAC PRO G.A.
Proposition au 20-dec-2005 Projet de partenariat co-initié par FdP Genève - LPA - Akis Ingénierie - KeyPartners 1 Plate-forme collaborative pour la conception.
Chapitre 3: Internet Messagerie électronique Courrier électronique .
Introduction au WIKI Par Marc Chevarie.
ACTIVITÉ DE CONVERSATION Feuille de Route.. ACTIVITE DE PAROLE INSTITUTO VIRTUAL DE LENGUAS. FRANCAIS B1+ NIVEAU AVANCÉ FEUILLE DE ROUTE 75 score.
Transcription de la présentation:

EASY Campagne EASY Campagne d’Évaluation des Analyseurs Syntaxiques

EASY Présentation Déroulement de la campagne Conclusion

EASY I. Présentation I.1. Cadre général La campagne EASY fait partie de l’initiative EVALDA du programme Technolangue Campagne inspirée par le projet PEAS du LIMSI réalisé avec 2 analyseurs (GREYC et XEROX) => evaluation en constituants => evaluation des relations de dépendances et/ou fonctionnelles

EASY 4 I.2. Objectifs 1. Conception d'une méthodologie d'évaluation des analyseurs syntaxiques -définition d'un formalisme pivot indépendant d’une théorie linguistique particulière -définition des métriques d'évaluation 2. Évaluation -développement des outils d’évaluation des résultats 3. Création d'une ressource linguistique validée -ressource obtenue en combinant automatiquement les données annotées par les participants 4. Synergie entre les campagnes d’évaluation Technolangue

EASY 5 I.3. Partenaires Participants : CEA - Fontenay aux Roses GREYC - Caen INRIA - Rocquencourt ERSS - Toulouse LORIA - Nancy LPL - Aix en Provence Synapse - Toulouse Systal/Pertimm - Asnières s/ Seine XRCE Xerox - Grenoble FT R&D - Lannion Tagmatica - Paris Valoria - Vannes LATL - Genève LIRMM - Montpellier Fournisseurs de corpus : – ATILF / ILF - Nancy – DELIC – Aix en Provence – ELDA - Paris – LLF - Paris – STIM / AP-HP - Paris Coordinateurs : – ELDA - Paris – LIMSI - Orsay

EASY Constitution du Corpus 1 M de mots - Journaux - Textes littéraires - Questions - Transcriptions d’oral - Pages Web - Textes de spécialité (médecine) - Courriers électroniques Annotation du corpus de référence 73 K mots - 5 organismes Constituants et relations Format PEAS (XML) Outil : éditeur HTML Normalisation Segmentation en mots et en énoncés Analyse par les systèmes participants 17 analyseurs Transformation des analyses Format PEAS (XML) Évaluation Rappel & précision Frontières croisées Guide d’annotation II. Déroulement de la campagne

EASY 7 II.1. Constitution du corpus 1 million de mots - 1 million de mots - 6 types de corpus issus de sources hétérogènes: - corpus médical : 6 documents -> 105 kmots (EQUER) - corpus littéraire : 4 documents -> 275 kmots (Frantext) - corpus de méls : 2500 messages -> 120 kmots (correspondance personnelle anonymisée) - corpus général : 4 documents -> 260 kmots (Le Monde, Senat, MLCC, site web) - corpus de transcription de l'oral : 9 heures -> 100 kmots (Corpus du français parlé (DELIC) + émissions radiophonique ESTER) - corpus de questions : 3334 questions -> 140 kmots (TREC, AMARYLLIS)

EASY II.2. Normalisation Découpage en mots : –Pas de formes composées non marquées sur les noms (savon de Marseille) –Une liste de mots-outils reconnus comme des composés (au_dessus-de, sans_que,…) Découpage en énoncés longs -> éviter des relations de dépendances inter-énoncés : 1.Pour brancher l ’ appareil, vous devez : V é rifier votre installation é lectrique. Si celle-ci n ’ est pas aux normes, votre garantie ne fera plus effet. Relier le cordon d ’ alimentation à votre appareil, … 2.Le directeur affirma : « Je ne peux pas accepter une telle situation. », devant le Conseil d ’ Administration qui resta m é dus é. 3.Transcriptions d ’ oral : pas de marques … Au final chaque analyseur pouvant prendre en entrée une segmentation différente ou sa propre segmentation un réalignement sera nécessaire

EASY 9 II.3. Annotations de référence - définition du formalisme pivot PEAS, adapté en collaboration avec les participants (constituants et relations) - 73 kmots annotés par 5 organismes : -ATILF -> 15 kmots (littéraire) -DELIC -> 15 kmots (oral transcrit) -ELDA -> 20 kmots (questions, méls, web, compte-rendus, rapports, oral, …) -LLF -> 15 kmots (Le Monde) -STIM / APHP -> 8 kmots (medical)

EASY Annotation des constituants terminaux (non imbriqués, et les plus petits possibles) : –Groupe Nominal (GN), –Groupe Prépositionnel (GP), –Noyau Verbal (NV), –Groupe Adjectival (GA), –Groupe Adverbial (GR), –Groupe Verbal Prépositionnel (PV) Exemples : Le panneau inférieur de cette porte est ouvert maintenant. La porte est dans la nécessité de s’ouvrir. 6 groupes syntaxiques Annotation des constituants

EASY Annotation des relations entre mots, groupes de mots : Sujet-Verbe, Auxiliaire-Verbe Argument-Verbe, Modifieur-Verbe, Modifieur-Nom, Modifieur-Adjectif, Modifieur-Adverbe, Attribut du sujet ou de l’objet, Coordination, Apposition, Complémenteur 11 relations syntaxiques c Annotation des relations

EASY Transcription en HTML Fichier HTML Texte segmenté en mots et en énoncés

EASY Annotation manuelle segmentation Fichier HTML annoté …

EASY Transcription en HTML Fichiers HTML …

EASY Annotation des relations Fichier HTML annoté …

EASY Où sont localisées les Canaries … Format de sortie XML

EASY Outils de visualisation (fourni par E. Giguet)

EASY 18 II.4. Analyse par les participants -la campagne de test a eu lieu de mi-octobre à mi-décembre les participants disposaient de 7 jours au cours de cette période pour analyser le corpus et retourner leurs résultats -corpus fourni sous plusieurs formats : brut, segmenté en énoncés et mots, segmenté et étiqueté (Brill / Grace) -Projection des résultats de chaque analyseur dans le formalisme PEAS/EASY

EASY 19 II.5. Evaluation des résultats Deux pistes d’évaluation par énoncé : -analyse ambiguë / non ambiguë Rappel et Précision sur : -les frontières de constituants (limite des constituants stricts en prec/rapp sur oral delic par fichier) -l’existence et la validité des relations Calcul des résultats par : -type de relation (sujet-verbe, etc.) -type de constituant (GN, NV, GA, etc.) Les résultats seront également réalisés par type de corpus (journalistique, littéraire, s, etc.) permettant de situer les analyseurs en fonction des spécificités de ces documents.

EASY Exemple de résultat obtenu dans le pré-projet PEAS Pour la précision: EASY

Exemple de résultat obtenu dans le pré-projet PEAS Pour le rappel: EASY

22 Conclusions: Certaines références restent à annoter et à valider Certaines références restent à annoter et à valider Analyse des résultats en cours, résultats pratiquement terminés pour les constituants. Analyse des résultats en cours, résultats pratiquement terminés pour les constituants. Les résultats définitifs sont prévus pour la rentrée. Les résultats définitifs sont prévus pour la rentrée. Résultats attendus: Résultats attendus: => Etat de l’art sur les analyseurs syntaxiques => Corpus annoté manuellement => Corpus de grande taille obtenu par “vote majoritaire” des meilleurs analyseurs après validation manuelle pour les analyses divergentes. => Package d’évaluation pour pouvoir rejouer la campagne EASY