Éric Laporte Université Paris-Est Marne-la-Vallée

Slides:



Advertisements
Présentations similaires
Le Nom L’adjectif Le verbe Objectif: Orthogram
Advertisements

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Produit Gammes Nomenclatures Modules Techniques Prix de Revient Prix de Vente Modules Techniques Client Marges Mise en route Temps Unitaire Prix (Ex:
Présentation du prototype :
Licence pro MPCQ : Cours
Distance inter-locuteur
Le pluriel des noms
1. ami 2. compagnon 3. amant 4. frère 5. père 6. maître 7. éducateur 8
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Classe : …………… Nom : …………………………………… Date : ………………..
Test statistique : principe
Reconnaissance de la parole
Les numéros
Architecture de réseaux
Initiation et perfectionnement à lutilisation de la micro-informatique Publier des films sur DailyMotion (sur Mac et sur PC) ©Yves Roger Cornil
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
Travaux pratiques sur Nooj
1 7 Langues niveaux débutant à avancé. 2 Allemand.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
Formation au module Structure de ZENTO
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
IAS 16 « Immobilisations corporelles »
Application des algorithmes génétiques
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
1.2 COMPOSANTES DES VECTEURS
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
Tableaux de distributions
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Partie 1: Ondes et Particules.
1 INETOP
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques Éric Laporte Université Paris-Est Marne-la- Vallée.
Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques Éric Laporte Université Paris-Est Marne-la- Vallée.
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.
Forum des Industries de la Langue, 17 mars 2010
L’OFFRE ET LA DEMANDE.
Chapitre 3 Syntaxe et sémantique.
Équipe 2626 Octobre 2011 Jean Lavoie ing. M.Sc.A.
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
ASI 3 Méthodes numériques pour l’ingénieur
Mise en forme en Mathématiques
Kampala, Uganda, June 2014 Documents d’Edition et de Révision Hiroshi Ota and Vijay Mauree ITU/TSB Forum de normalisation pour l'Afrique (Kampala,
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
1 - Programme de Seconde (juin 2009) Statistique et probabilités
Nom:____________ Prénom: ___________
Les Chiffres Prêts?
Chapitre 3 :Algèbre de Boole
Le Traitement Automatique des Langues (TAL)
Transcription de la présentation:

Éric Laporte Université Paris-Est Marne-la-Vallée Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques Éric Laporte Université Paris-Est Marne-la-Vallée

Sommaire Étiquetage morpho-syntaxique Critères de qualité Applications Méthodes Coût L'étiquetage préparatoire à l'analyse syntaxique Contrôle de l'évolution des performances d'un système Normalisation

Étiquetage morpho-syntaxique Entrée : texte écrit Résultat : texte écrit et étiquettes lexicales donnant des informations morpho-syntaxiques Mot Étiquette morphosyntaxique Signification Nous Pp1mpn- pronom personnel 1e personne masculin pluriel nominatif avons Vaip1p- verbe auxiliaire indicatif présent 1e personne pluriel tout Pi-ms— pronom indéfini masculin singulier rétréci Vmps-sm verbe principal participe passé singulier masculin de Sp préposition nos Ds1mpp- déterminant possessif 1e personne masculin pluriel (possesseur) pluriel (possédé) jours Ncmp nom commun masculin pluriel . F ponctuation Source : Paroubek (2006) http://www.technolangue.net/

Architecture étique- tage initial levée d'ambi- guïtés Texte étiqueté hors contexte Texte écrit Texte étiqueté lexique ressource

Un problème résolu ? Un problème considéré comme facile L’étiquetage morphosyntaxique a la réputation d’être la tâche d’analyse linguistique automatique la plus facile à réaliser (Paroubek, 2006, http://www.technolangue.net/) Un problème considéré comme résolu Le bon niveau de performance atteint par la technologie et le grand nombre de systèmes de qualité disponibles... (Paroubek, 2006, http://www.technolangue.net/) Aucun laboratoire de recherche français n'affiche comme objectif l'étiquetage morpho-syntaxique De même pour l'anglais, l'espagnol, le coréen, le japonais...

Paradoxe : le taux de succès 2 à 4 % d'erreurs Pour des phrases de 15 mots en moyenne, un taux d’étiquetage correct de 96 % au niveau des mots ne se traduira (...) que par un taux d’étiquetage correct de 54 % au niveau des phrases (presque une phrase sur deux contiendra au moins une erreur d’étiquetage) (Paroubek, 2006, http://www.technolangue.net/) L'exemple cité sur cette page (7 mots) comporte une erreur : de nos jours est un adverbe Paradoxal pour un problème facile Une solution par mot La plupart des systèmes donnent une solution par mot C'est une précision élevée

Critères de qualité de l'étiquetage (1/3) Taux de succès : pas un critère satisfaisant - ne tient pas compte de la quantité d'information dans les étiquettes ! - non applicable si le système donne plusieurs solutions 1. Finesse du jeu d'étiquettes (nombre d'étiquettes différentes) Jeu de 15 étiquettes (catégories grammaticales) : 1,6 étiquette par mot simple Jeu de 1000 étiquettes (catégories grammaticales, traits flexionnels, délimitation des mots composés, lemmes) : 2,0 étiquettes par mot simple

Critères de qualité de l'étiquetage (2/3) 2. Rappel (présence des analyses correctes) : a/(a+b) 3. Précision (absence d'analyses incorrectes) : a/(a+c) analyses retenues rejetées correctes a b incorrectes c d

Critères de qualité de l'étiquetage (3/3) Finesse, rappel, précision sont antagonistes Quand la couverture lexicale augmente (par.N, luire, celer, huir...), la finesse du jeu d'étiquettes et le rappel augmentent, mais la précision devient plus difficile à obtenir : {par,.N}, {lui,luire.V:Kms}, {cela,celer.V:J3s}, {huit,huir.V:P3s}... En imposant une seule solution par mot, on augmente la précision, mais le rappel devient plus difficile à obtenir Donc ces 3 critères sont indépendants Satisfaisants pour couvrir tous les aspects de la qualité

Étiquetage morpho-syntaxique : applications (1/4) Applications documentaires Recherche d'informations Extraction d'informations Moteurs de recherche Extraction de termes Objectif : trouver les catégories grammaticales, parfois les lemmes Des erreurs, même nombreuses, ne perturbent pas les statistiques Une solution par mot pour simplifier les calculs

Étiquetage morpho-syntaxique : applications (2/4) Applications nécessitant une analyse syntaxique Traduction automatique Synthèse de parole Applications moins courantes que les précédentes Objectifs - délimiter les constituants - identifier les mots composés - identifier les entrées lexicales des mots passer/drop by passer/spend {convergent.A:ms} {convergent,converger.V:P3p:S3p})

Étiquetage morpho-syntaxique : applications (3/4) Finesse du jeu d'étiquettes Beaucoup d'informations : lemmes, délimitation des mots composés, traits sémantiques (humain), traits syntaxiques (compléments)... Rappel L'absence de l'étiquette correcte d'un mot peut facilement empêcher le traitement de toute la phrase Précision Simplifie un peu les calculs, mais les étiquettes incorrectes peuvent être éliminées par l'analyse syntaxique Nous avons {tout.PRO:ms} rétréci (cf. Tout m'énerve) Nous avons {tout.ADV} rétréci (cf. Le sol est tout froid)

Étiquetage morpho-syntaxique : applications (4/4) Utilisation de l'analyse syntaxique {Tout.PRO:ms} m'énerve Le sol est {tout.ADV} froid Ils ont {tout.PRO:ms} installé Luc est {tout.ADV} étonné Conditions syntaxiques d'emploi de {tout.ADV} avec un verbe à un temps composé Avec un complément direct ou un verbe pronominal : ?La situation a {tout.ADV} étonné Luc ?La lessive a {tout.ADV} rétréci le pull ?Les pneus se sont {tout.ADV} abîmés Jamais sans complément direct : *Le pull a {tout.ADV} rétréci *L'eau a {tout.ADV} disparu Donc dans Nous avons tout rétréci il ne peut pas s'agir de {tout.ADV} à cause de la syntaxe

Applications et critères de qualité (1/2) Finesse Rappel Précision Applications documentaires - + Applications nécessitant une analyse syntaxique

Applications et critères de qualité (1/2) Applications documentaires (les plus courantes) Le problème de l'étiquetage morpho-syntaxique est facile, ou même résolu Applications nécessitant une analyse syntaxique (moins courantes) Finesse : nécessaire mais faible dans les systèmes actuels Rappel : nécessaire mais faible dans les systèmes actuels Précision : si possible C'est donc un sujet de recherche ouvert

Étiquetage : méthodes État de l'art Apprentissage statistique à partir de corpus étiquetés (annotation corrigée manuellement) - probabilités (ex. TreeTagger) - modèles de règles (ex. Brill) Finesse : complique les calculs exponentiellement Précision : facile à obtenir (prendre le meilleur score) Rappel : difficile à obtenir si on privilégie la précision Systèmes minoritaires Règles construites manuellement (ex. Elag, ENGCG) Finesse : fournit des informations, facilite la construction Rappel : nécessite du travail par des linguistes Précision : difficile à obtenir si on privilégie le rappel

Méthodes et critères de qualité Finesse Rappel Précision Apprentissage statistique - + Règles construites manuellement L'apprentissage statistique est bien adapté aux applications les plus courantes, d'où sa popularité

Limite entre levée d'ambiguïtés et analyse syntaxique Où s'arrête la levée d'ambiguïtés ? Où commence l'analyse syntaxique ? Texte écrit étique- tage Texte étiqueté hors contexte grammaire levée d'ambi- guïtés lexique Texte étiqueté analyse synta- xique ressource Texte analysé Levée d'ambiguïtés : par reconnaissance de propriétés locales (portée inférieure à la phrase) Analyse syntaxique : au niveau de la phrase

Méthodes et coût Apprentissage statistique Marge de progrès : le corpus étiqueté Qualité de l'étiquetage, taille Révision de l'étiquetage : manuelle, peu automatisable, coûteuse Difficultés linguistiques : analyse de cas, tâche répétitive Règles construites manuellement Marge de progrès : le lexique, les règles Construction : manuelle, peu automatisable, coûteuse Difficultés linguistiques : analyse de cas, généralisation, création d'exemples, jugement d'acceptabilité...

Compétition entre méthodes (1/2) Objectifs Finesse et rappel pour l'analyse syntaxique Apprentissage statistique Analyse de cas : les réviseurs de l'annotation Généralisation : l'algorithme d'apprentissage Règles construites manuellement Analyse de cas et généralisation : les constructeurs des règles

Compétition entre méthodes (2/2) Une compétition d'intelligence entre - le linguiste concepteur des règles - les algorithmes d'apprentissage Avantages du linguiste - l'intuition et la créativité humaines - les algorithmes d'apprentissage connus sont basés sur des hypothèses simplistes Une compétition peu active Travail coûteux dans les deux cas Issue incertaine Applications peu utilisées

Étiquetage morpho-syntaxique avant analyse syntaxique (1/3) Une autre exigence de qualité spécifique On doit pouvoir rendre le système conforme à un cahier des charges précis Couplage entre les ressources de l'étiqueteur et la grammaire de l'analyseur syntaxique Texte écrit étique- tage Texte étiqueté hors contexte grammaire levée d'ambi- guïtés lexique Texte étiqueté analyse synta- xique ressource Texte analysé

Étiquetage morpho-syntaxique avant analyse syntaxique (2/3) Couplage entre ressources Lexique et ressource de levée d'ambiguïtés Je le considère {comme,.ConjS} mon frère Il voyait {comme,.DET+Pred} un brouillard Grammaire d'analyse syntaxique P --> NP Ppv <considérer.V> {comme,.ConjS} NP NP --> <DET+Pred> NP Un cahier des charges précis, alors que d'autres codages seraient possibles : {comme,.PREP}, {comme,.ADV}

Étiquetage morpho-syntaxique avant analyse syntaxique (3/3) Couplage entre ressources Lexique et ressource de levée d'ambiguïtés Mon sentiment est {mitigé,.A:ms} Grammaire d'analyse syntaxique P --> NP <être.V> {mitigé,.A:ms} Autre codage possible : {mitigé,.V:Kms} Les ressources doivent être maintenues ensemble

Étiquetage morpho-syntaxique avant applications documentaires (1/3) Cette conformité à un cahier des charges précis n'est pas nécessaire lorsque l'étiquetage sert à des applications documentaires Seul couplage : le jeu d'étiquettes utilisé dans l'application (N, Adj...) Seul cahier des charges : les opinions des linguistes en général sur les propriétés morpho-syntaxiques des mots (opinions très variables)

Étiquetage morpho-syntaxique avant applications documentaires (2/3) Le niveau de performance atteint par les systèmes est comparable à celui des humains en terme de qualité d’étiquetage (Paroubek, 2006, http://www.technolangue.net/) Tend à prouver que les systèmes actuels ont atteint la meilleure qualité possible La "performance des humains" mentionnée ici est évaluée en combinant les opinions de plusieurs linguistes, qui sont en désaccord quand plusieurs codages sont possibles

Étiquetage morpho-syntaxique avant applications documentaires (3/3) Le niveau de performance atteint par les systèmes est comparable à celui des humains en terme de qualité d’étiquetage (Paroubek, 2006, http://www.technolangue.net/) En fait, la "performance des humains" peut être bien meilleure lorsqu'ils ont un cahier des charges précis (couplage avec une grammaire d'analyse syntaxique) Et les systèmes actuels ?...

Étiquetage morpho-syntaxique avant analyse syntaxique Comment assurer la conformité d'un système à un cahier des charges précis ? Il faut pouvoir corriger le système en cas de fonctionnement insatisfaisant, - pour obtenir la performance désirée sur l'entrée en question - sans dégrader le fonctionnement déjà satisfaisant sur les autres entrées Contrôler l'évolution des performances du système

Contrôler l'évolution des performances d'un système (1/8) Dans le cas de l'apprentissage statistique Pas de contrôle sûr On peut refaire un apprentissage, sans garantie que les performances - s'améliorent sur l'entrée en question - ne régressent pas sur les autres entrées L'état de l'art n'est donc pas satisfaisant, sans possibilité d'amélioration sur ce point Dans le cas de ressources construites manuellement Un contrôle direct des ressources doit être possible : mise à jour

Contrôler l'évolution des performances d'un système (2/8) Conditions pour qu'une ressource construite à la main soit maintenable Lisibilité Format d'édition conforme à la visualisation habituelle (wysiwyg) ; simple, compréhensible Cumulativité Construction progressive d'une ressource avec possibilité d'évaluer au fur et à mesure

Contrôler l'évolution des performances d'un système (3/8) Structuration Eléments lisibles (petits, simples, compréhensibles), indépendants si possible Lexique : par entrée, par propriété Grammaire : par règle RTN : par graphe

Contrôler l'évolution des performances d'un système (4/8) Monotonie Il doit être impossible de dégrader le fonctionnement d'une ressource existante quand on lui ajoute de nouveaux éléments mots mots non décrits décrits mots décrits

Contrôler l'évolution des performances d'un système (5/8) Monotonie Exemples : - augmenter la couverture lexicale (rappel) - augmenter la couverture grammaticale (rappel) - diminuer l'ambiguïté artificielle (précision) On fait évoluer un paramètre dans un seul sens On évalue l'évolution des performances pour vérifier que le système ne régresse pas mots mots non décrits décrits mots décrits

Contrôler l'évolution des performances d'un système (6/8) Cas d'un système de levée d'ambiguïtés On se limite à reconnaître des propriétés locales (portée inférieure à la phrase) Une propriété locale peut suffire à prouver qu'une analyse est incorrecte quel que soit le reste : {Ils,il.PRO} {convergent,.A:ms} vers la sortie Une propriété locale ne peut pas suffire à prouver qu'une analyse est correcte, le reste peut être incorrect : {Ils,il.PRO} {convergent,converger.V:P3p} vers la {sortie,sortir.V:Kfs}

Contrôler l'évolution des performances d'un système (7/8) Cas d'un système de levée d'ambiguïtés On peut décrire des propriétés locales qui suffisent à prouver qu'une analyse est incorrecte Si le système est monotone, cela ne peut être que dans un seul sens : le nombre d'analyses retenues diminue, la précision augmente analyses retenues analyses analyses rejetées retenues

Contrôler l'évolution des performances d'un système (8/8) Évolution monotone d'une grammaire de levée d'ambiguïtés préparatoire à l'analyse syntaxique Au départ Aucune règle : toutes les analyses fournies par l'étiquetage initial sont conservées Si la couverture du lexique est suffisante, le rappel est de 100 %, mais la précision est faible En cours de construction ou de mise à jour Chaque nouvelle règle peut faire croître la précision Ne pas diminuer le rappel

Levée d'ambiguïtés lexicales par grammaire construite manuellement texte étiqueté : m analyses texte étiqueté : m' analyses m'  m grammaire : n règles Un processus de sélection

Normalisation (1/4) Rôle de la normalisation Simplifier les grammaires de levée d'ambiguïtés Simplifier les grammaires d'analyse syntaxique texte étiqueté : p analyses norma- lisation texte étiqueté : m analyses ressource levée d'ambiguïtés lexicales texte étiqueté : m' analyses m'  m grammaire n règles

Normalisation (2/4) Avant normalisation Je l'ai toujours considéré comme mon frère Après normalisation Je le ai toujours considéré comme mon frère Je la ai toujours considéré comme mon frère Les grammaires seront plus simples car on s'est rapproché des autres formes : Je le considère comme mon frère Je la considère comme ma soeur

Normalisation (3/4) Après normalisation Je le ai toujours considéré comme mon frère Je la ai toujours considéré comme mon frère Lorsque la normalisation se fait sur du texte étiqueté, les formes normalisées produites sont étiquetées {le,le.PRO+PpvLE:ms} {la,le.PRO+PpvLE:fs} {le,le.DET+Def:ms} {la,le.DET+Def:fs}

Normalisation (4/4) Normalisation d'Unitex à la construction de l'automate du texte : ne peut qu'ajouter de nouvelles analyses Avant normalisation Je l'ai toujours considéré comme mon frère Après normalisation (dans l'automate) Je l'ai toujours considéré comme mon frère Je le ai toujours considéré comme mon frère Je la ai toujours considéré comme mon frère La levée d'ambiguïtés est utilisée pour éliminer les formes non désirées, y compris la forme avant normalisation

Levée d'ambiguïtés lexicales par grammaire construite manuellement Ressources linguistiques couplées : - lexique - ressource de normalisation - grammaire de levée d'ambiguïtés - grammaire d'analyse syntaxique Exemples L'extension du lexique produit de nouvelles analyses Une modification de la grammaire d'analyse syntaxique peut nécessiter une révision du lexique, de la ressource de normalisation ou de la grammaire de levée d'ambiguïtés