Récupération par projection de ressources langagières Par Youssef BOUOULID IDRISSI 10 Avril 2003 Cours IFT6010 Université de Montréal Département d’informatique.

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

Efficient Simplification of Point-Sampled Surfaces
Interaction et intégration des ressources Internet dans un dispositif dapprentissage autonome de langues Mercedes Sanz Gil Universitat.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Olivier Kraif, Agnès Tutin LIDILEM
Application de réseaux bayésiens à la détection de fumées polluantes
A Pyramid Approach to Subpixel Registration Based on Intensity
Piecewise Affine Registration of Biological Images
Domaines nominaux XSLT
Construction d’une séquence pédagogique
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Par Aline Mahot et Charlyne Routier
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
Documents investigation
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
Reconstruction de volume 3D
Démarche de résolution de problèmes
Recherche d’un même objet / scène
Apprentissage et Fouilles de données Salma Najar 20 Mars 2008 FilterBoost: Regression et Classification On Large Datasets FilterBoost: Regression et Classification.
DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,
Décodage des informations
IFT451 Introduction aux langages formels Froduald Kabanza Département dinformatique Université de Sherbrooke planiart.usherbrooke.ca/kabanza/cours/ift313.
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
UE : 3.4. S4 Initiation à la démarche de recherche
IFT313 Introduction aux langages formels
J-P. Charpy / D. Carnet Faculté de Médecine de Dijon
SCIENCES DE L ’INGENIEUR
Travailler avec des documents patrimoniaux. Quest quun document patrimonial ? Quest quun document patrimonial ? " Traces et œuvres que les générations.
Reconnaissance Vocale
IFT313 Introduction aux langages formels Froduald Kabanza Département dinformatique Université de Sherbrooke Révision de mi-session.
IFT313 Révision finale Département d’informatique
Universté de la Manouba
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Calcul parallèle => partitionner les données en sous-groupes associés aux processeurs. P0 P2 P1.
1 Registration Physique Séminaire du Master Davide Bazzi Université de Fribourg
Fast and Furious Decision Tree Induction
Extraction de segments pour la reconnaissance de symboles : Une approche robuste par Transformée de Hough Présenté par : Simon BERNARD Encadré par : Jean-Marc.
Sujets spéciaux en informatique I PIF Approches non-paramétriques u Technique de classification NN u Technique de classification k-NN u Erreurs.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Segmentation morphologique à partir de corpus Delphine Bernhard Laboratoire TIMC-IMAG, Grenoble
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Sylwia Ozdowska1, Vincent Claveau2
Présentation RFIA janvier 2002
Apparence globale 1 image = 1 vecteur Base apprentissage Rotation –capture les variabilités Troncature –Quelques coefficients Représentation linéaire Espace.
Quelques notions pédagogiques
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Modélisation N-morphes en classification des textes de Wikipedia
Reconnaissance de visage par vidéo
Évaluation et enrichissement de l'approche MUM pour évaluer la qualité décisionnelle a posteriori des données géospatiales Johann Levesque 28 avril Université.
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Recalage contraint par cartes de courbures discrètes pour la modélisation dynamique du rein Valentin LEONARDI, Jean-Luc MARI, Philippe SOUTEYRAND, Julien.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Classification automatique des messages électroniques
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
1 Apprentissage par exemples Jean-François Bérubé Traitement statistique des langages naturels Université de Montréal DIRO, 10 Avril 2003.
Conférences (CR) PACLING'03 Pacific Association for Computational LINGuistics 22 au 25 août 2003 Halifax, côte Est Canada RANLP Recent Advances in Natural.
Personnalisation de l’apprentissage des langues en ligne Marie-Noëlle Godin Conceptrice pédagogique.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Récupération par projection de ressources langagières Par Youssef BOUOULID IDRISSI 10 Avril 2003 Cours IFT6010 Université de Montréal Département d’informatique et de recherche opérationnelle

Plan Introduction et mise en contexte Présentation de quelques travaux saillants –Induction de « POS tagger » –Induction de « BaseNP bracketer » Conclusion

Mise en contexte Problématique –Le manque de ressources annotées constitue un obstacle majeur contre le développement d’outils d’analyse et de traitement de la majorité des langues, même les plus importantes. –L’annotation manuelle est une tâche laborieuse et coûteuse (ex. Penn Treebank) –Croissance explosive des textes parallèles non annotés Idée –Pourquoi ne pas exploiter la richesse des investissements déjà faits en annotations pour certaines langues (ex. anglais, japonais) en les induisant pour d’autres langues ?

Mise en contexte Certains travaux de recherches –David Yarowsky, Grace Ngai & Richard Wicentowski (2001) utilise l’alignement de corpus bilingue pour induire des analyseurs autonomes pour d’autres langues (multilingual POS tagging, named-entity classification & morphological analysis induction) –Dekai Wu (1995, 1997) recherche l’utilisation du parsing concurrentiel de corpus parallèle dans un framework d’inversion de transduction de grammaire, aidant à résoudre les ambiguïtés dans une langue par l’état du parsing couplé dans la seconde langue. –Jones and Havrilla(1998) utilise des techniques similaires (twisted-pair grammars) pour réordonner les mots dans la génération d’une langue cible.

Mise en contexte Exemple de projection POS tagging et (baseNP) bracketing

Induction de tagger POS introduction Objectif –Induire des analyseurs autonomes de POS d’une langue cible en exploitant les alignements de corpus bilingue parallèle. Problème –une projection direct des tags de la source vers la cible à travers les alignements cause beaucoup de bruit (précision de 76% seulement) même pour les principaux tags (N, V, J, etc.).

Induction de tagger POS introduction Raisons du problème –Erreurs d’alignement : limitations des algorithmes actuels et manque dans le « match » entre les deux côtés d’un corpus bilingue. –Incompatibilité des besoins d’annotations entre deux langues (ex. Genre de nom français vs anglais) Challenge de la solution –Elaborer des algorithmes robustes d’apprentissage capables d’être entraînés sur des alignements incomplets et incorrects en éliminant les bruits. –Projeter efficacement l’essentiel des tags de la source afin d’assurer un maximum de couverture du côté cible.

Induction de tagger POS introduction Se fait en trois étapes automatiques –Etiquetage de la source à l’aide d’un tagger existant –Projection initiale directe des POS –Apprentissage robuste à partir des projections bruitées des tags

Induction de tagger POS Projection initiale directe des POS

Induction de tagger POS Entraînement à partir des projections bruitées Démarche pour éliminer les bruits –Éliminer les segments à faibles alignements –Utiliser un algorithme bigram –Entraîner séparément les modèles « lexical prior » et « tag- sequence » en utilisant des techniques de généralisation agressives

Induction de tagger POS estimation du modèle « lexical prior » les mots ont une forte tendance à n’exhiber qu’un seul tag principal (N, V, etc.), et que très rarement qu’ils dépassent deux (ex. 0,37% des mots anglais dans le corpus Browns). D’où l’approche agressive: =i ème tag le plus fréquent pour w

Induction de tagger POS estimation du modèle « lexical prior » Application récursive du modèle pour le calcul des probabilités des sous-tags (ex. tag principaux 1-1) Pour le cas d’estimation 1-n, une interpolation entre les distributions estimées pour 1-1 seulement et celles de l’ensemble 1-n peut être utilisée.

Induction de tagger POS estimation du modèle « tag-sequence » Se caractérise par un nombre plus réduit de paramètres Utilise deux sources d’informations pour définir sa base d’entraînement. –Scores d’alignement du model-3 –Vraisemblance de la séquence: rapprochement des tags projetés directement avec ceux la première itération de « lexical priors »

Induction de tagger POS evaluation Deux tagsets: principaux tags (N, V, etc.) et ceux capturés de Penn Treebank. Entraînement sur 200k mots annotés manuellement et livrés par UdM et un segment de 1000 mots pour le test du modèle de transfert direct

Une autre application (Yarowsky & al.) noun phrase bracketer Motivation principale étant la forte cohésion des phrases nominales Dans le cas le plus simple, la phrase nominale cible (i) correspond au span maximal des indices i projetés

Une autre application (Yarowsky & al.) noun phrase bracketer Évaluation basée sur un ensemble de 40 phrases annotées pour le français et le chinois Ajout de la mesure de compatibilité avec le goldStandard (ex. non chevauchement des parenthèses)

Conclusion Certaines limitations de l’induction de «tagger de POS» peuvent être corrigés par l’induction d’analyseur morphologique Approche prometteuse offrant une issue pour contourner l’obstacle majeur freinant le développement d’analyseurs de plusieurs langues

Références [1] D. Yarowsky and G. Ngai Inducing multilingual POS taggers and NP Bracketers via robust projection across aligned corpora. In Proceedings of NAACL-2001, pp [2] D. Wu Statistical inversion transduction grammars anbilingual parsing of parallel corpora. Computational Linguistics, 23(3): [3] Yarowsky, D., G. Ngai and R. Wicentowski, `` Inducing Multilingual Text Analysis Tools via Robust Projection across Aligned Corpora.'' In Proceedings of HLT 2001, First International Conference on Human Language Technology Research (ISBN: ), [4] D. Yarowsky and R. Wicentowski Minimally supervised morphological analysis by multimodal alignment. In Proceedings of ACL-2000, pp