Récupération par projection de ressources langagières Par Youssef BOUOULID IDRISSI 10 Avril 2003 Cours IFT6010 Université de Montréal Département d’informatique et de recherche opérationnelle
Plan Introduction et mise en contexte Présentation de quelques travaux saillants –Induction de « POS tagger » –Induction de « BaseNP bracketer » Conclusion
Mise en contexte Problématique –Le manque de ressources annotées constitue un obstacle majeur contre le développement d’outils d’analyse et de traitement de la majorité des langues, même les plus importantes. –L’annotation manuelle est une tâche laborieuse et coûteuse (ex. Penn Treebank) –Croissance explosive des textes parallèles non annotés Idée –Pourquoi ne pas exploiter la richesse des investissements déjà faits en annotations pour certaines langues (ex. anglais, japonais) en les induisant pour d’autres langues ?
Mise en contexte Certains travaux de recherches –David Yarowsky, Grace Ngai & Richard Wicentowski (2001) utilise l’alignement de corpus bilingue pour induire des analyseurs autonomes pour d’autres langues (multilingual POS tagging, named-entity classification & morphological analysis induction) –Dekai Wu (1995, 1997) recherche l’utilisation du parsing concurrentiel de corpus parallèle dans un framework d’inversion de transduction de grammaire, aidant à résoudre les ambiguïtés dans une langue par l’état du parsing couplé dans la seconde langue. –Jones and Havrilla(1998) utilise des techniques similaires (twisted-pair grammars) pour réordonner les mots dans la génération d’une langue cible.
Mise en contexte Exemple de projection POS tagging et (baseNP) bracketing
Induction de tagger POS introduction Objectif –Induire des analyseurs autonomes de POS d’une langue cible en exploitant les alignements de corpus bilingue parallèle. Problème –une projection direct des tags de la source vers la cible à travers les alignements cause beaucoup de bruit (précision de 76% seulement) même pour les principaux tags (N, V, J, etc.).
Induction de tagger POS introduction Raisons du problème –Erreurs d’alignement : limitations des algorithmes actuels et manque dans le « match » entre les deux côtés d’un corpus bilingue. –Incompatibilité des besoins d’annotations entre deux langues (ex. Genre de nom français vs anglais) Challenge de la solution –Elaborer des algorithmes robustes d’apprentissage capables d’être entraînés sur des alignements incomplets et incorrects en éliminant les bruits. –Projeter efficacement l’essentiel des tags de la source afin d’assurer un maximum de couverture du côté cible.
Induction de tagger POS introduction Se fait en trois étapes automatiques –Etiquetage de la source à l’aide d’un tagger existant –Projection initiale directe des POS –Apprentissage robuste à partir des projections bruitées des tags
Induction de tagger POS Projection initiale directe des POS
Induction de tagger POS Entraînement à partir des projections bruitées Démarche pour éliminer les bruits –Éliminer les segments à faibles alignements –Utiliser un algorithme bigram –Entraîner séparément les modèles « lexical prior » et « tag- sequence » en utilisant des techniques de généralisation agressives
Induction de tagger POS estimation du modèle « lexical prior » les mots ont une forte tendance à n’exhiber qu’un seul tag principal (N, V, etc.), et que très rarement qu’ils dépassent deux (ex. 0,37% des mots anglais dans le corpus Browns). D’où l’approche agressive: =i ème tag le plus fréquent pour w
Induction de tagger POS estimation du modèle « lexical prior » Application récursive du modèle pour le calcul des probabilités des sous-tags (ex. tag principaux 1-1) Pour le cas d’estimation 1-n, une interpolation entre les distributions estimées pour 1-1 seulement et celles de l’ensemble 1-n peut être utilisée.
Induction de tagger POS estimation du modèle « tag-sequence » Se caractérise par un nombre plus réduit de paramètres Utilise deux sources d’informations pour définir sa base d’entraînement. –Scores d’alignement du model-3 –Vraisemblance de la séquence: rapprochement des tags projetés directement avec ceux la première itération de « lexical priors »
Induction de tagger POS evaluation Deux tagsets: principaux tags (N, V, etc.) et ceux capturés de Penn Treebank. Entraînement sur 200k mots annotés manuellement et livrés par UdM et un segment de 1000 mots pour le test du modèle de transfert direct
Une autre application (Yarowsky & al.) noun phrase bracketer Motivation principale étant la forte cohésion des phrases nominales Dans le cas le plus simple, la phrase nominale cible (i) correspond au span maximal des indices i projetés
Une autre application (Yarowsky & al.) noun phrase bracketer Évaluation basée sur un ensemble de 40 phrases annotées pour le français et le chinois Ajout de la mesure de compatibilité avec le goldStandard (ex. non chevauchement des parenthèses)
Conclusion Certaines limitations de l’induction de «tagger de POS» peuvent être corrigés par l’induction d’analyseur morphologique Approche prometteuse offrant une issue pour contourner l’obstacle majeur freinant le développement d’analyseurs de plusieurs langues
Références [1] D. Yarowsky and G. Ngai Inducing multilingual POS taggers and NP Bracketers via robust projection across aligned corpora. In Proceedings of NAACL-2001, pp [2] D. Wu Statistical inversion transduction grammars anbilingual parsing of parallel corpora. Computational Linguistics, 23(3): [3] Yarowsky, D., G. Ngai and R. Wicentowski, `` Inducing Multilingual Text Analysis Tools via Robust Projection across Aligned Corpora.'' In Proceedings of HLT 2001, First International Conference on Human Language Technology Research (ISBN: ), [4] D. Yarowsky and R. Wicentowski Minimally supervised morphological analysis by multimodal alignment. In Proceedings of ACL-2000, pp