La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

© 2002 IBM Corporation De lutilisation dunités sous- lexicales pour la traduction automatique de parole Laurent Besacier LIG/GETALP Université J. Fourier.

Présentations similaires


Présentation au sujet: "© 2002 IBM Corporation De lutilisation dunités sous- lexicales pour la traduction automatique de parole Laurent Besacier LIG/GETALP Université J. Fourier."— Transcription de la présentation:

1 © 2002 IBM Corporation De lutilisation dunités sous- lexicales pour la traduction automatique de parole Laurent Besacier LIG/GETALP Université J. Fourier (Grenoble I)

2 Laurent Besacier 2 Unités sous-lexicales Idée directrice utilisation dunités sous-lexicales pour pre-traiter les données textuelles préalablement à lobtention de modèles de langage ou de modèles de traduction Pre-traitement de données Servant à lapprentissage des modèles Issues du système de reconnaissance automatique de la parole (TA de parole) Cet exposé reprend quelques travaux déjà publiés Agglomération non supervisée dunités pour la traduction de parole (TAP) irakien-anglais Décomposition de graphes de mots pour la TAP arabe-anglais

3 Laurent Besacier 3 I) Agglomération non supervisée dunités pour la traduction de parole irakien- anglais

4 Laurent Besacier 4 Segmentation Problème commun à lanalyse de données pour de multiples modalités (séquences de gênes, séries temporelles, chaînes orthographiques) Segmenter un mot en unités sous-lexicales Ou agglomérer des graphèmes (or phonèmes) en des unités plus grosses… Pour quoi faire ? Obtenir un vocabulaire dunités pour différentes tâches : traduction automatique, reconnaissance automatique de la parole, modélisation statistique du language Intérêt pour les langues agglutinantes ou à riche morphologie Exemple de larabe : utilisation daffixes Implication pour la RAP ou la TA : importants taux de mots hors vocabulaire (+ augmentation de la perplexité) Et aussi… Découvrir des frontières de mots pour des langues sans séparateurs

5 Laurent Besacier 5 Exemple de larabe Emprunté à [Kirchhoff 2002]

6 Laurent Besacier 6 Segmentation non supervisée A partir des données brutes Pas de dictionnaire initial Pas de corpus dapprentissage Intéressant si on ne dispose pas dexperts de la langue traitée C. DeMarcken, Unsupervised Lang. Acquisition. PhD, MIT, Découverte de mots à partir dun flux de phonèmes M. R. Brent, An efficient, probabilistically sound algorithm for segmentation and word discovery. Machine Learning, 34 (1999). J. Goldsmith, Unsupervised learning of the morphology of a natural language. Computational Linguistics, 27(01), pp153–198. Méthodes « locales » de segmentation M. Creutz, K. Lagus, Induction of a Simple Morphology for Highly-Inflecting Languages. In Proceedings of the 7th Meeting of the ACL Special Interest Group in Computational Phonology (SIGPHON), Barcelona, 26 July 2005, pages A partir dune liste de mots (Morfessor)

7 Laurent Besacier 7 Segmentation non supervisée Exemple : Z. Harris, From phoneme to morpheme. The number of distinct phonemes that are possible successors of the preceding string reduces rapidly with the length of that string unless a morph boundary is crossed Ex. Pour lallemand verkhers (de [Pellegrini & Lamel, 2006]) k prefix #words #succ 1 V 29k 24 2 Ve 17k 23 3 Ver 16k 28 4 Verk 1.7k 11 5 Verke 1k 6 6 Verkeh 0.99k 2 7 Verkher 0.98k 12 8 Verkhers 0.95k 29

8 Laurent Besacier 8 Segmentation non supervisée Algo. DHarris pas toujours efficace =>Critère simple dinformation mutuelle k prefix MI 1 A Al All AllA AllAE AllAEb AllAEby AllAEbyn -0.93

9 Laurent Besacier 9 Segmentation non supervisée Une segmentation locale nest pas suffisante Elle peut cependant servir à initialiser un algorithme itératif Ajout dautres informations : Utiliser les frontières de mots disponibles en début / fin de phrases Utiliser les fréquences des mots : après une première segmentation, les mots les plus fréquents sont probablement corrects tandis que les moins fréquents peuvent correspondre à des erreurs de segmentation Segmentation globale dune phrase avec lalgorithme de Viterbi

10 Laurent Besacier 10 Segmentation non supervisée ALGORITHME : -0- initialisation: obtenir une première segmentation avec un algorithme local (type seuillage de linformation mutuelle) -1- obtention dun vocabulaire et dun ML: construire un vocabulaire des 1000 mots les plus fréquents (sur la dernière version segmentée du corpus) ; ajouter dans le corpus des marques de frontières de mots autour des suites de caractères qui correspondent à un mot appartenant au vocabulaire courant Entrainer un modèle de langage n-gramme de caractères à partir de ces données -2- décodage: pour chaque phrase non segmentée (brute), inférer la segmentation la plus probable en utilisant le modèle de langage obtenu précédemment -3- retour à létape 1

11 Laurent Besacier 11 Segmentation non supervisée Performance après 3 itérations… à partir de données brutes (séquences de phonèmes ou pseudo-phonèmes)… Arabe dialectal : 55.2% taux de mots corrects Anglais : 57.4% taux de mots corrects Exemple (how long will the operation last) REF: HH_AW1 L_AO1_NG W_IH1_L DH_AH0 AA2_P_ER0_EY1_SH_AH0_N L_AE1_S_T HYP: ****** HH_AW1_L_AO1_NG W_IH1_L DH_AH0 AA2_P_ER0_EY1_SH_AH0_N L_AE1_S_T Pour larabe, lalgorithme opère parfois une analyse morphologique HM L HM AN M AL2 L (AlAEmAl) => HM_L HM_AN_M_AL2_L

12 Laurent Besacier 12 Mots versus Phonèmes Mots Phonèmes Taille vocabulaire : 43kTaille vocabulaire : 36k Est-il possible de construire un système de traduction de parole à partir dun corpus parallèle composé de symboles phonétiques (ou graphémiques) et de leur traduction en anglais ?

13 Laurent Besacier 13 Résultats expérimentaux RAP : Irakien TA (BLEU verbatim) : Irakien=>Anglais MT(BLEU RAP) : Irakien=>Anglais Evaluation Humaine (décisions binaires : correct/incorrect) Baseline 58% correct / Phone-based 54% correct 64% des phrases jugées correctes par au moins une approche

14 Laurent Besacier 14 Méthode hybride Garder les 2k mots les plus fréquents Garder les séquences phonétiques sur le reste des données Vocabulaire RAP : 2k seulement (en gardant potentiellement la même couverture pour la traduction vers langlais)

15 Laurent Besacier 15 II) Décomposition de graphes de mots pour la TAP arabe-anglais (en collaboration avec Viet-Bac Le)

16 Laurent Besacier 16 Problème Lutilisation dunités sous-lexicales dans un système de traduction de parole nécessite une cohérence entre les unités sous-lexicales obtenues en sortie du système de reconnaissance automatique de la parole, et celles attendues par le système de traduction automatique…

17 Laurent Besacier 17 Stratégies d intégration en TA de parole 1-bestN-best Treillis

18 Laurent Besacier 18 Treillis et réseaux de confusion Lattice-tool

19 Laurent Besacier 19 Décomposition de treillis de mots en treillis dunités sous-lexicales Exemple des évaluations IWSLT07 Treillis dhypothèses de reconnaissance fournis par les organisateurs Aucune connaissance sur le système de reconnaissance automatique de la parole utilisé (vocabulaire, décomposition morphologique ou pas) Besoin de rendre les treillis « compatibles » avec le modèle de traduction développé Décomposition de treillis en unités sous-lexicales

20 Laurent Besacier 20 1 possibilité : utiliser SRI-LM (lattice-tool) Exemple : CANNOT segmenté en CAN et NOT option -split-multiwords de lattice-tool Le premier arc garde toute linformation Les nouveaux arcs ont des scores nuls et une durée nulle

21 Laurent Besacier 21 Algorithme proposé (1) Identifier les arcs décomposables du graphe Chaque arc est decomposé en un nombre darcs correspondant au nombre dunités sous-lexicales composant le mot initial Les temps de début et de fin sont modifiés en fonction du nombre de graphèmes de chaque unité sous lexicale Même chose pour les scores acoustiques Le premier arc correspondant à la première unité sous-lexicale dun mot décomposé conserve le score total du modèle de langage (les scores ML suivants sont mis à 0) Disponible sur

22 Laurent Besacier 22 Algorithme proposé (2)

23 Laurent Besacier 23 Resultats (IWSLT06) Système développé avec Moses Voir Recettes pour la construction rapide dun système de traduction automatique statistique fondé sur les sequences (phrase-based translation) Moses permet dutiliser des réseaux de confusion à linterface entre le système de RAP et le système de TA Le réseaux de confusion est obtenu après la décomposition du treillis en unités sous- lexicales

24 Laurent Besacier 24 Resultats (IWSLT07) AE ASR 1XXXX BLEU score = XXXX BLEU score = XXXX BLEU score = XXXX BLEU score = XXXX BLEU score = LIG_AE_ASR_primary_01 BLEU score = XXXX BLEU score = XXXX BLEU score = XXXX BLEU score = XXXX BLEU score = XXXX BLEU score =


Télécharger ppt "© 2002 IBM Corporation De lutilisation dunités sous- lexicales pour la traduction automatique de parole Laurent Besacier LIG/GETALP Université J. Fourier."

Présentations similaires


Annonces Google