RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours - Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE
Un Parcours
Qui Sommes Nous? Université de Balamand ENST Chafic Mokbel Hanna Greige Walid Karam Rania Bayeh + des thésards et stagiaires ENST Gérard Chollet Dijana Petrovska Maurice Charbit Raphael Blouet Guido Aversano + des thésards et stagiaires
Le Projet Reconnaissance de La Parole Bilingue BECARS Français/Arabe Reconnaissance du Locuteur Indépendant du Texte HMM CART GMM Base de données Bilingue BEAF
Base Scientifique Modèles stochastiques Spécialisation Les mélanges à composantes Gaussiennes Les chaînes de Markov Cachées Les arbres de classification et de régression Spécialisation Adaptation ou algorithmes EM récursifs
Base Scientifique Modèles de Markov Cachés (MMC ou “HMM”) A un instant t, le système est dans un état interne (non observable) s(t) qui n’est observé qu’à travers une mesure x(t) s(t) x(t)
Base Scientifique MMC 1° 2° 3° 4° Vitesse Accélération 1° 2° 3° 4°
Base Scientifique MMC MMC (l) caractérisé par Données incomplètes Probabilités d’occupation des états à l’instant initial Probabilités de transition Distributions des observations conditionnellement à l’état Données incomplètes
Base Scientifique MMC Lors de la manipulation des MMCs, une partie des observations est cachée. Calcul de la vraisemblance (avant-arrière) Calcul du meilleur chemin (Viterbi) Apprentissage (EM) Modèle stochastique: Besoin d’une base de données représentative Adaptation aux nouvelles conditions (EM récursif)
Base Scientifique EM Paramètres q Chemin ou Alignement s1 q2 s0 q0 q1
Base de données Avec CEDRE – RPM: Serveur de collecte de données parole Un programme de validation des données Une expérience en étiquettage 2 bases de données (BAD et BEAF) dont l’une bilingue Plus d’expériences en reco
Reconnaissance Multilingue
Reconnaissance Multilingue Peu de données dans BEAF partie arabe pour effectuer un apprentissage multilocuteur et surtout pour des modèles par mots Modélisation phonétique Pas d’étiquettage phonétique lors du lancement des premières expériences Modéliser les mots arabes en utilisant des modèles phonétiques français
Reconnaissance Multilingue Modèles phonétiques français appris par l’Enst sur de large bases de données Inférence de structures phonétiques: Description manuelle ta3deel tt aa dd ii ll Inférence automatique: Trouver une ou plusieurs séquences phonétiques de manière que le modèle résultant soit le plus vraisemblable
Vérification du Locuteur Système de Vérification du Locuteur Identité proclamée Acceptation Rejet Technologie du Traitement Automatique de la Parole Technologie Biométrique de l’Authentification Automatique
Architecture des Systèmes Phase d’apprentissage Paramétrisation Modélisation Modélisation Phase opérationnelle Base de données Id1 ,..,IdN Identité proclamée Acceptation Rejet Paramétrisation Comparaison et décision
Modélisation: travail effectué Mise au point d’un système état-de-l’art Mise au point d’un système avec adaptation MLLR des paramètres du mélange [Mokbel, 1992] Participation commune aux évaluations NIST’2003 Organisée par le National Institute of Standard and Technologies (USA) 350 locuteurs – téléphones cellulaires – 20.000 accès Regroupant les meilleurs laboratoires mondiaux: MIT, IBM… Résultats proches des meilleurs systèmes
BECARS Balamand ENST CEDRE Automatic Recognition of Speakers Logiciel libre (sous license cecile en France) http://tsi.enst.fr/becars http://www.balamand.edu.lb/english/Research.asp
http://tsi.enst.fr/becars Utilisé par différents labos dans différents pays
BioSecure
NIST 2006
A la fin de RPM Bases de données BEAF Système de reconnaissance multilingue BECARS
Suite à RPM Reco de l’écriture manuscrite HCM SecurePhone Virgule fixe /PDA ESTER BioSecure Reco Multi Reco AudioVisuelle Autres Projets RPM BECARS Segmentation et codage Video NIST 2004, 2005, 2006 Imagerie Médicale BEAF Autres Domaines Prédiction d’erreur NEMLAR Détection d’intrus Transformation audio-visuelle
Segmentation/Codage Video Becars (G. Yazbek)
Conclusions CEDRE RPM était l’impulsion: Plusieurs technologies développées Plusieurs thèses en cours (5) Plusieurs projets en cours Au delà et sur le plan scientifique: Le temps ou la position dans la séquence comme paramètre (ou dimension de l’espace comme les autres dimensions) Inférence de la connaissance à partir des données