RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Indexation Parole / Musique / Bruit
Olivier Bournez Professeur à l’Ecole Polytechnique
RECONNAISSANCE DE FORMES
compensation de défaut : flou, bougé, écho
Recent Advances in the Automatic Recognition of Audiovisual Speech
GMM, distance entre GMMs, SVM pour la vérification du locuteur.
Gérard CHOLLET Fusion Gérard CHOLLET GET-ENST/CNRS-LTCI 46 rue Barrault PARIS cedex 13
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Reconnaissance du locuteur
Identification automatique des langue
Reconnaissance de la parole
NOLISP, Paris, March 23rd 2007 Audio-Visual Speech Processing Gérard Chollet, Hervé Bredin, Thomas Hueber, Rémi Landais, Leila Zouari.
June 15th, 2004 BioSecure1 BioSecure : Future of Biometrics and Evaluations Gérard CHOLLET CNRS-LTCI, GET-ENST European Biometric Forum European Biometric.
Reconnaissance Automatique de la Parole
Algorithme de Viterbi pour la reconnaissance de la parole
Simulations du VMike et évaluations comparatives.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Dijana PETROVSKA-DELACRETAZ travail en commun avec
Acquisition automatique de «morphèmes acoustiques» pour la compréhension langagière en collaboration avec Allen Gorin Giuseppe Riccardi Jerry Wright.
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
LES RESEAUX DE NEURONES
3. Analyse et estimation du mouvement dans la vidéo
Complexité et Classification
Modélisation Bayésienne par chaines de Markov Monte Carlo
Reconnaissance de la parole
Bao LY VAN Doctorant – INT
Le filtrage au cours des âges Du filtre de Kalman au filtrage particulaire André Monin.
Monique THONNAT et Nathanaël ROTA Projet ORION
Septième étape : travailler avec des graphes probabilistes
Frédéric Amblard, Guillaume Deffuant – Cemagref LISC 22 Octobre 2002 – Table ronde Simulation AFH Nantes SimExplorer: un outil logiciel daide à lexploration.
Reconnaissance de mots isolés Et Reconnaissance de mots connectés.
Décodage des informations
Champs de Markov cachés pour la classification de gènes..
Construction de modèles visuels
Modèles de Markov Cachés
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Reconnaissance Vocale
Les réseaux de neurones
Modélisation de la topologie avec le Graphe Génératif Gaussien
Ali AICH, Sophie LORIETTE
Projet région Thématique prioritaire n°10 Calculs Scientifiques Logiciels Rhône-Alpes : Grille pour le Traitement dInformations Médicales (RAGTIME ?)
Prédiction multi-step de la volatilité : le modèle ARIMA-GARCH appliqué aux séries temporelles d’affaiblissement par la pluie sur les liaisons Terre-Satellite.
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
En-tête: Ne pas modifier le style !
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Serrure biométrique Reconnaissance dempreintes digitales Raphaël FROMONT – Pascal GRIMAUD – Nicolas MUNOZ Tuteur : M. Patrick ISOARDI.
Filtrage de Kalman et aperçu probabiliste
E.Dot – juillet 2005 Page 1 Conclusion [ Lot 4. Validation et Évaluation ] Rapport Final 4 juillet 2005.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Classification : objectifs
Apprentissage « machine »
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Reconnaissance de visage par vidéo
Etude statistique d’histogrammes en image Master 1 Mathématiques et Aide à la Décision 2005/2006 Soutenance de stage Benjamin MARTIN.
Knowledge discovery in Databases (KDD)
Méthode des moindres carrés (1)
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Les Extra-Trees+SW Réalisé par : Encadrante:
Un service Internet embarqué en véhicule : évaluation de modalités d’interaction sur simulateur de conduite Jean - François Kamp UBS - Laboratoire Valoria.
François Couchot, CPE-Lyon, 17 mai Masse des Neutrinos et CMB Extraits de la thèse d’Alexandre Bourrachot (sept. 2004) Problématique de la vraisemblance.
Transcription de la présentation:

RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours - Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE

Un Parcours

Qui Sommes Nous? Université de Balamand ENST Chafic Mokbel Hanna Greige Walid Karam Rania Bayeh + des thésards et stagiaires ENST Gérard Chollet Dijana Petrovska Maurice Charbit Raphael Blouet Guido Aversano + des thésards et stagiaires

Le Projet Reconnaissance de La Parole Bilingue BECARS Français/Arabe Reconnaissance du Locuteur Indépendant du Texte HMM CART GMM Base de données Bilingue BEAF

Base Scientifique Modèles stochastiques Spécialisation Les mélanges à composantes Gaussiennes Les chaînes de Markov Cachées Les arbres de classification et de régression Spécialisation Adaptation ou algorithmes EM récursifs

Base Scientifique Modèles de Markov Cachés (MMC ou “HMM”) A un instant t, le système est dans un état interne (non observable) s(t) qui n’est observé qu’à travers une mesure x(t) s(t) x(t)

Base Scientifique MMC 1° 2° 3° 4° Vitesse Accélération 1° 2° 3° 4°

Base Scientifique MMC MMC (l) caractérisé par Données incomplètes  Probabilités d’occupation des états à l’instant initial Probabilités de transition Distributions des observations conditionnellement à l’état Données incomplètes 

Base Scientifique MMC Lors de la manipulation des MMCs, une partie des observations est cachée. Calcul de la vraisemblance (avant-arrière) Calcul du meilleur chemin (Viterbi) Apprentissage (EM) Modèle stochastique: Besoin d’une base de données représentative Adaptation aux nouvelles conditions (EM récursif)

Base Scientifique EM Paramètres q Chemin ou Alignement s1 q2 s0 q0 q1

Base de données Avec CEDRE – RPM: Serveur de collecte de données parole Un programme de validation des données Une expérience en étiquettage 2 bases de données (BAD et BEAF) dont l’une bilingue Plus d’expériences en reco

Reconnaissance Multilingue

Reconnaissance Multilingue Peu de données dans BEAF partie arabe pour effectuer un apprentissage multilocuteur et surtout pour des modèles par mots Modélisation phonétique Pas d’étiquettage phonétique lors du lancement des premières expériences Modéliser les mots arabes en utilisant des modèles phonétiques français

Reconnaissance Multilingue Modèles phonétiques français appris par l’Enst sur de large bases de données Inférence de structures phonétiques: Description manuelle ta3deel tt aa dd ii ll Inférence automatique: Trouver une ou plusieurs séquences phonétiques de manière que le modèle résultant soit le plus vraisemblable

Vérification du Locuteur Système de Vérification du Locuteur Identité proclamée Acceptation Rejet Technologie du Traitement Automatique de la Parole Technologie Biométrique de l’Authentification Automatique

Architecture des Systèmes Phase d’apprentissage Paramétrisation Modélisation Modélisation Phase opérationnelle Base de données Id1 ,..,IdN Identité proclamée Acceptation Rejet Paramétrisation Comparaison et décision

Modélisation: travail effectué Mise au point d’un système état-de-l’art Mise au point d’un système avec adaptation MLLR des paramètres du mélange [Mokbel, 1992] Participation commune aux évaluations NIST’2003 Organisée par le National Institute of Standard and Technologies (USA) 350 locuteurs – téléphones cellulaires – 20.000 accès Regroupant les meilleurs laboratoires mondiaux: MIT, IBM… Résultats proches des meilleurs systèmes

BECARS Balamand ENST CEDRE Automatic Recognition of Speakers Logiciel libre (sous license cecile en France) http://tsi.enst.fr/becars http://www.balamand.edu.lb/english/Research.asp

http://tsi.enst.fr/becars Utilisé par différents labos dans différents pays

BioSecure

NIST 2006

A la fin de RPM Bases de données BEAF Système de reconnaissance multilingue BECARS

Suite à RPM Reco de l’écriture manuscrite HCM SecurePhone Virgule fixe /PDA ESTER BioSecure Reco Multi Reco AudioVisuelle Autres Projets RPM BECARS Segmentation et codage Video NIST 2004, 2005, 2006 Imagerie Médicale BEAF Autres Domaines Prédiction d’erreur NEMLAR Détection d’intrus Transformation audio-visuelle

Segmentation/Codage Video Becars (G. Yazbek)

Conclusions CEDRE RPM était l’impulsion: Plusieurs technologies développées Plusieurs thèses en cours (5) Plusieurs projets en cours Au delà et sur le plan scientifique: Le temps ou la position dans la séquence comme paramètre (ou dimension de l’espace comme les autres dimensions) Inférence de la connaissance à partir des données