La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours - Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE Chafic.

Présentations similaires


Présentation au sujet: "RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours - Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE Chafic."— Transcription de la présentation:

1 RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours - Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE

2 Un Parcours

3 Qui Sommes Nous? Université de Balamand Chafic Mokbel Hanna Greige Walid Karam Rania Bayeh + des thésards et stagiaires Université de Balamand Chafic Mokbel Hanna Greige Walid Karam Rania Bayeh + des thésards et stagiaires ENST Gérard Chollet Dijana Petrovska Maurice Charbit Raphael Blouet Guido Aversano + des thésards et stagiaires ENST Gérard Chollet Dijana Petrovska Maurice Charbit Raphael Blouet Guido Aversano + des thésards et stagiaires

4 Le Projet Base de données Bilingue Reconnaissance de La Parole Bilingue Français/Arabe HMM CART Reconnaissance du Locuteur Indépendant du Texte GMM BECARS BEAF

5 Base Scientifique Modèles stochastiques Les mélanges à composantes Gaussiennes Les chaînes de Markov Cachées Les arbres de classification et de régression Spécialisation Adaptation ou algorithmes EM récursifs Modèles stochastiques Les mélanges à composantes Gaussiennes Les chaînes de Markov Cachées Les arbres de classification et de régression Spécialisation Adaptation ou algorithmes EM récursifs

6 Base Scientifique Modèles de Markov Cachés (MMC ou HMM) A un instant t, le système est dans un état interne (non observable) s(t) qui nest observé quà travers une mesure x(t) Modèles de Markov Cachés (MMC ou HMM) A un instant t, le système est dans un état interne (non observable) s(t) qui nest observé quà travers une mesure x(t) s(t) x(t)

7 Base Scientifique MMC 1°2° 3°4° Vitesse Accélération 1° 2° 3° 4°

8 Base Scientifique MMC MMC ( ) caractérisé par Probabilités doccupation des états à linstant initial Probabilités de transition Distributions des observations conditionnellement à létat Données incomplètes MMC ( ) caractérisé par Probabilités doccupation des états à linstant initial Probabilités de transition Distributions des observations conditionnellement à létat Données incomplètes

9 Base Scientifique MMC Lors de la manipulation des MMCs, une partie des observations est cachée. Calcul de la vraisemblance (avant-arrière) Calcul du meilleur chemin (Viterbi) Apprentissage (EM) Modèle stochastique: Besoin dune base de données représentative Adaptation aux nouvelles conditions (EM récursif) Lors de la manipulation des MMCs, une partie des observations est cachée. Calcul de la vraisemblance (avant-arrière) Calcul du meilleur chemin (Viterbi) Apprentissage (EM) Modèle stochastique: Besoin dune base de données représentative Adaptation aux nouvelles conditions (EM récursif)

10 Base Scientifique EM Paramètres Chemin ou Alignement s s

11 Base de données Avec CEDRE – RPM: Serveur de collecte de données parole Un programme de validation des données Une expérience en étiquettage 2 bases de données (BAD et BEAF) dont lune bilingue Plus dexpériences en reco Avec CEDRE – RPM: Serveur de collecte de données parole Un programme de validation des données Une expérience en étiquettage 2 bases de données (BAD et BEAF) dont lune bilingue Plus dexpériences en reco

12 Reconnaissance Multilingue

13 Peu de données dans BEAF partie arabe pour effectuer un apprentissage multilocuteur et surtout pour des modèles par mots Modélisation phonétique Pas détiquettage phonétique lors du lancement des premières expériences Peu de données dans BEAF partie arabe pour effectuer un apprentissage multilocuteur et surtout pour des modèles par mots Modélisation phonétique Pas détiquettage phonétique lors du lancement des premières expériences Modéliser les mots arabes en utilisant des modèles phonétiques français

14 Reconnaissance Multilingue Modèles phonétiques français appris par lEnst sur de large bases de données Inférence de structures phonétiques: Description manuelle ta3deel tt aa dd ii ll Inférence automatique: Trouver une ou plusieurs séquences phonétiques de manière que le modèle résultant soit le plus vraisemblable Modèles phonétiques français appris par lEnst sur de large bases de données Inférence de structures phonétiques: Description manuelle ta3deel tt aa dd ii ll Inférence automatique: Trouver une ou plusieurs séquences phonétiques de manière que le modèle résultant soit le plus vraisemblable

15 Vérification du Locuteur Identité proclamée Système de Vérification du Locuteur Acceptation Rejet Technologie du Traitement Automatique de la Parole Technologie Biométrique de lAuthentification Automatique

16 Modélisation Phase opérationnelle Phase dapprentissage Paramétrisation Base de données Id 1,..,Id N Comparaison et décision Identité proclamée Modélisation Architecture des Systèmes Acceptation Rejet Paramétrisation

17 Modélisation: travail effectué Mise au point dun système état-de-lart Mise au point dun système avec adaptation MLLR des paramètres du mélange [Mokbel, 1992] Participation commune aux évaluations NIST2003 Organisée par le National Institute of Standard and Technologies (USA) 350 locuteurs – téléphones cellulaires – accès Regroupant les meilleurs laboratoires mondiaux: MIT, IBM… Résultats proches des meilleurs systèmes

18 BECARS Balamand ENST CEDRE Automatic Recognition of Speakers Logiciel libre (sous license cecile en France) sp Balamand ENST CEDRE Automatic Recognition of Speakers Logiciel libre (sous license cecile en France) sp

19 Utilisé par différents labos dans différents pays Utilisé par différents labos dans différents pays

20 BioSecure

21 NIST 2006

22 A la fin de RPM Bases de données BEAF Système de reconnaissance multilingue BECARS Bases de données BEAF Système de reconnaissance multilingue BECARS

23 Suite à RPM RPM BEAF BECARS Reco Multi NEMLAR NIST 2004, 2005, 2006 Autres Domaines Autres Projets HCM ESTER SecurePhone BioSecure Reco AudioVisuelle Segmentation et codage Video Imagerie Médicale Prédiction derreur Détection dintrus Transformation audio-visuelle Reco de lécriture manuscrite Virgule fixe /PDA

24 Segmentation/Codage Video Becars (G. Yazbek)

25 Conclusions CEDRE RPM était limpulsion: Plusieurs technologies développées Plusieurs thèses en cours (5) Plusieurs projets en cours Au delà et sur le plan scientifique: Le temps ou la position dans la séquence comme paramètre (ou dimension de lespace comme les autres dimensions) Inférence de la connaissance à partir des données CEDRE RPM était limpulsion: Plusieurs technologies développées Plusieurs thèses en cours (5) Plusieurs projets en cours Au delà et sur le plan scientifique: Le temps ou la position dans la séquence comme paramètre (ou dimension de lespace comme les autres dimensions) Inférence de la connaissance à partir des données


Télécharger ppt "RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours - Chafic Mokbel et Gérard Chollet Congrès 10ème Anniversaire Programme CEDRE Chafic."

Présentations similaires


Annonces Google