Reconnaissance automatique de la parole par unités sous-phonétiques

Slides:



Advertisements
Présentations similaires
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Advertisements

LES NOMBRES PREMIERS ET COMPOSÉS
[number 1-100].
Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Licence pro MPCQ : Cours
Distance inter-locuteur
La Cyclostationnarité Aspects théoriques et application au Diagnostic
Analyse temps-fréquence
RECONNAISSANCE DE FORMES
Reconnaissance de la parole
Reconnaissance Automatique de la Parole
Les numéros
Sud Ouest Est Nord Individuel 36 joueurs
Colloque GRETSI, Paris, 8-11 septembre 2003 Sur la Décomposition Modale Empirique P. Flandrin (Cnrs - Éns Lyon) et P. Gonçalvès (Inrialpes)
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Analyse de la variance à un facteur
Minimisation Techniques 1 Assimilation Algorithms: Minimisation Techniques Yannick Trémolet ECMWF Data Assimilation Training Course March 2006.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
Reconnaissance de la parole
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
07/24/09 1.
Identification des personnes par l’iris
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
LE SON & L’ AUDITION Dr CHAKOURI M.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Application des algorithmes génétiques
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Classification Multi Source En Intégrant La Texture
Cours de physique générale I Ph 11
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
1.2 COMPOSANTES DES VECTEURS
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Titre : Implémentation des éléments finis sous Matlab
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
Le cahier de charge d'un système de RAP
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Partie 1: Ondes et Particules.
Unit 4: Les animaux Unit 4: Les animaux.
1 INETOP
Reconnaissance Vocale
Systèmes mécaniques et électriques
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Appliquer la métthode Branch and Bound au problème de lassignation des tâches avec la matrice suivante: 1234 a11 88 b c33415 d Calcul de.
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Les modèles linéaires (Generalized Linear Models, GLM)
1.1 LES VECTEURS GÉOMÉTRIQUES
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
1 La détection de gènes impliqués dans les maladies multifactorielles Marie-Pierre Etienne ENGREF Laboratoire GRESE Statistique et Génome.
ASI 3 Méthodes numériques pour l’ingénieur
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Equation différentielle de 2ème ordre
CALENDRIER-PLAYBOY 2020.
UHA-FST Année L1S1-2 Examen de janvier 2007 – Durée 90 minutes Introduction aux concepts de la Physique N° carte étudiant:………………… 1-Donner la propriété.
Les Chiffres Prêts?
Elles avaient envahi le jardin, mais derrière... 1.
UHA-FST Année L1S1-2 Examen de janvier 2006 – Durée 90 minutes Introduction aux concepts de la Physique N° carte étudiant:………………… 1-Donnez votre.
Partie II: Temps et évolution Energie et mouvements des particules
Traitement de la parole : Synthèse et reconnaissance
Les parties du corps By Haru Mehra Le Frehindi 1Haru Mehra, DELF, DALF,CFP.
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Reconnaissance automatique de la parole
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Transcription de la présentation:

Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

Plan Présentation d’un SRAP Nouvelle vision du problème Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD

Plan Présentation d’un SRAP Nouvelle vision du problème Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD

Système de reconnaissance Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Système de reconnaissance Mot reconnu Production de parole Signal de parole Segmentation Paramétrisation Décodage

Domaines de reconnaissance Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Domaines de reconnaissance Reconnaissance de mots isolés: Les mots prononcés sont séparés par une phase de silence Reconnaissance de mots connectés: Les mots sont prédéfinis et prononcés de façon continue Reconnaissance de parole continue: Dialogue naturel

Paramétrisation Non-stationnaire Quasi-stationnaire Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation Non-stationnaire Quasi-stationnaire 30ms avec recouvrement de 10ms Suppose un phonème* par segment * Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son d’un alphabet limité

Paramétrisation D’un point de vue pratique Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation D’un point de vue pratique Quasi-stationnaire permet l’application de la transformée de Fourier Il y a deux types de paramétrisation Paramétrisation basée modèle de production Exemple: LPC Paramétrisation basée modèle de perception Exemple: PLP, PLP-RASTA

Paramétrisation (MFCC) Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation (MFCC) Signal Préaccentuation Fenêtrage Hamming TFD 20 à 30 ms TFD inverse Log de la puissance de TFD Banc de filtres Mel Cepstre

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Reconnaissance En se donnant un vecteur acoustique «A», quel est la probabilité de générer le mot «W»? Vecteur acoustique : variable connue Séquence de phonèmes (ou mots) : variable cachée Hypothèses : Continuité dans le temps Processus stationnaire Densité de probabilité gaussienne

Reconnaissance Non calculable « on the fly » : Loi de Bayes : Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Reconnaissance Non calculable « on the fly » : Loi de Bayes : P(A) indépendante de W Modèle acoustique

Reconnaissance (HMM) Exemple de HMM: Soit le mot : agents a Z a~ TP I Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Reconnaissance (HMM) Exemple de HMM: Soit le mot : agents a Z a~ TP I a Z a~ F a11 a33 a22 a01 a12 a23 a34 a02 a13 a24 Vecteurs acoustiques b1 b2 b3

Un système de reconnaissance Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Un système de reconnaissance

Systèmes actuels Problème mal posé Formalise ambigüe Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Systèmes actuels Problème mal posé Formalise ambigüe Hypothèses non vérifiés en réalité Manque de robustesse aux conditions réelles

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Systèmes actuels Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne Bruit Phonème /f/

Taux de reconnaissance dans différents cas de bruit de fond Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Systèmes actuels Accroître la robustesse des systèmes en présence du bruit Essai de standardisation avec WI008 Taux de reconnaissance dans différents cas de bruit de fond

Les problèmes qui se posent Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Les problèmes qui se posent Variabilité du signal de parole D’un point de vue longueur du signal D’un point de vue prononciation Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs

Plan Présentation d’un SRAP Nouvelle vision du problème Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD

Une nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Une nouvelle vision du problème Une unité plus robuste à la variabilité du signal Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son Ces caractéristiques sont partagées quelque soit la langue Propriétés (points) articulatoires

Points d’articulations Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Points d’articulations Exemple d’une représentation unique en terme de PA: Phonèmes /m/ abaissement du voile de palais, lèvres (bilabiale) Phonème /n/ alvéoles (ou dentale)

Table de l’IPA IPA: Alphabet phonétique international Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Table de l’IPA IPA: Alphabet phonétique international Un standard pour représenter tous les phonèmes possibles en fonction des articulations Partie grisée: mouvement impossible

Etat de l’art Quatre approches sont abordées: Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art Quatre approches sont abordées: Système de reconnaissance basé sur une définition de caractéristiques articulatoires par méthode statistique Système de reconnaissance basé sur des mesures physiques Détection des mouvements articulatoires par plage fréquentielle Approche utilisant l’inversion acoustico-articulatoire

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art Utilisation d’un articulographe permettant d’intégrer une mesure pour chaque articulation Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant)

Etat de l’art (modèle de Kirchhoff) Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art (modèle de Kirchhoff) Présentation de l’ensemble de PAs utilisées dans le modèle : Les vecteurs acoustiques sont des coefficients PLP-RASTA La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe d’articulations

Etat de l’art (modèle de Kirchhoff) Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art (modèle de Kirchhoff) A1 A2 A5 P Donnée acoustique MLP1 MLP2 Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff Vue d’ensemble sur le modèle proposé par Kirchhoff

Résumé du problème Définir les PAs qui vont être prises en compte Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Résumé du problème Définir les PAs qui vont être prises en compte Perspective d’un système multilingues Système robuste au bruit Extraire à partir du signal les variations indiquant la présence d’une PA précise Approche localiste Approche indépendante de la longueur du signal

Ondelettes Approche localiste Faire face à la non-stationnarité Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences g 2 h aj+1 dj+1 aj+2 dj+2 aj

Ondelettes Tests réalisés en utilisant une D.O. continue Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Tests réalisés en utilisant une D.O. continue Ensemble des voyelles de la langue française Différentes ondelettes mère (db32, db44, Meyer,…) Caractérisation par échelle Energie simple et Log de l’énergie Energie Teager

Ondelettes Recherche des caractéristiques par analyse combinatoire Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Recherche des caractéristiques par analyse combinatoire Vecteurs AE Vecteurs EO Vecteurs EI Vecteurs AO Vecteurs AI Vecteurs IO (iA,iE) (iE,iO) (iE,iI) (iA,iO) (iA,iI) (iI,iO) Existence de l’index IO par validation croisée Existence de l’index EO par validation croisée Existence de l’index EI par validation croisée Fonctionnement de l’algorithme de classification combinatoire par validation croisée 39

Ondelettes Les inconvénients d’une telle approche : Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Les inconvénients d’une telle approche : Segmentation du signal Choix de la base d’ondelette Choix de l’échelle Temps de calcul Phonème /i/ Meyer Morlet Daubechies

Empirical Mode Decomposition [Huang98] Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Empirical Mode Decomposition [Huang98] Nouvelle méthode de décomposition de signaux non-stationnaires Utilise l’ « intersec mode function » pour décomposer le signal La méthode s’appuie sur une interpolation entre deux minima consécutifs Méthode localiste, indépendante d’une paramétrisation au préalable

EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Algorithme de l’EMD Principe : « signal = oscillations rapides superposées à des oscillations lentes » Huang 98: identifier localement l’oscillation la plus rapide soustraire au signal et itérer sur le résidu Algorithme: calculer deux enveloppes (une supérieure et l’autre inférieure) par interpolations entre les extrema du signal

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Algorithme de l’EMD soustraire au signal de départ la moyenne de ces enveloppes itérer jusqu’à ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1 soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input signal with three frequency 50Hz, 500Hz and 1KHz

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Pourquoi l’EMD Approche localiste pour mieux cerner les variations minimes du signal Faire face à la non-stationnarité du signal Une segmentation du signal de parole n’est plus nécessaire Analyse dépendante du contexte Indépendance d’une paramétrisation au préalable

Que peut on faire avec l’EMD? Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Que peut on faire avec l’EMD? Analyse du spectre de puissance Détection des formants Meilleur localisation fréquentielle Dans le cas d’un signal voisé, elle permet une meilleure représentation Formants detection IMF vs. LPC analysis

Conclusion Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires Nouvelle méthode de décomposition des signaux non-stationnaire Originalité: Idée et méthode jamais exploitées Robustesse Multilingues