Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN
Plan Présentation d’un SRAP Nouvelle vision du problème Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD
Plan Présentation d’un SRAP Nouvelle vision du problème Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD
Système de reconnaissance Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Système de reconnaissance Mot reconnu Production de parole Signal de parole Segmentation Paramétrisation Décodage
Domaines de reconnaissance Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Domaines de reconnaissance Reconnaissance de mots isolés: Les mots prononcés sont séparés par une phase de silence Reconnaissance de mots connectés: Les mots sont prédéfinis et prononcés de façon continue Reconnaissance de parole continue: Dialogue naturel
Paramétrisation Non-stationnaire Quasi-stationnaire Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation Non-stationnaire Quasi-stationnaire 30ms avec recouvrement de 10ms Suppose un phonème* par segment * Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son d’un alphabet limité
Paramétrisation D’un point de vue pratique Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation D’un point de vue pratique Quasi-stationnaire permet l’application de la transformée de Fourier Il y a deux types de paramétrisation Paramétrisation basée modèle de production Exemple: LPC Paramétrisation basée modèle de perception Exemple: PLP, PLP-RASTA
Paramétrisation (MFCC) Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation (MFCC) Signal Préaccentuation Fenêtrage Hamming TFD 20 à 30 ms TFD inverse Log de la puissance de TFD Banc de filtres Mel Cepstre
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Reconnaissance En se donnant un vecteur acoustique «A», quel est la probabilité de générer le mot «W»? Vecteur acoustique : variable connue Séquence de phonèmes (ou mots) : variable cachée Hypothèses : Continuité dans le temps Processus stationnaire Densité de probabilité gaussienne
Reconnaissance Non calculable « on the fly » : Loi de Bayes : Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Reconnaissance Non calculable « on the fly » : Loi de Bayes : P(A) indépendante de W Modèle acoustique
Reconnaissance (HMM) Exemple de HMM: Soit le mot : agents a Z a~ TP I Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Reconnaissance (HMM) Exemple de HMM: Soit le mot : agents a Z a~ TP I a Z a~ F a11 a33 a22 a01 a12 a23 a34 a02 a13 a24 Vecteurs acoustiques b1 b2 b3
Un système de reconnaissance Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Un système de reconnaissance
Systèmes actuels Problème mal posé Formalise ambigüe Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Systèmes actuels Problème mal posé Formalise ambigüe Hypothèses non vérifiés en réalité Manque de robustesse aux conditions réelles
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Systèmes actuels Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne Bruit Phonème /f/
Taux de reconnaissance dans différents cas de bruit de fond Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Systèmes actuels Accroître la robustesse des systèmes en présence du bruit Essai de standardisation avec WI008 Taux de reconnaissance dans différents cas de bruit de fond
Les problèmes qui se posent Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Les problèmes qui se posent Variabilité du signal de parole D’un point de vue longueur du signal D’un point de vue prononciation Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs
Plan Présentation d’un SRAP Nouvelle vision du problème Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD
Une nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Une nouvelle vision du problème Une unité plus robuste à la variabilité du signal Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son Ces caractéristiques sont partagées quelque soit la langue Propriétés (points) articulatoires
Points d’articulations Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Points d’articulations Exemple d’une représentation unique en terme de PA: Phonèmes /m/ abaissement du voile de palais, lèvres (bilabiale) Phonème /n/ alvéoles (ou dentale)
Table de l’IPA IPA: Alphabet phonétique international Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Table de l’IPA IPA: Alphabet phonétique international Un standard pour représenter tous les phonèmes possibles en fonction des articulations Partie grisée: mouvement impossible
Etat de l’art Quatre approches sont abordées: Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art Quatre approches sont abordées: Système de reconnaissance basé sur une définition de caractéristiques articulatoires par méthode statistique Système de reconnaissance basé sur des mesures physiques Détection des mouvements articulatoires par plage fréquentielle Approche utilisant l’inversion acoustico-articulatoire
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art Utilisation d’un articulographe permettant d’intégrer une mesure pour chaque articulation Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant)
Etat de l’art (modèle de Kirchhoff) Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art (modèle de Kirchhoff) Présentation de l’ensemble de PAs utilisées dans le modèle : Les vecteurs acoustiques sont des coefficients PLP-RASTA La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe d’articulations
Etat de l’art (modèle de Kirchhoff) Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art (modèle de Kirchhoff) A1 A2 A5 P Donnée acoustique MLP1 MLP2 Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff Vue d’ensemble sur le modèle proposé par Kirchhoff
Résumé du problème Définir les PAs qui vont être prises en compte Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Résumé du problème Définir les PAs qui vont être prises en compte Perspective d’un système multilingues Système robuste au bruit Extraire à partir du signal les variations indiquant la présence d’une PA précise Approche localiste Approche indépendante de la longueur du signal
Ondelettes Approche localiste Faire face à la non-stationnarité Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences g 2 h aj+1 dj+1 aj+2 dj+2 aj
Ondelettes Tests réalisés en utilisant une D.O. continue Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Tests réalisés en utilisant une D.O. continue Ensemble des voyelles de la langue française Différentes ondelettes mère (db32, db44, Meyer,…) Caractérisation par échelle Energie simple et Log de l’énergie Energie Teager
Ondelettes Recherche des caractéristiques par analyse combinatoire Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Recherche des caractéristiques par analyse combinatoire Vecteurs AE Vecteurs EO Vecteurs EI Vecteurs AO Vecteurs AI Vecteurs IO (iA,iE) (iE,iO) (iE,iI) (iA,iO) (iA,iI) (iI,iO) Existence de l’index IO par validation croisée Existence de l’index EO par validation croisée Existence de l’index EI par validation croisée Fonctionnement de l’algorithme de classification combinatoire par validation croisée 39
Ondelettes Les inconvénients d’une telle approche : Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Les inconvénients d’une telle approche : Segmentation du signal Choix de la base d’ondelette Choix de l’échelle Temps de calcul Phonème /i/ Meyer Morlet Daubechies
Empirical Mode Decomposition [Huang98] Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Empirical Mode Decomposition [Huang98] Nouvelle méthode de décomposition de signaux non-stationnaires Utilise l’ « intersec mode function » pour décomposer le signal La méthode s’appuie sur une interpolation entre deux minima consécutifs Méthode localiste, indépendante d’une paramétrisation au préalable
EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)
EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)
EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)
EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)
EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)
EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)
EMD: principe par l’exemple Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Algorithme de l’EMD Principe : « signal = oscillations rapides superposées à des oscillations lentes » Huang 98: identifier localement l’oscillation la plus rapide soustraire au signal et itérer sur le résidu Algorithme: calculer deux enveloppes (une supérieure et l’autre inférieure) par interpolations entre les extrema du signal
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Algorithme de l’EMD soustraire au signal de départ la moyenne de ces enveloppes itérer jusqu’à ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1 soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input signal with three frequency 50Hz, 500Hz and 1KHz
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Pourquoi l’EMD Approche localiste pour mieux cerner les variations minimes du signal Faire face à la non-stationnarité du signal Une segmentation du signal de parole n’est plus nécessaire Analyse dépendante du contexte Indépendance d’une paramétrisation au préalable
Que peut on faire avec l’EMD? Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Que peut on faire avec l’EMD? Analyse du spectre de puissance Détection des formants Meilleur localisation fréquentielle Dans le cas d’un signal voisé, elle permet une meilleure représentation Formants detection IMF vs. LPC analysis
Conclusion Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires Nouvelle méthode de décomposition des signaux non-stationnaire Originalité: Idée et méthode jamais exploitées Robustesse Multilingues