Reconnaissance automatique de la parole par unités sous-phonétiques

Reconnaissance automatique de la parole par unités sous-phonétiques
Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

Plan Présentation d’un SRAP Nouvelle vision du problème
Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD

Système de reconnaissance
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Système de reconnaissance Mot reconnu Production de parole Signal de parole Segmentation Paramétrisation Décodage

Domaines de reconnaissance
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Domaines de reconnaissance Reconnaissance de mots isolés: Les mots prononcés sont séparés par une phase de silence Reconnaissance de mots connectés: Les mots sont prédéfinis et prononcés de façon continue Reconnaissance de parole continue: Dialogue naturel

Paramétrisation Non-stationnaire Quasi-stationnaire
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation Non-stationnaire Quasi-stationnaire 30ms avec recouvrement de 10ms Suppose un phonème* par segment * Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son d’un alphabet limité

Paramétrisation D’un point de vue pratique
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation D’un point de vue pratique Quasi-stationnaire permet l’application de la transformée de Fourier Il y a deux types de paramétrisation Paramétrisation basée modèle de production Exemple: LPC Paramétrisation basée modèle de perception Exemple: PLP, PLP-RASTA

Paramétrisation (MFCC)
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation (MFCC) Signal Préaccentuation Fenêtrage Hamming TFD 20 à 30 ms TFD inverse Log de la puissance de TFD Banc de filtres Mel Cepstre

Présentation d’un SRAP
Paramétrisation Reconnaissance Lacunes Reconnaissance En se donnant un vecteur acoustique «A», quel est la probabilité de générer le mot «W»? Vecteur acoustique : variable connue Séquence de phonèmes (ou mots) : variable cachée Hypothèses : Continuité dans le temps Processus stationnaire Densité de probabilité gaussienne

Reconnaissance Non calculable « on the fly » : Loi de Bayes :
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Reconnaissance Non calculable « on the fly » : Loi de Bayes : P(A) indépendante de W Modèle acoustique

Reconnaissance (HMM) Exemple de HMM: Soit le mot : agents a Z a~ TP I
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Reconnaissance (HMM) Exemple de HMM: Soit le mot : agents a Z a~ TP I a Z a~ F a11 a33 a22 a01 a12 a23 a34 a02 a13 a24 Vecteurs acoustiques b1 b2 b3

Un système de reconnaissance
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Un système de reconnaissance

Systèmes actuels Problème mal posé Formalise ambigüe
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Systèmes actuels Problème mal posé Formalise ambigüe Hypothèses non vérifiés en réalité Manque de robustesse aux conditions réelles

Présentation d’un SRAP
Paramétrisation Reconnaissance Lacunes Systèmes actuels Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne Bruit Phonème /f/

Taux de reconnaissance dans différents cas de bruit de fond
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Systèmes actuels Accroître la robustesse des systèmes en présence du bruit Essai de standardisation avec WI008 Taux de reconnaissance dans différents cas de bruit de fond

Les problèmes qui se posent
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Les problèmes qui se posent Variabilité du signal de parole D’un point de vue longueur du signal D’un point de vue prononciation Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs

Plan Présentation d’un SRAP Nouvelle vision du problème
Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD

Une nouvelle vision du problème
Etat de l’art sur les Pas Notre approche Ondelettes EMD Une nouvelle vision du problème Une unité plus robuste à la variabilité du signal Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son Ces caractéristiques sont partagées quelque soit la langue Propriétés (points) articulatoires

Points d’articulations
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Points d’articulations Exemple d’une représentation unique en terme de PA: Phonèmes /m/ abaissement du voile de palais, lèvres (bilabiale) Phonème /n/ alvéoles (ou dentale)

Table de l’IPA IPA: Alphabet phonétique international
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Table de l’IPA IPA: Alphabet phonétique international Un standard pour représenter tous les phonèmes possibles en fonction des articulations Partie grisée: mouvement impossible

Etat de l’art Quatre approches sont abordées:
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art Quatre approches sont abordées: Système de reconnaissance basé sur une définition de caractéristiques articulatoires par méthode statistique Système de reconnaissance basé sur des mesures physiques Détection des mouvements articulatoires par plage fréquentielle Approche utilisant l’inversion acoustico-articulatoire

Nouvelle vision du problème
Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art Utilisation d’un articulographe permettant d’intégrer une mesure pour chaque articulation Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant)

Etat de l’art (modèle de Kirchhoff)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art (modèle de Kirchhoff) Présentation de l’ensemble de PAs utilisées dans le modèle : Les vecteurs acoustiques sont des coefficients PLP-RASTA La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe d’articulations

Etat de l’art (modèle de Kirchhoff)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art (modèle de Kirchhoff) A1 A2 A5 P Donnée acoustique MLP1 MLP2 Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff Vue d’ensemble sur le modèle proposé par Kirchhoff

Résumé du problème Définir les PAs qui vont être prises en compte
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Résumé du problème Définir les PAs qui vont être prises en compte Perspective d’un système multilingues Système robuste au bruit Extraire à partir du signal les variations indiquant la présence d’une PA précise Approche localiste Approche indépendante de la longueur du signal

Ondelettes Approche localiste Faire face à la non-stationnarité
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences g 2 h aj+1 dj+1 aj+2 dj+2 aj

Ondelettes Tests réalisés en utilisant une D.O. continue
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Tests réalisés en utilisant une D.O. continue Ensemble des voyelles de la langue française Différentes ondelettes mère (db32, db44, Meyer,…) Caractérisation par échelle Energie simple et Log de l’énergie Energie Teager

Ondelettes Recherche des caractéristiques par analyse combinatoire
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Recherche des caractéristiques par analyse combinatoire Vecteurs AE Vecteurs EO Vecteurs EI Vecteurs AO Vecteurs AI Vecteurs IO (iA,iE) (iE,iO) (iE,iI) (iA,iO) (iA,iI) (iI,iO) Existence de l’index IO par validation croisée Existence de l’index EO par validation croisée Existence de l’index EI par validation croisée Fonctionnement de l’algorithme de classification combinatoire par validation croisée 39

Ondelettes Les inconvénients d’une telle approche :
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Les inconvénients d’une telle approche : Segmentation du signal Choix de la base d’ondelette Choix de l’échelle Temps de calcul Phonème /i/ Meyer Morlet Daubechies

Empirical Mode Decomposition [Huang98]
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Empirical Mode Decomposition [Huang98] Nouvelle méthode de décomposition de signaux non-stationnaires Utilise l’ « intersec mode function » pour décomposer le signal La méthode s’appuie sur une interpolation entre deux minima consécutifs Méthode localiste, indépendante d’une paramétrisation au préalable

EMD: principe par l’exemple
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

Etat de l’art sur les Pas Notre approche Ondelettes EMD Algorithme de l’EMD Principe : « signal = oscillations rapides superposées à des oscillations lentes » Huang 98: identifier localement l’oscillation la plus rapide soustraire au signal et itérer sur le résidu Algorithme: calculer deux enveloppes (une supérieure et l’autre inférieure) par interpolations entre les extrema du signal

Etat de l’art sur les Pas Notre approche Ondelettes EMD Algorithme de l’EMD soustraire au signal de départ la moyenne de ces enveloppes itérer jusqu’à ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1 soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input signal with three frequency 50Hz, 500Hz and 1KHz

Etat de l’art sur les Pas Notre approche Ondelettes EMD Pourquoi l’EMD Approche localiste pour mieux cerner les variations minimes du signal Faire face à la non-stationnarité du signal Une segmentation du signal de parole n’est plus nécessaire Analyse dépendante du contexte Indépendance d’une paramétrisation au préalable

Que peut on faire avec l’EMD?
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Que peut on faire avec l’EMD? Analyse du spectre de puissance Détection des formants Meilleur localisation fréquentielle Dans le cas d’un signal voisé, elle permet une meilleure représentation Formants detection IMF vs. LPC analysis

Conclusion Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires Nouvelle méthode de décomposition des signaux non-stationnaire Originalité: Idée et méthode jamais exploitées Robustesse Multilingues

Reconnaissance automatique de la parole par unités sous-phonétiques

Présentations similaires

Présentation au sujet: "Reconnaissance automatique de la parole par unités sous-phonétiques"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Reconnaissance automatique de la parole par unités sous-phonétiques

Présentations similaires

Présentation au sujet: "Reconnaissance automatique de la parole par unités sous-phonétiques"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back