La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Reconnaissance automatique de la parole par unités sous-phonétiques

Présentations similaires


Présentation au sujet: "Reconnaissance automatique de la parole par unités sous-phonétiques"— Transcription de la présentation:

1 Reconnaissance automatique de la parole par unités sous-phonétiques
Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

2 Plan Présentation d’un SRAP Nouvelle vision du problème
Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD

3 Plan Présentation d’un SRAP Nouvelle vision du problème
Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD

4 Système de reconnaissance
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Système de reconnaissance Mot reconnu Production de parole Signal de parole Segmentation Paramétrisation Décodage

5 Domaines de reconnaissance
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Domaines de reconnaissance Reconnaissance de mots isolés: Les mots prononcés sont séparés par une phase de silence Reconnaissance de mots connectés: Les mots sont prédéfinis et prononcés de façon continue Reconnaissance de parole continue: Dialogue naturel

6 Paramétrisation Non-stationnaire Quasi-stationnaire
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation Non-stationnaire Quasi-stationnaire 30ms avec recouvrement de 10ms Suppose un phonème* par segment * Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son d’un alphabet limité

7 Paramétrisation D’un point de vue pratique
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation D’un point de vue pratique Quasi-stationnaire permet l’application de la transformée de Fourier Il y a deux types de paramétrisation Paramétrisation basée modèle de production Exemple: LPC Paramétrisation basée modèle de perception Exemple: PLP, PLP-RASTA

8 Paramétrisation (MFCC)
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Paramétrisation (MFCC) Signal Préaccentuation Fenêtrage Hamming TFD 20 à 30 ms TFD inverse Log de la puissance de TFD Banc de filtres Mel Cepstre

9 Présentation d’un SRAP
Paramétrisation Reconnaissance Lacunes Reconnaissance En se donnant un vecteur acoustique «A», quel est la probabilité de générer le mot «W»? Vecteur acoustique : variable connue Séquence de phonèmes (ou mots) : variable cachée Hypothèses : Continuité dans le temps Processus stationnaire Densité de probabilité gaussienne

10 Reconnaissance Non calculable « on the fly » : Loi de Bayes :
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Reconnaissance Non calculable « on the fly » : Loi de Bayes : P(A) indépendante de W Modèle acoustique

11 Reconnaissance (HMM) Exemple de HMM: Soit le mot : agents a Z a~ TP I
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Reconnaissance (HMM) Exemple de HMM: Soit le mot : agents a Z a~ TP I a Z a~ F a11 a33 a22 a01 a12 a23 a34 a02 a13 a24 Vecteurs acoustiques b1 b2 b3

12 Un système de reconnaissance
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Un système de reconnaissance

13 Systèmes actuels Problème mal posé Formalise ambigüe
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Systèmes actuels Problème mal posé Formalise ambigüe Hypothèses non vérifiés en réalité Manque de robustesse aux conditions réelles

14 Présentation d’un SRAP
Paramétrisation Reconnaissance Lacunes Systèmes actuels Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne Bruit Phonème /f/

15 Taux de reconnaissance dans différents cas de bruit de fond
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Systèmes actuels Accroître la robustesse des systèmes en présence du bruit Essai de standardisation avec WI008 Taux de reconnaissance dans différents cas de bruit de fond

16 Les problèmes qui se posent
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes Les problèmes qui se posent Variabilité du signal de parole D’un point de vue longueur du signal D’un point de vue prononciation Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs

17 Plan Présentation d’un SRAP Nouvelle vision du problème
Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème Etat de l’art sur les PAs Notre approche Ondelettes EMD

18 Une nouvelle vision du problème
Etat de l’art sur les Pas Notre approche Ondelettes EMD Une nouvelle vision du problème Une unité plus robuste à la variabilité du signal Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son Ces caractéristiques sont partagées quelque soit la langue Propriétés (points) articulatoires

19 Points d’articulations
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Points d’articulations Exemple d’une représentation unique en terme de PA: Phonèmes /m/ abaissement du voile de palais, lèvres (bilabiale) Phonème /n/ alvéoles (ou dentale)

20 Table de l’IPA IPA: Alphabet phonétique international
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Table de l’IPA IPA: Alphabet phonétique international Un standard pour représenter tous les phonèmes possibles en fonction des articulations Partie grisée: mouvement impossible

21 Etat de l’art Quatre approches sont abordées:
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art Quatre approches sont abordées: Système de reconnaissance basé sur une définition de caractéristiques articulatoires par méthode statistique Système de reconnaissance basé sur des mesures physiques Détection des mouvements articulatoires par plage fréquentielle Approche utilisant l’inversion acoustico-articulatoire

22 Nouvelle vision du problème
Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art Utilisation d’un articulographe permettant d’intégrer une mesure pour chaque articulation Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant)

23 Etat de l’art (modèle de Kirchhoff)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art (modèle de Kirchhoff) Présentation de l’ensemble de PAs utilisées dans le modèle : Les vecteurs acoustiques sont des coefficients PLP-RASTA La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe d’articulations

24 Etat de l’art (modèle de Kirchhoff)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Etat de l’art (modèle de Kirchhoff) A1 A2 A5 P Donnée acoustique MLP1 MLP2 Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff Vue d’ensemble sur le modèle proposé par Kirchhoff

25 Résumé du problème Définir les PAs qui vont être prises en compte
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Résumé du problème Définir les PAs qui vont être prises en compte Perspective d’un système multilingues Système robuste au bruit Extraire à partir du signal les variations indiquant la présence d’une PA précise Approche localiste Approche indépendante de la longueur du signal

26 Ondelettes Approche localiste Faire face à la non-stationnarité
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences g 2 h aj+1 dj+1 aj+2 dj+2 aj

27 Ondelettes Tests réalisés en utilisant une D.O. continue
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Tests réalisés en utilisant une D.O. continue Ensemble des voyelles de la langue française Différentes ondelettes mère (db32, db44, Meyer,…) Caractérisation par échelle Energie simple et Log de l’énergie Energie Teager

28 Ondelettes Recherche des caractéristiques par analyse combinatoire
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Recherche des caractéristiques par analyse combinatoire Vecteurs AE Vecteurs EO Vecteurs EI Vecteurs AO Vecteurs AI Vecteurs IO (iA,iE) (iE,iO) (iE,iI) (iA,iO) (iA,iI) (iI,iO) Existence de l’index IO par validation croisée Existence de l’index EO par validation croisée Existence de l’index EI par validation croisée Fonctionnement de l’algorithme de classification combinatoire par validation croisée 39

29 Ondelettes Les inconvénients d’une telle approche :
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Ondelettes Les inconvénients d’une telle approche : Segmentation du signal Choix de la base d’ondelette Choix de l’échelle Temps de calcul Phonème /i/ Meyer Morlet Daubechies

30 Empirical Mode Decomposition [Huang98]
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Empirical Mode Decomposition [Huang98] Nouvelle méthode de décomposition de signaux non-stationnaires Utilise l’ « intersec mode function » pour décomposer le signal La méthode s’appuie sur une interpolation entre deux minima consécutifs Méthode localiste, indépendante d’une paramétrisation au préalable

31 EMD: principe par l’exemple
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

32 EMD: principe par l’exemple
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

33 EMD: principe par l’exemple
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

34 EMD: principe par l’exemple
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

35 EMD: principe par l’exemple
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

36 EMD: principe par l’exemple
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

37 EMD: principe par l’exemple
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD EMD: principe par l’exemple (présentation Flandrin GRETSI 2003)

38 Nouvelle vision du problème
Etat de l’art sur les Pas Notre approche Ondelettes EMD Algorithme de l’EMD Principe : « signal = oscillations rapides superposées à des oscillations lentes » Huang 98: identifier localement l’oscillation la plus rapide soustraire au signal et itérer sur le résidu Algorithme: calculer deux enveloppes (une supérieure et l’autre inférieure) par interpolations entre les extrema du signal

39 Nouvelle vision du problème
Etat de l’art sur les Pas Notre approche Ondelettes EMD Algorithme de l’EMD soustraire au signal de départ la moyenne de ces enveloppes itérer jusqu’à ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1 soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input signal with three frequency 50Hz, 500Hz and 1KHz

40 Nouvelle vision du problème
Etat de l’art sur les Pas Notre approche Ondelettes EMD Pourquoi l’EMD Approche localiste pour mieux cerner les variations minimes du signal Faire face à la non-stationnarité du signal Une segmentation du signal de parole n’est plus nécessaire Analyse dépendante du contexte Indépendance d’une paramétrisation au préalable

41 Que peut on faire avec l’EMD?
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche Ondelettes EMD Que peut on faire avec l’EMD? Analyse du spectre de puissance Détection des formants Meilleur localisation fréquentielle Dans le cas d’un signal voisé, elle permet une meilleure représentation Formants detection IMF vs. LPC analysis

42 Conclusion Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires Nouvelle méthode de décomposition des signaux non-stationnaire Originalité: Idée et méthode jamais exploitées Robustesse Multilingues


Télécharger ppt "Reconnaissance automatique de la parole par unités sous-phonétiques"

Présentations similaires


Annonces Google