La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN.

Présentations similaires


Présentation au sujet: "Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN."— Transcription de la présentation:

1 Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

2 2 Plan Présentation dun SRAP – Paramétrisation – Reconnaissance – Lacunes Nouvelle vision du problème – Etat de lart sur les PAs – Notre approche Ondelettes EMD

3 3 Plan Présentation dun SRAP Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème – Etat de lart sur les PAs – Notre approche Ondelettes EMD

4 4 Système de reconnaissance Mot reconnu Production de parole Signal de parole Segmentation Paramétrisation Décodage Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

5 5 Domaines de reconnaissance Reconnaissance de mots isolés: – Les mots prononcés sont séparés par une phase de silence Reconnaissance de mots connectés: – Les mots sont prédéfinis et prononcés de façon continue Reconnaissance de parole continue: – Dialogue naturel Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

6 6 Paramétrisation Non-stationnaire Quasi-stationnaire – 30ms avec recouvrement de 10ms Suppose un phonème* par segment * Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son dun alphabet limité Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

7 7 Paramétrisation Dun point de vue pratique – Quasi-stationnaire permet lapplication de la transformée de Fourier Il y a deux types de paramétrisation – Paramétrisation basée modèle de production Exemple: LPC – Paramétrisation basée modèle de perception Exemple: PLP, PLP-RASTA Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

8 8 Paramétrisation (MFCC) Préaccentuation Signal Fenêtrage 20 à 30 ms HammingTFD Banc de filtres Mel Log de la puissance de TFD TFD inverse Cepstre Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

9 9 Reconnaissance En se donnant un vecteur acoustique «A», quel est la probabilité de générer le mot «W»? Vecteur acoustique : variable connue Séquence de phonèmes (ou mots) : variable cachée Hypothèses : Continuité dans le temps Processus stationnaire Densité de probabilité gaussienne Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

10 10 Reconnaissance Non calculable « on the fly » : Loi de Bayes : P(A) indépendante de W Modèle acoustique Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

11 11 Reconnaissance (HMM) Exemple de HMM: – Soit le mot : agents a Z a~ TP I a Za~F a 11 a 33 a 22 a 01 a 12 a 23 a 34 a 02 a 13 a 24 Vecteurs acoustiques b1b1 b2b2 b3b3 Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

12 12 Un système de reconnaissance Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

13 13 Systèmes actuels Problème mal posé Formalise ambigüe Hypothèses non vérifiés en réalité Manque de robustesse aux conditions réelles Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

14 14 Systèmes actuels Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne Bruit Phonème /f/ Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

15 15 Systèmes actuels Accroître la robustesse des systèmes en présence du bruit Essai de standardisation avec WI008 Taux de reconnaissance dans différents cas de bruit de fond Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

16 16 Les problèmes qui se posent Variabilité du signal de parole – Dun point de vue longueur du signal – Dun point de vue prononciation Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs Présentation dun SRAP Paramétrisation Reconnaissance Lacunes

17 17 Plan Présentation dun SRAP – Paramétrisation – Reconnaissance – Lacunes Nouvelle vision du problème Etat de lart sur les PAs Notre approche Ondelettes EMD

18 18 Une nouvelle vision du problème Une unité plus robuste à la variabilité du signal Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son Ces caractéristiques sont partagées quelque soit la langue Propriétés (points) articulatoires Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

19 19 Points darticulations Exemple dune représentation unique en terme de PA: – Phonèmes /m/ abaissement du voile de palais, lèvres (bilabiale) – Phonème /n/ abaissement du voile de palais, alvéoles (ou dentale) Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

20 20 Table de lIPA IPA: Alphabet phonétique international Un standard pour représenter tous les phonèmes possibles en fonction des articulations Partie grisée: mouvement impossible Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

21 21 Etat de lart Quatre approches sont abordées: – Système de reconnaissance basé sur une définition de caractéristiques articulatoires par méthode statistique – Système de reconnaissance basé sur des mesures physiques – Détection des mouvements articulatoires par plage fréquentielle – Approche utilisant linversion acoustico-articulatoire Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

22 22 Etat de lart Utilisation dun articulographe permettant dintégrer une mesure pour chaque articulation Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant) Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

23 23 Etat de lart (modèle de Kirchhoff) Présentation de lensemble de PAs utilisées dans le modèle : Les vecteurs acoustiques sont des coefficients PLP- RASTA La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe darticulations Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

24 24 Etat de lart (modèle de Kirchhoff) A1A1 A2A2 A5A5 P Donnée acoustique MLP 1 MLP 2 Vue densemble sur le modèle proposé par Kirchhoff Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

25 25 Résumé du problème Définir les PAs qui vont être prises en compte – Perspective dun système multilingues – Système robuste au bruit Extraire à partir du signal les variations indiquant la présence dune PA précise – Approche localiste – Approche indépendante de la longueur du signal Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

26 26 Ondelettes Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences g 2 h 2 a j+1 d j+1 g 2 h 2 a j+2 d j+2 ajaj Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

27 27 Ondelettes Tests réalisés en utilisant une D.O. continue – Ensemble des voyelles de la langue française – Différentes ondelettes mère (db32, db44, Meyer,…) Caractérisation par échelle – Energie simple et Log de lénergie – Energie Teager Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

28 28 Ondelettes Recherche des caractéristiques par analyse combinatoire Vecteurs AEVecteurs EOVecteurs EIVecteurs AOVecteurs AIVecteurs IO (i A,i E )(i E,i O )(i E,i I )(i A,i O )(i A,i I )(i I,i O ) Existence de lindex EO par validation croisée Existence de lindex EI par validation croisée Existence de lindex IO par validation croisée 39 Fonctionnement de lalgorithme de classification combinatoire par validation croisée Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

29 29 Ondelettes Les inconvénients dune telle approche : – Segmentation du signal – Choix de la base dondelette – Choix de léchelle – Temps de calcul MorletMeyer Daubechies Phonème /i/ Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

30 30 Empirical Mode Decomposition [Huang98] Nouvelle méthode de décomposition de signaux non-stationnaires Utilise l « intersec mode function » pour décomposer le signal La méthode sappuie sur une interpolation entre deux minima consécutifs Méthode localiste, indépendante dune paramétrisation au préalable Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

31 31 EMD: principe par lexemple (présentation Flandrin GRETSI 2003) Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

32 32 EMD: principe par lexemple (présentation Flandrin GRETSI 2003) Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

33 33 EMD: principe par lexemple (présentation Flandrin GRETSI 2003) Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

34 34 EMD: principe par lexemple (présentation Flandrin GRETSI 2003) Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

35 35 EMD: principe par lexemple (présentation Flandrin GRETSI 2003) Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

36 36 EMD: principe par lexemple (présentation Flandrin GRETSI 2003) Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

37 37 EMD: principe par lexemple (présentation Flandrin GRETSI 2003) Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

38 38 Algorithme de lEMD Principe : « signal = oscillations rapides superposées à des oscillations lentes » Huang 98: – identifier localement loscillation la plus rapide – soustraire au signal et itérer sur le résidu Algorithme: – calculer deux enveloppes (une supérieure et lautre inférieure) par interpolations entre les extrema du signal Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

39 39 Algorithme de lEMD soustraire au signal de départ la moyenne de ces enveloppes itérer jusquà ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1 soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input signal with three frequency 50Hz, 500Hz and 1KHz Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

40 40 Pourquoi lEMD Approche localiste pour mieux cerner les variations minimes du signal Faire face à la non-stationnarité du signal Une segmentation du signal de parole nest plus nécessaire Analyse dépendante du contexte Indépendance dune paramétrisation au préalable Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

41 41 Que peut on faire avec lEMD? Analyse du spectre de puissance Détection des formants Meilleur localisation fréquentielle Dans le cas dun signal voisé, elle permet une meilleure représentation Formants detection IMF vs. LPC analysis Nouvelle vision du problème Etat de lart sur les Pas Notre approche Ondelettes EMD

42 42 Conclusion Amélioration des performances des systèmes actuels par lajout dinformations auxiliaires Nouvelle méthode de décomposition des signaux non-stationnaire Originalité: – Idée et méthode jamais exploitées – Robustesse – Multilingues


Télécharger ppt "Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN."

Présentations similaires


Annonces Google