La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

Présentations similaires


Présentation au sujet: "DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,"— Transcription de la présentation:

1

2 DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon

3 DEA de Sciences Cognitives 2 Plan 1.Introduction aux processus de la communication parlée 2.Analyse de la parole 3.Synthèse de la parole 4.Reconnaissance de la parole 5.Reconnaissance du locuteur

4 DEA de Sciences Cognitives 3 1. Introduction aux processus de la communication parlée

5 DEA de Sciences Cognitives 4 Quelques segments dun signal

6 DEA de Sciences Cognitives 5 Quelques propriétés du signal de parole La parole est quasi-stationnaire La parole est 70% du temps (pseudo-)périodique (bruit ou silence le reste du temps) La parole est un signal large bande (il remplit toute la largeur de bande) La parole est un signal à bande limitée ( Hz essentiellement)

7 DEA de Sciences Cognitives 6 Anatomie de lappareil vocal (1)

8 DEA de Sciences Cognitives 7 Anatomie de lappareil vocal (2)

9 DEA de Sciences Cognitives 8 Anatomie de lappareil vocal (3)

10 DEA de Sciences Cognitives 9 Fonctionnement acoustique de lappareil vocal Système acoustique = excitateur + résonateur Trois modes de fonctionnement –Excitation glottique du conduit vocal –Excitation du conduit vocal en un point de constriction par un bruit découlement –Excitation du conduit vocal par une impulsion acoustique

11 DEA de Sciences Cognitives 10 Transcription phonétique du français

12 DEA de Sciences Cognitives 11 Transcription phonétique du français

13 DEA de Sciences Cognitives 12 Description acoustique de la parole

14 DEA de Sciences Cognitives 13 Voyelles orales françaises

15 DEA de Sciences Cognitives 14 Triangle vocalique

16 DEA de Sciences Cognitives 15 Représentation acoustique (ex. 1)

17 DEA de Sciences Cognitives 16 Représentation acoustique (ex. 2)

18 DEA de Sciences Cognitives 17 Grille polaire de Maeda

19 DEA de Sciences Cognitives 18 Coupes saggitales des voyelles

20 DEA de Sciences Cognitives 19 Fonctions daires des voyelles

21 DEA de Sciences Cognitives 20 Anatomie de loreille

22 DEA de Sciences Cognitives 21 Les limites de loreille Loreille est à bande limitée Loreille est fausse sur des sons purs Loreille nest pas également sensible Loreille a une résolution en temps limitée Loreille a une résolution en fréquence limitée

23 DEA de Sciences Cognitives Analyse de la parole

24 DEA de Sciences Cognitives 23 Objectifs de lanalyse de parole Extraire des paramètres du signal de parole afin de : Retirer linformation non pertinente Réduire la redondance Obtenir une représentation plus compacte Atteindre un niveau dabstraction plus élevé Définir des mesures de ressemblance simples

25 DEA de Sciences Cognitives 24 Principes Prétraitement Découpage en trames –Taille des trames –Décalage entre trames Fenêtrage Extraction de paramètres acoustiques

26 DEA de Sciences Cognitives 25 Principe dune analyse acoustique

27 DEA de Sciences Cognitives 26 Paramètres acoustiques non spectraux Energie Fréquence fondamentale Taux de passage par zéro du signal Taux de passage par zéro de la dérivée du signal

28 DEA de Sciences Cognitives 27 Lenveloppe spectrale Les approches conventionnelles visent à extraire des caractéristiques de lenveloppe spectrale. Analyse par banc de filtres Analyse par prédiction linéaire Coefficients cepstraux

29 DEA de Sciences Cognitives 28 Analyse par banc de filtres (1)

30 DEA de Sciences Cognitives 29 Analyse par banc de filtres (2)

31 DEA de Sciences Cognitives 30 Analyse par banc de filtres (3)

32 DEA de Sciences Cognitives 31 Analyse par prédiction linéaire (1) Modélisation de la parole sous forme dun filtre de prédiction linéaire Filtre de prédiction linéaire e(t)s(t)

33 DEA de Sciences Cognitives 32 Analyse par prédiction linéaire (2)

34 DEA de Sciences Cognitives 33 Coefficients cepstraux On applique une transformée de Fourier inverse sur le module du spectre logarithmique. Les premiers coefficients caractérisent lenveloppe spectrale.

35 DEA de Sciences Cognitives 34 Linformation dynamique On représente linformation dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux paramètres deltas et deltas-deltas

36 DEA de Sciences Cognitives Synthèse de la parole

37 DEA de Sciences Cognitives 36 La synthèse, pour quoi faire ? Services de télécommunications –Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état dun compte en banque, dernière facture téléphonique, etc.) Applications en bureautique –Terminaux parlants, lecture des s par la voix, etc. Applications dans les transports –Information dans les automobiles, aide à lexploitation des trains, lecture de cadrans dans les avions, etc. Aide aux personnes handicapées –Un handicapé peut sexprimer par le biais dun synthétiseur (cours du célèbre astrophysicien Stephen Hawking) Apprentissage des langues étrangères –Dictionnaires électronique avec prononciation intégrée, logiciels dapprentissage des langues étrangères, traduction automatique, etc. Livres et jouets parlants –À lusage des enfants en bas âge Communication naturelle avec la machine

38 DEA de Sciences Cognitives 37 Structure dun système de synthèse SYNTHESE DE LA PAROLE A PARTIR DU TEXTE TRAITEMENT DU LANGAGE NATUREL Formalismes linguistiques Moteurs dinférence Inférences logiques TRAITEMENT DU SIGNAL NUMERIQUE Modèles mathématiques Algorithmes Calculs numériques Texte Parole Phonèmes Prosodie

39 DEA de Sciences Cognitives 38 Traitement du langage naturel Pré-processeur Analyseur morphologique Analyseur contextuel Analyseur syntaxique- prosodique Phonétiseur Générateur de prosodie Texte Structure de données Phonèmes Prosodie

40 DEA de Sciences Cognitives 39 Analyse morpho-syntaxique

41 DEA de Sciences Cognitives 40 Phonétisation (1)

42 DEA de Sciences Cognitives 41 Phonétisation (2)

43 DEA de Sciences Cognitives 42 Synthétiseur par prédiction linéaire

44 DEA de Sciences Cognitives 43 Synthétiseur à formants

45 DEA de Sciences Cognitives 44 Synthèse par règles (1)

46 DEA de Sciences Cognitives 45 Synthèse par règles (2)

47 DEA de Sciences Cognitives 46 Synthèse par concaténation dunités

48 DEA de Sciences Cognitives 47 Quest-ce quun diphone ?

49 DEA de Sciences Cognitives 48 Concaténation de diphones

50 DEA de Sciences Cognitives 49 Prosodie : la « musique » de la parole

51 DEA de Sciences Cognitives 50 Exemples ICP-Grenoble (F), 1993 CNET-Lannion (F), 1993 (TD-PSOLA) KTH-Stockholm (S), 1993 LAIP-Lausanne (CH), 1996 (MBR PSO) University-Mons (B), 1993 (LPC) University-Mons (B), 1993 (MBE) University-Mons (B), 1993 (MBR PSO) University-Mons (B), 1993 (TD PSO)

52 DEA de Sciences Cognitives 51 Liens Internet sur la synthèse

53 DEA de Sciences Cognitives Reconnaissance de la parole

54 DEA de Sciences Cognitives 53 Objectifs Transformer un signal de parole en : Texte (dictée vocale, transcription) Action (commande vocale, systèmes de dialogue) Information indexée (annotation, indexation)

55 DEA de Sciences Cognitives 54 Les sources de variabilité Les facteurs intra-locuteurs : co-articulation, variation dans la prononciation, etc. Les facteurs inter-locuteurs : physiologie, age, sexe, psychologie, familiarité avec lapplication, etc. Lenvironnement : bruit, micro, canal de transmission, présence dautres locuteurs, etc.

56 DEA de Sciences Cognitives 55 Variabilité intra- et inter-locuteur

57 DEA de Sciences Cognitives 56 Variabilité intra-locuteur

58 DEA de Sciences Cognitives 57 Typologie des systèmes Type de parole Taille du vocabulaire Niveau de dépendance par rapport aux locuteurs Environnement dutilisation Profil des utilisateurs potentiels

59 DEA de Sciences Cognitives 58 Type de parole Mots isolés Mots connectés Détection de mots clés Parole contrainte Parole continue Parole spontanée

60 DEA de Sciences Cognitives 59 Taille du vocabulaire Quelques mots (5 – 50) Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000)

61 DEA de Sciences Cognitives 60 Dépendance au locuteur Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier Adaptation au locuteur = utilise quelques données spécifiques dun locuteur pour adapter le système à une nouvelle voix Indépendant du locuteur : le système fonctionne avec nimporte quel utilisateur

62 DEA de Sciences Cognitives 61 Environnement dutilisation Parole large-bande (ordinateur, etc.) Parole bande-étroite avec distorsion (téléphone, etc.) Environnement calme (bureau + micro-casque) Bruit de fond

63 DEA de Sciences Cognitives 62 Profil des utilisateurs potentiels Utilisation professionnelle par des spécialistes Grand public Entraîné / naïf Fréquent / occasionnel Utilité Coopération

64 DEA de Sciences Cognitives 63 Deux exemples Dictée vocale Parole continue Grand vocabulaire Adaptation au locuteur Bureau+micro-casque Utilisateurs dordinateurs Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public

65 DEA de Sciences Cognitives 64 Système de reconnaissance de mots

66 DEA de Sciences Cognitives 65 Programmation dynamique (DTW) meilleur chemin Mot inconnu Y Mot X Mot 1 Mot 2 Mot n

67 DEA de Sciences Cognitives 66 Contraintes locales

68 DEA de Sciences Cognitives 67 Contraintes locales : exemple

69 DEA de Sciences Cognitives 68 Modèle de Markov caché : principe

70 DEA de Sciences Cognitives 69 Modèles de Markov cachés (HMM) meilleur chemin Mot 2 Mot 1 Mot n Mot inconnu Y Mot X

71 DEA de Sciences Cognitives 70 Viterbi : exemple

72 DEA de Sciences Cognitives 71 Algorithme de Viterbi : exercice

73 DEA de Sciences Cognitives 72 Les trois composantes dun système Les modèles acoustiques –Pour transformer des paramètres acoustiques en phonèmes (ou parfois directement des mots) Le lexique –Pour transformer une suite de phonèmes en mots Le modèle de langage –Pour transformer une suite de mots en phrases

74 DEA de Sciences Cognitives 73 Modèles acoustiques (1)

75 DEA de Sciences Cognitives 74 Modèles acoustiques (2) Le mot « américain »

76 DEA de Sciences Cognitives 75 Modèles de langage A un instant donné, tous les mots nont pas la même probabilité de présence : –Le petit chat boit du … Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »

77 DEA de Sciences Cognitives 76 Modèle acoustique + Modèle de langage

78 DEA de Sciences Cognitives 77 Performances

79 DEA de Sciences Cognitives 78 Recherche actuelle

80 DEA de Sciences Cognitives Reconnaissance du locuteur

81 DEA de Sciences Cognitives 80 Définition de la RAL Reconnaissance automatique du locuteur (RAL) = reconnaître lidentité dune personne à partir dun enregistrement de sa voix à laide dune technique entièrement automatique, et donc reproductible.

82 DEA de Sciences Cognitives 81 Un domaine pluri-disciplinaire RAL traitement du signal reconnaissance des formes statistiques probabilités théorie de la décision phonétique linguistique ergonomie théorie de linformation S T I C S H S

83 DEA de Sciences Cognitives 82 Typologie des tâches Identification du locuteur en ensemble fermé Vérification du locuteur Identification du locuteur en ensemble ouvert Suivi de locuteurs Détection de changement de locuteur Segmentation par locuteurs Classes de locuteurs Adaptation au locuteur

84 DEA de Sciences Cognitives 83 Niveau de dépendance au texte Systèmes à mot de passe individuel, fixe Systèmes à mot de passe commun, fixe Systèmes à vocabulaire fixe (ordre des mots variables) Systèmes à texte imprédictible (imposé par le système) Systèmes dépendant dun évènement phonétique Systèmes à texte totalement libre

85 DEA de Sciences Cognitives 84 Typologie des erreurs Identification du locuteur en ensemble fermé : –Mauvaise classification NOMBRE DE LOCUTEURS Vérification du locuteur : –Fausse acceptation (non détection) –Faux rejet (fausse alarme) –EER (taux dégale erreur) SEUIL DE DECISION

86 DEA de Sciences Cognitives 85 Empreinte ou signature ? Motivations : –Caractéristiques physiologiques –Origine géographique –Contexte socioculturel Difficultés : –Non reproductibilité (état de santé, facteurs psychologiques, état émotionnel, âge, etc.) dérive temporelle de la voix –Bruits ambiants, canal de transmission –Modifications intentionnelles (masquage, imitation) pas dempreinte vocale mais plutôt une signature vocale

87 DEA de Sciences Cognitives 86 Et lhomme ? Lhomme nest pas particulièrement bon pour ce type de tâche. Il faut beaucoup dentraînement pour y arriver. Même sur des voix familières, on a parfois des difficultés. Cest encore plus dur à travers le téléphone. Quand cest possible, on utilise plutôt le visage.

88 DEA de Sciences Cognitives 87 Les enjeux scientifiques de la RAL Quelles sont les informations utilisées par lhomme pour reconnaître une voix ? Faut-il utiliser les mêmes dans un système automatique ? Quelles sont les informations extractibles dun enregistrement dune voix ? Comment faire un modèle de locuteur ?

89 DEA de Sciences Cognitives 88 Comment reconnaître une personne ? Quelles informations ? –Spectrales (analyse acoustique) –Phonétiques (façon de prononcer les sons) –Idiolectales (façon dutiliser les mots) –Prosodiques (intensité, hauteur, longueur) Comment les exploiter ? –Modèles statistiques –Réseaux de neurones –Réseaux bayésiens

90 DEA de Sciences Cognitives 89 Les enjeux applicatifs de la RAL Surtout vérification 3 grandes familles : –Applications sur site –Applications télécoms –Applications policières / judiciaires Mais aussi : –Organisation de linformation –Jeux –Etc.

91 DEA de Sciences Cognitives 90 Applications sur site La personne doit être physiquement présente en un lieu précis -Serrure vocale (pour des locaux, un compte informatique, etc.) -Interactivité matérielle (retrait dargent à un guichet automatique, etc.) Environnement contrôlable Système dissuasif Lutilisateur peut porter sur lui ses caractéristiques vocales Possibilité de techniques additionnelles de vérification de lidentité Possibilité dintervention humaine

92 DEA de Sciences Cognitives 91 Applications télécoms La vérification sopère à distance -Accès à des services pour des abonnés (serveurs, données, etc.) -Transactions à distance (opérations bancaires, paiements par carte bancaire, etc.) Signal de mauvaise qualité et fluctuant Dissuasion médiocre (anonymat) Les caractéristiques vocales doivent être centralisées Difficulté à implanter dautres techniques de vérification de lidentité Pas dintervention humaine possible

93 DEA de Sciences Cognitives 92 Applications policières/judiciares Recherche de suspects, déléments de preuve, de preuves, etc. -Tests auditifs par des experts -Lecture de spectrogrammes par des experts -Méthodes (semi-)automatiques Identification ou vérification Pas de contraintes de temps réel Très importante hétérogénéité des enregistrements Possibilité de modifications intentionnelles Indépendance au texte souhaitable Nécessité dune précaution extrême pas toujours garantie

94 DEA de Sciences Cognitives 93 Mais aussi… Organisation de linformation –Structuration, archivage de documents sonores –Navigation dans ces documents Jeux –Augmenter linteractivité –Utilisation de profils de joueurs Personnalisation des services –Stocker un profil dutilisateur pour accéder plus rapidement à des services

95 DEA de Sciences Cognitives 94 Les enjeux applicatifs : conclusion La technologie est prête pour des applications ne nécessitant pas un niveau de sécurité très élevé. Lergonomie peut pallier certaines faiblesses des algorithmes. La parole nest pas le moyen le plus robuste en vérification de lidentité, mais cest lun des plus naturels (avec la reconnaissance de visage). Il est nécessaire dinformer largement les milieux policiers et judiciaires des limites de la reconnaissance du locuteur.

96 DEA de Sciences Cognitives 95 Les enjeux stratégiques Ecoutes téléphoniques –Protection de la démocratie ? –Intrusion dans la vie privée ? Recherche de suspects / Authentification –Le corbeau de laffaire Grégory –La cassette Ben Laden

97 DEA de Sciences Cognitives 96 Historique Trois étapes Reconnaissance par lécoute faite par des « experts » (à partir de 1940) Reconnaissance par la lecture de spectrogrammes réalisée par des « experts » (de 1960 à 1970) Reconnaissance par des systèmes automatiques (ou pseudo-automatiques) (à partir de 1970)

98 DEA de Sciences Cognitives 97 Reconnaissance par lécoute Tests par paires

99 DEA de Sciences Cognitives 98 Reconnaissance par spectrogrammes

100 DEA de Sciences Cognitives 99 Reconnaissance automatique Systèmes reposant sur des modélisations statistiques Ordres de grandeur pour la vérification (EER) –En laboratoire : –Pour des applications commerciales : Performances connues mais non publiques Jugées suffisantes pour quelques produits pionniers –Pour des applications policières / judiciaires : Performances évaluées ? conditions idéalesparole téléphonique (lignes fixes) dépendant du texte<0.1 %0.5 à 2 % indépendant du texte0.5 à 1 %5 à 10 %

101 DEA de Sciences Cognitives 100 Composantes dun système Une phase dapprentissage –Construction dun modèle de locuteur Une phase de test –Comparaison entre un énoncé et un modèle de locuteur

102 DEA de Sciences Cognitives 101 Phase dapprentissage analysesignal identité paramètresmodélisation Dictionnaire de modèles de référence ENTREES SORTIE

103 DEA de Sciences Cognitives 102 Phase de test en identification analysesignalparamètresmodélisation Dictionnaire de modèles de référence ENTREE comparaison Scores décision SORTIE

104 DEA de Sciences Cognitives 103 Phase de test en vérification analyseparamètresmodélisation Dictionnaire de modèles de référence comparaison Score décision SORTIE signal identité ENTREES

105 DEA de Sciences Cognitives 104 La phase de paramétrisation

106 DEA de Sciences Cognitives 105 Paramètres danalyse Paramètres spectraux : –Analyse par banc de filtres ou analyse LPC –Transformation cepstrale –Paramètres delta (et delta-delta) Paramètres prosodiques : –(Log-énergie et) delta-Log-énergie –Fréquence fondamentale –Paramètres de durée Existe-t-il des paramètres spécifiques à la reconnaissance du locuteur?

107 DEA de Sciences Cognitives 106 Modélisation Les précurseurs Programmation dynamique (DTW) Quantification vectorielle (VQ) Modèles de Markov cachés (HMM) Réseaux de neurones (NN) Modèles auto-régressifs vectoriels (ARVM) Modèles par mélange de Gaussiennes (GMM)

108 DEA de Sciences Cognitives 107 Les précurseurs PRUZANSKY 1963 Mesure de corrélation entre spectres à long terme ATAL 1968 Utilisation de contours prosodiques normalisés BRICKER 1971 Mesure de Mahalanobis sur spectres à long terme

109 DEA de Sciences Cognitives 108 Programmation dynamique (DTW) meilleur chemin Bonjour locuteur test Y Bonjour locuteur X Bonjour locuteur 1 Bonjour locuteur 2 Bonjour locuteur n DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc.

110 DEA de Sciences Cognitives 109 Quantification vectorielle (VQ) meilleure quant. Dictionnaire locuteur 1 Dictionnaire locuteur 2 Dictionnaire locuteur n Bonjour locuteur test Y Dictionnaire locuteur X SOONG, ROSENBERG 1987

111 DEA de Sciences Cognitives 110 Modèles de Markov cachés (HMM) meilleur chemin Bonjour locuteur 1 Bonjour locuteur 2 Bonjour locuteur n Bonjour locuteur test Y Bonjour locuteur X ROSENBERG 1990, TSENG 1992

112 DEA de Sciences Cognitives 111 Modèles de Markov cachés (HMM) meilleur chemin HMM locuteur 1 HMM locuteur 2 HMM locuteur n Bonjour locuteur test Y HMM locuteur X PORITZ 1982, SAVIC 1990

113 DEA de Sciences Cognitives 112 Modèles par mélange de Gaussiennes(GMM) REYNOLDS 1995

114 DEA de Sciences Cognitives 113 La phase de décision Calcul dun score –Avec le modèle de locuteur considéré –Avec un « modèle du monde » –Rapport entre les deux scores Comparaison à un seuil –Si supérieur au seuil, on « accepte » –Si inférieur au seuil, on « rejette »

115 DEA de Sciences Cognitives 114 Lévaluation EER : fausse acceptation = faux rejet Courbe DET : Les évaluations NIST

116 DEA de Sciences Cognitives 115 La caractérisation du locuteur à DDL Recherche dune technique danalyse du signal plus adaptée Amélioration des modèles statistiques et recherche dalgorithmes plus efficaces pour les apprendre Intégration des informations prosodiques dans les systèmes Modélisation de la dérive temporelle de la voix Utilisation de la reconnaissance du locuteur dans des tâches dindexation sonore

117 DEA de Sciences Cognitives 116 Conclusion sur la RAL Domaine pluridisciplinaire nécessitant des connaissances multiples Bonnes performances sur des données propres et en laboratoire, mais très insuffisantes pour des domaines nécessitant un haut degré de sécurité ou le domaine judiciaire On peut parler de signature vocale mais pas dempreinte vocale

118 DEA de Sciences Cognitives 117 Perspectives de la RAL Améliorer les systèmes –Nouvelles sources dinformation (prosodie) –Analyse du signal plus adaptée –Meilleurs modèles statistiques –Robustesse (meilleure prise en compte de la variabilité) –Etude de la dérive temporelle de la voix Autres tâches –Segmentation par locuteurs –Indexation par locuteurs

119 DEA de Sciences Cognitives 118 Discussion sur une actualité récente La vérification didentité dans les milieux judiciaires Laffaire Grégory – la cassette Ben Laden Des articles de journaux la semaine dernière La prise de position des scientifiques français

120 DEA de Sciences Cognitives 119 Bibliographie R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich. Traitement de la parole. Presses Polytechniques Romandes. Calliope. La parole et son traitement automatique. Masson, 1989.


Télécharger ppt "DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,"

Présentations similaires


Annonces Google