Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parMireille Duchene Modifié depuis plus de 11 années
1
Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon DEA de Sciences Cognitives
2
DEA de Sciences Cognitives
Plan Introduction aux processus de la communication parlée Analyse de la parole Synthèse de la parole Reconnaissance de la parole Reconnaissance du locuteur DEA de Sciences Cognitives
3
1. Introduction aux processus de la communication parlée
DEA de Sciences Cognitives
4
Quelques segments d’un signal DEA de Sciences Cognitives
5
Quelques propriétés du signal de parole
La parole est quasi-stationnaire La parole est 70% du temps (pseudo-)périodique (bruit ou silence le reste du temps) La parole est un signal large bande (il remplit toute la largeur de bande) La parole est un signal à bande limitée ( Hz essentiellement) DEA de Sciences Cognitives
6
Anatomie de l’appareil vocal (1)
DEA de Sciences Cognitives
7
Anatomie de l’appareil vocal (2)
DEA de Sciences Cognitives
8
Anatomie de l’appareil vocal (3)
DEA de Sciences Cognitives
9
Fonctionnement acoustique de l’appareil vocal
Système acoustique = excitateur + résonateur Trois modes de fonctionnement Excitation glottique du conduit vocal Excitation du conduit vocal en un point de constriction par un bruit d’écoulement Excitation du conduit vocal par une impulsion acoustique DEA de Sciences Cognitives
10
Transcription phonétique du français
DEA de Sciences Cognitives
11
Transcription phonétique du français
DEA de Sciences Cognitives
12
Description acoustique de la parole
DEA de Sciences Cognitives
13
Voyelles orales françaises
DEA de Sciences Cognitives
14
DEA de Sciences Cognitives
Triangle vocalique DEA de Sciences Cognitives
15
Représentation acoustique (ex. 1)
DEA de Sciences Cognitives
16
Représentation acoustique (ex. 2)
DEA de Sciences Cognitives
17
Grille polaire de Maeda
DEA de Sciences Cognitives
18
Coupes saggitales des voyelles
DEA de Sciences Cognitives
19
Fonctions d’aires des voyelles
DEA de Sciences Cognitives
20
DEA de Sciences Cognitives
Anatomie de l’oreille DEA de Sciences Cognitives
21
Les limites de l’oreille
L’oreille est à bande limitée L’oreille est fausse sur des sons purs L’oreille n’est pas également sensible L’oreille a une résolution en temps limitée L’oreille a une résolution en fréquence limitée DEA de Sciences Cognitives
22
DEA de Sciences Cognitives
2. Analyse de la parole DEA de Sciences Cognitives
23
Objectifs de l’analyse de parole
Extraire des paramètres du signal de parole afin de : Retirer l’information non pertinente Réduire la redondance Obtenir une représentation plus compacte Atteindre un niveau d’abstraction plus élevé Définir des mesures de ressemblance simples DEA de Sciences Cognitives
24
DEA de Sciences Cognitives
Principes Prétraitement Découpage en trames Taille des trames Décalage entre trames Fenêtrage Extraction de paramètres acoustiques DEA de Sciences Cognitives
25
Principe d’une analyse acoustique
DEA de Sciences Cognitives
26
Paramètres acoustiques non spectraux
Energie Fréquence fondamentale Taux de passage par zéro du signal Taux de passage par zéro de la dérivée du signal DEA de Sciences Cognitives
27
L’enveloppe spectrale
Les approches conventionnelles visent à extraire des caractéristiques de l’enveloppe spectrale. Analyse par banc de filtres Analyse par prédiction linéaire Coefficients cepstraux DEA de Sciences Cognitives
28
Analyse par banc de filtres (1)
DEA de Sciences Cognitives
29
Analyse par banc de filtres (2)
DEA de Sciences Cognitives
30
Analyse par banc de filtres (3)
DEA de Sciences Cognitives
31
Analyse par prédiction linéaire (1)
Modélisation de la parole sous forme d’un filtre de prédiction linéaire Filtre de prédiction linéaire e(t) s(t) DEA de Sciences Cognitives
32
Analyse par prédiction linéaire (2)
DEA de Sciences Cognitives
33
Coefficients cepstraux
On applique une transformée de Fourier inverse sur le module du spectre logarithmique. Les premiers coefficients caractérisent l’enveloppe spectrale. DEA de Sciences Cognitives
34
L’information dynamique
On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux → paramètres deltas et deltas-deltas DEA de Sciences Cognitives
35
DEA de Sciences Cognitives
3. Synthèse de la parole DEA de Sciences Cognitives
36
La synthèse, pour quoi faire ? DEA de Sciences Cognitives
Services de télécommunications Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.) Applications en bureautique Terminaux parlants, lecture des s par la voix, etc. Applications dans les transports Information dans les automobiles, aide à l’exploitation des trains, lecture de cadrans dans les avions, etc. Aide aux personnes handicapées Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre astrophysicien Stephen Hawking) Apprentissage des langues étrangères Dictionnaires électronique avec prononciation intégrée, logiciels d’apprentissage des langues étrangères, traduction automatique, etc. Livres et jouets parlants À l’usage des enfants en bas âge Communication naturelle avec la machine DEA de Sciences Cognitives
37
Structure d’un système de synthèse
SYNTHESE DE LA PAROLE A PARTIR DU TEXTE TRAITEMENT DU LANGAGE NATUREL Formalismes linguistiques Moteurs d’inférence Inférences logiques TRAITEMENT DU SIGNAL NUMERIQUE Modèles mathématiques Algorithmes Calculs numériques Texte Parole Phonèmes Prosodie DEA de Sciences Cognitives
38
Traitement du langage naturel
Texte Pré-processeur Analyseur morphologique Analyseur contextuel Structure de données Analyseur syntaxique- prosodique Phonétiseur Générateur de prosodie Phonèmes Prosodie DEA de Sciences Cognitives
39
Analyse morpho-syntaxique DEA de Sciences Cognitives
40
DEA de Sciences Cognitives
Phonétisation (1) DEA de Sciences Cognitives
41
DEA de Sciences Cognitives
Phonétisation (2) DEA de Sciences Cognitives
42
Synthétiseur par prédiction linéaire DEA de Sciences Cognitives
43
Synthétiseur à formants DEA de Sciences Cognitives
44
DEA de Sciences Cognitives
Synthèse par règles (1) DEA de Sciences Cognitives
45
DEA de Sciences Cognitives
Synthèse par règles (2) DEA de Sciences Cognitives
46
Synthèse par concaténation d’unités DEA de Sciences Cognitives
47
Qu’est-ce qu’un diphone ? DEA de Sciences Cognitives
48
Concaténation de diphones DEA de Sciences Cognitives
49
Prosodie : la « musique » de la parole DEA de Sciences Cognitives
50
DEA de Sciences Cognitives
Exemples ICP-Grenoble (F), 1993 CNET-Lannion (F), 1993 (TD-PSOLA) KTH-Stockholm (S), 1993 LAIP-Lausanne (CH), 1996 (MBR PSO) University-Mons (B), 1993 (LPC) University-Mons (B), 1993 (MBE) University-Mons (B), 1993 (MBR PSO) University-Mons (B), 1993 (TD PSO) DEA de Sciences Cognitives
51
Liens Internet sur la synthèse
DEA de Sciences Cognitives
52
4. Reconnaissance de la parole
DEA de Sciences Cognitives
53
DEA de Sciences Cognitives
Objectifs Transformer un signal de parole en : Texte (dictée vocale, transcription) Action (commande vocale, systèmes de dialogue) Information indexée (annotation, indexation) DEA de Sciences Cognitives
54
Les sources de variabilité DEA de Sciences Cognitives
Les facteurs intra-locuteurs : co-articulation, variation dans la prononciation, etc. Les facteurs inter-locuteurs : physiologie, age, sexe, psychologie, familiarité avec l’application, etc. L’environnement : bruit, micro, canal de transmission, présence d’autres locuteurs, etc. DEA de Sciences Cognitives
55
Variabilité intra- et inter-locuteur DEA de Sciences Cognitives
56
Variabilité intra-locuteur DEA de Sciences Cognitives
57
Typologie des systèmes DEA de Sciences Cognitives
Type de parole Taille du vocabulaire Niveau de dépendance par rapport aux locuteurs Environnement d’utilisation Profil des utilisateurs potentiels DEA de Sciences Cognitives
58
DEA de Sciences Cognitives
Type de parole Mots isolés Mots connectés Détection de mots clés Parole contrainte Parole continue Parole spontanée DEA de Sciences Cognitives
59
DEA de Sciences Cognitives
Taille du vocabulaire Quelques mots (5 – 50) Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000) DEA de Sciences Cognitives
60
Dépendance au locuteur DEA de Sciences Cognitives
Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier Adaptation au locuteur = utilise quelques données spécifiques d’un locuteur pour adapter le système à une nouvelle voix Indépendant du locuteur : le système fonctionne avec n’importe quel utilisateur DEA de Sciences Cognitives
61
Environnement d’utilisation DEA de Sciences Cognitives
Parole large-bande (ordinateur, etc.) Parole bande-étroite avec distorsion (téléphone, etc.) Environnement calme (bureau + micro-casque) Bruit de fond DEA de Sciences Cognitives
62
Profil des utilisateurs potentiels DEA de Sciences Cognitives
Utilisation professionnelle par des spécialistes Grand public Entraîné / naïf Fréquent / occasionnel Utilité Coopération DEA de Sciences Cognitives
63
DEA de Sciences Cognitives
Deux exemples Dictée vocale Parole continue Grand vocabulaire Adaptation au locuteur Bureau+micro-casque Utilisateurs d’ordinateurs Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public DEA de Sciences Cognitives
64
Système de reconnaissance de mots DEA de Sciences Cognitives
65
Programmation dynamique (DTW)
Mot 1 Mot 2 Mot n Mot inconnu Y Mot X meilleur chemin DEA de Sciences Cognitives
66
DEA de Sciences Cognitives
Contraintes locales DEA de Sciences Cognitives
67
Contraintes locales : exemple DEA de Sciences Cognitives
68
Modèle de Markov caché : principe DEA de Sciences Cognitives
69
Modèles de Markov cachés (HMM)
Mot inconnu Y Mot X Mot 1 Mot 2 Mot n meilleur chemin DEA de Sciences Cognitives
70
DEA de Sciences Cognitives
Viterbi : exemple DEA de Sciences Cognitives
71
Algorithme de Viterbi : exercice DEA de Sciences Cognitives
72
Les trois composantes d’un système
Les modèles acoustiques Pour transformer des paramètres acoustiques en phonèmes (ou parfois directement des mots) Le lexique Pour transformer une suite de phonèmes en mots Le modèle de langage Pour transformer une suite de mots en phrases DEA de Sciences Cognitives
73
Modèles acoustiques (1) DEA de Sciences Cognitives
74
Modèles acoustiques (2) DEA de Sciences Cognitives
Le mot « américain » DEA de Sciences Cognitives
75
DEA de Sciences Cognitives
Modèles de langage A un instant donné, tous les mots n’ont pas la même probabilité de présence : Le petit chat boit du … Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles » DEA de Sciences Cognitives
76
Modèle acoustique + Modèle de langage DEA de Sciences Cognitives
77
DEA de Sciences Cognitives
Performances DEA de Sciences Cognitives
78
DEA de Sciences Cognitives
Recherche actuelle DEA de Sciences Cognitives
79
5. Reconnaissance du locuteur
DEA de Sciences Cognitives
80
DEA de Sciences Cognitives
Définition de la RAL Reconnaissance automatique du locuteur (RAL) = reconnaître l’identité d’une personne à partir d’un enregistrement de sa voix à l’aide d’une technique entièrement automatique, et donc reproductible. DEA de Sciences Cognitives
81
Un domaine pluri-disciplinaire
ergonomie traitement du signal phonétique théorie de la décision S T I C RAL S H S théorie de l’information linguistique reconnaissance des formes statistiques probabilités DEA de Sciences Cognitives
82
DEA de Sciences Cognitives
Typologie des tâches Identification du locuteur en ensemble fermé Vérification du locuteur Identification du locuteur en ensemble ouvert Suivi de locuteurs Détection de changement de locuteur Segmentation par locuteurs Classes de locuteurs Adaptation au locuteur DEA de Sciences Cognitives
83
Niveau de dépendance au texte
Systèmes à mot de passe individuel, fixe Systèmes à mot de passe commun, fixe Systèmes à vocabulaire fixe (ordre des mots variables) Systèmes à texte imprédictible (imposé par le système) Systèmes dépendant d’un évènement phonétique Systèmes à texte totalement libre DEA de Sciences Cognitives
84
DEA de Sciences Cognitives
Typologie des erreurs Identification du locuteur en ensemble fermé : Mauvaise classification NOMBRE DE LOCUTEURS Vérification du locuteur : Fausse acceptation (non détection) Faux rejet (fausse alarme) EER (taux d’égale erreur) SEUIL DE DECISION DEA de Sciences Cognitives
85
Empreinte ou signature ?
Motivations : Caractéristiques physiologiques Origine géographique Contexte socioculturel Difficultés : Non reproductibilité (état de santé, facteurs psychologiques, état émotionnel, âge, etc.) dérive temporelle de la voix Bruits ambiants, canal de transmission Modifications intentionnelles (masquage, imitation) → pas d’empreinte vocale mais plutôt une signature vocale DEA de Sciences Cognitives
86
DEA de Sciences Cognitives
Et l’homme ? L’homme n’est pas particulièrement bon pour ce type de tâche. Il faut beaucoup d’entraînement pour y arriver. Même sur des voix familières, on a parfois des difficultés. C’est encore plus dur à travers le téléphone. Quand c’est possible, on utilise plutôt le visage. DEA de Sciences Cognitives
87
Les enjeux scientifiques de la RAL
Quelles sont les informations utilisées par l’homme pour reconnaître une voix ? Faut-il utiliser les mêmes dans un système automatique ? Quelles sont les informations extractibles d’un enregistrement d’une voix ? Comment faire un modèle de locuteur ? DEA de Sciences Cognitives
88
Comment reconnaître une personne ?
Quelles informations ? Spectrales (analyse acoustique) Phonétiques (façon de prononcer les sons) Idiolectales (façon d’utiliser les mots) Prosodiques (intensité, hauteur, longueur) Comment les exploiter ? Modèles statistiques Réseaux de neurones Réseaux bayésiens DEA de Sciences Cognitives
89
Les enjeux applicatifs de la RAL
Surtout vérification 3 grandes familles : Applications sur site Applications télécoms Applications policières / judiciaires Mais aussi : Organisation de l’information Jeux Etc. DEA de Sciences Cognitives
90
DEA de Sciences Cognitives
Applications sur site La personne doit être physiquement présente en un lieu précis Serrure vocale (pour des locaux, un compte informatique, etc.) Interactivité matérielle (retrait d’argent à un guichet automatique, etc.) Environnement contrôlable Système dissuasif L’utilisateur peut porter sur lui ses caractéristiques vocales Possibilité de techniques additionnelles de vérification de l’identité Possibilité d’intervention humaine DEA de Sciences Cognitives
91
Applications télécoms
La vérification s’opère à distance Accès à des services pour des abonnés (serveurs, données, etc.) Transactions à distance (opérations bancaires, paiements par carte bancaire, etc.) Signal de mauvaise qualité et fluctuant Dissuasion médiocre (anonymat) Les caractéristiques vocales doivent être centralisées Difficulté à implanter d’autres techniques de vérification de l’identité Pas d’intervention humaine possible DEA de Sciences Cognitives
92
Applications policières/judiciares
Recherche de suspects, d’éléments de preuve, de preuves, etc. Tests auditifs par des experts Lecture de spectrogrammes par des experts Méthodes (semi-)automatiques Identification ou vérification Pas de contraintes de temps réel Très importante hétérogénéité des enregistrements Possibilité de modifications intentionnelles Indépendance au texte souhaitable → Nécessité d’une précaution extrême pas toujours garantie DEA de Sciences Cognitives
93
DEA de Sciences Cognitives
Mais aussi… Organisation de l’information Structuration, archivage de documents sonores Navigation dans ces documents Jeux Augmenter l’interactivité Utilisation de profils de joueurs Personnalisation des services Stocker un profil d’utilisateur pour accéder plus rapidement à des services DEA de Sciences Cognitives
94
Les enjeux applicatifs : conclusion
La technologie est prête pour des applications ne nécessitant pas un niveau de sécurité très élevé. L’ergonomie peut pallier certaines faiblesses des algorithmes. La parole n’est pas le moyen le plus robuste en vérification de l’identité, mais c’est l’un des plus naturels (avec la reconnaissance de visage). Il est nécessaire d’informer largement les milieux policiers et judiciaires des limites de la reconnaissance du locuteur. DEA de Sciences Cognitives
95
Les enjeux stratégiques
Ecoutes téléphoniques Protection de la démocratie ? Intrusion dans la vie privée ? Recherche de suspects / Authentification Le corbeau de l’affaire Grégory La cassette Ben Laden DEA de Sciences Cognitives
96
DEA de Sciences Cognitives
Historique Trois étapes Reconnaissance par l’écoute faite par des « experts » (à partir de 1940) Reconnaissance par la lecture de spectrogrammes réalisée par des « experts » (de 1960 à 1970) Reconnaissance par des systèmes automatiques (ou pseudo-automatiques) (à partir de 1970) DEA de Sciences Cognitives
97
Reconnaissance par l’écoute
Tests par paires DEA de Sciences Cognitives
98
Reconnaissance par spectrogrammes
DEA de Sciences Cognitives
99
Reconnaissance automatique
Systèmes reposant sur des modélisations statistiques Ordres de grandeur pour la vérification (EER) En laboratoire : Pour des applications commerciales : Performances connues mais non publiques Jugées suffisantes pour quelques produits pionniers Pour des applications policières / judiciaires : Performances évaluées ? conditions idéales parole téléphonique (lignes fixes) dépendant du texte <0.1 % 0.5 à 2 % indépendant du texte 0.5 à 1 % 5 à 10 % DEA de Sciences Cognitives
100
Composantes d’un système
Une phase d’apprentissage Construction d’un modèle de locuteur Une phase de test Comparaison entre un énoncé et un modèle de locuteur DEA de Sciences Cognitives
101
Phase d’apprentissage
signal analyse paramètres modélisation Dictionnaire de modèles de référence identité ENTREES SORTIE DEA de Sciences Cognitives
102
Phase de test en identification
signal analyse paramètres modélisation ENTREE Dictionnaire de modèles de référence comparaison Scores décision SORTIE DEA de Sciences Cognitives
103
Phase de test en vérification
signal analyse paramètres modélisation Dictionnaire de modèles de référence identité comparaison ENTREES Score décision SORTIE DEA de Sciences Cognitives
104
La phase de paramétrisation
DEA de Sciences Cognitives
105
DEA de Sciences Cognitives
Paramètres d’analyse Paramètres spectraux : Analyse par banc de filtres ou analyse LPC Transformation cepstrale Paramètres delta (et delta-delta) Paramètres prosodiques : (Log-énergie et) delta-Log-énergie Fréquence fondamentale Paramètres de durée → Existe-t-il des paramètres spécifiques à la reconnaissance du locuteur? DEA de Sciences Cognitives
106
DEA de Sciences Cognitives
Modélisation Les précurseurs Programmation dynamique (DTW) Quantification vectorielle (VQ) Modèles de Markov cachés (HMM) Réseaux de neurones (NN) Modèles auto-régressifs vectoriels (ARVM) Modèles par mélange de Gaussiennes (GMM) DEA de Sciences Cognitives
107
Les précurseurs Mesure de corrélation entre spectres à long terme
PRUZANSKY 1963 Mesure de corrélation entre spectres à long terme ATAL 1968 Utilisation de contours prosodiques normalisés BRICKER 1971 Mesure de Mahalanobis sur spectres à long terme DEA de Sciences Cognitives
108
Programmation dynamique (DTW)
DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc. “Bonjour” locuteur 1 “Bonjour” locuteur 2 “Bonjour” locuteur n “Bonjour” locuteur test Y “Bonjour” locuteur X meilleur chemin DEA de Sciences Cognitives
109
Quantification vectorielle (VQ)
SOONG, ROSENBERG 1987 Dictionnaire locuteur 1 Dictionnaire locuteur 2 Dictionnaire locuteur n “Bonjour” locuteur test Y Dictionnaire locuteur X meilleure quant. DEA de Sciences Cognitives
110
Modèles de Markov cachés (HMM)
ROSENBERG 1990, TSENG 1992 “Bonjour” locuteur test Y “Bonjour” locuteur X “Bonjour” locuteur 1 “Bonjour” locuteur 2 “Bonjour” locuteur n meilleur chemin DEA de Sciences Cognitives
111
Modèles de Markov cachés (HMM)
PORITZ 1982, SAVIC 1990 HMM locuteur 1 HMM locuteur 2 HMM locuteur n “Bonjour” locuteur test Y HMM locuteur X meilleur chemin DEA de Sciences Cognitives
112
Modèles par mélange de Gaussiennes(GMM)
REYNOLDS 1995 DEA de Sciences Cognitives
113
DEA de Sciences Cognitives
La phase de décision Calcul d’un score Avec le modèle de locuteur considéré Avec un « modèle du monde » Rapport entre les deux scores Comparaison à un seuil Si supérieur au seuil, on « accepte » Si inférieur au seuil, on « rejette » DEA de Sciences Cognitives
114
DEA de Sciences Cognitives
L’évaluation EER : fausse acceptation = faux rejet Courbe DET : Les évaluations NIST DEA de Sciences Cognitives
115
La caractérisation du locuteur à DDL
Recherche d’une technique d’analyse du signal plus adaptée Amélioration des modèles statistiques et recherche d’algorithmes plus efficaces pour les apprendre Intégration des informations prosodiques dans les systèmes Modélisation de la dérive temporelle de la voix Utilisation de la reconnaissance du locuteur dans des tâches d’indexation sonore DEA de Sciences Cognitives
116
DEA de Sciences Cognitives
Conclusion sur la RAL Domaine pluridisciplinaire nécessitant des connaissances multiples Bonnes performances sur des données propres et en laboratoire, mais très insuffisantes pour des domaines nécessitant un haut degré de sécurité ou le domaine judiciaire On peut parler de signature vocale mais pas d’empreinte vocale DEA de Sciences Cognitives
117
DEA de Sciences Cognitives
Perspectives de la RAL Améliorer les systèmes Nouvelles sources d’information (prosodie) Analyse du signal plus adaptée Meilleurs modèles statistiques Robustesse (meilleure prise en compte de la variabilité) Etude de la dérive temporelle de la voix Autres tâches Segmentation par locuteurs Indexation par locuteurs DEA de Sciences Cognitives
118
Discussion sur une actualité récente
La vérification d’identité dans les milieux judiciaires L’affaire Grégory – la cassette Ben Laden Des articles de journaux la semaine dernière La prise de position des scientifiques français DEA de Sciences Cognitives
119
DEA de Sciences Cognitives
Bibliographie R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich. Traitement de la parole. Presses Polytechniques Romandes. Calliope. La parole et son traitement automatique. Masson, 1989. DEA de Sciences Cognitives
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.