Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ ivan@ieee.org DEA de Sciences Cognitives
DEA de Sciences Cognitives Plan Introduction aux processus de la communication parlée Analyse de la parole Synthèse de la parole Reconnaissance de la parole Reconnaissance du locuteur DEA de Sciences Cognitives
1. Introduction aux processus de la communication parlée DEA de Sciences Cognitives
Quelques segments d’un signal DEA de Sciences Cognitives
Quelques propriétés du signal de parole La parole est quasi-stationnaire La parole est 70% du temps (pseudo-)périodique (bruit ou silence le reste du temps) La parole est un signal large bande (il remplit toute la largeur de bande) La parole est un signal à bande limitée (0-8000 Hz essentiellement) DEA de Sciences Cognitives
Anatomie de l’appareil vocal (1) DEA de Sciences Cognitives
Anatomie de l’appareil vocal (2) DEA de Sciences Cognitives
Anatomie de l’appareil vocal (3) DEA de Sciences Cognitives
Fonctionnement acoustique de l’appareil vocal Système acoustique = excitateur + résonateur Trois modes de fonctionnement Excitation glottique du conduit vocal Excitation du conduit vocal en un point de constriction par un bruit d’écoulement Excitation du conduit vocal par une impulsion acoustique DEA de Sciences Cognitives
Transcription phonétique du français DEA de Sciences Cognitives
Transcription phonétique du français DEA de Sciences Cognitives
Description acoustique de la parole DEA de Sciences Cognitives
Voyelles orales françaises DEA de Sciences Cognitives
DEA de Sciences Cognitives Triangle vocalique DEA de Sciences Cognitives
Représentation acoustique (ex. 1) DEA de Sciences Cognitives
Représentation acoustique (ex. 2) DEA de Sciences Cognitives
Grille polaire de Maeda DEA de Sciences Cognitives
Coupes saggitales des voyelles DEA de Sciences Cognitives
Fonctions d’aires des voyelles DEA de Sciences Cognitives
DEA de Sciences Cognitives Anatomie de l’oreille DEA de Sciences Cognitives
Les limites de l’oreille L’oreille est à bande limitée L’oreille est fausse sur des sons purs L’oreille n’est pas également sensible L’oreille a une résolution en temps limitée L’oreille a une résolution en fréquence limitée DEA de Sciences Cognitives
DEA de Sciences Cognitives 2. Analyse de la parole DEA de Sciences Cognitives
Objectifs de l’analyse de parole Extraire des paramètres du signal de parole afin de : Retirer l’information non pertinente Réduire la redondance Obtenir une représentation plus compacte Atteindre un niveau d’abstraction plus élevé Définir des mesures de ressemblance simples DEA de Sciences Cognitives
DEA de Sciences Cognitives Principes Prétraitement Découpage en trames Taille des trames Décalage entre trames Fenêtrage Extraction de paramètres acoustiques DEA de Sciences Cognitives
Principe d’une analyse acoustique DEA de Sciences Cognitives
Paramètres acoustiques non spectraux Energie Fréquence fondamentale Taux de passage par zéro du signal Taux de passage par zéro de la dérivée du signal DEA de Sciences Cognitives
L’enveloppe spectrale Les approches conventionnelles visent à extraire des caractéristiques de l’enveloppe spectrale. Analyse par banc de filtres Analyse par prédiction linéaire Coefficients cepstraux DEA de Sciences Cognitives
Analyse par banc de filtres (1) DEA de Sciences Cognitives
Analyse par banc de filtres (2) DEA de Sciences Cognitives
Analyse par banc de filtres (3) DEA de Sciences Cognitives
Analyse par prédiction linéaire (1) Modélisation de la parole sous forme d’un filtre de prédiction linéaire Filtre de prédiction linéaire e(t) s(t) DEA de Sciences Cognitives
Analyse par prédiction linéaire (2) DEA de Sciences Cognitives
Coefficients cepstraux On applique une transformée de Fourier inverse sur le module du spectre logarithmique. Les premiers coefficients caractérisent l’enveloppe spectrale. DEA de Sciences Cognitives
L’information dynamique On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux → paramètres deltas et deltas-deltas DEA de Sciences Cognitives
DEA de Sciences Cognitives 3. Synthèse de la parole DEA de Sciences Cognitives
La synthèse, pour quoi faire ? DEA de Sciences Cognitives Services de télécommunications Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.) Applications en bureautique Terminaux parlants, lecture des emails par la voix, etc. Applications dans les transports Information dans les automobiles, aide à l’exploitation des trains, lecture de cadrans dans les avions, etc. Aide aux personnes handicapées Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre astrophysicien Stephen Hawking) Apprentissage des langues étrangères Dictionnaires électronique avec prononciation intégrée, logiciels d’apprentissage des langues étrangères, traduction automatique, etc. Livres et jouets parlants À l’usage des enfants en bas âge Communication naturelle avec la machine DEA de Sciences Cognitives
Structure d’un système de synthèse SYNTHESE DE LA PAROLE A PARTIR DU TEXTE TRAITEMENT DU LANGAGE NATUREL Formalismes linguistiques Moteurs d’inférence Inférences logiques TRAITEMENT DU SIGNAL NUMERIQUE Modèles mathématiques Algorithmes Calculs numériques Texte Parole Phonèmes Prosodie DEA de Sciences Cognitives
Traitement du langage naturel Texte Pré-processeur Analyseur morphologique Analyseur contextuel Structure de données Analyseur syntaxique- prosodique Phonétiseur Générateur de prosodie Phonèmes Prosodie DEA de Sciences Cognitives
Analyse morpho-syntaxique DEA de Sciences Cognitives
DEA de Sciences Cognitives Phonétisation (1) DEA de Sciences Cognitives
DEA de Sciences Cognitives Phonétisation (2) DEA de Sciences Cognitives
Synthétiseur par prédiction linéaire DEA de Sciences Cognitives
Synthétiseur à formants DEA de Sciences Cognitives
DEA de Sciences Cognitives Synthèse par règles (1) DEA de Sciences Cognitives
DEA de Sciences Cognitives Synthèse par règles (2) DEA de Sciences Cognitives
Synthèse par concaténation d’unités DEA de Sciences Cognitives
Qu’est-ce qu’un diphone ? DEA de Sciences Cognitives
Concaténation de diphones DEA de Sciences Cognitives
Prosodie : la « musique » de la parole DEA de Sciences Cognitives
DEA de Sciences Cognitives Exemples ICP-Grenoble (F), 1993 CNET-Lannion (F), 1993 (TD-PSOLA) KTH-Stockholm (S), 1993 LAIP-Lausanne (CH), 1996 (MBR PSO) University-Mons (B), 1993 (LPC) University-Mons (B), 1993 (MBE) University-Mons (B), 1993 (MBR PSO) University-Mons (B), 1993 (TD PSO) DEA de Sciences Cognitives
Liens Internet sur la synthèse http://tcts.fpms.ac.be/synthesis/mbrola.html http://www.bell-labs.com/project/tts/#examples http://www.cstr.ed.ac.uk/projects/festival/ http://www.research.att.com/projects/tts/ DEA de Sciences Cognitives
4. Reconnaissance de la parole DEA de Sciences Cognitives
DEA de Sciences Cognitives Objectifs Transformer un signal de parole en : Texte (dictée vocale, transcription) Action (commande vocale, systèmes de dialogue) Information indexée (annotation, indexation) DEA de Sciences Cognitives
Les sources de variabilité DEA de Sciences Cognitives Les facteurs intra-locuteurs : co-articulation, variation dans la prononciation, etc. Les facteurs inter-locuteurs : physiologie, age, sexe, psychologie, familiarité avec l’application, etc. L’environnement : bruit, micro, canal de transmission, présence d’autres locuteurs, etc. DEA de Sciences Cognitives
Variabilité intra- et inter-locuteur DEA de Sciences Cognitives
Variabilité intra-locuteur DEA de Sciences Cognitives
Typologie des systèmes DEA de Sciences Cognitives Type de parole Taille du vocabulaire Niveau de dépendance par rapport aux locuteurs Environnement d’utilisation Profil des utilisateurs potentiels DEA de Sciences Cognitives
DEA de Sciences Cognitives Type de parole Mots isolés Mots connectés Détection de mots clés Parole contrainte Parole continue Parole spontanée DEA de Sciences Cognitives
DEA de Sciences Cognitives Taille du vocabulaire Quelques mots (5 – 50) Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000) DEA de Sciences Cognitives
Dépendance au locuteur DEA de Sciences Cognitives Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier Adaptation au locuteur = utilise quelques données spécifiques d’un locuteur pour adapter le système à une nouvelle voix Indépendant du locuteur : le système fonctionne avec n’importe quel utilisateur DEA de Sciences Cognitives
Environnement d’utilisation DEA de Sciences Cognitives Parole large-bande (ordinateur, etc.) Parole bande-étroite avec distorsion (téléphone, etc.) Environnement calme (bureau + micro-casque) Bruit de fond DEA de Sciences Cognitives
Profil des utilisateurs potentiels DEA de Sciences Cognitives Utilisation professionnelle par des spécialistes Grand public Entraîné / naïf Fréquent / occasionnel Utilité Coopération DEA de Sciences Cognitives
DEA de Sciences Cognitives Deux exemples Dictée vocale Parole continue Grand vocabulaire Adaptation au locuteur Bureau+micro-casque Utilisateurs d’ordinateurs Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public DEA de Sciences Cognitives
Système de reconnaissance de mots DEA de Sciences Cognitives
Programmation dynamique (DTW) Mot 1 Mot 2 Mot n Mot inconnu Y Mot X meilleur chemin DEA de Sciences Cognitives
DEA de Sciences Cognitives Contraintes locales DEA de Sciences Cognitives
Contraintes locales : exemple DEA de Sciences Cognitives
Modèle de Markov caché : principe DEA de Sciences Cognitives
Modèles de Markov cachés (HMM) Mot inconnu Y Mot X Mot 1 Mot 2 Mot n meilleur chemin DEA de Sciences Cognitives
DEA de Sciences Cognitives Viterbi : exemple DEA de Sciences Cognitives
Algorithme de Viterbi : exercice DEA de Sciences Cognitives
Les trois composantes d’un système Les modèles acoustiques Pour transformer des paramètres acoustiques en phonèmes (ou parfois directement des mots) Le lexique Pour transformer une suite de phonèmes en mots Le modèle de langage Pour transformer une suite de mots en phrases DEA de Sciences Cognitives
Modèles acoustiques (1) DEA de Sciences Cognitives
Modèles acoustiques (2) DEA de Sciences Cognitives Le mot « américain » DEA de Sciences Cognitives
DEA de Sciences Cognitives Modèles de langage A un instant donné, tous les mots n’ont pas la même probabilité de présence : Le petit chat boit du … Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles » DEA de Sciences Cognitives
Modèle acoustique + Modèle de langage DEA de Sciences Cognitives
DEA de Sciences Cognitives Performances DEA de Sciences Cognitives
DEA de Sciences Cognitives Recherche actuelle DEA de Sciences Cognitives
5. Reconnaissance du locuteur DEA de Sciences Cognitives
DEA de Sciences Cognitives Définition de la RAL Reconnaissance automatique du locuteur (RAL) = reconnaître l’identité d’une personne à partir d’un enregistrement de sa voix à l’aide d’une technique entièrement automatique, et donc reproductible. DEA de Sciences Cognitives
Un domaine pluri-disciplinaire ergonomie traitement du signal phonétique théorie de la décision S T I C RAL S H S théorie de l’information linguistique reconnaissance des formes statistiques probabilités DEA de Sciences Cognitives
DEA de Sciences Cognitives Typologie des tâches Identification du locuteur en ensemble fermé Vérification du locuteur Identification du locuteur en ensemble ouvert Suivi de locuteurs Détection de changement de locuteur Segmentation par locuteurs Classes de locuteurs Adaptation au locuteur DEA de Sciences Cognitives
Niveau de dépendance au texte Systèmes à mot de passe individuel, fixe Systèmes à mot de passe commun, fixe Systèmes à vocabulaire fixe (ordre des mots variables) Systèmes à texte imprédictible (imposé par le système) Systèmes dépendant d’un évènement phonétique Systèmes à texte totalement libre DEA de Sciences Cognitives
DEA de Sciences Cognitives Typologie des erreurs Identification du locuteur en ensemble fermé : Mauvaise classification NOMBRE DE LOCUTEURS Vérification du locuteur : Fausse acceptation (non détection) Faux rejet (fausse alarme) EER (taux d’égale erreur) SEUIL DE DECISION DEA de Sciences Cognitives
Empreinte ou signature ? Motivations : Caractéristiques physiologiques Origine géographique Contexte socioculturel Difficultés : Non reproductibilité (état de santé, facteurs psychologiques, état émotionnel, âge, etc.) dérive temporelle de la voix Bruits ambiants, canal de transmission Modifications intentionnelles (masquage, imitation) → pas d’empreinte vocale mais plutôt une signature vocale DEA de Sciences Cognitives
DEA de Sciences Cognitives Et l’homme ? L’homme n’est pas particulièrement bon pour ce type de tâche. Il faut beaucoup d’entraînement pour y arriver. Même sur des voix familières, on a parfois des difficultés. C’est encore plus dur à travers le téléphone. Quand c’est possible, on utilise plutôt le visage. DEA de Sciences Cognitives
Les enjeux scientifiques de la RAL Quelles sont les informations utilisées par l’homme pour reconnaître une voix ? Faut-il utiliser les mêmes dans un système automatique ? Quelles sont les informations extractibles d’un enregistrement d’une voix ? Comment faire un modèle de locuteur ? DEA de Sciences Cognitives
Comment reconnaître une personne ? Quelles informations ? Spectrales (analyse acoustique) Phonétiques (façon de prononcer les sons) Idiolectales (façon d’utiliser les mots) Prosodiques (intensité, hauteur, longueur) Comment les exploiter ? Modèles statistiques Réseaux de neurones Réseaux bayésiens DEA de Sciences Cognitives
Les enjeux applicatifs de la RAL Surtout vérification 3 grandes familles : Applications sur site Applications télécoms Applications policières / judiciaires Mais aussi : Organisation de l’information Jeux Etc. DEA de Sciences Cognitives
DEA de Sciences Cognitives Applications sur site La personne doit être physiquement présente en un lieu précis Serrure vocale (pour des locaux, un compte informatique, etc.) Interactivité matérielle (retrait d’argent à un guichet automatique, etc.) Environnement contrôlable Système dissuasif L’utilisateur peut porter sur lui ses caractéristiques vocales Possibilité de techniques additionnelles de vérification de l’identité Possibilité d’intervention humaine DEA de Sciences Cognitives
Applications télécoms La vérification s’opère à distance Accès à des services pour des abonnés (serveurs, données, etc.) Transactions à distance (opérations bancaires, paiements par carte bancaire, etc.) Signal de mauvaise qualité et fluctuant Dissuasion médiocre (anonymat) Les caractéristiques vocales doivent être centralisées Difficulté à implanter d’autres techniques de vérification de l’identité Pas d’intervention humaine possible DEA de Sciences Cognitives
Applications policières/judiciares Recherche de suspects, d’éléments de preuve, de preuves, etc. Tests auditifs par des experts Lecture de spectrogrammes par des experts Méthodes (semi-)automatiques Identification ou vérification Pas de contraintes de temps réel Très importante hétérogénéité des enregistrements Possibilité de modifications intentionnelles Indépendance au texte souhaitable → Nécessité d’une précaution extrême pas toujours garantie DEA de Sciences Cognitives
DEA de Sciences Cognitives Mais aussi… Organisation de l’information Structuration, archivage de documents sonores Navigation dans ces documents Jeux Augmenter l’interactivité Utilisation de profils de joueurs Personnalisation des services Stocker un profil d’utilisateur pour accéder plus rapidement à des services DEA de Sciences Cognitives
Les enjeux applicatifs : conclusion La technologie est prête pour des applications ne nécessitant pas un niveau de sécurité très élevé. L’ergonomie peut pallier certaines faiblesses des algorithmes. La parole n’est pas le moyen le plus robuste en vérification de l’identité, mais c’est l’un des plus naturels (avec la reconnaissance de visage). Il est nécessaire d’informer largement les milieux policiers et judiciaires des limites de la reconnaissance du locuteur. DEA de Sciences Cognitives
Les enjeux stratégiques Ecoutes téléphoniques Protection de la démocratie ? Intrusion dans la vie privée ? Recherche de suspects / Authentification Le corbeau de l’affaire Grégory La cassette Ben Laden DEA de Sciences Cognitives
DEA de Sciences Cognitives Historique Trois étapes Reconnaissance par l’écoute faite par des « experts » (à partir de 1940) Reconnaissance par la lecture de spectrogrammes réalisée par des « experts » (de 1960 à 1970) Reconnaissance par des systèmes automatiques (ou pseudo-automatiques) (à partir de 1970) DEA de Sciences Cognitives
Reconnaissance par l’écoute Tests par paires DEA de Sciences Cognitives
Reconnaissance par spectrogrammes DEA de Sciences Cognitives
Reconnaissance automatique Systèmes reposant sur des modélisations statistiques Ordres de grandeur pour la vérification (EER) En laboratoire : Pour des applications commerciales : Performances connues mais non publiques Jugées suffisantes pour quelques produits pionniers Pour des applications policières / judiciaires : Performances évaluées ? conditions idéales parole téléphonique (lignes fixes) dépendant du texte <0.1 % 0.5 à 2 % indépendant du texte 0.5 à 1 % 5 à 10 % DEA de Sciences Cognitives
Composantes d’un système Une phase d’apprentissage Construction d’un modèle de locuteur Une phase de test Comparaison entre un énoncé et un modèle de locuteur DEA de Sciences Cognitives
Phase d’apprentissage signal analyse paramètres modélisation Dictionnaire de modèles de référence identité ENTREES SORTIE DEA de Sciences Cognitives
Phase de test en identification signal analyse paramètres modélisation ENTREE Dictionnaire de modèles de référence comparaison Scores décision SORTIE DEA de Sciences Cognitives
Phase de test en vérification signal analyse paramètres modélisation Dictionnaire de modèles de référence identité comparaison ENTREES Score décision SORTIE DEA de Sciences Cognitives
La phase de paramétrisation DEA de Sciences Cognitives
DEA de Sciences Cognitives Paramètres d’analyse Paramètres spectraux : Analyse par banc de filtres ou analyse LPC Transformation cepstrale Paramètres delta (et delta-delta) Paramètres prosodiques : (Log-énergie et) delta-Log-énergie Fréquence fondamentale Paramètres de durée → Existe-t-il des paramètres spécifiques à la reconnaissance du locuteur? DEA de Sciences Cognitives
DEA de Sciences Cognitives Modélisation Les précurseurs Programmation dynamique (DTW) Quantification vectorielle (VQ) Modèles de Markov cachés (HMM) Réseaux de neurones (NN) Modèles auto-régressifs vectoriels (ARVM) Modèles par mélange de Gaussiennes (GMM) DEA de Sciences Cognitives
Les précurseurs Mesure de corrélation entre spectres à long terme PRUZANSKY 1963 Mesure de corrélation entre spectres à long terme ATAL 1968 Utilisation de contours prosodiques normalisés BRICKER 1971 Mesure de Mahalanobis sur spectres à long terme DEA de Sciences Cognitives
Programmation dynamique (DTW) DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc. “Bonjour” locuteur 1 “Bonjour” locuteur 2 “Bonjour” locuteur n “Bonjour” locuteur test Y “Bonjour” locuteur X meilleur chemin DEA de Sciences Cognitives
Quantification vectorielle (VQ) SOONG, ROSENBERG 1987 Dictionnaire locuteur 1 Dictionnaire locuteur 2 Dictionnaire locuteur n “Bonjour” locuteur test Y Dictionnaire locuteur X meilleure quant. DEA de Sciences Cognitives
Modèles de Markov cachés (HMM) ROSENBERG 1990, TSENG 1992 “Bonjour” locuteur test Y “Bonjour” locuteur X “Bonjour” locuteur 1 “Bonjour” locuteur 2 “Bonjour” locuteur n meilleur chemin DEA de Sciences Cognitives
Modèles de Markov cachés (HMM) PORITZ 1982, SAVIC 1990 HMM locuteur 1 HMM locuteur 2 HMM locuteur n “Bonjour” locuteur test Y HMM locuteur X meilleur chemin DEA de Sciences Cognitives
Modèles par mélange de Gaussiennes(GMM) REYNOLDS 1995 DEA de Sciences Cognitives
DEA de Sciences Cognitives La phase de décision Calcul d’un score Avec le modèle de locuteur considéré Avec un « modèle du monde » Rapport entre les deux scores Comparaison à un seuil Si supérieur au seuil, on « accepte » Si inférieur au seuil, on « rejette » DEA de Sciences Cognitives
DEA de Sciences Cognitives L’évaluation EER : fausse acceptation = faux rejet Courbe DET : Les évaluations NIST DEA de Sciences Cognitives
La caractérisation du locuteur à DDL Recherche d’une technique d’analyse du signal plus adaptée Amélioration des modèles statistiques et recherche d’algorithmes plus efficaces pour les apprendre Intégration des informations prosodiques dans les systèmes Modélisation de la dérive temporelle de la voix Utilisation de la reconnaissance du locuteur dans des tâches d’indexation sonore DEA de Sciences Cognitives
DEA de Sciences Cognitives Conclusion sur la RAL Domaine pluridisciplinaire nécessitant des connaissances multiples Bonnes performances sur des données propres et en laboratoire, mais très insuffisantes pour des domaines nécessitant un haut degré de sécurité ou le domaine judiciaire On peut parler de signature vocale mais pas d’empreinte vocale DEA de Sciences Cognitives
DEA de Sciences Cognitives Perspectives de la RAL Améliorer les systèmes Nouvelles sources d’information (prosodie) Analyse du signal plus adaptée Meilleurs modèles statistiques Robustesse (meilleure prise en compte de la variabilité) Etude de la dérive temporelle de la voix Autres tâches Segmentation par locuteurs Indexation par locuteurs DEA de Sciences Cognitives
Discussion sur une actualité récente La vérification d’identité dans les milieux judiciaires L’affaire Grégory – la cassette Ben Laden Des articles de journaux la semaine dernière La prise de position des scientifiques français DEA de Sciences Cognitives
DEA de Sciences Cognitives Bibliographie R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich. Traitement de la parole. Presses Polytechniques Romandes. Calliope. La parole et son traitement automatique. Masson, 1989. DEA de Sciences Cognitives