Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire.

Slides:



Advertisements
Présentations similaires
La place accordée à l’expression des salariés sur leur travail et leurs conditions de travail dans l’entreprise Résultats sondage exclusif CSA/ANACT.
Advertisements

Mais vous comprenez qu’il s’agit d’une « tromperie ».
Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.
Licence pro MPCQ : Cours
Présentation de la circonscription Année 2011/2012 Jeudi 24 novembre 2011.
Additions soustractions
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Identification automatique des langue
Reconnaissance de la parole
Cours parole du 2 Mars 2005 enseignants: Dr
Analyse de la parole Ivan Magrin-Chagnolleau, CNRS
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Cours parole du 2 Mars 2005 enseignants: Dr
Les numéros 70 –
Les numéros
Xavier Mouranche Registre e-MUST Evaluation en Médecine dUrgence des Stratégies Thérapeutiques de lInfarctus du Myocarde.
Dpt. Télécommunications, Services & Usages Théorie de l information H. Benoit-Cattin Introduction 2. Sources discrètes & Entropie 3. Canaux discrets.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Données statistiques sur le droit doption au 31/01 8 février 2012.
Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.
Reconnaissance de la parole
Enquête sur le Rapport de la Commission Bouchard-Taylor Jack Jedwab Directeur général Association détudes canadiennes 11 juin 2008.
Révision (p. 130, texte) Nombres (1-100).
La législation formation, les aides des pouvoirs publics
1 7 Langues niveaux débutant à avancé. 2 Allemand.
La méthodologie………………………………………………………….. p3 Les résultats
1 Juin 2010 Sondage auprès des jeunes Marocains résidant en Europe ( France, Espagne, Italie, Belgique, Pays-Bas et Allemagne ) Juin 2010 Réf. : TL251.
Structure(djs)TéléphoneFax ADRA R049,96,03,21 CHLEF027,77,22,66 /77,49, LAGHOUAT029,90,41,08029,90,42,47 OUM EL BOUAGHI032,42,16,26032,42,45,32.
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
QUALIPREF Synthèse de lenquête de satisfaction réalisée du 2 avril au 25 mai 2012 après réception de 306 questionnaires.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
Le Concours de Conaissance Francais I novembre 2012.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Les nombres.
Les quartiers Villeray – La Petite-Patrie et les voisinages
Fierté envers les symboles et institutions canadiens Jack Jedwab Association détudes canadiennes 26 novembre 2012.
Le cahier de charge d'un système de RAP
Conseil Administration AFRAC – 2 décembre Toulouse 1 Fermes de références Palmipèdes à foie gras Synthèse régionale – Midi Pyrénées Exercice
LES NOMBRES PREMIERS ET COMPOSÉS
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
Reconnaissance Vocale
RACINES CARREES Définition Développer avec la distributivité Produit 1
Les maths en francais 7ième année.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Les Nombres 0 – 100 en français.
Aire d’une figure par encadrement
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Problématiques de genre en orientation Quelques indicateurs (J2)
Certains droits réservés pour plus d’infos, cliquer sur l’icône.
Nom:____________ Prénom: ___________
LES COURSES SUR PISTE.
Annexe Résultats provinciaux comparés à la moyenne canadienne
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Bienvenue.
Traitement de la parole : Synthèse et reconnaissance
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Synthèse de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage
Transcription de la présentation:

Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon http://www.ddl.ish-lyon.cnrs.fr/ ivan@ieee.org DEA de Sciences Cognitives

DEA de Sciences Cognitives Plan Introduction aux processus de la communication parlée Analyse de la parole Synthèse de la parole Reconnaissance de la parole Reconnaissance du locuteur DEA de Sciences Cognitives

1. Introduction aux processus de la communication parlée DEA de Sciences Cognitives

Quelques segments d’un signal DEA de Sciences Cognitives

Quelques propriétés du signal de parole La parole est quasi-stationnaire La parole est 70% du temps (pseudo-)périodique (bruit ou silence le reste du temps) La parole est un signal large bande (il remplit toute la largeur de bande) La parole est un signal à bande limitée (0-8000 Hz essentiellement) DEA de Sciences Cognitives

Anatomie de l’appareil vocal (1) DEA de Sciences Cognitives

Anatomie de l’appareil vocal (2) DEA de Sciences Cognitives

Anatomie de l’appareil vocal (3) DEA de Sciences Cognitives

Fonctionnement acoustique de l’appareil vocal Système acoustique = excitateur + résonateur Trois modes de fonctionnement Excitation glottique du conduit vocal Excitation du conduit vocal en un point de constriction par un bruit d’écoulement Excitation du conduit vocal par une impulsion acoustique DEA de Sciences Cognitives

Transcription phonétique du français DEA de Sciences Cognitives

Transcription phonétique du français DEA de Sciences Cognitives

Description acoustique de la parole DEA de Sciences Cognitives

Voyelles orales françaises DEA de Sciences Cognitives

DEA de Sciences Cognitives Triangle vocalique DEA de Sciences Cognitives

Représentation acoustique (ex. 1) DEA de Sciences Cognitives

Représentation acoustique (ex. 2) DEA de Sciences Cognitives

Grille polaire de Maeda DEA de Sciences Cognitives

Coupes saggitales des voyelles DEA de Sciences Cognitives

Fonctions d’aires des voyelles DEA de Sciences Cognitives

DEA de Sciences Cognitives Anatomie de l’oreille DEA de Sciences Cognitives

Les limites de l’oreille L’oreille est à bande limitée L’oreille est fausse sur des sons purs L’oreille n’est pas également sensible L’oreille a une résolution en temps limitée L’oreille a une résolution en fréquence limitée DEA de Sciences Cognitives

DEA de Sciences Cognitives 2. Analyse de la parole DEA de Sciences Cognitives

Objectifs de l’analyse de parole Extraire des paramètres du signal de parole afin de : Retirer l’information non pertinente Réduire la redondance Obtenir une représentation plus compacte Atteindre un niveau d’abstraction plus élevé Définir des mesures de ressemblance simples DEA de Sciences Cognitives

DEA de Sciences Cognitives Principes Prétraitement Découpage en trames Taille des trames Décalage entre trames Fenêtrage Extraction de paramètres acoustiques DEA de Sciences Cognitives

Principe d’une analyse acoustique DEA de Sciences Cognitives

Paramètres acoustiques non spectraux Energie Fréquence fondamentale Taux de passage par zéro du signal Taux de passage par zéro de la dérivée du signal DEA de Sciences Cognitives

L’enveloppe spectrale Les approches conventionnelles visent à extraire des caractéristiques de l’enveloppe spectrale. Analyse par banc de filtres Analyse par prédiction linéaire Coefficients cepstraux DEA de Sciences Cognitives

Analyse par banc de filtres (1) DEA de Sciences Cognitives

Analyse par banc de filtres (2) DEA de Sciences Cognitives

Analyse par banc de filtres (3) DEA de Sciences Cognitives

Analyse par prédiction linéaire (1) Modélisation de la parole sous forme d’un filtre de prédiction linéaire Filtre de prédiction linéaire e(t) s(t) DEA de Sciences Cognitives

Analyse par prédiction linéaire (2) DEA de Sciences Cognitives

Coefficients cepstraux On applique une transformée de Fourier inverse sur le module du spectre logarithmique. Les premiers coefficients caractérisent l’enveloppe spectrale. DEA de Sciences Cognitives

L’information dynamique On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux → paramètres deltas et deltas-deltas DEA de Sciences Cognitives

DEA de Sciences Cognitives 3. Synthèse de la parole DEA de Sciences Cognitives

La synthèse, pour quoi faire ? DEA de Sciences Cognitives Services de télécommunications Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.) Applications en bureautique Terminaux parlants, lecture des emails par la voix, etc. Applications dans les transports Information dans les automobiles, aide à l’exploitation des trains, lecture de cadrans dans les avions, etc. Aide aux personnes handicapées Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre astrophysicien Stephen Hawking) Apprentissage des langues étrangères Dictionnaires électronique avec prononciation intégrée, logiciels d’apprentissage des langues étrangères, traduction automatique, etc. Livres et jouets parlants À l’usage des enfants en bas âge Communication naturelle avec la machine DEA de Sciences Cognitives

Structure d’un système de synthèse SYNTHESE DE LA PAROLE A PARTIR DU TEXTE TRAITEMENT DU LANGAGE NATUREL Formalismes linguistiques Moteurs d’inférence Inférences logiques TRAITEMENT DU SIGNAL NUMERIQUE Modèles mathématiques Algorithmes Calculs numériques Texte Parole Phonèmes Prosodie DEA de Sciences Cognitives

Traitement du langage naturel Texte Pré-processeur Analyseur morphologique Analyseur contextuel Structure de données Analyseur syntaxique- prosodique Phonétiseur Générateur de prosodie Phonèmes Prosodie DEA de Sciences Cognitives

Analyse morpho-syntaxique DEA de Sciences Cognitives

DEA de Sciences Cognitives Phonétisation (1) DEA de Sciences Cognitives

DEA de Sciences Cognitives Phonétisation (2) DEA de Sciences Cognitives

Synthétiseur par prédiction linéaire DEA de Sciences Cognitives

Synthétiseur à formants DEA de Sciences Cognitives

DEA de Sciences Cognitives Synthèse par règles (1) DEA de Sciences Cognitives

DEA de Sciences Cognitives Synthèse par règles (2) DEA de Sciences Cognitives

Synthèse par concaténation d’unités DEA de Sciences Cognitives

Qu’est-ce qu’un diphone ? DEA de Sciences Cognitives

Concaténation de diphones DEA de Sciences Cognitives

Prosodie : la « musique » de la parole DEA de Sciences Cognitives

DEA de Sciences Cognitives Exemples ICP-Grenoble (F), 1993 CNET-Lannion (F), 1993 (TD-PSOLA) KTH-Stockholm (S), 1993 LAIP-Lausanne (CH), 1996 (MBR PSO) University-Mons (B), 1993 (LPC) University-Mons (B), 1993 (MBE) University-Mons (B), 1993 (MBR PSO) University-Mons (B), 1993 (TD PSO) DEA de Sciences Cognitives

Liens Internet sur la synthèse http://tcts.fpms.ac.be/synthesis/mbrola.html http://www.bell-labs.com/project/tts/#examples http://www.cstr.ed.ac.uk/projects/festival/ http://www.research.att.com/projects/tts/ DEA de Sciences Cognitives

4. Reconnaissance de la parole DEA de Sciences Cognitives

DEA de Sciences Cognitives Objectifs Transformer un signal de parole en : Texte (dictée vocale, transcription) Action (commande vocale, systèmes de dialogue) Information indexée (annotation, indexation) DEA de Sciences Cognitives

Les sources de variabilité DEA de Sciences Cognitives Les facteurs intra-locuteurs : co-articulation, variation dans la prononciation, etc. Les facteurs inter-locuteurs : physiologie, age, sexe, psychologie, familiarité avec l’application, etc. L’environnement : bruit, micro, canal de transmission, présence d’autres locuteurs, etc. DEA de Sciences Cognitives

Variabilité intra- et inter-locuteur DEA de Sciences Cognitives

Variabilité intra-locuteur DEA de Sciences Cognitives

Typologie des systèmes DEA de Sciences Cognitives Type de parole Taille du vocabulaire Niveau de dépendance par rapport aux locuteurs Environnement d’utilisation Profil des utilisateurs potentiels DEA de Sciences Cognitives

DEA de Sciences Cognitives Type de parole Mots isolés Mots connectés Détection de mots clés Parole contrainte Parole continue Parole spontanée DEA de Sciences Cognitives

DEA de Sciences Cognitives Taille du vocabulaire Quelques mots (5 – 50) Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000) DEA de Sciences Cognitives

Dépendance au locuteur DEA de Sciences Cognitives Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier Adaptation au locuteur = utilise quelques données spécifiques d’un locuteur pour adapter le système à une nouvelle voix Indépendant du locuteur : le système fonctionne avec n’importe quel utilisateur DEA de Sciences Cognitives

Environnement d’utilisation DEA de Sciences Cognitives Parole large-bande (ordinateur, etc.) Parole bande-étroite avec distorsion (téléphone, etc.) Environnement calme (bureau + micro-casque) Bruit de fond DEA de Sciences Cognitives

Profil des utilisateurs potentiels DEA de Sciences Cognitives Utilisation professionnelle par des spécialistes Grand public Entraîné / naïf Fréquent / occasionnel Utilité Coopération DEA de Sciences Cognitives

DEA de Sciences Cognitives Deux exemples Dictée vocale Parole continue Grand vocabulaire Adaptation au locuteur Bureau+micro-casque Utilisateurs d’ordinateurs Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public DEA de Sciences Cognitives

Système de reconnaissance de mots DEA de Sciences Cognitives

Programmation dynamique (DTW) Mot 1 Mot 2 Mot n Mot inconnu Y Mot X meilleur chemin DEA de Sciences Cognitives

DEA de Sciences Cognitives Contraintes locales DEA de Sciences Cognitives

Contraintes locales : exemple DEA de Sciences Cognitives

Modèle de Markov caché : principe DEA de Sciences Cognitives

Modèles de Markov cachés (HMM) Mot inconnu Y Mot X Mot 1 Mot 2 Mot n meilleur chemin DEA de Sciences Cognitives

DEA de Sciences Cognitives Viterbi : exemple DEA de Sciences Cognitives

Algorithme de Viterbi : exercice DEA de Sciences Cognitives

Les trois composantes d’un système Les modèles acoustiques Pour transformer des paramètres acoustiques en phonèmes (ou parfois directement des mots) Le lexique Pour transformer une suite de phonèmes en mots Le modèle de langage Pour transformer une suite de mots en phrases DEA de Sciences Cognitives

Modèles acoustiques (1) DEA de Sciences Cognitives

Modèles acoustiques (2) DEA de Sciences Cognitives Le mot « américain » DEA de Sciences Cognitives

DEA de Sciences Cognitives Modèles de langage A un instant donné, tous les mots n’ont pas la même probabilité de présence : Le petit chat boit du … Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles » DEA de Sciences Cognitives

Modèle acoustique + Modèle de langage DEA de Sciences Cognitives

DEA de Sciences Cognitives Performances DEA de Sciences Cognitives

DEA de Sciences Cognitives Recherche actuelle DEA de Sciences Cognitives

5. Reconnaissance du locuteur DEA de Sciences Cognitives

DEA de Sciences Cognitives Définition de la RAL Reconnaissance automatique du locuteur (RAL) = reconnaître l’identité d’une personne à partir d’un enregistrement de sa voix à l’aide d’une technique entièrement automatique, et donc reproductible. DEA de Sciences Cognitives

Un domaine pluri-disciplinaire ergonomie traitement du signal phonétique théorie de la décision S T I C RAL S H S théorie de l’information linguistique reconnaissance des formes statistiques probabilités DEA de Sciences Cognitives

DEA de Sciences Cognitives Typologie des tâches Identification du locuteur en ensemble fermé Vérification du locuteur Identification du locuteur en ensemble ouvert Suivi de locuteurs Détection de changement de locuteur Segmentation par locuteurs Classes de locuteurs Adaptation au locuteur DEA de Sciences Cognitives

Niveau de dépendance au texte Systèmes à mot de passe individuel, fixe Systèmes à mot de passe commun, fixe Systèmes à vocabulaire fixe (ordre des mots variables) Systèmes à texte imprédictible (imposé par le système) Systèmes dépendant d’un évènement phonétique Systèmes à texte totalement libre DEA de Sciences Cognitives

DEA de Sciences Cognitives Typologie des erreurs Identification du locuteur en ensemble fermé : Mauvaise classification NOMBRE DE LOCUTEURS Vérification du locuteur : Fausse acceptation (non détection) Faux rejet (fausse alarme) EER (taux d’égale erreur) SEUIL DE DECISION DEA de Sciences Cognitives

Empreinte ou signature ? Motivations : Caractéristiques physiologiques Origine géographique Contexte socioculturel Difficultés : Non reproductibilité (état de santé, facteurs psychologiques, état émotionnel, âge, etc.)  dérive temporelle de la voix Bruits ambiants, canal de transmission Modifications intentionnelles (masquage, imitation) → pas d’empreinte vocale mais plutôt une signature vocale DEA de Sciences Cognitives

DEA de Sciences Cognitives Et l’homme ? L’homme n’est pas particulièrement bon pour ce type de tâche. Il faut beaucoup d’entraînement pour y arriver. Même sur des voix familières, on a parfois des difficultés. C’est encore plus dur à travers le téléphone. Quand c’est possible, on utilise plutôt le visage. DEA de Sciences Cognitives

Les enjeux scientifiques de la RAL Quelles sont les informations utilisées par l’homme pour reconnaître une voix ? Faut-il utiliser les mêmes dans un système automatique ? Quelles sont les informations extractibles d’un enregistrement d’une voix ? Comment faire un modèle de locuteur ? DEA de Sciences Cognitives

Comment reconnaître une personne ? Quelles informations ? Spectrales (analyse acoustique) Phonétiques (façon de prononcer les sons) Idiolectales (façon d’utiliser les mots) Prosodiques (intensité, hauteur, longueur) Comment les exploiter ? Modèles statistiques Réseaux de neurones Réseaux bayésiens DEA de Sciences Cognitives

Les enjeux applicatifs de la RAL Surtout vérification 3 grandes familles : Applications sur site Applications télécoms Applications policières / judiciaires Mais aussi : Organisation de l’information Jeux Etc. DEA de Sciences Cognitives

DEA de Sciences Cognitives Applications sur site La personne doit être physiquement présente en un lieu précis Serrure vocale (pour des locaux, un compte informatique, etc.) Interactivité matérielle (retrait d’argent à un guichet automatique, etc.) Environnement contrôlable Système dissuasif L’utilisateur peut porter sur lui ses caractéristiques vocales Possibilité de techniques additionnelles de vérification de l’identité Possibilité d’intervention humaine DEA de Sciences Cognitives

Applications télécoms La vérification s’opère à distance Accès à des services pour des abonnés (serveurs, données, etc.) Transactions à distance (opérations bancaires, paiements par carte bancaire, etc.) Signal de mauvaise qualité et fluctuant Dissuasion médiocre (anonymat) Les caractéristiques vocales doivent être centralisées Difficulté à implanter d’autres techniques de vérification de l’identité Pas d’intervention humaine possible DEA de Sciences Cognitives

Applications policières/judiciares Recherche de suspects, d’éléments de preuve, de preuves, etc. Tests auditifs par des experts Lecture de spectrogrammes par des experts Méthodes (semi-)automatiques Identification ou vérification Pas de contraintes de temps réel Très importante hétérogénéité des enregistrements Possibilité de modifications intentionnelles Indépendance au texte souhaitable → Nécessité d’une précaution extrême pas toujours garantie DEA de Sciences Cognitives

DEA de Sciences Cognitives Mais aussi… Organisation de l’information Structuration, archivage de documents sonores Navigation dans ces documents Jeux Augmenter l’interactivité Utilisation de profils de joueurs Personnalisation des services Stocker un profil d’utilisateur pour accéder plus rapidement à des services DEA de Sciences Cognitives

Les enjeux applicatifs : conclusion La technologie est prête pour des applications ne nécessitant pas un niveau de sécurité très élevé. L’ergonomie peut pallier certaines faiblesses des algorithmes. La parole n’est pas le moyen le plus robuste en vérification de l’identité, mais c’est l’un des plus naturels (avec la reconnaissance de visage). Il est nécessaire d’informer largement les milieux policiers et judiciaires des limites de la reconnaissance du locuteur. DEA de Sciences Cognitives

Les enjeux stratégiques Ecoutes téléphoniques Protection de la démocratie ? Intrusion dans la vie privée ? Recherche de suspects / Authentification Le corbeau de l’affaire Grégory La cassette Ben Laden DEA de Sciences Cognitives

DEA de Sciences Cognitives Historique Trois étapes Reconnaissance par l’écoute faite par des « experts » (à partir de 1940) Reconnaissance par la lecture de spectrogrammes réalisée par des « experts » (de 1960 à 1970) Reconnaissance par des systèmes automatiques (ou pseudo-automatiques) (à partir de 1970) DEA de Sciences Cognitives

Reconnaissance par l’écoute Tests par paires DEA de Sciences Cognitives

Reconnaissance par spectrogrammes DEA de Sciences Cognitives

Reconnaissance automatique Systèmes reposant sur des modélisations statistiques Ordres de grandeur pour la vérification (EER) En laboratoire : Pour des applications commerciales : Performances connues mais non publiques Jugées suffisantes pour quelques produits pionniers Pour des applications policières / judiciaires : Performances évaluées ? conditions idéales parole téléphonique (lignes fixes) dépendant du texte <0.1 % 0.5 à 2 % indépendant du texte 0.5 à 1 % 5 à 10 % DEA de Sciences Cognitives

Composantes d’un système Une phase d’apprentissage Construction d’un modèle de locuteur Une phase de test Comparaison entre un énoncé et un modèle de locuteur DEA de Sciences Cognitives

Phase d’apprentissage signal analyse paramètres modélisation Dictionnaire de modèles de référence identité ENTREES SORTIE DEA de Sciences Cognitives

Phase de test en identification signal analyse paramètres modélisation ENTREE Dictionnaire de modèles de référence comparaison Scores décision SORTIE DEA de Sciences Cognitives

Phase de test en vérification signal analyse paramètres modélisation Dictionnaire de modèles de référence identité comparaison ENTREES Score décision SORTIE DEA de Sciences Cognitives

La phase de paramétrisation DEA de Sciences Cognitives

DEA de Sciences Cognitives Paramètres d’analyse Paramètres spectraux : Analyse par banc de filtres ou analyse LPC Transformation cepstrale Paramètres delta (et delta-delta) Paramètres prosodiques : (Log-énergie et) delta-Log-énergie Fréquence fondamentale Paramètres de durée → Existe-t-il des paramètres spécifiques à la reconnaissance du locuteur? DEA de Sciences Cognitives

DEA de Sciences Cognitives Modélisation Les précurseurs Programmation dynamique (DTW) Quantification vectorielle (VQ) Modèles de Markov cachés (HMM) Réseaux de neurones (NN) Modèles auto-régressifs vectoriels (ARVM) Modèles par mélange de Gaussiennes (GMM) DEA de Sciences Cognitives

Les précurseurs Mesure de corrélation entre spectres à long terme PRUZANSKY 1963 Mesure de corrélation entre spectres à long terme ATAL 1968 Utilisation de contours prosodiques normalisés BRICKER 1971 Mesure de Mahalanobis sur spectres à long terme DEA de Sciences Cognitives

Programmation dynamique (DTW) DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc. “Bonjour” locuteur 1 “Bonjour” locuteur 2 “Bonjour” locuteur n “Bonjour” locuteur test Y “Bonjour” locuteur X meilleur chemin DEA de Sciences Cognitives

Quantification vectorielle (VQ) SOONG, ROSENBERG 1987 Dictionnaire locuteur 1 Dictionnaire locuteur 2 Dictionnaire locuteur n “Bonjour” locuteur test Y Dictionnaire locuteur X meilleure quant. DEA de Sciences Cognitives

Modèles de Markov cachés (HMM) ROSENBERG 1990, TSENG 1992 “Bonjour” locuteur test Y “Bonjour” locuteur X “Bonjour” locuteur 1 “Bonjour” locuteur 2 “Bonjour” locuteur n meilleur chemin DEA de Sciences Cognitives

Modèles de Markov cachés (HMM) PORITZ 1982, SAVIC 1990 HMM locuteur 1 HMM locuteur 2 HMM locuteur n “Bonjour” locuteur test Y HMM locuteur X meilleur chemin DEA de Sciences Cognitives

Modèles par mélange de Gaussiennes(GMM) REYNOLDS 1995 DEA de Sciences Cognitives

DEA de Sciences Cognitives La phase de décision Calcul d’un score Avec le modèle de locuteur considéré Avec un « modèle du monde » Rapport entre les deux scores Comparaison à un seuil Si supérieur au seuil, on « accepte » Si inférieur au seuil, on « rejette » DEA de Sciences Cognitives

DEA de Sciences Cognitives L’évaluation EER : fausse acceptation = faux rejet Courbe DET : Les évaluations NIST DEA de Sciences Cognitives

La caractérisation du locuteur à DDL Recherche d’une technique d’analyse du signal plus adaptée Amélioration des modèles statistiques et recherche d’algorithmes plus efficaces pour les apprendre Intégration des informations prosodiques dans les systèmes Modélisation de la dérive temporelle de la voix Utilisation de la reconnaissance du locuteur dans des tâches d’indexation sonore DEA de Sciences Cognitives

DEA de Sciences Cognitives Conclusion sur la RAL Domaine pluridisciplinaire nécessitant des connaissances multiples Bonnes performances sur des données propres et en laboratoire, mais très insuffisantes pour des domaines nécessitant un haut degré de sécurité ou le domaine judiciaire On peut parler de signature vocale mais pas d’empreinte vocale DEA de Sciences Cognitives

DEA de Sciences Cognitives Perspectives de la RAL Améliorer les systèmes Nouvelles sources d’information (prosodie) Analyse du signal plus adaptée Meilleurs modèles statistiques Robustesse (meilleure prise en compte de la variabilité) Etude de la dérive temporelle de la voix Autres tâches Segmentation par locuteurs Indexation par locuteurs DEA de Sciences Cognitives

Discussion sur une actualité récente La vérification d’identité dans les milieux judiciaires L’affaire Grégory – la cassette Ben Laden Des articles de journaux la semaine dernière La prise de position des scientifiques français DEA de Sciences Cognitives

DEA de Sciences Cognitives Bibliographie R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich. Traitement de la parole. Presses Polytechniques Romandes. Calliope. La parole et son traitement automatique. Masson, 1989. DEA de Sciences Cognitives