Reconnaissance Automatique de la Parole

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

1. 2 Évaluer des cours en ligne cest évaluer lensemble du processus denseignement et dapprentissage. La qualité des savoirs.
Approche graphique du nombre dérivé
« Systèmes électroniques »
Distance inter-locuteur
Télé-orthophonieTélé-orthophonie Projet de la CSBJ
Qian Cui, Stephane Wolf & Arnaud Choquart - DESS IMM /2003
RECONNAISSANCE DE FORMES
Introduction : plasticité des IHMs – Page 1 IHM et plasticité 1 IHM et Différents supports Différents utilisateurs Différents environnements Problématique.
Conception d’une interface pour ordinateur de plongée
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire.
Reconnaissance de la parole
1 plan Besoins État de lart Assistant électronique unique pour la personne indépendante dans la maison intelligente Reconnaissance par unités segmentales.
Codage de la parole à très bas débit avec des unités ALISP
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Du codage par indexation vers la vérification de locuteur Réunion davancement SYMPATEX ENST: Dijana Petrovska-Delacrétaz, Gérard Chollet 6 Juin 2001, Thales.
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
1 1 Momentum. 2 2 Tout objet en mouvement continuera son mouvement tant que rien nentrave sa progression.
ACTIVITES Le calcul littéral (3).
Projet n°4 : Objecteering
Méthodes de simulation
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
A Pyramid Approach to Subpixel Registration Based on Intensity
Épreuve de bonne conduite
La reconnaissance vocale
Défi écriture BEF Couverture. Défi écriture BEF Page 1.
Animation : Agir et s’exprimer avec son corps « Corps, mouvement et langage » Cycle 1 CPC EPS Amiens 2.
Modélisation et commande hybrides d’un onduleur multiniveaux monophasé
1 B Système Enjeux et principes Cours DESS Nantes 04 Décembre 2002 Didier ESSAME.
Reconnaissance de la parole
Traitement Automatique de la Langue:
Maillage et création de surface sous Geomagic
ELECTRONIQUE DE PUISSANCE Introduction
Université Paul Sabatier - Toulouse 3 - Département de GMP Enquête Insertion Professionnelle – Promotion
Monique THONNAT et Nathanaël ROTA Projet ORION
Des RRA à la diagnosticabilité
Interaction Homme Robot Sujet « 16/03/2012 » Réalisé par :
Application des algorithmes génétiques
Système coopératif pour l'aide à la conduite
Décodage des informations
Utilisation Comparative du Spectre Sans Licence Matériel de formation pour les formateurs du sans fil.
Le cahier de charge d'un système de RAP
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
Reconnaissance Vocale
Les modèles linéaires (Generalized Linear Models, GLM)
Notre calendrier français MARS 2014
Quelle heure est-il ??. THE TIME: OCLOCK IL EST HEURE IL EST + + HEURES etc.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Le multiplexage Réalisé par: Amama Ahmed Bahria Mohamed Amine.
VISI - mars 2001, Caen Mécanismes de régulation de débit dune source vidéo pour transmission sur réseaux IP Jérôme VIERON.
C'est pour bientôt.....
Veuillez trouver ci-joint
29/06/2005 Page 1 ROBIN - Techno-Vision Base dimages EADS DS l Introduction l Description générale l Description détaillée l Quicklook des données sources.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 Modèle pédagogique d’un système d’apprentissage (SA)
CALENDRIER-PLAYBOY 2020.
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Relevez le numéro de votre logo préféré et adressez-le à : En cas d’hésitation, vous pouvez choisir jusqu’à 3 logos. Seront pris.
APPLICATIONS MEDICALES DES ULTRASONS (US)
Traitement de la parole : Synthèse et reconnaissance
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
TRAITEMENT DE LA PAROLE
Transcription de la présentation:

Reconnaissance Automatique de la Parole Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole Introduction, Historique, Domaines d’applications Extraction de paramètres Comparaison de représentations temps-fréquence DTW : Dynamic Time Warping (anamorphose T-F) Modèles stochastiques (HMM, Réseaux Bayésiens) Modèles de langage Evaluation Conclusions

Références bibliographiques : Reconnaissance Automatique de la Parole

Histoire de la Reconnaissance Automatique de la Parole

Type de parole Mots isolés Mots connectés Détection de mots clés Parole contrainte Parole continue Parole spontanée

Taille du vocabulaire Quelques mots (5 – 50) Petit vocabulaire (50 – 500) Vocabulaire moyen (500 – 5000) Grand vocabulaire (5000 – 50000) Très grand vocabulaire (> 50000)

Dépendance au locuteur Dépendant du locuteur : le système fonctionne correctement avec un utilisateur particulier Adaptation au locuteur = utilise quelques données spécifiques d’un locuteur pour adapter le système à une nouvelle voix Indépendant du locuteur : le système fonctionne avec n’importe quel utilisateur

Environnement d’utilisation Parole large-bande (ordinateur, etc.) Parole bande-étroite avec distorsion (téléphone, etc.) Environnement calme (bureau + micro-casque) Bruit de fond

Profil des utilisateurs potentiels Utilisation professionnelle par des spécialistes Grand public Entraîné / naïf Fréquent / occasionnel Utilité Coopération

Deux exemples Dictée vocale Service téléphonique Parole continue Grand vocabulaire Adaptation au locuteur Bureau+micro-casque Utilisateurs d’ordinateurs Service téléphonique Détection de mots clés Quelques mots Indépendant du locuteur Parole téléphonique Grand public

Dimensions et difficultés en RAP Taille du vocabulaire, perplexité, facteur de branchement, Environnement sonore (prise de son), distortions, pertes, bande passante (téléphonique, élargie, HiFi,…) Nombre de locuteurs concernés, motivation des locuteurs, Possibilités d’apprentissage, d’adaptation, Nombre de langues, accents, … Ergonomie de l’interface vocale,

Variabilité intra- et inter-locuteur

Variabilité intra-locuteur

Modèles probabilistes La séquence des observations (vecteurs de paramètres) est généré par un automate stochastique à nombre fini d’états. Les Modèles de Markov Cachés (HMM : Hidden Markov Models) sont les plus utilisés.

Modèle de Markov caché : principe

Modèles de Markov cachés (HMM) Mot inconnu Y Mot X Mot 1 Mot 2 Mot n meilleur chemin

Viterbi : exemple

Le modèle hiérarchique

Le modèle hiérarchique : exemple

Modèles phonétiques (1)

Modèles phonétiques (2) Le mot « américain »

Modèles contextuels

8.3 Codeurs segmentaux Permettent la plus grande réduction du débit (<800bps), mais nécessitent des méthodes de reconnaissance des unités segmentales. Résultats similaires dans l'implémentation des systèmes dépendant du locuteur. Comment pourrait-on encore réduire le débit: en transmettant le texte reconnu, et en effectuant de la synthèse à partir du texte du coté du transmetteur.

Modèles de langage A un instant donné, tous les mots n’ont pas la même probabilité de présence : Le petit chat boit du … Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »

Modèle acoustique + Modèle de langage

Performances

Recherche actuelle