Reconnaissance de la parole

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

Tests et Validation du logiciel
Le Socle Commun des Compétences et des Connaissances De quoi-parle-t-on ? La représentation mentale du terme « compétences ». Le terme « compétence » est.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Indexation Parole / Musique / Bruit
Département Informatique Responsable :M. Huchard Responsables adjoints : A. Jean-Marie, F. Koriche, P. Séébold.
Image et apprentissage
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Identification automatique des langue
Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire.
Reconnaissance de la parole
Reconnaissance Automatique de la Parole
Algorithme de Viterbi pour la reconnaissance de la parole
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
LES RESEAUX DE NEURONES
Université Paris 3 La Dictée vocale SLFD Johanna Deron.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
La reconnaissance vocale
Complexité et Classification
LI.A ça ressemble à ça… des fois…. Ou pas… Rappels et définition de lIA – Lidée quon sen fait – Jusquoù on va aujourdhui / dans le futur? – Petit Etat.
Traitement Automatique de la Langue:
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Organisation et gestion de données, fonctions
Il faut… DES SAVOIR-FAIRE!!!
Applications du perceptron multicouche
Reconnaissance de mots isolés Et Reconnaissance de mots connectés.
Décodage des informations
Reconnaissance de visages
Hésitations autonomes en 8 langues :
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
RECONNAISSANCE DE FORMES
Le cahier de charge d'un système de RAP
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
NOTION DE METAPOPULATION
Conscience phonologique
Reconnaissance Vocale
Synthèse Applications des réseaux de neurones en reconnaissance de formes et en vision par ordinateur.
TROUBLES DU LANGAGE ECRIT
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Présenter par : Mounir GRARI RAPPORT DE PROJET SOUS HTK
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Chapitre 2 La description du langage
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires - Démonstration : quel imitateur êtes vous ? Plateau Traitement du son.
Soutenance de stage 16 Mai au 5 Août 2011
LANGUE ET COMMUNICATION
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
L’approche axée sur la compréhension
Plan cours parole 29 Octobre 2003  1. Applications et démos (appli) voir feuilles distribués + démos  2. Fondements théoriques (theorie)  2.1 voir cours.
La perception de la parole
Traitement de la parole : Synthèse et reconnaissance
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Séance 8 30 novembre 2005 N. Yamaguchi
VOUS PENSIEZ POUVOIR PROTÉGER VOS DONNÉES AVEC LE CHIFFREMENT D’OFFICE ? CRYPTANALYSE DE MICROSOFT OFFICE 2003.
Qualité de Service (QoS) Officer
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Dominique LAURENT Patrick SEGUELA
Présentation RFIA janvier 2002
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.
Reconnaissance de visage par vidéo
Voix, parole, langage, langue
Eurecom, 30 June 2008http://biobimo.eurecom.fr BIOBIMO Amel ZNAIDIA.
Didactique(s) Introduction
GPA-779 Application des systèmes experts et des réseaux de neurones.
Le Traitement Automatique des Langues (TAL)
Journée Des Doctorants 2004
Transcription de la présentation:

Reconnaissance de la parole SCIA 2008 Julien Assémat David Landais

Plan Introduction Un point sur l’état de l’Art Approche du projet Rappel du projet Objectifs du projet Un point sur l’état de l’Art Méthode explicite Méthode implicite Performances Approche du projet Techniques et méthodes retenues Applications

Introduction Rappel du projet Objectifs du projet Système de reconnaissance vocale Parole continue Vocabulaire de grande taille Objectifs du projet Capacité de reconnaissance d’un signal de parole continue Applicable à tout type de messages sonores (discours, …) Taux de reconnaissance correct Utilisation pour une application concrète

Un point sur l’état de l’Art Deux méthodes de conception selon les techniques utilisées Méthode explicite Méthode basée sur l’utilisation de connaissances explicites Méthode implicite Méthode basée sur une approche statistique

Méthode explicite Un point sur l’état de l’Art Première approche en reconnaissance de la parole dès 1970 Basée sur l’utilisation de connaissances explicites Comparaison à des formes de références (spectres, …) Techniques Systèmes multi-agents Blackboard (Hearsay II) Systèmes experts (1980) Méthode peu performant

Méthode implicite Un point sur l’état de l’Art Approche statistique Niveau phonétique (modèle acoustique) Niveau linguistique (modèle de langue) Nécessite un apprentissage Techniques Hidden Markov Models (HMM) Algorithme N-gram Réseaux de neurones

Modèle acoustique Un point sur l’état de l’Art Extraction de caractéristiques d’un signal Travail sur les phonèmes propres à la langue Utilisation du vecteur de caractéristiques extrait Probabilité qu’une portion du signal appartienne à chacun des phonèmes de la langue (HMM) Hidden Markov Models Calculer la probabilité d'une séquence particulière

Modèle de langue Un point sur l’état de l’Art Travail sur la syntaxe et la sémantique propres à la langue Probabilité qu’une suite de mots existe dans la langue Introduction de la notion d’approximation avec N-gram Algorithme N-gram Agrégation en séquences de 2 ou 3 mots avec une probabilité associée Approximation de probabilités de séquences plus longues Calcul des probabilités sur ces séquences plutôt que sur des mots

Méthode implicite : résumé Un point sur l’état de l’Art Méthode implicite : résumé

Performances Un point sur l’état de l’Art Quelques chiffres en moyenne pour les systèmes actuels dans les mêmes conditions environnementales : 0,3 % d’erreur pour l’énumération d’une suite de chiffres 5 % d’erreurs pour un vocabulaire de 20 000 mots en parole continue 8 % d’erreurs pour une énumération de lettres 40 % d’erreurs pour une conversation téléphonique spontanée En général, forte dépendance de certains paramètres Taille du vocabulaire Régionalisation (paramètre inter-locuteur) Etat émotionnel (paramètre intra-locuteur)

Approche du projet Méthodes et techniques retenues Applications Utilisation de la méthode implicite Meilleurs résultats Utilisation des deux modèles (phonétique et linguistique) Réseaux de neurones pour la reconnaissance des phonèmes Applications Indexation de messages sonores Emissions radiophoniques Discours Conversation …

?