Reconnaissance Vocale

Slides:



Advertisements
Présentations similaires
Modèles de Markov Cachés (HidenMarkovModel)
Advertisements

Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Le Socle Commun des Compétences et des Connaissances De quoi-parle-t-on ? La représentation mentale du terme « compétences ». Le terme « compétence » est.
Indexation Parole / Musique / Bruit
Image et apprentissage
Reconnaissance de la parole
Analyse de la parole Ivan Magrin-Chagnolleau, CNRS
Reconnaissance Automatique de la Parole
Algorithme de Viterbi pour la reconnaissance de la parole
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Nouveau programme de Première S
LES RESEAUX DE NEURONES
Université Paris 3 La Dictée vocale SLFD Johanna Deron.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
La reconnaissance vocale
Indexation textuelle : Systèmes de recherche d’informations
Modélisation et commande hybrides d’un onduleur multiniveaux monophasé
LI.A ça ressemble à ça… des fois…. Ou pas… Rappels et définition de lIA – Lidée quon sen fait – Jusquoù on va aujourdhui / dans le futur? – Petit Etat.
Reconnaissance de la parole
Traitement Automatique de la Langue:
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
6 novembre 2013 Les modes dinteraction M. Bétrancourt & K. Benetos - Cours Ergonomie des IPM TECFA Technologies pour la Formation et lApprentissage.
Concepts avancés en mathématiques et informatique appliquées
Application des HMMs à la reconnaissance vocale
Les Systèmes Multi-Agents pour la Gestion de Production
Il faut… DES SAVOIR-FAIRE!!!
Analyse fréquentielle
Reconnaissance de mots isolés Et Reconnaissance de mots connectés.
Concepts avancés en mathématiques et informatique appliquées MAP-6014.
Décodage des informations
Reconnaissance de visages
Reconnaissance de Yes/No à l’aide du HTK
Le cahier de charge d'un système de RAP
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Présenter par : Mounir GRARI RAPPORT DE PROJET SOUS HTK
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Chapitre 2 La description du langage
Interprétation automatique
Programmation non procédurale Le projet ECOLE 2000
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
Soutenance de stage 16 Mai au 5 Août 2011
Ingénierie des Connaissances
LANGUE ET COMMUNICATION
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
Traitement de la parole : Synthèse et reconnaissance
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Algorithmes et Programmation
LINGUISTIQUE APPLIQUÉE À L’ENSEIGNEMENT-APPRENTISSAGE DU FRANÇAIS
Nymble: High-Performance Learning Name-finder 1 Plan Introduction Modèle –Modèle conceptuel –Caractéristiques de mots –Modèle formel –Rétrogradation de.
VOUS PENSIEZ POUVOIR PROTÉGER VOS DONNÉES AVEC LE CHIFFREMENT D’OFFICE ? CRYPTANALYSE DE MICROSOFT OFFICE 2003.
ESTIMATION / CHIFFRAGE
Reconnaissance automatique de la parole
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Dominique LAURENT Patrick SEGUELA
Application des HMMs à la reconnaissance vocale
Présentation RFIA janvier 2002
TNS et Analyse Spectrale
Modélisation N-morphes en classification des textes de Wikipedia
Reconnaissance de visage par vidéo
Reconnaissance de Yes/No à l’aide du HTK Adapté d’un tutoriel du HTK par Nicolas Moreau.
TRAITEMENT DE LA PAROLE
Le Traitement Automatique des Langues (TAL)
Journée Des Doctorants 2004
SSII, séance n°13, bilan du cours 15 décembre 2015 Dernière séance 2015 Résumé des chapitres et notions abordées en 2015.
Transcription de la présentation:

Reconnaissance Vocale PFE – SCIA 2008 Julien Assémat David Landais

Plan Présentation générale Historique & réflexions Démarche retenue Historique, méthodes utilisées, techniques… Démarche retenue Structures HMM, algorithme N-grams… Avancement Conclusion

Présentation générale (1/2) Nature du projet : Programme de reconnaissance vocale Vocabulaire de grande taille Orienté retranscription de fichiers audio Technologies et notions utilisées : Langage C++ HMM N-grammes Transformée de Fourier

Présentation générale (2/2) Applications envisagées Commandes vocales Retranscription de fichiers audio Conversations Extraits radiophoniques Objectifs Capacité de reconnaissance d’un signal continue de parole Vocabulaire de grande taille Taux de reconnaissance correct En faire une application concrête

Historique (1/2) Premiers pas de la reconnaissance vocale 1950 : reconnaissance de chiffres et voyelles Vocabulaire limité 1968 : reconnaissance de mots isolés Modèle de langage statistique 1980 : N-grams

Historique (2/2) Commandes vocales Reconnaissance de parole continue 1983 : domaine militaire (France) Reconnaissance de parole continue 1996 : première machine à dictée vocale (IBM)

Réflexions (1/3) Deux méthodes principalement utilisées Méthode explicite Méthode basée sur l’utilisation de connaissances explicites Méthode implicite Méthode basée sur une approche statistique

Réflexions (2/3) Méthode explicite Première approche de la reconnaissance vocale Basée sur l’utilisation de connaissances explicites : Comparaison à des formes de référence (spectres…) Utilisant des techniques d’IA pure Systèmes multi-agents Blackboards (Hearsay II) Systèmes experts Méthode peu performante en l’état actuel des choses

Réflexions (3/3) Méthode implicite Approche orientée statistique du problème à 2 niveaux Niveau acoustique (modèle acoustique) Niveau linguistique (modèle de langue) Nécessite un apprentissage sur des corpus conséquents Techniques utilisées : Hidden Markov Models (HMM) Algorithme N-grams Réseaux de neurones Méthode la plus performante à l’heure actuelle

Démarche retenue Pour notre projet : Méthode implicite comprend : Méthode implicite est retenue Méthode implicite comprend : Modèle acoustique Modèle linguistique

Modèle acoustique (1/2) Donne la probabilité de correspondance à un phonème Découpage du signal en tranches de 10 à 20 ms Extraction d’un vecteur de caractéristiques Coefficients MFCC Utilisation des HMM pour déterminer le phonème

Modèle acoustique (2/2) Hidden Markov Models Automates Un HMM par phonème Etats = caractéristiques du vecteur extrait Un HMM par mot Etats = phonèmes Calculer la probabilité d’une séquence de phonèmes

Modèle linguistique Travail sur la syntaxe et la sémantique propre à la langue Probabilité qu’une suite de mots existe dans la langue Introduction de la notion d’approximation avec N-grams Algorithme N-grams Agrégation en 2 ou 3 mots avec une probabilité associée Approximation de probabilités de séquences plus longues Calcul des probabilités sur ces séquences plutôt que sur des mots Proche des HMM (algorithme de Viterbi) Viterbi : trouver la séquence d’états la plus probable connaissant la sortie

Méthode implicite : résumé

Avancement (1/3) Gestion des entrées Extraction du spectre d’amplitude Fichiers Wave : Parser de fichiers Wave (échantillonnage, mono / stéréo…) Extraction du spectre d’amplitude

Avancement (2/3) Application de la transformée de Fourier Structure du spectre en terme de fréquence

Avancement (3/3) Découpage en tranches Application de Fourier sur chaque tranche Extraction de coefficients caractéristiques Pour ensuite associer la tranche à un phonème

Conclusion Nombreuses démarches possibles Retard dans nos prévisions Idées directrices précises Phase de réflexion terminée Retard dans nos prévisions Modèle acoustique presque terminé Projet à concrétiser avec un système d’indexation automatique de messages audio