Reconnaissance Vocale

Reconnaissance Vocale
PFE – SCIA 2008 Julien Assémat David Landais

Plan Présentation générale Historique & réflexions Démarche retenue
Historique, méthodes utilisées, techniques… Démarche retenue Structures HMM, algorithme N-grams… Avancement Conclusion

Présentation générale (1/2)
Nature du projet : Programme de reconnaissance vocale Vocabulaire de grande taille Orienté retranscription de fichiers audio Technologies et notions utilisées : Langage C++ HMM N-grammes Transformée de Fourier

Présentation générale (2/2)
Applications envisagées Commandes vocales Retranscription de fichiers audio Conversations Extraits radiophoniques Objectifs Capacité de reconnaissance d’un signal continue de parole Vocabulaire de grande taille Taux de reconnaissance correct En faire une application concrête

Historique (1/2) Premiers pas de la reconnaissance vocale
1950 : reconnaissance de chiffres et voyelles Vocabulaire limité 1968 : reconnaissance de mots isolés Modèle de langage statistique 1980 : N-grams

Historique (2/2) Commandes vocales Reconnaissance de parole continue
1983 : domaine militaire (France) Reconnaissance de parole continue 1996 : première machine à dictée vocale (IBM)

Réflexions (1/3) Deux méthodes principalement utilisées
Méthode explicite Méthode basée sur l’utilisation de connaissances explicites Méthode implicite Méthode basée sur une approche statistique

Réflexions (2/3) Méthode explicite
Première approche de la reconnaissance vocale Basée sur l’utilisation de connaissances explicites : Comparaison à des formes de référence (spectres…) Utilisant des techniques d’IA pure Systèmes multi-agents Blackboards (Hearsay II) Systèmes experts Méthode peu performante en l’état actuel des choses

Réflexions (3/3) Méthode implicite
Approche orientée statistique du problème à 2 niveaux Niveau acoustique (modèle acoustique) Niveau linguistique (modèle de langue) Nécessite un apprentissage sur des corpus conséquents Techniques utilisées : Hidden Markov Models (HMM) Algorithme N-grams Réseaux de neurones Méthode la plus performante à l’heure actuelle

Démarche retenue Pour notre projet : Méthode implicite comprend :
Méthode implicite est retenue Méthode implicite comprend : Modèle acoustique Modèle linguistique

Modèle acoustique (1/2) Donne la probabilité de correspondance à un phonème Découpage du signal en tranches de 10 à 20 ms Extraction d’un vecteur de caractéristiques Coefficients MFCC Utilisation des HMM pour déterminer le phonème

Modèle acoustique (2/2) Hidden Markov Models Automates
Un HMM par phonème Etats = caractéristiques du vecteur extrait Un HMM par mot Etats = phonèmes Calculer la probabilité d’une séquence de phonèmes

Modèle linguistique Travail sur la syntaxe et la sémantique propre à la langue Probabilité qu’une suite de mots existe dans la langue Introduction de la notion d’approximation avec N-grams Algorithme N-grams Agrégation en 2 ou 3 mots avec une probabilité associée Approximation de probabilités de séquences plus longues Calcul des probabilités sur ces séquences plutôt que sur des mots Proche des HMM (algorithme de Viterbi) Viterbi : trouver la séquence d’états la plus probable connaissant la sortie

Méthode implicite : résumé

Avancement (1/3) Gestion des entrées Extraction du spectre d’amplitude
Fichiers Wave : Parser de fichiers Wave (échantillonnage, mono / stéréo…) Extraction du spectre d’amplitude

Avancement (2/3) Application de la transformée de Fourier
Structure du spectre en terme de fréquence

Avancement (3/3) Découpage en tranches
Application de Fourier sur chaque tranche Extraction de coefficients caractéristiques Pour ensuite associer la tranche à un phonème

Conclusion Nombreuses démarches possibles Retard dans nos prévisions
Idées directrices précises Phase de réflexion terminée Retard dans nos prévisions Modèle acoustique presque terminé Projet à concrétiser avec un système d’indexation automatique de messages audio

Reconnaissance Vocale

Présentations similaires

Présentation au sujet: "Reconnaissance Vocale"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Reconnaissance Vocale

Présentations similaires

Présentation au sujet: "Reconnaissance Vocale"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back