Reconnaissance Vocale PFE – SCIA 2008 Julien Assémat David Landais
Plan Présentation générale Historique & réflexions Démarche retenue Historique, méthodes utilisées, techniques… Démarche retenue Structures HMM, algorithme N-grams… Avancement Conclusion
Présentation générale (1/2) Nature du projet : Programme de reconnaissance vocale Vocabulaire de grande taille Orienté retranscription de fichiers audio Technologies et notions utilisées : Langage C++ HMM N-grammes Transformée de Fourier
Présentation générale (2/2) Applications envisagées Commandes vocales Retranscription de fichiers audio Conversations Extraits radiophoniques Objectifs Capacité de reconnaissance d’un signal continue de parole Vocabulaire de grande taille Taux de reconnaissance correct En faire une application concrête
Historique (1/2) Premiers pas de la reconnaissance vocale 1950 : reconnaissance de chiffres et voyelles Vocabulaire limité 1968 : reconnaissance de mots isolés Modèle de langage statistique 1980 : N-grams
Historique (2/2) Commandes vocales Reconnaissance de parole continue 1983 : domaine militaire (France) Reconnaissance de parole continue 1996 : première machine à dictée vocale (IBM)
Réflexions (1/3) Deux méthodes principalement utilisées Méthode explicite Méthode basée sur l’utilisation de connaissances explicites Méthode implicite Méthode basée sur une approche statistique
Réflexions (2/3) Méthode explicite Première approche de la reconnaissance vocale Basée sur l’utilisation de connaissances explicites : Comparaison à des formes de référence (spectres…) Utilisant des techniques d’IA pure Systèmes multi-agents Blackboards (Hearsay II) Systèmes experts Méthode peu performante en l’état actuel des choses
Réflexions (3/3) Méthode implicite Approche orientée statistique du problème à 2 niveaux Niveau acoustique (modèle acoustique) Niveau linguistique (modèle de langue) Nécessite un apprentissage sur des corpus conséquents Techniques utilisées : Hidden Markov Models (HMM) Algorithme N-grams Réseaux de neurones Méthode la plus performante à l’heure actuelle
Démarche retenue Pour notre projet : Méthode implicite comprend : Méthode implicite est retenue Méthode implicite comprend : Modèle acoustique Modèle linguistique
Modèle acoustique (1/2) Donne la probabilité de correspondance à un phonème Découpage du signal en tranches de 10 à 20 ms Extraction d’un vecteur de caractéristiques Coefficients MFCC Utilisation des HMM pour déterminer le phonème
Modèle acoustique (2/2) Hidden Markov Models Automates Un HMM par phonème Etats = caractéristiques du vecteur extrait Un HMM par mot Etats = phonèmes Calculer la probabilité d’une séquence de phonèmes
Modèle linguistique Travail sur la syntaxe et la sémantique propre à la langue Probabilité qu’une suite de mots existe dans la langue Introduction de la notion d’approximation avec N-grams Algorithme N-grams Agrégation en 2 ou 3 mots avec une probabilité associée Approximation de probabilités de séquences plus longues Calcul des probabilités sur ces séquences plutôt que sur des mots Proche des HMM (algorithme de Viterbi) Viterbi : trouver la séquence d’états la plus probable connaissant la sortie
Méthode implicite : résumé
Avancement (1/3) Gestion des entrées Extraction du spectre d’amplitude Fichiers Wave : Parser de fichiers Wave (échantillonnage, mono / stéréo…) Extraction du spectre d’amplitude
Avancement (2/3) Application de la transformée de Fourier Structure du spectre en terme de fréquence
Avancement (3/3) Découpage en tranches Application de Fourier sur chaque tranche Extraction de coefficients caractéristiques Pour ensuite associer la tranche à un phonème
Conclusion Nombreuses démarches possibles Retard dans nos prévisions Idées directrices précises Phase de réflexion terminée Retard dans nos prévisions Modèle acoustique presque terminé Projet à concrétiser avec un système d’indexation automatique de messages audio