La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Reconnaissance Vocale

Présentations similaires


Présentation au sujet: "Reconnaissance Vocale"— Transcription de la présentation:

1 Reconnaissance Vocale
PFE – SCIA 2008 Julien Assémat David Landais

2 Plan Présentation générale Historique & réflexions Démarche retenue
Historique, méthodes utilisées, techniques… Démarche retenue Structures HMM, algorithme N-grams… Avancement Conclusion

3 Présentation générale (1/2)
Nature du projet : Programme de reconnaissance vocale Vocabulaire de grande taille Orienté retranscription de fichiers audio Technologies et notions utilisées : Langage C++ HMM N-grammes Transformée de Fourier

4 Présentation générale (2/2)
Applications envisagées Commandes vocales Retranscription de fichiers audio Conversations Extraits radiophoniques Objectifs Capacité de reconnaissance d’un signal continue de parole Vocabulaire de grande taille Taux de reconnaissance correct En faire une application concrête

5 Historique (1/2) Premiers pas de la reconnaissance vocale
1950 : reconnaissance de chiffres et voyelles Vocabulaire limité 1968 : reconnaissance de mots isolés Modèle de langage statistique 1980 : N-grams

6 Historique (2/2) Commandes vocales Reconnaissance de parole continue
1983 : domaine militaire (France) Reconnaissance de parole continue 1996 : première machine à dictée vocale (IBM)

7 Réflexions (1/3) Deux méthodes principalement utilisées
Méthode explicite Méthode basée sur l’utilisation de connaissances explicites Méthode implicite Méthode basée sur une approche statistique

8 Réflexions (2/3) Méthode explicite
Première approche de la reconnaissance vocale Basée sur l’utilisation de connaissances explicites : Comparaison à des formes de référence (spectres…) Utilisant des techniques d’IA pure Systèmes multi-agents Blackboards (Hearsay II) Systèmes experts Méthode peu performante en l’état actuel des choses

9 Réflexions (3/3) Méthode implicite
Approche orientée statistique du problème à 2 niveaux Niveau acoustique (modèle acoustique) Niveau linguistique (modèle de langue) Nécessite un apprentissage sur des corpus conséquents Techniques utilisées : Hidden Markov Models (HMM) Algorithme N-grams Réseaux de neurones Méthode la plus performante à l’heure actuelle

10 Démarche retenue Pour notre projet : Méthode implicite comprend :
Méthode implicite est retenue Méthode implicite comprend : Modèle acoustique Modèle linguistique

11 Modèle acoustique (1/2) Donne la probabilité de correspondance à un phonème Découpage du signal en tranches de 10 à 20 ms Extraction d’un vecteur de caractéristiques Coefficients MFCC Utilisation des HMM pour déterminer le phonème

12 Modèle acoustique (2/2) Hidden Markov Models Automates
Un HMM par phonème Etats = caractéristiques du vecteur extrait Un HMM par mot Etats = phonèmes Calculer la probabilité d’une séquence de phonèmes

13 Modèle linguistique Travail sur la syntaxe et la sémantique propre à la langue Probabilité qu’une suite de mots existe dans la langue Introduction de la notion d’approximation avec N-grams Algorithme N-grams Agrégation en 2 ou 3 mots avec une probabilité associée Approximation de probabilités de séquences plus longues Calcul des probabilités sur ces séquences plutôt que sur des mots Proche des HMM (algorithme de Viterbi) Viterbi : trouver la séquence d’états la plus probable connaissant la sortie

14 Méthode implicite : résumé

15 Avancement (1/3) Gestion des entrées Extraction du spectre d’amplitude
Fichiers Wave : Parser de fichiers Wave (échantillonnage, mono / stéréo…) Extraction du spectre d’amplitude

16 Avancement (2/3) Application de la transformée de Fourier
Structure du spectre en terme de fréquence

17 Avancement (3/3) Découpage en tranches
Application de Fourier sur chaque tranche Extraction de coefficients caractéristiques Pour ensuite associer la tranche à un phonème

18 Conclusion Nombreuses démarches possibles Retard dans nos prévisions
Idées directrices précises Phase de réflexion terminée Retard dans nos prévisions Modèle acoustique presque terminé Projet à concrétiser avec un système d’indexation automatique de messages audio


Télécharger ppt "Reconnaissance Vocale"

Présentations similaires


Annonces Google