Présenter par : Mounir GRARI RAPPORT DE PROJET SOUS HTK Reconnaissance de mots isolés Et Reconnaissance de mots connectés Présenter par : Mounir GRARI
Reconnaissance de mots isolés Et Reconnaissance de mots connectés Plan Introduction Construction de la base de données Construction de modèle de langage Acquisition des fichiers sons Étiquetage des fichiers sons Représentation acoustique du signal Description des modèles Modèles de Markov Fichiers gabarits Apprentissage Apprentissage avec l’algorithme Vitervi (HInit) Apprentissage avec l’algorithme de Baum Welch (HRest) Ré estimation avec l’algorithme de Baum Welch de tous les models a la fois (HERest) Reconnaissance HVite et Hresults Etude d’autres possibilités; vocabulaire restreint, vocabulaire plus complexe, analyse par mots et analyse par phonème Etude du cas multi locuteur Synthèse des résultats trouvés Conclusion
Reconnaissance de mots isolés Et Reconnaissance de mots connectés Introduction : Le but est de construire un système de reconnaissance de mots isolés et ensuite de phrase qui suive une certaine syntaxe de plusieurs mots et de le valider sous l'environnement HTK (Hidden Markov Model Toolkit)
Reconnaissance de mots isolés Et Reconnaissance de mots connectés modèle de langage Début Fin نادي على Pause محمد أمين كلم ركب إهتف لي صفر واحد إثنان عشرة تسعون عشرون و Le modèle de langage est un réseau d'éléments lexicaux qui décrit la façon dont ils s'enchaînent dans les phrases. Le modèle de langage que nous allons implémenter est le suivant:
Acquisition des fichiers sons : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Acquisition des fichiers sons : On utilise le logiciel Praat pour l’acquisition des fichiers sons du vocabulaire. Praat est un outil qui nous permet de lire un fichier son (se balader dans le fichier, écouter, découper…) ou même en créer un nouveau, de faire une analyse acoustique (durées, Fo, intensité, valeurs spectrales) … Nous allons utiliser Praat pour créer nos fichiers sons.
Étiquetage des fichiers sons : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Étiquetage des fichiers sons : La santaxe de la Commande HSlab: HSlab –F WAVE –L labels/ihtif.lab Signal/ihtif.wav Étiquetage des fichiers sons : Le but de l'étiquetage est de délimiter chaque entité lexicale. Ceci sera fait manuellement avec le logiciel HSLab. Nous allons utiliser un étiquetage par phonème. La santaxe de la Commande HSlab: HSlab –F WAVE –L labels/ihtif.lab Signal/ihtif.wav Une fenêtre de l’outil HSlab s’affiche à l’écran comme suit :
Étiquetage des fichiers sons : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Étiquetage des fichiers sons : Le résultat de cette phase est une base de données des étiquettes des différents fichiers sons. (Les étiquettes sont dans le dossier labels) Étiquetage des fichiers sons : Le but de l'étiquetage est de délimiter chaque entité lexicale. Ceci sera fait manuellement avec le logiciel HSLab. Nous allons utiliser un étiquetage par phonème. La santaxe de la Commande HSlab: HSlab –F WAVE –L labels/ihtif.lab Signal/ihtif.wav Une fenêtre de l’outil HSlab s’affiche à l’écran comme suit : HSlab Les fichiers sons (.wav) Les étiquettes (.lab) Enregistrement et étiquetage des fichiers sons
Représentation acoustique du signal : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Représentation acoustique du signal : Hcopy Les fichiers sons (.wav) (hcopyliste.conf) Ihtif.wav Kallime.wav Amine.wav Les Fichiers MFCC ihtif.mfcc kallime.mfcc mohammed.mfcc etc Représentation acoustique du signal Fichier de configuration parametrisation.conf parametrisation.conf SOURCEFORMAT=WAVE TARGETKIND=MFCC_E_D WINDOWSSIZE=250000.0 TARGETRATE=10000.0 NUMCEPS=8 # nb de coeff MFCC USEHAMMING=T PREEMCOEF=0.97 NUMCHANS=26 CEPLIFTER=22 hcopyliste.conf signal/ihtif.wav mfcc/ihtif.mfcc signal/kallime.wav mfcc/kallime.mfcc signal/ala.wav mfcc/ala.mfcc signal/mohamed.wav mfcc/mohamed.mfcc .
Représentation acoustique du signal : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Représentation acoustique du signal : Le nombre de coefficients MFCC utilisé est 8 + l’energie + les dérivés (donc 18) Le résultat de cette phase est un ensemble de fichiers .mfcc dans le dossier mfcc contenant les coefficients.
Description des modèles : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Description des modèles : Pour chaque entité lexicale, on définira le modèle associé. Pour cela, on donnera la topologie de chaque modèle, le nombre d'états et les probabilités de transition entre les états. Exemple du model en phonétique représentant le mot du vocabulaire ihtif sil ih tif
Description des modèles : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Description des modèles : Fichiers gabarits : A chaque entité lexical (mot du vocabulaire) on va crée un fichier Gabarit (model) représentant l’entité lexical dans la pratique. <BeginHMM> <NumStates> 4 <VecSize> 18 <MFCC_D_E> <State> 2 <Mean> 18 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 <Variance> 18 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 <State> 3 <TransP> 4 0.0 1.0 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.0 <EndHMM> Exemple : fichier gabarits/ihtif
Reconnaissance de mots isolés Et Reconnaissance de mots connectés Introduction :
Reconnaissance de mots isolés Et Reconnaissance de mots connectés Introduction :
Reconnaissance de mots isolés Et Reconnaissance de mots connectés Introduction :
Merci