Présenter par : Mounir GRARI RAPPORT DE PROJET SOUS HTK

Slides:



Advertisements
Présentations similaires
A l’issue des conseils de classe de 3ème,
Advertisements

Approche graphique du nombre dérivé
Distance inter-locuteur
Indexation Parole / Musique / Bruit
Reconnaissance de la parole
Reconnaissance Automatique de la Parole
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
Raisonnement et logique
Le developpement web  Préparé par : ASSAL Lamiae JAMALI Zakarya
Le Modèle Logique de Données
Architecture de réseaux
Méthodes de comparaison entre séquences multi-échelles végétales
Organisation et Management de projet
Savoir faire ED 268 I.L.P.G.A. PRAAT exercices.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
La reconnaissance vocale
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Construction de Box-Plot ou diagrammes en boîtes ou boîtes à moustaches Construire une boîte à moustaches …
Reconnaissance de la parole
بسم الله الرحمن الرحيم. Institut Supérieure des Etudes Technologiques de Kébili.
Traitement Automatique de la Langue:
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
Présentation du SVI - DELSOL Mikaël
PAFI Référentiel de données par Sonia Watts DGIF (Direction de la gestion et de linformation forestière) 27 octobre 2010 et 3 novembre 2010.
Introduction : Compilation et Traduction
Application des HMMs à la reconnaissance vocale
Reconnaissance de mots isolés Et Reconnaissance de mots connectés.
Décodage des informations
Présenter par : Mounir GRARI RAPPORT DE PROJET SOUS HTK
Reconnaissance de Yes/No à l’aide du HTK
Le cahier de charge d'un système de RAP
1 CLUB DES UTILISATEURS SAS DE QUÉBEC COMMENT TRANSFORMER UN PROGRAMME SAS EN TÂCHE PLANIFIÉE SOUS WINDOWS Présentation de Jacques Pagé STRiCT Technologies.
L’utilisation des bases de données
Modèle Logique de Données
Des outils pour le développement logiciel
SYSTEMES D’INFORMATION
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Réseaux de neurones.
CAssiopée, un système de vidéosurveillance bancaire
Abderrahmane Bouarissa Damien Burglin Arnaud Sansig
Reconnaissance Vocale
Modélisation de la topologie avec le Graphe Génératif Gaussien
Chapitre 3 Syntaxe et sémantique.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Simulateur interactif de QOS dans un routeur

Le workflow Encadré par: M . BAIDADA Réalisé par: ATRASSI Najoua
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
Stage 2A CS80 pour Origin 1/28. 1) Presentation of the internship 2) The Multi-Oscillator 3) Connection-GUI’s API Conclusion Stage 2A CS80 pour Origin.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1 Modèle pédagogique d’un système d’apprentissage (SA)
1 PLAN I. Eclipse Modeling Framework  Présentation  Le modèle Ecore  Code généré  Utilisation de template II.Graphical Modeling Framework  Présentation.
Enrichir les menus linéaires par des gestes Gilles Bailly Anne Roudaut Eric Lecolinet Laurence Nigay Leaf Menus.
Gérer la sécurité des mots de passe et les ressources
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
KIWAPP IS A B2B FULL-STACK APP-MANAGEMENT TOOL KIWAPP EN QUELQUES ETAPES Octobre 2014.
Projet Easymail Les boites génériques Dossier RIMM.
Traitement de la parole : Synthèse et reconnaissance
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Reconnaissance automatique de la parole
Application des HMMs à la reconnaissance vocale
Abderrahmane Bouarissa Damien Burglin Arnaud Sansig
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Exemple complexe Impression d’étiquettes pour produits chimiques Les étiquettes destinées aux produits chimiques doivent comporter des instructions concernant.
Reconnaissance de Yes/No à l’aide du HTK Adapté d’un tutoriel du HTK par Nicolas Moreau.
Le Traitement Automatique des Langues (TAL)
Transcription de la présentation:

Présenter par : Mounir GRARI RAPPORT DE PROJET SOUS HTK Reconnaissance de mots isolés Et Reconnaissance de mots connectés Présenter par : Mounir GRARI

Reconnaissance de mots isolés Et Reconnaissance de mots connectés Plan Introduction Construction de la base de données Construction de modèle de langage Acquisition des fichiers sons Étiquetage des fichiers sons Représentation acoustique du signal Description des modèles Modèles de Markov Fichiers gabarits Apprentissage Apprentissage avec l’algorithme Vitervi (HInit) Apprentissage avec l’algorithme de Baum Welch (HRest) Ré estimation avec l’algorithme de Baum Welch de tous les models a la fois (HERest) Reconnaissance HVite et Hresults Etude d’autres possibilités; vocabulaire restreint, vocabulaire plus complexe, analyse par mots et analyse par phonème Etude du cas multi locuteur Synthèse des résultats trouvés Conclusion

Reconnaissance de mots isolés Et Reconnaissance de mots connectés Introduction : Le but est de construire un système de reconnaissance de mots isolés et ensuite de phrase qui suive une certaine syntaxe de plusieurs mots et de le valider sous l'environnement HTK (Hidden Markov Model Toolkit)

Reconnaissance de mots isolés Et Reconnaissance de mots connectés modèle de langage Début Fin نادي على Pause محمد أمين كلم ركب إهتف لي صفر واحد إثنان عشرة تسعون عشرون و Le modèle de langage est un réseau d'éléments lexicaux qui décrit la façon dont ils s'enchaînent dans les phrases. Le modèle de langage que nous allons implémenter est le suivant:

Acquisition des fichiers sons : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Acquisition des fichiers sons : On utilise le logiciel Praat pour l’acquisition des fichiers sons du vocabulaire. Praat est un outil qui nous permet de lire un fichier son (se balader dans le fichier, écouter, découper…) ou même en créer un nouveau, de faire une analyse acoustique (durées, Fo, intensité, valeurs spectrales) … Nous allons utiliser Praat pour créer nos fichiers sons.

Étiquetage des fichiers sons : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Étiquetage des fichiers sons : La santaxe de la Commande HSlab: HSlab –F WAVE –L labels/ihtif.lab Signal/ihtif.wav Étiquetage des fichiers sons : Le but de l'étiquetage est de délimiter chaque entité lexicale. Ceci sera fait manuellement avec le logiciel HSLab. Nous allons utiliser un étiquetage par phonème. La santaxe de la Commande HSlab: HSlab –F WAVE –L labels/ihtif.lab Signal/ihtif.wav Une fenêtre de l’outil HSlab s’affiche à l’écran comme suit :

Étiquetage des fichiers sons : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Étiquetage des fichiers sons : Le résultat de cette phase est une base de données des étiquettes des différents fichiers sons. (Les étiquettes sont dans le dossier labels) Étiquetage des fichiers sons : Le but de l'étiquetage est de délimiter chaque entité lexicale. Ceci sera fait manuellement avec le logiciel HSLab. Nous allons utiliser un étiquetage par phonème. La santaxe de la Commande HSlab: HSlab –F WAVE –L labels/ihtif.lab Signal/ihtif.wav Une fenêtre de l’outil HSlab s’affiche à l’écran comme suit : HSlab Les fichiers sons (.wav) Les étiquettes (.lab) Enregistrement et étiquetage des fichiers sons

Représentation acoustique du signal : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Représentation acoustique du signal : Hcopy Les fichiers sons (.wav) (hcopyliste.conf) Ihtif.wav Kallime.wav Amine.wav Les Fichiers MFCC ihtif.mfcc kallime.mfcc mohammed.mfcc etc Représentation acoustique du signal Fichier de configuration parametrisation.conf parametrisation.conf SOURCEFORMAT=WAVE TARGETKIND=MFCC_E_D WINDOWSSIZE=250000.0 TARGETRATE=10000.0 NUMCEPS=8 # nb de coeff MFCC USEHAMMING=T PREEMCOEF=0.97 NUMCHANS=26 CEPLIFTER=22 hcopyliste.conf signal/ihtif.wav mfcc/ihtif.mfcc signal/kallime.wav mfcc/kallime.mfcc signal/ala.wav mfcc/ala.mfcc signal/mohamed.wav mfcc/mohamed.mfcc .

Représentation acoustique du signal : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Représentation acoustique du signal : Le nombre de coefficients MFCC utilisé est 8 + l’energie + les dérivés (donc 18) Le résultat de cette phase est un ensemble de fichiers .mfcc dans le dossier mfcc contenant les coefficients.

Description des modèles : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Description des modèles : Pour chaque entité lexicale, on définira le modèle associé. Pour cela, on donnera la topologie de chaque modèle, le nombre d'états et les probabilités de transition entre les états. Exemple du model en phonétique représentant le mot du vocabulaire ihtif sil ih tif

Description des modèles : Reconnaissance de mots isolés Et Reconnaissance de mots connectés Description des modèles : Fichiers gabarits : A chaque entité lexical (mot du vocabulaire) on va crée un fichier Gabarit (model) représentant l’entité lexical dans la pratique. <BeginHMM> <NumStates> 4 <VecSize> 18 <MFCC_D_E> <State> 2 <Mean> 18 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 <Variance> 18 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 <State> 3 <TransP> 4 0.0 1.0 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.0 <EndHMM> Exemple : fichier gabarits/ihtif

Reconnaissance de mots isolés Et Reconnaissance de mots connectés Introduction :

Reconnaissance de mots isolés Et Reconnaissance de mots connectés Introduction :

Reconnaissance de mots isolés Et Reconnaissance de mots connectés Introduction :

Merci 