Résultats (2) Si l'on compare les résultats obtenus pour les classes où l'on ne prend pas en compte le voisement (ensembles #C2, #C3, #C4, #C5) à ceux.

Slides:



Advertisements
Présentations similaires
Indexation Parole / Musique / Bruit
Advertisements

Classification et prédiction
But de la lecture critique
RECONNAISSANCE DE FORMES
RPM - Reconnaissance de la Parole Multilingue - Un début de Parcours -
Reconnaissance de la parole
Reconnaissance Automatique de la Parole
Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales.
Distinguer les sons de la parole
Directeur de thèse : Régine André-Obrecht
Analyse de la variance à un facteur
Reconnaissance de la parole
1 7 Langues niveaux débutant à avancé. 2 Allemand.
MasterMind en spécialité i.s.n.
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
Guillaume Duprez Automne 2012
Décodage des informations
Hésitations autonomes en 8 langues :
Finger Cryptosystem pour L’Authentification
Fonction puissance Montage préparé par : André Ross
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Chapitre 3 : Détection des contours
Construction de modèles visuels
Structures de données IFT-2000 Abder Alikacem Standard Template library Édition Septembre 2009 Département dinformatique et de génie logiciel.
Reconnaissance Vocale
Jeopardy - Révision Final Jeopardy Phonèmes Traits Règles Syllabe
LIN 1720 DGD 9 Traits phonologiques
Cours de Base de Données & Langage SQL
Apprentissage semi-supervisé
Structure discriminante (analyse discriminante)
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Les réseaux de neurones artificiels (RNA)
Analyse des Algorithmes
Classification automatique de textes
Introduction Les niveaux de RAID offrent un large choix d’alternatives qui permettent de choisir un rapport performance/sécurité différent. Il est aussi.
Paradigmes des Langages de Programmation
Avignon, 14 novembre 2006http://biobimo.eurecom.fr Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage Etat de l’art -
Slide 1 of 39 Waterside Village Fête ses 20 ans.
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
La Logique du premier ordre LPO
Master 1 – Sciences du Langage –
Les Solutions et Les Mélanges
Traitement de la parole : Synthèse et reconnaissance
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Dans cet article, une nouvelle approche relative à l’indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les.
Le langage sifflé de la Gomera
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
STATISTIQUES – PROBABILITÉS
Indexation sonore : recherche des composantes Parole et Musique Julien PINQUIER Institut de Recherche en Informatique de Toulouse – Equipe ART.ps 118,
Vérification du locuteur avec des méthodes segmentales en collaboration avec : Jean HENNEBERT Jan CERNOCKY Gérard CHOLLET.
Présentation RFIA janvier 2002
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole à très bas débit. Maurice CHARBIT, Gérard CHOLLET, Niklas PAULSSON,
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
La prosodie pour l’Identification Automatique des Langues
Modélisation N-morphes en classification des textes de Wikipedia
Evaluation automatique du débit de la parole sur des données multilingues spontanées Jean-Luc Rouas, Jérôme Farinas, François Pellegrino.
Reconnaissance de visage par vidéo
Recherche de motifs par projections aléatoires
Fusion de paramètres rythmiques et segmentaux pour l’Identification Automatique des Langues Jean-Luc Rouas1, Jérôme Farinas1, François Pellegrino2 & Régine.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Revue de la dernière leçon Petit problème 3 verbes importants Hésiter Donner son opinion Suggérer Donner une alternative.
Classification automatique des messages électroniques
Apprentissage automatique des prononciations à partir de grandes masses de données orales Rena NEMOTO Encadrée par Martine Adda-Decker & Ioana Vasilescu.
Journée Des Doctorants 2004
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
PPRE Situation : Elève CP fin janvier Problème de déchiffrage.
Journées PFC 2008 Une étude de corpus de français de Suisse, Belgique, Alsace, Nord et Sud de la France Cécile Woehrling Philippe Boula de Mareüil Martine.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Des variables et des données. Dans le domaine de la statistique le mot variable signifie une idée différente de celle dans l’algèbre ou les fonctions.
Transcription de la présentation:

Résultats (2) Si l'on compare les résultats obtenus pour les classes où l'on ne prend pas en compte le voisement (ensembles #C2, #C3, #C4, #C5) à ceux pour lesquels on distingue au sein d’une même classe de sons, les segments voisés et non voisés (resp. ensembles #C6, #C7, #C8, #C9), on constate une dégradation d'environ 10% des taux. En effet, certaines langues (hindi, mandarin et espagnol) privilégient des occlusives non voisées dans les séquences les plus probables, alors que d'autres (anglais, allemand) privilégient les occlusives voisées. A noter que le japonais met en avant des séquences d'occlusives avec un voisement mixte : un silence avant explosion non voisé avec une explosion et un relâchement voisé et vice versa. Si l'on s'intéresse plus particulièrement à la réduction des consonnes liquides, nasales et semi-consonnes en une seule classe, les consonnes sonantes (ensembles #C2, #C3, #C6, #C7 par rapport à #C4, #C5, #C8, #C9), on ne note pas une dégradation des résultats de manière extrêmement sensible : nous ne perdons pas énormément d'information en regroupant ces trois classes phonétiques. Si nous examinons les dictionnaires n-multigrammes (n=3,4,5) de chaque langue, le score relativement bas obtenu en utilisant une seule classe pour les consonnes et une seule classe pour les voyelles s'expliquent par le fait que les cohortes les plus fréquentes, à savoir CCC, CVC et VCC sont communes à toutes les langues. La cohorte CCC correspond généralement à l'enchaînement d'une fricative ou d'une sonante (C) et d'une occlusive (caractérisée par CC du fait de la distinction entre le silence avant explosion et l'explosion-friction). Si nous examinons maintenant les séquences les plus fréquentes dans le cas où nous avons le maximum de classes (9 voyelles et 9 consonnes), les séquences les plus fréquentes sont constituées uniquement d'occlusives (anglais, hindi), ou d'occlusives suivi d'une voyelle (allemand, japonais, espagnol), ou d'occlusives suivi d'une fricative (mandarin). Les occlusives se retrouvent la plupart du temps dans les séquences les plus fréquentes. Identification Automatique des Langues : variation sur les multigrammes Conclusion La modélisation multigramme se montre au travers de cette série d’expériences fort appropriée pour rendre compte des règles phonotactiques élémentaires : un modèle 4-multigramme défini sur un ensemble global de 12 symboles comprenant 3 classes consonnes et 9 classes voyelles se montre très performant, tout en utilisant une discrimination (occlusives, fricatives, sonantes et voyelles) qui pourra être effectuée assez aisément de manière automatique. Etant donné que ces résultats sont obtenus à partir d'une classification grossière, il s’agit maintenant de prolonger le modèle phonétique différencié consonne/voyelle, à ces classes de sons afin d’une part de définir automatiquement les symboles phonétiques en entrée du modèle phonotactique et d’autre part de fusionner les scores issus des deux niveaux. Nous envisagerons ensuite la possibilité de fusionner des scores obtenus en utilisant une modélisation prosodique, pour compléter l'utilisation de l'éventail de sources d'information disponibles pour discriminer les langues. Jérôme Farinas, Régine André-Obrecht IRIT - équipe IHM-PT 118, route de Narbonne – F Toulouse Cedex 04, France Tél.: ++33 (0) Fax: ++33 (0) Mél: {Jerome.Farinas, - et Tableau 1 : Description des différents jeux de réduction du nombre de classes pour les consonnes. La dernière colonne indique le nombre de classes consonantiques obtenues après réduction Tableau 2 : Description des différents jeux de réduction du nombre de classes pour les voyelles. La dernière colonne indique le nombre de classes vocaliques obtenues après réduction. Tableau 3 : Taux d'identification correcte (%) avec un modèle 3-multigramme pour 6 languesTableau 4 : Taux d'identification correcte (%) avec un modèle 4-multigramme pour 6 languesTableau 5 : Taux d'identification correcte (%) avec un modèle 5-multigramme pour 6 langues Tableau 6 : Occurrences des grandes classes phonétiques par langue dans le corpus d'apprentissage Résultats (1) Globalement le fait d'autoriser une longueur maximum de 4 observations pour une séquence au lieu de 3 améliore légèrement les résultats (tableau 4). Par contre, en utilisant des 5-multigrammes, même si l'on conserve des résultats proches des 4-multigrammes, les performances se dégradent (tableau 5). La cause essentielle est certainement liée à la taille insuffisante du corpus d'apprentissage pour apprendre de tels modèles : les dictionnaires pour les 5-multigrammes sont alors en moyenne constitués de 1600 séquences d'observations, au lieu de 1000 pour les 3-multigrammes et 2000 pour les 4-multigrammes. Afin d’interpréter plus justement ces résultats, il convient de préciser la répartition des grandes classes phonétiques parmi les langues (tableau 6) : elle est relativement homogène, les voyelles (avec environ occurrences sur le corpus d'apprentissage) représentent la plus grande partie des occurrences, deux fois plus que les occlusives et les fricatives (resp et 9700). Notons cependant l’absence de liquides pour le japonais ; ce biais disparaît dès que les sonantes sont regroupées. Abstract Most systems of Automatic Language Identification give a great importance to the phonotactic level, by using N-gram models and relatively large phone-dictionary sizes. However, it is obvious that introducing other features (acoustic, phonetic, prosodic) will improve performances. Recently, we have proposed an alternative acoustic phonetic model which exploits the vowel / non vowel distinction. Here we complete this preliminary system, by studying the phonotactical level and adapting it to the acoustic outputs (small phone dictionary). We used a n-multigram model based on broad phonetic categories. We present a first study based on hand-label data, showing the influence of the number of phonetic broad categories in an ALI task. Corpus Les expériences sont menées sur six langues du corpus OGI Multi Language Telephone Speech : l'anglais, l'allemand, l'hindi, le japonais, le mandarin et l'espagnol. Les données utilisées correspondent aux transcriptions phonétiques réalisées manuellement par des experts phonéticiens. Ces transcriptions, réalisées au format international Worldbet, sont ensuite réduites en grandes classes phonétiques. Le corpus est scindé en deux parties : une pour l’apprentissage (70 locuteurs) et l’autre pour les tests (20 locuteurs). Les deux parties sont indépendantes, on ne retrouve pas de locuteur commun entre les deux sous corpus. Modélisation Pour rendre compte des différentes règles qui gouvernent la combinaison des phonèmes d'une langue, nous utilisons un modèle de langage multigramme [Deligne96] qui permet de détecter des motifs récurrents dans des suites d'observations. Ces motifs récurrents peuvent avoir une longueur variable. La modélisation par multigrammes consiste à trouver la segmentation la plus probable d'une séquence d'observations. L’algorithme d'apprentissage est un algorithme itératif de type EM. A chaque itération, sont estimées les probabilités a priori d'une séquence d'observations. La segmentation la plus probable est estimée en utilisant un algorithme de Viterbi. Au cours de ces itérations, les segmentations du corpus évoluent, faisant émerger les séquences d'observation les plus typiques. Après apprentissage, un dictionnaire est créé contenant les séquences les plus probables et leur vraisemblance. La phase de reconnaissance consiste à calculer la perplexité d'une séquence d'observation O en utilisant la segmentation la plus vraisemblable. XXIIIèmes Journées d’Etude sur la Parole Aussois, juin 2000 XXIIIèmes Journées d’Etude sur la Parole Aussois, juin 2000.