Résultats (2) Si l'on compare les résultats obtenus pour les classes où l'on ne prend pas en compte le voisement (ensembles #C2, #C3, #C4, #C5) à ceux pour lesquels on distingue au sein d’une même classe de sons, les segments voisés et non voisés (resp. ensembles #C6, #C7, #C8, #C9), on constate une dégradation d'environ 10% des taux. En effet, certaines langues (hindi, mandarin et espagnol) privilégient des occlusives non voisées dans les séquences les plus probables, alors que d'autres (anglais, allemand) privilégient les occlusives voisées. A noter que le japonais met en avant des séquences d'occlusives avec un voisement mixte : un silence avant explosion non voisé avec une explosion et un relâchement voisé et vice versa. Si l'on s'intéresse plus particulièrement à la réduction des consonnes liquides, nasales et semi-consonnes en une seule classe, les consonnes sonantes (ensembles #C2, #C3, #C6, #C7 par rapport à #C4, #C5, #C8, #C9), on ne note pas une dégradation des résultats de manière extrêmement sensible : nous ne perdons pas énormément d'information en regroupant ces trois classes phonétiques. Si nous examinons les dictionnaires n-multigrammes (n=3,4,5) de chaque langue, le score relativement bas obtenu en utilisant une seule classe pour les consonnes et une seule classe pour les voyelles s'expliquent par le fait que les cohortes les plus fréquentes, à savoir CCC, CVC et VCC sont communes à toutes les langues. La cohorte CCC correspond généralement à l'enchaînement d'une fricative ou d'une sonante (C) et d'une occlusive (caractérisée par CC du fait de la distinction entre le silence avant explosion et l'explosion-friction). Si nous examinons maintenant les séquences les plus fréquentes dans le cas où nous avons le maximum de classes (9 voyelles et 9 consonnes), les séquences les plus fréquentes sont constituées uniquement d'occlusives (anglais, hindi), ou d'occlusives suivi d'une voyelle (allemand, japonais, espagnol), ou d'occlusives suivi d'une fricative (mandarin). Les occlusives se retrouvent la plupart du temps dans les séquences les plus fréquentes. Identification Automatique des Langues : variation sur les multigrammes Conclusion La modélisation multigramme se montre au travers de cette série d’expériences fort appropriée pour rendre compte des règles phonotactiques élémentaires : un modèle 4-multigramme défini sur un ensemble global de 12 symboles comprenant 3 classes consonnes et 9 classes voyelles se montre très performant, tout en utilisant une discrimination (occlusives, fricatives, sonantes et voyelles) qui pourra être effectuée assez aisément de manière automatique. Etant donné que ces résultats sont obtenus à partir d'une classification grossière, il s’agit maintenant de prolonger le modèle phonétique différencié consonne/voyelle, à ces classes de sons afin d’une part de définir automatiquement les symboles phonétiques en entrée du modèle phonotactique et d’autre part de fusionner les scores issus des deux niveaux. Nous envisagerons ensuite la possibilité de fusionner des scores obtenus en utilisant une modélisation prosodique, pour compléter l'utilisation de l'éventail de sources d'information disponibles pour discriminer les langues. Jérôme Farinas, Régine André-Obrecht IRIT - équipe IHM-PT 118, route de Narbonne – F Toulouse Cedex 04, France Tél.: ++33 (0) Fax: ++33 (0) Mél: {Jerome.Farinas, - et Tableau 1 : Description des différents jeux de réduction du nombre de classes pour les consonnes. La dernière colonne indique le nombre de classes consonantiques obtenues après réduction Tableau 2 : Description des différents jeux de réduction du nombre de classes pour les voyelles. La dernière colonne indique le nombre de classes vocaliques obtenues après réduction. Tableau 3 : Taux d'identification correcte (%) avec un modèle 3-multigramme pour 6 languesTableau 4 : Taux d'identification correcte (%) avec un modèle 4-multigramme pour 6 languesTableau 5 : Taux d'identification correcte (%) avec un modèle 5-multigramme pour 6 langues Tableau 6 : Occurrences des grandes classes phonétiques par langue dans le corpus d'apprentissage Résultats (1) Globalement le fait d'autoriser une longueur maximum de 4 observations pour une séquence au lieu de 3 améliore légèrement les résultats (tableau 4). Par contre, en utilisant des 5-multigrammes, même si l'on conserve des résultats proches des 4-multigrammes, les performances se dégradent (tableau 5). La cause essentielle est certainement liée à la taille insuffisante du corpus d'apprentissage pour apprendre de tels modèles : les dictionnaires pour les 5-multigrammes sont alors en moyenne constitués de 1600 séquences d'observations, au lieu de 1000 pour les 3-multigrammes et 2000 pour les 4-multigrammes. Afin d’interpréter plus justement ces résultats, il convient de préciser la répartition des grandes classes phonétiques parmi les langues (tableau 6) : elle est relativement homogène, les voyelles (avec environ occurrences sur le corpus d'apprentissage) représentent la plus grande partie des occurrences, deux fois plus que les occlusives et les fricatives (resp et 9700). Notons cependant l’absence de liquides pour le japonais ; ce biais disparaît dès que les sonantes sont regroupées. Abstract Most systems of Automatic Language Identification give a great importance to the phonotactic level, by using N-gram models and relatively large phone-dictionary sizes. However, it is obvious that introducing other features (acoustic, phonetic, prosodic) will improve performances. Recently, we have proposed an alternative acoustic phonetic model which exploits the vowel / non vowel distinction. Here we complete this preliminary system, by studying the phonotactical level and adapting it to the acoustic outputs (small phone dictionary). We used a n-multigram model based on broad phonetic categories. We present a first study based on hand-label data, showing the influence of the number of phonetic broad categories in an ALI task. Corpus Les expériences sont menées sur six langues du corpus OGI Multi Language Telephone Speech : l'anglais, l'allemand, l'hindi, le japonais, le mandarin et l'espagnol. Les données utilisées correspondent aux transcriptions phonétiques réalisées manuellement par des experts phonéticiens. Ces transcriptions, réalisées au format international Worldbet, sont ensuite réduites en grandes classes phonétiques. Le corpus est scindé en deux parties : une pour l’apprentissage (70 locuteurs) et l’autre pour les tests (20 locuteurs). Les deux parties sont indépendantes, on ne retrouve pas de locuteur commun entre les deux sous corpus. Modélisation Pour rendre compte des différentes règles qui gouvernent la combinaison des phonèmes d'une langue, nous utilisons un modèle de langage multigramme [Deligne96] qui permet de détecter des motifs récurrents dans des suites d'observations. Ces motifs récurrents peuvent avoir une longueur variable. La modélisation par multigrammes consiste à trouver la segmentation la plus probable d'une séquence d'observations. L’algorithme d'apprentissage est un algorithme itératif de type EM. A chaque itération, sont estimées les probabilités a priori d'une séquence d'observations. La segmentation la plus probable est estimée en utilisant un algorithme de Viterbi. Au cours de ces itérations, les segmentations du corpus évoluent, faisant émerger les séquences d'observation les plus typiques. Après apprentissage, un dictionnaire est créé contenant les séquences les plus probables et leur vraisemblance. La phase de reconnaissance consiste à calculer la perplexité d'une séquence d'observation O en utilisant la segmentation la plus vraisemblable. XXIIIèmes Journées d’Etude sur la Parole Aussois, juin 2000 XXIIIèmes Journées d’Etude sur la Parole Aussois, juin 2000.