Évaluation de la prononciation des noms propres par 4 convertisseurs graphème-phonème en français Philippe Boula de Mareüil1, Christophe  d’Alessandro1,

Slides:



Advertisements
Présentations similaires
Un environnement de développement éducatif
Advertisements

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
J'ADE 2005 J’aide Au Développement des Evaluations Animateurs TICE
CNRS-LTCI 16 novembre 2000, Avancement SYMPATEX ENST RNRT-SYMPATEX Codage de la Parole par indexation indépendant du locuteur Dijana PETROVSKA-DELACRETAZ.
Reconnaissance de la parole
Codage de la parole à très bas débit: passage du cas dépendant vers le cas indépendant du locuteur 6-ème réunion d'avancement SYMPATEX : ENST, 19 Septembre.
LE CALCUL LITTÉRAL AU COLLÈGE
1 V-Ingénierie… La compétence au service de lexigence… vous présente.
Critère d’ordonnancement en temps réel Partie II
EFFET du VENT TRAVERSIER sur les TRAJECTOIRES SOL:
Module d’Enseignement à Distance pour l’Architecture Logicielle
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
A Pyramid Approach to Subpixel Registration Based on Intensity
L’apprentissage de la lecture: Le CP
LEVALUATION DIAGNOSTIQUE AU CM2 Animation pédagogique 18/09/2007.
Philippe Boula de Mareüil LIMSI-CNRS
Fusion de données SENSO
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Formation Ouverte A Distance individualisée et fortement tutorée
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Reconnaissance de la parole
Confidential © , Amazon.com, Inc. or its affiliates. All rights reserved. Comment bien commencer lannée 2ème Partie: Ecoulez votre Stock plus.
Sélection automatique d’index et de vues matérialisées
Les sections européennes et de langues orientales
PHOTOGRAPHIE OUVERTURE /VITESSE
I - PRESENTATION DE L ’ETUDE
DÉMARCHE DÉVELOPPEMENT DURABLE DANS LES MARCHÉS PUBLICS
Maple, modélisation et résolution de problèmes
Construire une base de données bibliographiques Elaborer un site web
Formation au module Structure de ZENTO
Comment savoir si nous nous nourrissons correctement ?
Approche critique des produits IdL Master 1 IdL Année
Applications du perceptron multicouche
Secret et libre accès des thèses électroniques Joachim Schöpfel Hélène Prost Séminaire doctoral GERiiCO Lille, 11 avril 2013.
1. 9 juillet 2009 Portrait du financement des organismes communautaires en santé et services sociaux Année de référence Ministère de la Santé
Table Ronde : Les enseignants dimmersion et leurs besoins Par Claudine LeBlanc.
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Méthode des k plus proches voisins
1 CLUB DES UTILISATEURS SAS DE QUÉBEC COMMENT TRANSFORMER UN PROGRAMME SAS EN TÂCHE PLANIFIÉE SOUS WINDOWS Présentation de Jacques Pagé STRiCT Technologies.
L’utilisation des bases de données
Maîtrise des risques et sûreté de fonctionnement – Avignon – 6-10 Octobre 2008 Modélisation des dysfonctionnements dun système dans le cadre dactivités.
Enseigner la conjugaison Observation Réfléchie de la Langue
SCIENCES DE L ’INGENIEUR
Test bilan de calcul mental N°1 :
Réunion gestionnaires 22 Octobre Journée Formation/Réunion des gestionnaires 22 Octobre 2009 – ICMCB.
Conscience phonologique
Reconnaissance Vocale
Les 6 étapes de la recherche…
Universté de la Manouba
‘The Voice Company’ Du texte à la Parole
Forum des Industries de la Langue, 17 mars 2010
Annexe 1 VISITE SUR
Conception des Réalisé par : Nassim TIGUENITINE.
Les interrogations formatives Une nécessité. Public concerné Première baccalauréat en médecine et dentisterie Premier baccalauréat en kinésithérapie et.
Introduction à l’algèbre
Système de transcription semi-automatique Vers une intégration de la RAP dans le logiciel Transcriber Projet de Master1 31 mai 2007 IUP GMI -Avignon Nicolas.
Kampala, Uganda, June 2014 Documents d’Edition et de Révision Hiroshi Ota and Vijay Mauree ITU/TSB Forum de normalisation pour l'Afrique (Kampala,
Création et présentation d’un tableau avec Word 2007
WIKIPEDIA ZHE DONG. Sommaire INTRODUCTION Bref historique Fonctionnement et concepts Wikimedia Foundation Projets publics Projets internes CONCLUSION.
Projet Télédétection Vidéo Surveillance Deovan Thipphavanh – Mokrani Abdeslam – Naoui Saïd Master 2 Pro SIS / 2006.
Portail de la linguistique
Nymble: High-Performance Learning Name-finder 1 Plan Introduction Modèle –Modèle conceptuel –Caractéristiques de mots –Modèle formel –Rétrogradation de.
EASY Campagne EASY Campagne d’Évaluation des Analyseurs Syntaxiques.
Introduction de Mme Safra IGEN Conférence du 22 mai 2006.
Bianca Vieru-Dimulescu encadrant : Philippe Boula de Mareüil
La dictée au cycle 2 Voiron 2.
Apprentissage automatique des prononciations à partir de grandes masses de données orales Rena NEMOTO Encadrée par Martine Adda-Decker & Ioana Vasilescu.
MES STRATÉGIES DE LECTURE
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Transcription de la présentation:

Évaluation de la prononciation des noms propres par 4 convertisseurs graphème-phonème en français Philippe Boula de Mareüil1, Christophe  d’Alessandro1, Gérard Bailly2, Frédéric Béchet3, Marie-Neige Garcia4, Michel Morel5, Romain Prudon4, Jean Véronis6 1 LIMSI-CNRS, Orsay ; 2 ICP, Grenoble ; 3 LIA, Avignon ; 4 ELDA, Paris ; 5 CRISCO, Caen ; 6 DELIC, Aix-en-Provence

Introduction : contexte Évaluation de systèmes de synthèse de la parole à partir du texte en français Poursuivant la campagne de l’AUPELF (maintenant AUF) de 1996-1999 Projet TechnoLangue EVALDA/EvaSy, organisé par ELDA et financé par le Ministère de la Recherche 3 volets : conversion graphème-phonème (GP) prosodie qualité globale 4 systèmes : LIMSI, CRISCO, LIA, ICP, par règles pour 3 d’entre eux + 1 cinquième laboratoire, fournisseur de corpus : DELIC

Introduction : contexte Évaluation de systèmes de synthèse de la parole à partir du texte en français Poursuivant la campagne de l’AUPELF (maintenant AUF) de 1996-1999 Projet TechnoLangue EVALDA/EvaSy, organisé par ELDA et financé par le Ministère de la Recherche 3 volets : conversion graphème-phonème (GP) prosodie qualité globale 4 systèmes : LIMSI, CRISCO, LIA, ICP, par règles pour 3 d’entre eux + 1 cinquième laboratoire, fournisseur de corpus : DELIC

La conversion graphème-phonème (GP) Composante de la qualité globale La majorité des erreurs proviennent des noms propres. 99,1% de mots correctement transcrits sur des textes de journaux, pour le meilleur système Une transcription de référence de tels corpus est coûteuse. Sur des noms propres, on peut s’attendre à des chiffres très différents (80-90% de noms correctement prononcés). Tâche = noms propres

Les noms propres Leur prononciation dépend fortement de l’origine et de l’usage. Nos connaissances géographiques ou linguistiques peuvent également avoir une influence (ex. Berger). Illustration dans la base de données ONOMASTICA (1995) Pour une phonétisation automatique, plusieurs solutions proposées : systèmes experts modèles d’apprentissage automatique par analogie (ex. algorithme ID3) Pour un diagnostic et des développements futurs, base de données étiquetée avec des origines linguistiques, définies à des fins de synthèse et de reconnaissance de la parole

Plan de l’exposé : travail réalisé Méthode construction et sélection d’un corpus de 8 000 noms propres transcription phonétique manuelle annotation avec des étiquettes linguistiques + tâche assignée aux participants Résultats et discussion diverses catégorisations des erreurs des systèmes analyse quantitative détaillée de leurs performances  bonne image de l’état de l’art et des problèmes à résoudre

Construction du corpus Difficulté à définir ce qu’est un nom propre  limitation à des noms de personne Liste de couples prénom-nom, extraite du journal Le Monde de 1992-2000 (plus de 200 millions de mots) Échantillon obtenu en considérant les couples de mots commençant par une lettre majuscule qui apparaissent entre 100 et 200 fois dans le corpus Des mots plus fréquents risqueraient d’avoir été prévus dans les différents systèmes. Des noms tirés aléatoirement auraient donné beaucoup de hapax (en accord avec la loi de Zipf).  Les noms propres retenus sont d’une difficulté moyenne.

Sélection du corpus (DELIC) Mots communs capitalisés, noms de compagnies, abréviations filtrés (ex. Premier Ministre, Air France) Mots commençant par une majuscule ailleurs qu’en début de phrase 4 115 couples prénom-nom 25% de déchets

Transcription phonétique du corpus Dans l’alphabet phonétique SAMPA pour le français, avec variantes ({@/}, par exemple, désigne un e muet optionnel) : Kissinger kisin{dZ/g}{E/9}R Griotteray gRi{j/}{O/o}t{@/}R{E/e} En deux temps : D’abord, une phonétisation est produite. Ensuite, cette phonétisation est vérifiée par un second expert. Un guide du transcripteur était fourni aux experts, sur : le e muet, les oppositions {e/E} et {o/O}, les voyelles nasales, etc. ; la jota espagnole et les interdentales anglaises notamment. Plus de 80% des noms propres avec variantes : surgénération et cohérence ? Problème largement discuté, pas trop grave (systèmes déterministes)

Transcription manuelle du corpus De plus, les transcripteurs avaient accès à 10 extraits où chaque couple prénom-nom apparaissait, avec 100 mots à gauche et à droite. Ils pouvaient également lancer une recherche Google pour les noms en question, par un simple clic sur un hyperlien. situation proche de celle d’un(e) journaliste confronté(e) à un nom propre

Annotation linguistique Liste enrichie d’indications sur les origines linguistiques des noms de famille liste de 20 étiquettes définie (inspirées des codes ISO) Le contexte , au-delà du prénom, peut donner des informations sur la nationalité de la personne, indication utile dans certains cas, même si elle ne va pas nécessairement de pair avec une origine linguistique (ex. Fujimori). risque de tomber dans le politiquement incorrect annotation tolérante, affaire de compromis (ex. Chavez, Browning)

Étiquettes linguistiques … avec la proportion du corpus qu’elles couvrent

Tâche des participants Adapter les systèmes  test préliminaire, pour éviter les problèmes de format Phonétiser la liste de noms propres en 3 heures  hiver 2004-2005 Après calcul et fourniture des résultats, discuter les erreurs comptées pour tel ou tel système 3 semaines d’adjudication nouvelle version de la référence, corrigée ou enrichie de variantes ( 200 noms sur 8 000, qui n’ont pas changé le classement des systèmes)  après chaque phase, alignement entre les sorties phonétiques et la référence, fondé sur l’algorithme de programmation dynamique sclite

Résultats approche par auto-apprentissage Les prénoms sont généralement mieux phonétisés que les noms de famille (ex. Michael, Thomas).

Analyse par étiquette linguistique Taux d’erreur sur les noms pour les étiquettes linguistiques les plus fréquentes (%Erreur/Étiquette) Les noms français sont les mieux transcrits, les noms anglais et autres noms germaniques sont les moins bien transcrits.

Analyse par étiquette linguistique Pourcentage des erreurs provenant de telle ou telle étiquette (%Étiquette/Erreur) Les noms anglais et autres noms germaniques sont les principales sources d’erreur, même si les pourcentages sont inférieurs à ceux du tableau précédent.

Pourcentage d’erreurs sur les noms par graphème (%Graphème/Erreur) : Analyse par graphème Pourcentage d’erreurs sur les noms par graphème (%Graphème/Erreur) : ‘e’ représente une substitution/suppression e-{@/} ; ‘Vn’ signifie la nasalisation des digrammes ‘an’, ‘en’, ‘in’, ‘on’ et ‘un’ ; C désigne la délétion d’une des consonnes –d, -g, -(e)r, -s, -t, -x, -z. Exemples : Corea, Boccanegra, Juan, Martin, Coencas (vs Dumas)

Conclusion Le problème de la conversion graphème-phonème des noms propres en français s’est révélé important en particulier pour les noms anglais et autres noms germaniques. Les erreurs ont pu être examinées automatiquement (ex. liées au ‘e’). Les ressources seront mises à la disposition de la communauté scientifique : synthèse et reconnaissance de la parole, annuaire inverse ; français langue étrangère. Elles gagneraient à être complétées par des enregistrements réels. Le caractère appliqué de ce travail ne nous dispense pas de mener des recherches sur la phonologie des emprunts et des noms propres.

Merci de votre attention… Philippe.Boula.de.Mareuil@limsi.fr evasy@elda.fr DELIC*