Télécharger la présentation
Publié parAxelle Charles Modifié depuis plus de 10 années
1
Évaluation de la prononciation des noms propres par 4 convertisseurs graphème-phonème en français
Philippe Boula de Mareüil1, Christophe d’Alessandro1, Gérard Bailly2, Frédéric Béchet3, Marie-Neige Garcia4, Michel Morel5, Romain Prudon4, Jean Véronis6 1 LIMSI-CNRS, Orsay ; 2 ICP, Grenoble ; 3 LIA, Avignon ; 4 ELDA, Paris ; 5 CRISCO, Caen ; 6 DELIC, Aix-en-Provence
2
Introduction : contexte
Évaluation de systèmes de synthèse de la parole à partir du texte en français Poursuivant la campagne de l’AUPELF (maintenant AUF) de Projet TechnoLangue EVALDA/EvaSy, organisé par ELDA et financé par le Ministère de la Recherche 3 volets : conversion graphème-phonème (GP) prosodie qualité globale 4 systèmes : LIMSI, CRISCO, LIA, ICP, par règles pour 3 d’entre eux + 1 cinquième laboratoire, fournisseur de corpus : DELIC
3
Introduction : contexte
Évaluation de systèmes de synthèse de la parole à partir du texte en français Poursuivant la campagne de l’AUPELF (maintenant AUF) de Projet TechnoLangue EVALDA/EvaSy, organisé par ELDA et financé par le Ministère de la Recherche 3 volets : conversion graphème-phonème (GP) prosodie qualité globale 4 systèmes : LIMSI, CRISCO, LIA, ICP, par règles pour 3 d’entre eux + 1 cinquième laboratoire, fournisseur de corpus : DELIC
4
La conversion graphème-phonème (GP)
Composante de la qualité globale La majorité des erreurs proviennent des noms propres. 99,1% de mots correctement transcrits sur des textes de journaux, pour le meilleur système Une transcription de référence de tels corpus est coûteuse. Sur des noms propres, on peut s’attendre à des chiffres très différents (80-90% de noms correctement prononcés). Tâche = noms propres
5
Les noms propres Leur prononciation dépend fortement de l’origine et de l’usage. Nos connaissances géographiques ou linguistiques peuvent également avoir une influence (ex. Berger). Illustration dans la base de données ONOMASTICA (1995) Pour une phonétisation automatique, plusieurs solutions proposées : systèmes experts modèles d’apprentissage automatique par analogie (ex. algorithme ID3) Pour un diagnostic et des développements futurs, base de données étiquetée avec des origines linguistiques, définies à des fins de synthèse et de reconnaissance de la parole
6
Plan de l’exposé : travail réalisé
Méthode construction et sélection d’un corpus de noms propres transcription phonétique manuelle annotation avec des étiquettes linguistiques + tâche assignée aux participants Résultats et discussion diverses catégorisations des erreurs des systèmes analyse quantitative détaillée de leurs performances bonne image de l’état de l’art et des problèmes à résoudre
7
Construction du corpus
Difficulté à définir ce qu’est un nom propre limitation à des noms de personne Liste de couples prénom-nom, extraite du journal Le Monde de (plus de 200 millions de mots) Échantillon obtenu en considérant les couples de mots commençant par une lettre majuscule qui apparaissent entre 100 et 200 fois dans le corpus Des mots plus fréquents risqueraient d’avoir été prévus dans les différents systèmes. Des noms tirés aléatoirement auraient donné beaucoup de hapax (en accord avec la loi de Zipf). Les noms propres retenus sont d’une difficulté moyenne.
8
Sélection du corpus (DELIC)
Mots communs capitalisés, noms de compagnies, abréviations filtrés (ex. Premier Ministre, Air France) Mots commençant par une majuscule ailleurs qu’en début de phrase 4 115 couples prénom-nom 25% de déchets
9
Transcription phonétique du corpus
Dans l’alphabet phonétique SAMPA pour le français, avec variantes par exemple, désigne un e muet optionnel) : Kissinger kisin{dZ/g}{E/9}R Griotteray En deux temps : D’abord, une phonétisation est produite. Ensuite, cette phonétisation est vérifiée par un second expert. Un guide du transcripteur était fourni aux experts, sur : le e muet, les oppositions {e/E} et {o/O}, les voyelles nasales, etc. ; la jota espagnole et les interdentales anglaises notamment. Plus de 80% des noms propres avec variantes : surgénération et cohérence ? Problème largement discuté, pas trop grave (systèmes déterministes)
10
Transcription manuelle du corpus
De plus, les transcripteurs avaient accès à 10 extraits où chaque couple prénom-nom apparaissait, avec 100 mots à gauche et à droite. Ils pouvaient également lancer une recherche Google pour les noms en question, par un simple clic sur un hyperlien. situation proche de celle d’un(e) journaliste confronté(e) à un nom propre
11
Annotation linguistique
Liste enrichie d’indications sur les origines linguistiques des noms de famille liste de 20 étiquettes définie (inspirées des codes ISO) Le contexte , au-delà du prénom, peut donner des informations sur la nationalité de la personne, indication utile dans certains cas, même si elle ne va pas nécessairement de pair avec une origine linguistique (ex. Fujimori). risque de tomber dans le politiquement incorrect annotation tolérante, affaire de compromis (ex. Chavez, Browning)
12
Étiquettes linguistiques
… avec la proportion du corpus qu’elles couvrent
13
Tâche des participants
Adapter les systèmes test préliminaire, pour éviter les problèmes de format Phonétiser la liste de noms propres en 3 heures hiver Après calcul et fourniture des résultats, discuter les erreurs comptées pour tel ou tel système 3 semaines d’adjudication nouvelle version de la référence, corrigée ou enrichie de variantes ( 200 noms sur 8 000, qui n’ont pas changé le classement des systèmes) après chaque phase, alignement entre les sorties phonétiques et la référence, fondé sur l’algorithme de programmation dynamique sclite
14
Résultats approche par auto-apprentissage
Les prénoms sont généralement mieux phonétisés que les noms de famille (ex. Michael, Thomas).
15
Analyse par étiquette linguistique
Taux d’erreur sur les noms pour les étiquettes linguistiques les plus fréquentes (%Erreur/Étiquette) Les noms français sont les mieux transcrits, les noms anglais et autres noms germaniques sont les moins bien transcrits.
16
Analyse par étiquette linguistique
Pourcentage des erreurs provenant de telle ou telle étiquette (%Étiquette/Erreur) Les noms anglais et autres noms germaniques sont les principales sources d’erreur, même si les pourcentages sont inférieurs à ceux du tableau précédent.
17
Pourcentage d’erreurs sur les noms par graphème (%Graphème/Erreur) :
Analyse par graphème Pourcentage d’erreurs sur les noms par graphème (%Graphème/Erreur) : ‘e’ représente une substitution/suppression ; ‘Vn’ signifie la nasalisation des digrammes ‘an’, ‘en’, ‘in’, ‘on’ et ‘un’ ; C désigne la délétion d’une des consonnes –d, -g, -(e)r, -s, -t, -x, -z. Exemples : Corea, Boccanegra, Juan, Martin, Coencas (vs Dumas)
18
Conclusion Le problème de la conversion graphème-phonème des noms propres en français s’est révélé important en particulier pour les noms anglais et autres noms germaniques. Les erreurs ont pu être examinées automatiquement (ex. liées au ‘e’). Les ressources seront mises à la disposition de la communauté scientifique : synthèse et reconnaissance de la parole, annuaire inverse ; français langue étrangère. Elles gagneraient à être complétées par des enregistrements réels. Le caractère appliqué de ce travail ne nous dispense pas de mener des recherches sur la phonologie des emprunts et des noms propres.
19
Merci de votre attention…
DELIC*
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.