La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Évaluation de la prononciation des noms propres par 4 convertisseurs graphème-phonème en français Philippe Boula de Mareüil 1, Christophe dAlessandro 1,

Présentations similaires


Présentation au sujet: "Évaluation de la prononciation des noms propres par 4 convertisseurs graphème-phonème en français Philippe Boula de Mareüil 1, Christophe dAlessandro 1,"— Transcription de la présentation:

1 Évaluation de la prononciation des noms propres par 4 convertisseurs graphème-phonème en français Philippe Boula de Mareüil 1, Christophe dAlessandro 1, Gérard Bailly 2, Frédéric Béchet 3, Marie-Neige Garcia 4, Michel Morel 5, Romain Prudon 4, Jean Véronis 6 1 LIMSI-CNRS, Orsay ; 2 ICP, Grenoble ; 3 LIA, Avignon ; 4 ELDA, Paris ; 5 CRISCO, Caen ; 6 DELIC, Aix-en-Provence

2 2 Introduction : contexte Évaluation de systèmes de synthèse de la parole à partir du texte en françaisÉvaluation de systèmes de synthèse de la parole à partir du texte en français Poursuivant la campagne de lAUPELF (maintenant AUF) de Poursuivant la campagne de lAUPELF (maintenant AUF) de Projet TechnoLangue EVALDA/EvaSy, organisé par ELDA et financé par le Ministère de la RechercheProjet TechnoLangue EVALDA/EvaSy, organisé par ELDA et financé par le Ministère de la Recherche 3 volets :3 volets : –conversion graphème-phonème (GP) – prosodie –qualité globale 4 systèmes : LIMSI, CRISCO, LIA, ICP, par règles pour 3 dentre eux4 systèmes : LIMSI, CRISCO, LIA, ICP, par règles pour 3 dentre eux + 1 cinquième laboratoire, fournisseur de corpus : DELIC

3 3 Introduction : contexte Évaluation de systèmes de synthèse de la parole à partir du texte en françaisÉvaluation de systèmes de synthèse de la parole à partir du texte en français Poursuivant la campagne de lAUPELF (maintenant AUF) de Poursuivant la campagne de lAUPELF (maintenant AUF) de Projet TechnoLangue EVALDA/EvaSy, organisé par ELDA et financé par le Ministère de la RechercheProjet TechnoLangue EVALDA/EvaSy, organisé par ELDA et financé par le Ministère de la Recherche 3 volets :3 volets : –conversion graphème-phonème (GP) – prosodie –qualité globale 4 systèmes : LIMSI, CRISCO, LIA, ICP, par règles pour 3 dentre eux4 systèmes : LIMSI, CRISCO, LIA, ICP, par règles pour 3 dentre eux + 1 cinquième laboratoire, fournisseur de corpus : DELIC

4 4 La conversion graphème-phonème (GP) Composante de la qualité globaleComposante de la qualité globale –La majorité des erreurs proviennent des noms propres. 99,1% de mots correctement transcrits sur des textes de journaux, pour le meilleur système99,1% de mots correctement transcrits sur des textes de journaux, pour le meilleur système Une transcription de référence de tels corpus est coûteuse. Sur des noms propres, on peut sattendre à des chiffres très différents (80-90% de noms correctement prononcés). Tâche = noms propres Tâche = noms propres

5 5 Les noms propres Leur prononciation dépend fortement de lorigine et de lusage.Leur prononciation dépend fortement de lorigine et de lusage. Nos connaissances géographiques ou linguistiques peuvent également avoir une influence (ex. Berger).Nos connaissances géographiques ou linguistiques peuvent également avoir une influence (ex. Berger). Illustration dans la base de données ONOMASTICA (1995)Illustration dans la base de données ONOMASTICA (1995) Pour une phonétisation automatique, plusieurs solutions proposées :Pour une phonétisation automatique, plusieurs solutions proposées : –systèmes experts –modèles dapprentissage automatique par analogie (ex. algorithme ID3) Pour un diagnostic et des développements futurs, base de données étiquetée avec des origines linguistiques, définies à des fins de synthèse et de reconnaissance de la parolePour un diagnostic et des développements futurs, base de données étiquetée avec des origines linguistiques, définies à des fins de synthèse et de reconnaissance de la parole

6 6 Plan de lexposé : travail réalisé MéthodeMéthode –construction et sélection dun corpus de noms propres –transcription phonétique manuelle –annotation avec des étiquettes linguistiques + tâche assignée aux participants Résultats et discussionRésultats et discussion diverses catégorisations des erreurs des systèmes analyse quantitative détaillée de leurs performances bonne image de létat de lart et des problèmes à résoudre

7 7 Construction du corpus Difficulté à définir ce quest un nom propreDifficulté à définir ce quest un nom propre limitation à des noms de personne Liste de couples prénom-nom, extraite du journal Le Monde de (plus de 200 millions de mots)Liste de couples prénom-nom, extraite du journal Le Monde de (plus de 200 millions de mots) Échantillon obtenu en considérant les couples de mots commençant par une lettre majuscule qui apparaissent entre 100 et 200 fois dans le corpusÉchantillon obtenu en considérant les couples de mots commençant par une lettre majuscule qui apparaissent entre 100 et 200 fois dans le corpus –Des mots plus fréquents risqueraient davoir été prévus dans les différents systèmes. –Des noms tirés aléatoirement auraient donné beaucoup de hapax (en accord avec la loi de Zipf). Les noms propres retenus sont dune difficulté moyenne.

8 8 Sélection du corpus (DELIC) Mots communs capitalisés, noms de compagnies, abréviations filtrés (ex. Premier Ministre, Air France) Mots commençant par une majuscule ailleurs quen début de phrase couples prénom-nom 25% de déchets

9 9 Transcription phonétique du corpus Dans lalphabet phonétique SAMPA pour le français, avec variantes par exemple, désigne un e muet optionnel) :Dans lalphabet phonétique SAMPA pour le français, avec variantes par exemple, désigne un e muet optionnel) : –Kissinger kisin{dZ/g}{E/9}R –Griotteray En deux temps :En deux temps : –Dabord, une phonétisation est produite. –Ensuite, cette phonétisation est vérifiée par un second expert. Un guide du transcripteur était fourni aux experts, sur :Un guide du transcripteur était fourni aux experts, sur : –le e muet, les oppositions {e/E} et {o/O}, les voyelles nasales, etc. ; –la jota espagnole et les interdentales anglaises notamment. Plus de 80% des noms propres avec variantes : surgénération et cohérence ? Plus de 80% des noms propres avec variantes : surgénération et cohérence ? -Problème largement discuté, pas trop grave (systèmes déterministes)

10 10 Transcription manuelle du corpus De plus, les transcripteurs avaient accès à 10 extraits où chaque couple prénom-nom apparaissait, avec 100 mots à gauche et à droite.De plus, les transcripteurs avaient accès à 10 extraits où chaque couple prénom-nom apparaissait, avec 100 mots à gauche et à droite. Ils pouvaient également lancer une recherche Google pour les noms en question, par un simple clic sur un hyperlien.Ils pouvaient également lancer une recherche Google pour les noms en question, par un simple clic sur un hyperlien. situation proche de celle dun(e) journaliste confronté(e) à un nom propre situation proche de celle dun(e) journaliste confronté(e) à un nom propre

11 11 Annotation linguistique Liste enrichie dindications sur les origines linguistiques des noms de familleListe enrichie dindications sur les origines linguistiques des noms de famille liste de 20 étiquettes définie (inspirées des codes ISO) Le contexte, au-delà du prénom, peut donner des informations sur la nationalité de la personne, indication utile dans certains cas, même si elle ne va pas nécessairement de pair avec une origine linguistique (ex. Fujimori).Le contexte, au-delà du prénom, peut donner des informations sur la nationalité de la personne, indication utile dans certains cas, même si elle ne va pas nécessairement de pair avec une origine linguistique (ex. Fujimori). risque de tomber dans le politiquement incorrect annotation tolérante, affaire de compromis (ex. Chavez, Browning)

12 12 Étiquettes linguistiques … avec la proportion du corpus quelles couvrent

13 13 Tâche des participants Adapter les systèmesAdapter les systèmes test préliminaire, pour éviter les problèmes de format Phonétiser la liste de noms propres en 3 heuresPhonétiser la liste de noms propres en 3 heures hiver Après calcul et fourniture des résultats, discuter les erreurs comptées pour tel ou tel systèmeAprès calcul et fourniture des résultats, discuter les erreurs comptées pour tel ou tel système 3 semaines dadjudication nouvelle version de la référence, corrigée ou enrichie de variantes ( 200 noms sur 8 000, qui nont pas changé le classement des systèmes) après chaque phase, alignement entre les sorties phonétiques et la référence, fondé sur lalgorithme de programmation dynamique sclite après chaque phase, alignement entre les sorties phonétiques et la référence, fondé sur lalgorithme de programmation dynamique sclite

14 14 Résultats approche par auto-apprentissage Les prénoms sont généralement mieux phonétisés que les noms de famille (ex. Michael, Thomas).

15 15 Analyse par étiquette linguistique Taux derreur sur les noms pour les étiquettes linguistiques les plus fréquentes (%Erreur/Étiquette) Les noms français sont les mieux transcrits, les noms anglais et autres noms germaniques sont les moins bien transcrits.

16 16 Analyse par étiquette linguistique Pourcentage des erreurs provenant de telle ou telle étiquette (%Étiquette/Erreur) Les noms anglais et autres noms germaniques sont les principales sources derreur, même si les pourcentages sont inférieurs à ceux du tableau précédent.

17 17 Analyse par graphème Pourcentage derreurs sur les noms par graphème (%Graphème/Erreur) : - e représente une substitution/suppression ; - Vn signifie la nasalisation des digrammes an, en, in, on et un ; - C désigne la délétion dune des consonnes –d, -g, -(e)r, -s, -t, -x, -z. Exemples : Corea, Boccanegra, Juan, Martin, Coencas (vs Dumas)

18 18 Conclusion Le problème de la conversion graphème-phonème des noms propres en français sest révélé important en particulier pour les noms anglais et autres noms germaniques.Le problème de la conversion graphème-phonème des noms propres en français sest révélé important en particulier pour les noms anglais et autres noms germaniques. Les erreurs ont pu être examinées automatiquement (ex. liées au e).Les erreurs ont pu être examinées automatiquement (ex. liées au e). Les ressources seront mises à la disposition de la communauté scientifique :Les ressources seront mises à la disposition de la communauté scientifique : –synthèse et reconnaissance de la parole, annuaire inverse ; –français langue étrangère. Elles gagneraient à être complétées par des enregistrements réels.Elles gagneraient à être complétées par des enregistrements réels. Le caractère appliqué de ce travail ne nous dispense pas de mener des recherches sur la phonologie des emprunts et des noms propres.Le caractère appliqué de ce travail ne nous dispense pas de mener des recherches sur la phonologie des emprunts et des noms propres.

19 19 Merci de votre attention… DELIC*


Télécharger ppt "Évaluation de la prononciation des noms propres par 4 convertisseurs graphème-phonème en français Philippe Boula de Mareüil 1, Christophe dAlessandro 1,"

Présentations similaires


Annonces Google