La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Philippe Boula de Mareüil LIMSI-CNRS

Présentations similaires


Présentation au sujet: "Philippe Boula de Mareüil LIMSI-CNRS"— Transcription de la présentation:

1 Philippe Boula de Mareüil LIMSI-CNRS mareuil@limsi.fr
Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS Paris, 5 juin 2004

2 Introduction Nouvelles formes de communication écrite (NFCE)
courrier électronique ( ), forums… chat (IRC, ICQ…) pages personnelles (blogs, webzines, wiki…)  nouveaux besoins en synthèse de la parole applications embarquées (automotive) multimédia télécommunications Paris, 5 juin 2004

3 Introduction Problèmes typiques des mails
absence d’accentuation, néologismes, et autres abréviations fautes de frappe ou d’orthographe mails sans majuscule (ou au contraire sans minuscules) Difficultés pour recueillir un corpus de mails séparer le corpus du message des entêtes et signatures rendre anonymes les adresses par un générateur aléatoire Paris, 5 juin 2004

4 Architecture d’un système de synthèse vocale
Paris, 5 juin 2004

5 Normalisation du texte
Paris, 5 juin 2004

6 Prétraitements usuels
Signes non alphanumériques, sigles, symboles et autres abréviations Nombres décimaux, ordinaux, écrits en chiffres romains… Notations liées à l’informatique @portia.psyc.queensu.ca @nytud.hu @uasoiro.freenet.ua @physik.hu-berlin.de Paris, 5 juin 2004

7 État de l’art pour le français
Le Mail Itineris (France Télécom R&D) Dial & play (Elan) Paris, 5 juin 2004

8 Le système d’Elan filtre les entêtes et les séparateurs répétés plus de 2 fois opère une réaccentuation partielle prend en compte les heures, les adresses électroniques… Ex. : ([01]?[0-9]|2[0-4]):[0-5][0-9] où [:alnum:] désigne « alphanumérique » et où les parenthèses délimitent les arguments du « ou » (|). épelle la 1re consonne de si le groupe pn n’est pas attesté en début de mot, et épelle le suffixe composé de 2 lettres Paris, 5 juin 2004

9 Le système d’Elan peut être paramétré pour lire >, @...
traite les items spécifiques :) () peut tirer profit de la forme isolée des signatures (pour les numéros de téléphone, les codes postaux) prévoit de décrire les documents au format HTML (ex. les énumérations) détecte la langue du message sur la base des 200 mots les plus fréquents, et lance le moteur de synthèse correspondant Paris, 5 juin 2004

10 Évaluation de la conversion graphème-phonème (GP)
Le volet EvaSy du projet Technolangue EVALDA : évaluation de la synthèse de la parole à partir du texte en français corpus en cours de construction au DELIC, réutilisable dans des études futures 2 tâches envisagées pour la conversion GP : - liste de noms propres - courriers électroniques L’ARC ILOR B3 de la campagne AUPELF Paris, 5 juin 2004

11 Problèmes spécifiques aux mails ?
Delphine m’a transmis vos questions. Voici quelques éléments de réponse.        /o|O/  /e|E/                      /e|E/        /e|E/ @|/… Question des variantes abréviations  épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai »  /e/ c important pour « c’est important »  /se pt/ (pas de liaison) vs pour « vous »  /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004

12 Problèmes spécifiques aux mails ?
Delphine m’a transmis vos questions. Voici quelques éléments de réponse.        /o|O/  /e|E/                      /e|E/        /e|E/ @|/… Question des variantes abréviations  épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai »  /e/ c important pour « c’est important »  /se pt/ (pas de liaison) vs pour « vous »  /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004

13 Problèmes spécifiques aux mails ?
Delphine m’a transmis vos questions. Voici quelques éléments de réponse.        /o|O/  /e|E/                      /e|E/        /e|E/ @|/… Question des variantes abréviations  épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai »  /e/ c important pour « c’est important »  /se pt/ (pas de liaison) vs pour « vous »  /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004

14 Conclusion Évaluation coûteuse
 plus de 99 % de mots bien prononcés par le meilleur système, sur des textes journalistiques  majorité d’erreurs provenant des noms propres Autres situations : Audiotel, alerte de bord, bulletins météo ou circulation, textes de droit, bibliographies, pages Web, manuels utilisateurs, recettes de cuisine, petites annonces, horoscopes, articles de bourse…  plus d’erreurs potentielles Paris, 5 juin 2004


Télécharger ppt "Philippe Boula de Mareüil LIMSI-CNRS"

Présentations similaires


Annonces Google