La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Paris, 5 juin 2004 1 Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS

Présentations similaires


Présentation au sujet: "Paris, 5 juin 2004 1 Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS"— Transcription de la présentation:

1 Paris, 5 juin 2004 1 Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS mareuil@limsi.fr

2 Paris, 5 juin 2004 2 Introduction Nouvelles formes de communication écrite (NFCE) courrier électronique (e-mail), forums… chat (IRC, ICQ…) pages personnelles (blogs, webzines, wiki…) nouveaux besoins en synthèse de la parole applications embarquées (automotive) multimédia télécommunications

3 Paris, 5 juin 2004 3 Introduction Problèmes typiques des mails absence daccentuation, néologismes, et autres abréviations fautes de frappe ou dorthographe mails sans majuscule (ou au contraire sans minuscules) Difficultés pour recueillir un corpus de mails séparer le corpus du message des entêtes et signatures rendre anonymes les adresses par un générateur aléatoire

4 Paris, 5 juin 2004 4 Architecture dun système de synthèse vocale

5 Paris, 5 juin 2004 5 Normalisation du texte

6 Paris, 5 juin 2004 6 Prétraitements usuels Signes non alphanumériques, sigles, symboles et autres abréviations Nombres décimaux, ordinaux, écrits en chiffres romains… Notations liées à linformatique @portia.psyc.queensu.ca @nytud.hu @uasoiro.freenet.ua @physik.hu-berlin.de @elka.pw.edu.pl, @lettere.unibo.it

7 Paris, 5 juin 2004 7 État de lart pour le français Le Mail Itineris (France Télécom R&D) Dial & play (Elan)

8 Paris, 5 juin 2004 8 Le système dElan filtre les entêtes et les séparateurs répétés plus de 2 fois opère une réaccentuation partielle prend en compte les heures, les adresses électroniques… Ex. : ([01] ? [0-9]|2[0-4]):[0-5][0-9] [[:alnum:]][[:alnum:].-]*[[:alnum:]]@[[:alnum:]][[:alnum:].-]*[[:alnum:]] où [:alnum:] désigne « alphanumérique » et où les parenthèses délimitent les arguments du « ou » (|). épelle la 1 re consonne de pnom@adresse.ll si le groupe pn nest pas attesté en début de mot, et épelle le suffixe composé de 2 lettrespnom@adresse.ll

9 Paris, 5 juin 2004 9 Le système dElan peut être paramétré pour lire >, @... traite les items spécifiques comme @+, :) ( ) peut tirer profit de la forme isolée des signatures (pour les numéros de téléphone, les codes postaux) prévoit de décrire les documents au format HTML (ex. les énumérations) détecte la langue du message sur la base des 200 mots les plus fréquents, et lance le moteur de synthèse correspondant

10 Paris, 5 juin 2004 10 Évaluation de la conversion graphème-phonème (GP) Le volet EvaSy du projet Technolangue EVALDA : évaluation de la synthèse de la parole à partir du texte en français corpus en cours de construction au DELIC, réutilisable dans des études futures 2 tâches envisagées pour la conversion GP : - liste de noms propres - courriers électroniques LARC ILOR B3 de la campagne AUPELF

11 Paris, 5 juin 2004 11 Problèmes spécifiques aux mails ? Delphine ma transmis vos questions. Voici quelques éléments de réponse. /@|/ /o|O/ /e|E/ /@z|z|/ /e|E/ /e|E/ @|/… Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « jai » / e/ c important pour « cest important » /se p t / (pas de liaison) vs pour « vous » /ve s/ (conflit homonymique avec « versus ») Même la dégradation provenant dabsence de diacritiques ne représente quun faible pourcentage des erreurs observées.

12 Paris, 5 juin 2004 12 Problèmes spécifiques aux mails ? Delphine ma transmis vos questions. Voici quelques éléments de réponse. /@|/ /o|O/ /e|E/ /@z|z|/ /e|E/ /e|E/ @|/… Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « jai » / e/ c important pour « cest important » /se p t / (pas de liaison) vs pour « vous » /ve s/ (conflit homonymique avec « versus ») Même la dégradation provenant dabsence de diacritiques ne représente quun faible pourcentage des erreurs observées.

13 Paris, 5 juin 2004 13 Problèmes spécifiques aux mails ? Delphine ma transmis vos questions. Voici quelques éléments de réponse. /@|/ /o|O/ /e|E/ /@z|z|/ /e|E/ /e|E/ @|/… Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « jai » / e/ c important pour « cest important » /se p t / (pas de liaison) vs pour « vous » /ve s/ (conflit homonymique avec « versus ») Même la dégradation provenant dabsence de diacritiques ne représente quun faible pourcentage des erreurs observées.

14 Paris, 5 juin 2004 14 Conclusion Évaluation coûteuse plus de 99 % de mots bien prononcés par le meilleur système, sur des textes journalistiques majorité derreurs provenant des noms propres Autres situations : Audiotel, alerte de bord, bulletins météo ou circulation, textes de droit, bibliographies, pages Web, manuels utilisateurs, recettes de cuisine, petites annonces, horoscopes, articles de bourse… plus derreurs potentielles


Télécharger ppt "Paris, 5 juin 2004 1 Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS"

Présentations similaires


Annonces Google