La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Paris, 5 juin 2004 1 Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS

Présentations similaires


Présentation au sujet: "Paris, 5 juin 2004 1 Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS"— Transcription de la présentation:

1 Paris, 5 juin Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS

2 Paris, 5 juin Introduction Nouvelles formes de communication écrite (NFCE) courrier électronique ( ), forums… chat (IRC, ICQ…) pages personnelles (blogs, webzines, wiki…) nouveaux besoins en synthèse de la parole applications embarquées (automotive) multimédia télécommunications

3 Paris, 5 juin Introduction Problèmes typiques des mails absence daccentuation, néologismes, et autres abréviations fautes de frappe ou dorthographe mails sans majuscule (ou au contraire sans minuscules) Difficultés pour recueillir un corpus de mails séparer le corpus du message des entêtes et signatures rendre anonymes les adresses par un générateur aléatoire

4 Paris, 5 juin Architecture dun système de synthèse vocale

5 Paris, 5 juin Normalisation du texte

6 Paris, 5 juin Prétraitements usuels Signes non alphanumériques, sigles, symboles et autres abréviations Nombres décimaux, ordinaux, écrits en chiffres romains… Notations liées

7 Paris, 5 juin État de lart pour le français Le Mail Itineris (France Télécom R&D) Dial & play (Elan)

8 Paris, 5 juin Le système dElan filtre les entêtes et les séparateurs répétés plus de 2 fois opère une réaccentuation partielle prend en compte les heures, les adresses électroniques… Ex. : ([01] ? [0-9]|2[0-4]):[0-5][0-9] où [:alnum:] désigne « alphanumérique » et où les parenthèses délimitent les arguments du « ou » (|). épelle la 1 re consonne de si le groupe pn nest pas attesté en début de mot, et épelle le suffixe composé de 2

9 Paris, 5 juin Le système dElan peut être paramétré pour lire traite les items spécifiques :) ( ) peut tirer profit de la forme isolée des signatures (pour les numéros de téléphone, les codes postaux) prévoit de décrire les documents au format HTML (ex. les énumérations) détecte la langue du message sur la base des 200 mots les plus fréquents, et lance le moteur de synthèse correspondant

10 Paris, 5 juin Évaluation de la conversion graphème-phonème (GP) Le volet EvaSy du projet Technolangue EVALDA : évaluation de la synthèse de la parole à partir du texte en français corpus en cours de construction au DELIC, réutilisable dans des études futures 2 tâches envisagées pour la conversion GP : - liste de noms propres - courriers électroniques LARC ILOR B3 de la campagne AUPELF

11 Paris, 5 juin Problèmes spécifiques aux mails ? Delphine ma transmis vos questions. Voici quelques éléments de réponse. /o|O/ /e|E/ /e|E/ Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « jai » / e/ c important pour « cest important » /se p t / (pas de liaison) vs pour « vous » /ve s/ (conflit homonymique avec « versus ») Même la dégradation provenant dabsence de diacritiques ne représente quun faible pourcentage des erreurs observées.

12 Paris, 5 juin Problèmes spécifiques aux mails ? Delphine ma transmis vos questions. Voici quelques éléments de réponse. /o|O/ /e|E/ /e|E/ Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « jai » / e/ c important pour « cest important » /se p t / (pas de liaison) vs pour « vous » /ve s/ (conflit homonymique avec « versus ») Même la dégradation provenant dabsence de diacritiques ne représente quun faible pourcentage des erreurs observées.

13 Paris, 5 juin Problèmes spécifiques aux mails ? Delphine ma transmis vos questions. Voici quelques éléments de réponse. /o|O/ /e|E/ /e|E/ Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « jai » / e/ c important pour « cest important » /se p t / (pas de liaison) vs pour « vous » /ve s/ (conflit homonymique avec « versus ») Même la dégradation provenant dabsence de diacritiques ne représente quun faible pourcentage des erreurs observées.

14 Paris, 5 juin Conclusion Évaluation coûteuse plus de 99 % de mots bien prononcés par le meilleur système, sur des textes journalistiques majorité derreurs provenant des noms propres Autres situations : Audiotel, alerte de bord, bulletins météo ou circulation, textes de droit, bibliographies, pages Web, manuels utilisateurs, recettes de cuisine, petites annonces, horoscopes, articles de bourse… plus derreurs potentielles


Télécharger ppt "Paris, 5 juin 2004 1 Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS"

Présentations similaires


Annonces Google