Philippe Boula de Mareüil LIMSI-CNRS mareuil@limsi.fr Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS mareuil@limsi.fr Paris, 5 juin 2004
Introduction Nouvelles formes de communication écrite (NFCE) courrier électronique (e-mail), forums… chat (IRC, ICQ…) pages personnelles (blogs, webzines, wiki…) nouveaux besoins en synthèse de la parole applications embarquées (automotive) multimédia télécommunications Paris, 5 juin 2004
Introduction Problèmes typiques des mails absence d’accentuation, néologismes, et autres abréviations fautes de frappe ou d’orthographe mails sans majuscule (ou au contraire sans minuscules) Difficultés pour recueillir un corpus de mails séparer le corpus du message des entêtes et signatures rendre anonymes les adresses par un générateur aléatoire Paris, 5 juin 2004
Architecture d’un système de synthèse vocale Paris, 5 juin 2004
Normalisation du texte Paris, 5 juin 2004
Prétraitements usuels Signes non alphanumériques, sigles, symboles et autres abréviations Nombres décimaux, ordinaux, écrits en chiffres romains… Notations liées à l’informatique @portia.psyc.queensu.ca @nytud.hu @uasoiro.freenet.ua @physik.hu-berlin.de @elka.pw.edu.pl, @lettere.unibo.it Paris, 5 juin 2004
État de l’art pour le français Le Mail Itineris (France Télécom R&D) Dial & play (Elan) Paris, 5 juin 2004
Le système d’Elan filtre les entêtes et les séparateurs répétés plus de 2 fois opère une réaccentuation partielle prend en compte les heures, les adresses électroniques… Ex. : ([01]?[0-9]|2[0-4]):[0-5][0-9] [[:alnum:]][[:alnum:].-]*[[:alnum:]]@[[:alnum:]][[:alnum:].-]*[[:alnum:]] où [:alnum:] désigne « alphanumérique » et où les parenthèses délimitent les arguments du « ou » (|). épelle la 1re consonne de pnom@adresse.ll si le groupe pn n’est pas attesté en début de mot, et épelle le suffixe composé de 2 lettres Paris, 5 juin 2004
Le système d’Elan peut être paramétré pour lire >, @... traite les items spécifiques comme @+, :) () peut tirer profit de la forme isolée des signatures (pour les numéros de téléphone, les codes postaux) prévoit de décrire les documents au format HTML (ex. les énumérations) détecte la langue du message sur la base des 200 mots les plus fréquents, et lance le moteur de synthèse correspondant Paris, 5 juin 2004
Évaluation de la conversion graphème-phonème (GP) Le volet EvaSy du projet Technolangue EVALDA : évaluation de la synthèse de la parole à partir du texte en français corpus en cours de construction au DELIC, réutilisable dans des études futures 2 tâches envisagées pour la conversion GP : - liste de noms propres - courriers électroniques L’ARC ILOR B3 de la campagne AUPELF Paris, 5 juin 2004
Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse. /@|/ /o|O/ /e|E/ /@z|z|/ /e|E/ /e|E/ @|/… Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai » /e/ c important pour « c’est important » /se pt/ (pas de liaison) vs pour « vous » /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004
Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse. /@|/ /o|O/ /e|E/ /@z|z|/ /e|E/ /e|E/ @|/… Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai » /e/ c important pour « c’est important » /se pt/ (pas de liaison) vs pour « vous » /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004
Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse. /@|/ /o|O/ /e|E/ /@z|z|/ /e|E/ /e|E/ @|/… Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai » /e/ c important pour « c’est important » /se pt/ (pas de liaison) vs pour « vous » /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004
Conclusion Évaluation coûteuse plus de 99 % de mots bien prononcés par le meilleur système, sur des textes journalistiques majorité d’erreurs provenant des noms propres Autres situations : Audiotel, alerte de bord, bulletins météo ou circulation, textes de droit, bibliographies, pages Web, manuels utilisateurs, recettes de cuisine, petites annonces, horoscopes, articles de bourse… plus d’erreurs potentielles Paris, 5 juin 2004