Philippe Boula de Mareüil LIMSI-CNRS

Slides:



Advertisements
Présentations similaires
Business Talk IP Centrex Business Internet Centrex
Advertisements

X-Internet - Polytechnique.org Réunion du 28 novembre 2002.
Séquence :Looking for a summer job
Évaluation des acquis des élèves en français et en mathématiques CE1 et CM2 Claude MOINE Chargé de mission SI1D 01/09.
1re STG INTERNET Patrick DUPRE.
MAJORDOME : Assistant personnel et Messagerie unifiée G. Chollet, L
DOCUMENTS DE FORMATION CODEX FAO/OMS SECTION DEUX COMPRENDRE LORGANISATION DU CODEX Module 2.6 Comment les normes Codex sont-elles élaborées ?
Copyright France Télécom, tous droits réservés Paris Web Ateliers Les bibliothèques JS jQuery Orange Labs Julien Wajsberg, Recherche & Développement.
Module d’Enseignement à Distance pour l’Architecture Logicielle
Évaluation de la prononciation des noms propres par 4 convertisseurs graphème-phonème en français Philippe Boula de Mareüil1, Christophe  d’Alessandro1,
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Module 1.Découverte de Netvibes Un portail personnalisé
Comprendre le fonctionnement du code écrit
Le helpdesk de l’IFSIC Pourquoi ? Comment ?
Contribution à létude des messages électroniques francophones Quelques résultats et leurs conséquences pour le TAL Journée détude ATALA du 5 juin 2004.
Introduction : Compilation et Traduction
LETTRE Introduction En droit français, l’écrit est le mode de preuve incontestable. Le Code du commerce fait obligation aux entreprises de conserver tous.
Reconnaissance de la parole
Maîtrise des données et des métadonnées de l’ODS
Présenté par : Khaled Annabi
Exploiter le CECR Une approche commune de l’enseignement des langues dans les pays de l’Union Européenne.
Formation Cybercarnet
GED Masters: Gestion Électronique de Documents
TITRE EN 44 PTS, GRAS, MAJUSCULE, Calibri TITRE EN 44 PTS, GRAS, MAJUSCULE, Calibri 1. Introduction Explique clairement la problématique, les travaux antérieurs,
Applications Internet – cours 3 La page web
Dématérialisation des Marché Publics Utilisation de la plateforme S.M.I.C. 88 par les Entreprises 1.
Utilisations pédagogiques dInternet Jean Talbot Service de lenseignement des technologies de linformation Août 98.
1. Aller à l’adresse suivante
TRAVAILLER AU CANADA LA CANDIDATURE.
D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Francimel.com Le site de francité est constitué dun chat, rencontre, e- mail, shopping, recherche, page personnel. 15 Meg.
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Notions sur le XML Réfs : manuel p 149. Introduction Le XML (eXtensible Markup Language) est un standard d'échange de données. Il fait partie comme le.
Le campus virtuel SUPPREM et le cours d’enseignement à distance "Introduction to biosafety" L'équipe du RIBios a préparé trois « briques » (ou unités pédagogiques)
Semaine #1 INF135 par Frédérick Henri.
CALENDRIER DE CONSERVATION ET COURRIELS MRCI ET RÉSEAU DES WEBMESTRES VENDREDI, LE 20 SEPTEMBRE 2002 JEUDI, LE 26 SEPTEMBRE 2002 MICHEL LÉVESQUE.
1 Étude de marché sur Internet Les sondages sur le Net Come2001 Décembre 2006.
Évaluations nationales cm Réunions de directions et animation pédagogique du 13/01/10 Circonscription de PontChateau Briere – VG-
Analyse des discours cours 7 Les genres dans la presse écrite
Document élaboré à Centrale Paris par Pascal Morenton LES TECHNOLOGIES DU WEB 1. LES PHASES D UN DEPLOIEMENT DE RESEAUX 2. LE LANGAGE HTML 3. LE LANGAGE.
Adaptée du cours de Richard Grin
Réunion de présentation de la campagne
Le FLE en contexte migratoire
Introduction au courrier électronique
Google Apps                         .
Séances de liaison auprès des brevetés 2014 Montréal – le 11 juin 2014 Toronto – le 12 juin 2014 Conseil d’examen du prix des médicaments brevetés.
marketing Conquérir/Fidéliser. Sommaire 1. Avant de commencer 2. Créer un 3. Délivrer un 4. Mesurer la performance 5. Augmenter la conversion.
Manuel Kervarker.org : l'accueil
Recherche sur Internet Présentation destinées au CAID tiré pour l’essentiel de
Organisation administrative
Sémantique des instructions pour le langage Z minimal Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Fonctions avancées et graphiques
IUT SRC Année 2004/2005Antonio Capobianco 1 HTML>Formater du texte>Les titres Définir les titres HTML distingue 6 niveaux de titre : Titre N°1 Titre N°2.
Des activités à ritualiser
B2i école : domaines, aptitudes et pistes d’activités
Présentation de la taxonomie XBRL BE-fr-pfs-ci Bruxelles, le 25 janvier 2006 Camille Dümm Pascal Rodrique Centrale des bilans.
INTERNET Le langage HTML
Introduction à MathML Par Katia Larrivée UQO Le 18 mars 2004.
Créer un mur virtuel collaboratif
Claude MOINE Chargé de mission SI1D 01/10. Adresse de connexion à l’application Claude MOINE Chargé de mission SI1D 01/10.
Comment créer et administrer un blog Wordpress. Étape 1 Se rendre sur le site web de Wordpress et appuyer sur le bouton «créer votre site, gratuitement».
FCR :utilisateur classique pour augmenter sa productivité et baisser ses coûts télécom FCR et Internet Vendredi 2 Février 1996.
AVRIL 2015V1.0 DOC-DEPOT La Consigne Numérique Solidaire Support Formation Responsable.
+ Votre gestion au quotidien!. + Fonctionnalités détaillées du module CEGIDCopy.
Les courriels Georger Alice T.I.C. Ecole des Mines de Nancy 18/02/2013
TWP Toolkit Formation 21/10/2009.
Comment se connecter à TelePAC ?
STRUCTURE D ’ UN ARTICLE ORIGINAL Pr Ganry.
CONSEILS POUR LA REDACTION NA 2012/ Le mémoire de M2 n’est pas un rapport de stage: il doit développer une problématique en liaison avec vos missions.
Transcription de la présentation:

Philippe Boula de Mareüil LIMSI-CNRS mareuil@limsi.fr Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS mareuil@limsi.fr Paris, 5 juin 2004

Introduction Nouvelles formes de communication écrite (NFCE) courrier électronique (e-mail), forums… chat (IRC, ICQ…) pages personnelles (blogs, webzines, wiki…)  nouveaux besoins en synthèse de la parole applications embarquées (automotive) multimédia télécommunications Paris, 5 juin 2004

Introduction Problèmes typiques des mails absence d’accentuation, néologismes, et autres abréviations fautes de frappe ou d’orthographe mails sans majuscule (ou au contraire sans minuscules) Difficultés pour recueillir un corpus de mails séparer le corpus du message des entêtes et signatures rendre anonymes les adresses par un générateur aléatoire Paris, 5 juin 2004

Architecture d’un système de synthèse vocale Paris, 5 juin 2004

Normalisation du texte Paris, 5 juin 2004

Prétraitements usuels Signes non alphanumériques, sigles, symboles et autres abréviations Nombres décimaux, ordinaux, écrits en chiffres romains… Notations liées à l’informatique @portia.psyc.queensu.ca @nytud.hu @uasoiro.freenet.ua @physik.hu-berlin.de @elka.pw.edu.pl, @lettere.unibo.it Paris, 5 juin 2004

État de l’art pour le français Le Mail Itineris (France Télécom R&D) Dial & play (Elan) Paris, 5 juin 2004

Le système d’Elan filtre les entêtes et les séparateurs répétés plus de 2 fois opère une réaccentuation partielle prend en compte les heures, les adresses électroniques… Ex. : ([01]?[0-9]|2[0-4]):[0-5][0-9] [[:alnum:]][[:alnum:].-]*[[:alnum:]]@[[:alnum:]][[:alnum:].-]*[[:alnum:]] où [:alnum:] désigne « alphanumérique » et où les parenthèses délimitent les arguments du « ou » (|). épelle la 1re consonne de pnom@adresse.ll si le groupe pn n’est pas attesté en début de mot, et épelle le suffixe composé de 2 lettres Paris, 5 juin 2004

Le système d’Elan peut être paramétré pour lire >, @... traite les items spécifiques comme @+, :) () peut tirer profit de la forme isolée des signatures (pour les numéros de téléphone, les codes postaux) prévoit de décrire les documents au format HTML (ex. les énumérations) détecte la langue du message sur la base des 200 mots les plus fréquents, et lance le moteur de synthèse correspondant Paris, 5 juin 2004

Évaluation de la conversion graphème-phonème (GP) Le volet EvaSy du projet Technolangue EVALDA : évaluation de la synthèse de la parole à partir du texte en français corpus en cours de construction au DELIC, réutilisable dans des études futures 2 tâches envisagées pour la conversion GP : - liste de noms propres - courriers électroniques L’ARC ILOR B3 de la campagne AUPELF Paris, 5 juin 2004

Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse.        /@|/                 /o|O/  /e|E/                      /@z|z|/ /e|E/        /e|E/ @|/… Question des variantes abréviations  épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai »  /e/ c important pour « c’est important »  /se pt/ (pas de liaison) vs pour « vous »  /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004

Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse.        /@|/                 /o|O/  /e|E/                      /@z|z|/ /e|E/        /e|E/ @|/… Question des variantes abréviations  épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai »  /e/ c important pour « c’est important »  /se pt/ (pas de liaison) vs pour « vous »  /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004

Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse.        /@|/                 /o|O/  /e|E/                      /@z|z|/ /e|E/        /e|E/ @|/… Question des variantes abréviations  épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai »  /e/ c important pour « c’est important »  /se pt/ (pas de liaison) vs pour « vous »  /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004

Conclusion Évaluation coûteuse  plus de 99 % de mots bien prononcés par le meilleur système, sur des textes journalistiques  majorité d’erreurs provenant des noms propres Autres situations : Audiotel, alerte de bord, bulletins météo ou circulation, textes de droit, bibliographies, pages Web, manuels utilisateurs, recettes de cuisine, petites annonces, horoscopes, articles de bourse…  plus d’erreurs potentielles Paris, 5 juin 2004