La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.

Présentations similaires


Présentation au sujet: "D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire."— Transcription de la présentation:

1 D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004 Emilie Guimier De Neef

2 France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D2 - 19/05/2014 Pré-traitement linguistique chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :-> a2m1 steph Synthèse vocale Je suis en physique t'as pas une idée de cadeau géniale pour ludo hahaha ! À demain Stèph 4. Un exemple de traitement automatique : Pré-traiter des SMS avant vocalisation

3 France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D3 - 19/05/2014 Plan Architecture du système Lanalyseur de textes «TiLT» Adaptations de TiLT au pré-traitement des SMS Limites du pré-traitement Démonstration du système

4 France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D4 - 19/05/2014 Architecture du système Combinaison de 3 briques logicielles de FTR&D : Prolix :identification de la langue TiLT :analyse linguistique CVOX :synthèse vocale Le message SMS reçu est… 1.…envoyé à un serveur Prolix de reconnaissance de langue. 2.…pré-traité linguistiquement par TiLT (SMS français uniquement) 3.…envoyé à un serveur CVOX de synthèse vocale anglaise, allemande ou française

5 France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D5 - 19/05/2014 L'analyseur de textes TiLT Segmentation Données de segmentation Découpage d'un texte en phrases, mots, numéros, signes de ponctuation etc. Analyse lexicale Lexiques (ensemble des mots d'une langue avec information morpho- flexionnelles) Association de chaque mot à ces différentes analyses hors contexte Méthodes de Corrections Stratégie de correction (réaccentuation, phonétique, typographique, morphologique, décollement etc.) Correction des formes erronées Chunking Grammaire (règles décrivant la séquentialité des mots d'une langue) Désambiguïsation lexicale par exploration du contexte Restitution Règles de mise en forme (élision, tirets, espaces, formes contractées etc.) Restitution adaptée du texte analysé Principales étapes et données :

6 France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D6 - 19/05/2014 Adaptations de TiLT au pré-traitement des SMS (1) Objectif : améliorer/permettre la vocalisation des SMS "corriger" les formes SMS même écrites phonétiquement restituer certaines marques formelles importantes (apostrophes, tirets, majuscules etc) repérer les smileys pour bloquer leur épellation

7 France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D7 - 19/05/2014 Procédés d'écriture : Abréviations dsl pr staprem / MDR le 6né Recensement des formes les plus fréquentes (un millier environ) Association à une/plusieurs formes expansées Ecriture phonétique et par rébus: on se dbrouille / g ht du kfé Données de segmentation adaptées (chiffres dans les mots) Recensement des fomes les plus fréquentes (une centaine) Modification du phonétiseur pour interprétation dynamique en mode correction phonétique Troncation des mots : Veuillez m'appeler à ce numér Correction de la troncature à 1 caractère Agglutination de mots : jatend son cou 2fil Adaptation du mode correctif séparation Adaptations de TiLT au pré-traitement des SMS (2)

8 France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D8 - 19/05/2014 Marques émotionnelles : Smileys : slt ;-> / pq tapel pa :( Données de segmentation adaptées Restitution sous forme de balises sonores Modification expressive de la graphie : g u 16 en fisic suupppeeer Développement d'un mode de correction tolérant à la répétition de caractères Adaptations de TiLT au pré-traitement des SMS (3)

9 France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D9 - 19/05/2014 Corrections et abréviations génèrent une ambiguïté plus importante qu'en langue standard L'absence de certaines marques formelles (apostrophes, signes de ponctuation, majuscules, tirets etc.) brouille les repères de la grammaire Adaptation de la grammaire pour : Affiner certaines descriptions (questions, mots réduits à une lettre) Cerner des 'îlots de confiance' (salutations pour l'identification des noms propres etc.) Décider contextuellement de l'interprétation d'une chaîne Adaptations de TiLT au pré-traitement des SMS (4)

10 France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D /05/2014 Mise en forme du message : Elisions : J n en ai pa l droit Décidée contextuellement à la restitution du message Tirets : va t on se boir un verre? Ajout de tirets dans des configurations syntaxiques particulières Majuscule en début de nom propre : Bjr jean claude ca va? Adaptations de TiLT au pré-traitement des SMS (4)

11 France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D /05/2014 Limites de l'approche Tous les phénomènes ne sont pas traités : Pas de procédés dynamiques pour tous les mécanismes d'écriture Pas de procédés dynamiques pour tous les mécanismes d'écriture Difficulté d'interprétation si cumul de procédés (agglutination de mots + écriture phonétique) Difficulté d'interprétation si cumul de procédés (agglutination de mots + écriture phonétique) Segmentation des unités lexicales impossible en l'absence de séparateur Segmentation des unités lexicales impossible en l'absence de séparateur Difficulté augmente avec la longueur du message Difficulté augmente avec la longueur du message …


Télécharger ppt "D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire."

Présentations similaires


Annonces Google