D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.

Slides:



Advertisements
Présentations similaires
Hiérarchisation des Variations
Advertisements

(Nom du fichier) - D1 - 01/03/2000 France Télécom R&D Télétel Précurseur de lInternet.
D1a S’exprimer à l’oral dans un vocabulaire approprié et précis
Prof. Assist. Dr Penphan THIPKONG
Transformation de documents XML
Sébastien Moreau, Jérôme Daniel
D1 - 14/01/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Traitement automatique de la parole hiver
Proposition de stratégie
D1 - 26/07/01 Present document contains informations proprietary to France Telecom. Accepting this document means for its recipient he or she recognizes.
(Nom du fichier) - D1 - 01/03/2000 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
D1 - 01/03/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Exemples de documents de travail
Comprendre le fonctionnement du code écrit
Contribution à létude des messages électroniques francophones Quelques résultats et leurs conséquences pour le TAL Journée détude ATALA du 5 juin 2004.
Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université
Chap 1 Grammaires et dérivations.
Cordial, le TAL et les aides à la rédaction
Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004
Plan du travail: 1- Introduction. 2- Définition du langage SMS.
(Nom du fichier) - D1 - 01/03/2000 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document.
Partie 1 Etude de l'existant
Analyse lexicale Généralités Expressions rationnelles Automates finis
Un environnement de développement pour le TALN 15/12/2OO1
Concepts généraux du traitement de texte
La ponctuation; Les dialogues
La baladodiffusion en physique-chimie
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Bases de données lexicales
Recherche Documentaire et traitement de l’information
La communication de ce document est soumise à autorisation de France Télécom R&D (Nom du fichier) - D1 - 01/03/2000 France Télécom R&D Énoncé Représentation.
Project de la langue française
26 situations simples autour d'un texte court
Maîtrise de la langue française
La problématique de la recherche de document Journée de formation 29 février 2008.
1 DTSI / Service Cognitique Robotique et Interaction OUTILEX Démonstrateur du CEA-LIST : moteur d'interrogation crosslingue (français, anglais, espagnol)
Forum des Industries de la Langue, 17 mars 2010
Chapitre 3 Syntaxe et sémantique.
Chapitre 2 La description du langage
8èmes Journées INTEX/NooJ
D1 - 09/06/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Recherche par mots-clés vs recherche en langue naturelle.
Qu'est ce que savoir lire ?
Branche Développement Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
VTHD PROJECT (Very High Broadband Network Service): French NGI initiative C. GUILLEMOT FT / BD / FTR&D / RTA
M. Al Naboulsi; H. Sizun; F de Fornel
D1 - 11/01/2015 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Evaluation de fin de séance CORRECTION. Sur ce schéma où est localisée la zone de préparation de commandes ? A B C D A : en C B : en A C : en B D : en.
Existe-t-il une rééducation de la dyslexie ?
Les conventions linguistiques
(Nom du fichier) - D1 - 01/03/2000 France Télécom R&D Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation.
Le langage XML.
D1 - 10/04/2015 Soirée de l’Internet diocésain 19 septembre 2008 Philippe Giron Tisserand Le site web diocésain : évolution et perspectives.
MARS 2012 F.MIRGALET M. POURCHET
LA TECHNIQUE DU RÉSUMÉ Résumer un texte, c'est réduire un énoncé selon un certain nombre de mots imposé, en en restituant l'essentiel des idées et la structure.
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.
GSD langue française - Boumerdès 19 et 30 avril 2013
Mise en forme efficace d’un document Logiciel Microsoft Word
Introduction à l’informatique en gestion 1 Plan de la leçon Modalités d’affichage La navigation Ouvrir/Enregistrer La saisie La sélection La.
Fonctionnement du moteur vocal VoiXtreme
Des activités à ritualiser
Repérage Orthographique Collectif au CM2
Le Traitement Automatique des Langues (TAL)
Quelles sont les principales différences avec l ’OACI ?
Ecole ______________________________________
Introduction à la rédaction Scientifique
Transcription de la présentation:

D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004 Emilie Guimier De Neef

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D2 - 19/05/2014 Pré-traitement linguistique chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :-> a2m1 steph Synthèse vocale Je suis en physique t'as pas une idée de cadeau géniale pour ludo hahaha ! À demain Stèph 4. Un exemple de traitement automatique : Pré-traiter des SMS avant vocalisation

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D3 - 19/05/2014 Plan Architecture du système Lanalyseur de textes «TiLT» Adaptations de TiLT au pré-traitement des SMS Limites du pré-traitement Démonstration du système

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D4 - 19/05/2014 Architecture du système Combinaison de 3 briques logicielles de FTR&D : Prolix :identification de la langue TiLT :analyse linguistique CVOX :synthèse vocale Le message SMS reçu est… 1.…envoyé à un serveur Prolix de reconnaissance de langue. 2.…pré-traité linguistiquement par TiLT (SMS français uniquement) 3.…envoyé à un serveur CVOX de synthèse vocale anglaise, allemande ou française

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D5 - 19/05/2014 L'analyseur de textes TiLT Segmentation Données de segmentation Découpage d'un texte en phrases, mots, numéros, signes de ponctuation etc. Analyse lexicale Lexiques (ensemble des mots d'une langue avec information morpho- flexionnelles) Association de chaque mot à ces différentes analyses hors contexte Méthodes de Corrections Stratégie de correction (réaccentuation, phonétique, typographique, morphologique, décollement etc.) Correction des formes erronées Chunking Grammaire (règles décrivant la séquentialité des mots d'une langue) Désambiguïsation lexicale par exploration du contexte Restitution Règles de mise en forme (élision, tirets, espaces, formes contractées etc.) Restitution adaptée du texte analysé Principales étapes et données :

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D6 - 19/05/2014 Adaptations de TiLT au pré-traitement des SMS (1) Objectif : améliorer/permettre la vocalisation des SMS "corriger" les formes SMS même écrites phonétiquement restituer certaines marques formelles importantes (apostrophes, tirets, majuscules etc) repérer les smileys pour bloquer leur épellation

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D7 - 19/05/2014 Procédés d'écriture : Abréviations dsl pr staprem / MDR le 6né Recensement des formes les plus fréquentes (un millier environ) Association à une/plusieurs formes expansées Ecriture phonétique et par rébus: on se dbrouille / g ht du kfé Données de segmentation adaptées (chiffres dans les mots) Recensement des fomes les plus fréquentes (une centaine) Modification du phonétiseur pour interprétation dynamique en mode correction phonétique Troncation des mots : Veuillez m'appeler à ce numér Correction de la troncature à 1 caractère Agglutination de mots : jatend son cou 2fil Adaptation du mode correctif séparation Adaptations de TiLT au pré-traitement des SMS (2)

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D8 - 19/05/2014 Marques émotionnelles : Smileys : slt ;-> / pq tapel pa :( Données de segmentation adaptées Restitution sous forme de balises sonores Modification expressive de la graphie : g u 16 en fisic suupppeeer Développement d'un mode de correction tolérant à la répétition de caractères Adaptations de TiLT au pré-traitement des SMS (3)

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D9 - 19/05/2014 Corrections et abréviations génèrent une ambiguïté plus importante qu'en langue standard L'absence de certaines marques formelles (apostrophes, signes de ponctuation, majuscules, tirets etc.) brouille les repères de la grammaire Adaptation de la grammaire pour : Affiner certaines descriptions (questions, mots réduits à une lettre) Cerner des 'îlots de confiance' (salutations pour l'identification des noms propres etc.) Décider contextuellement de l'interprétation d'une chaîne Adaptations de TiLT au pré-traitement des SMS (4)

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D /05/2014 Mise en forme du message : Elisions : J n en ai pa l droit Décidée contextuellement à la restitution du message Tirets : va t on se boir un verre? Ajout de tirets dans des configurations syntaxiques particulières Majuscule en début de nom propre : Bjr jean claude ca va? Adaptations de TiLT au pré-traitement des SMS (4)

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D /05/2014 Limites de l'approche Tous les phénomènes ne sont pas traités : Pas de procédés dynamiques pour tous les mécanismes d'écriture Pas de procédés dynamiques pour tous les mécanismes d'écriture Difficulté d'interprétation si cumul de procédés (agglutination de mots + écriture phonétique) Difficulté d'interprétation si cumul de procédés (agglutination de mots + écriture phonétique) Segmentation des unités lexicales impossible en l'absence de séparateur Segmentation des unités lexicales impossible en l'absence de séparateur Difficulté augmente avec la longueur du message Difficulté augmente avec la longueur du message …