Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université de Franche-Comté – Besançon - FRANCE Journée détude de lATALA – Paris - 5 juin 2004 Ciprian MELIAN Séverine VIENNEY
Sommaire Problématique : – Le langage texto – La traduction automatique Notre système Résultats et Démonstration Conclusions et Perspectives Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Sommaire Problématique : – Le langage texto – La traduction automatique Notre système Résultats et Démonstration Conclusions et Perspectives Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Apparition du langage texto avec le développement des nouvelles formes de communication écrite : – Sur internet : chat, forum de discussion, courrier électronique ( ) – Sur téléphone portable : sms ( En 2003 : 8 milliards de SMS envoyés [Que choisir, déc. 2003] ) Le langage texto Journée détude de lATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 simplification de la langue : phénomène de troncations, absence des flexions, phonétisation, pictogrammes... une situation de communication particulière nécessitant une certaine précision de langage et une rapidité de réponse – objectifs : retrouver une « cadence orale » être concis et compris Le langage texto : caractéristiques Journée détude de lATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 être concis et compris – Exemple : Elle est allée au restaurant Le langage texto : correction automatique / traduction automatique ? Journée détude de lATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 être concis et compris – Exemple : Elle est allée au restaurant A priori, besoin d'un correcteur automatique – Elle est allé au restaurant Journée détude de lATALA – Paris - 5 juin 2004 Le langage texto : correction automatique / traduction automatique ?
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 être concis et compris – Exemple : Elle est allée au restaurant A priori, besoin d'un correcteur automatique – Elle est allé au restaurant En réalité, besoin d'un traducteur automatique – L et alé au resto- L è alé o resto – L E alé O resto Journée détude de lATALA – Paris - 5 juin 2004 Le langage texto : correction automatique / traduction automatique ?
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Utilité d'un tel système : – Langage contrôlé mais contrôlé par qui ? Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% lont été par les ans. Les utilisateurs qui en envoient le plus sont les ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] ) Connaître les nouvelles tendances de troncation, de symboles utilisés. Si on ne connait pas la norme alors difficile de lire le texto : gain de temps à écrire perte de temps à déchiffrer Le langage texto : traduction automatique Journée détude de lATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 perte de temps à déchiffrer Intérêt d'un traducteur automatique – C T ki ? Journée détude de lATALA – Paris - 5 juin 2004 Le langage texto : traduction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 perte de temps à déchiffrer Intérêt d'un traducteur automatique – C T ki ? --> c'était qui ? Journée détude de lATALA – Paris - 5 juin 2004 Le langage texto : traduction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 perte de temps à déchiffrer Intérêt d'un traducteur automatique – C T ki ? --> c'était qui ? – kestufé ? --> Journée détude de lATALA – Paris - 5 juin 2004 Le langage texto : traduction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 perte de temps à déchiffrer Intérêt d'un traducteur automatique – C T ki ? --> c'était qui ? – kestufé ? --> qu'est-ce que tu fais ? Publicité pour Nokia, 2002 : Journée détude de lATALA – Paris - 5 juin 2004 Le langage texto : traduction automatique
Sommaire Problématique : – Le langage texto – La traduction automatique Notre système Résultats et Démonstration Conclusions et Perspectives Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Bi-directionnel : français-texto / texto-français Architecture générale – Trois étapes : 1 : lecture du texte source 2 : langage pivot 3 : génération du texte cible Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Notre système Journée détude de lATALA – Paris - 5 juin 2004
Etape 1 : Lecture du texte source Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 L'utilisateur entre son texte : – Soit sous forme texto : HT du p1 E D poiro (acheter du pain et des poireaux) Journée détude de lATALA – Paris - 5 juin 2004
Etape 1 : Lecture du texte source Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 L'utilisateur entre son texte : – Soit sous forme texto : HT du p1 E D poiro (acheter du pain et des poireaux) – Soit en français : J'ai une bonne idée (G 1 bon ID) Journée détude de lATALA – Paris - 5 juin 2004
Etape 2 : Langage pivot Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Transcription à l'aide d'un système de règles Utilisation d'un langage pivot adéquat Journée détude de lATALA – Paris - 5 juin 2004
Etape 3 : Génération du texte cible Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 A partir du langage pivot : – Système de règles pour générer le texte – Système de validation des formes produites Pour sms-français : désambiguïsation lexico-syntaxique et sémantique Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité) Journée détude de lATALA – Paris - 5 juin 2004
Sommaire Problématique : – Le langage texto – La traduction automatique Notre système Résultats et Démonstration Conclusions et Perspectives Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Résultats Phrase de départ : G 1 ID Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Résultats Phrase de départ : G 1 ID Langage pivot : – G –> Ze – 1 –> U~/ yn – ID –> ide Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Résultats Génération du Français : – Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai... – U~/ –> un, ein, ain, in... – yn –> une, hune... – –> une, hune... – Ide –> idé, idée, idai... Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Résultats Validation lexicale : – J'ai un/une idée(s) – Jet un/une idée(s) – Geai un/une idée(s) – Jais un/une idée(s) Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Résultats Analyses morpho-syntaxiques et sémantiques : – J'ai un/une idée(s) – Jet un/une idée(s) – Geai un/une idée(s) – Jais un/une idée(s) Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Résultats Phrase de départ : – G 1 ID Phrase après analyses : - J'ai une idée Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Sommaire Problématique : – Le langage texto – La traduction automatique Notre système Résultats et Démonstration Conclusions et Perspectives Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Sommaire Problématique : – Le langage texto – La traduction automatique Notre système Résultats et Démonstration Conclusions et Perspectives Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Conclusions Journées linguistiques vdu Centre L. Tesnière – 05 et 06 mars 2004 Nouvelles formes de communication écrite nouvelles façons d'écrire nouveaux outils TAL Premiers travaux dans ce domaine. Peu de chercheurs se sont penchés sur ce problème. Premiers résultats (après seulement quelques mois de recherches) sont encourageants Journée détude de lATALA – Paris - 5 juin 2004
Perspectives Premier prototype à développer Applicable à d'autres langues Au niveau industriel : – téléphone mobile-traducteur – traducteur : , forum, chat... – modules en première étape de toute correction automatique Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Journée détude de lATALA – Paris - 5 juin 2004
Merci de votre attention... des questions ? Centre de recherche en linguistique et traitement automatique des languesLucien Tesnière Université de Franche-Comté – Besançon - FRANCE Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004 Ciprian MELIAN Séverine VIENNEY Journée détude de lATALA – Paris - 5 juin 2004