Forum des Industries de la Langue, 17 mars 2010

Slides:



Advertisements
Présentations similaires
Été INF1025 Driouch Elmahdi
Advertisements

Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
PLAN DE TRAVAIL CE2 n° 4 Du lundi 4 avril au vendredi 22 avril
PLAN DE TRAVAIL CE2 n° 3 Du lundi 14 mars au vendredi 1er avril
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
APPROCHE PAR LES COMPETENCES ET
TD METHODOLOGIE : RÉUSSIR LA PARTIE ANALYTIQUE
Votre SIRH en toute confiance !
CONVERGENCES ENTRE LES LANGUES VIVANTES ET LA LANGUE DE SCOLARISATION CONVERGENCES ENTRE LES LANGUES VIVANTES ET LA LANGUE DE SCOLARISATIONBulgarie.
INTRODUCTION Définition : Cordial c’est un correcteur orthographique et grammaticaux des textes. Les pluspart des logiciels de traitement de texte possèdent.
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
Les TICE et l’étude de la langue.
Rallye « Mots de tête » M Projet départemental Maîtrise de la langue
Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université
La fonction Style Permet de créer des types de texte, par exemple
Cours présentielle avec 1er année.
Cordial, le TAL et les aides à la rédaction
Période 2 CM 2 Année Grammaire Conjugaison Orthographe
Exposé Duan Kun Alexandra Moraru M2 Pro Traductique, INALCO
D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
La communication de ce document est soumise à autorisation de France Télécom R&D (Nom du fichier) - D1 - 01/03/2000 France Télécom R&D Énoncé Représentation.
Quelques exemples de modules pédagogiques à lusage des classes prépa Colloque E prep Sophia Antipolis 6-7 mai 2002.
Maîtrise de la langue française
Repérage des Difficultés du Langage écrit au CM1
Les ouvrages de référence et les correcticiels
Gouvernement du Québec Présentation par : Alain Thibault : PDG Efoé Wallace : Directeur du développement.
Les 6 étapes de la recherche…
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Plan de la rencontre #6 Approches pédagogiques pour l ’utilisation des NTIC Scénarios d ’utilisation des NTIC Logiciels-outils et écriture Activité: Réalisation.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Vers une auto-évaluation formative en ligne ?
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
la municipalité de St-Pol/Ternoise
Les activités de langue .
Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)
Commentaires du présentateur en bas Une méthode innovante et gratuite pour (Ré)apprendre l’anglais Si vous habitez St-Pol... ou ailleurs En collaboration.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Enseigner et apprendre à travers le visible
Module 8 : Surveillance des performances de SQL Server
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Vers une analyse syntaxique à granularité variable Tristan Van rullen
Human Knowledge La nouvelle génération de moteurs sémantiques.
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
Agenda de la présentation
L’utilisation d’outils de traitement automatique de la langue naturelle dans le domaine de la terminologie: une voie d’optimisation de ressources 1.
Mise en forme efficace d’un document Logiciel Microsoft Word
CONSEILS & ASTUCES UTILES POUR OBTENIR UNE BOURSE EXTERNE.
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
1 La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Dominique LAURENT Patrick SEGUELA
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
TEXT MINING Fouille de textes
Informatique TD 1 – Semestre 1
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Progression/Programmation – Français (1/3)
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
Personnalisation de l’apprentissage des langues en ligne Marie-Noëlle Godin Conceptrice pédagogique.
1 Ecrire par et sur le Net Recherche subsidiée par la Communauté française de Belgique Comment associer les TIC à l'apprentissage de l'écriture ? Véronique.
Introduction à notre Cours  Quel est l’objectif de notre cours?  4 Compétences:  Compétence lexicale  Compétence grammaticale  Compétence communicationnelle.
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
Cordial, le TAL et les aides à la rédaction
Forum des Industries de la Langue, 17 mars 2010
Transcription de la présentation:

Forum des Industries de la Langue, 17 mars 2010 La correction grammaticale du français D. LAURENT SYNAPSE Développement Forum des Industries de la Langue, 17 mars 2010 1

Correction = TAL industriel Correcteurs orthographiques, années 80, Correcteurs grammaticaux, années 90, Correcteurs sémantiques, années 2000, Un domaine très compétitif, Un domaine en évolution permanente (16 versions de Cordial entre 1995 et 2010 !) La technologie TAL la plus utilisée par le grand public, devant la traduction. Forum des Industries de la Langue, 17 mars 2010 2

Où en sont les correcteurs ? Bonnes corrections et faux messages, Entre 90 % et 96 % de suggestion unique correcte sur la correction orthographique, entre 90 % et 100 % de correction typographique correcte (problème des capitales et des tirets), entre 50 % et 80 % de correction grammaticale correcte. entre 0 % et 70 % des homophones corrigés, entre 0 % et 50 % des erreurs de style rectifiées. Forum des Industries de la Langue, 17 mars 2010 3

Qui utilise les correcteurs ? La plupart des utilisateurs de traitement de texte pour la correction orthographique, une proportion plus réduite pour la correction grammaticale car : non installée par défaut, moins performante, fausses erreurs d’où un manque de confiance, considérée comme moins importante, suppose une maîtrise de la grammaire. Forum des Industries de la Langue, 17 mars 2010 4

La correction, comment ça marche ? Basée sur un analyseur syntaxique, Aidée par un désambiguïseur sémantique. Utilise des données cumulées au long de la correction, Utilise de très importantes et diverses bases lexicales, Ensemble de règles de typographie et de contexte nul, Ensemble de règles de contexte réduit, Ensemble de règles de grammaire sur le contexte global, Collocations importantes pour les homophonies, Mémoire des erreurs commises. Forum des Industries de la Langue, 17 mars 2010 5

Les ressources linguistiques utilisées Dictionnaire de noms communs (215 000 lemmes), Dictionnaire de noms propres (778 000 lemmes), Dictionnaire d’abréviations (35 000 abréviations), Dictionnaire de grammaire et de sémantique (71 000 entrées simples dont 9 000 mots polysémiques, plus de 50 000 syntagmes nominaux, verbaux, adverbiaux...), Dictionnaire de collocations sur un corpus d ’1,2 milliard de mots, Dictionnaire de synonymes (4,5 millions), Faux amis, homophones, anglicismes, etc. Forum des Industries de la Langue, 17 mars 2010 6

Vers la correction automatique Quid de ce qui est appelé actuellement correction automatique ? Correction assistée, dictionnaire de règles Attentes importantes du monde industriel pour une correction automatique orthographique, typographique et grammaticale. Demande aussi d’une partie du grand public, découragée par le temps passé à corriger les textes, Actuellement 80 % des erreurs peuvent être corrigées automatiquement, avec un taux d’erreur inférieur à 2% Craintes face à la correction automatique, Forum des Industries de la Langue, 17 mars 2010 7

Corrections automatiques ou non Forum des Industries de la Langue, 17 mars 2010 8

Automatisation ou automatique ? Difficultés de la correction automatique, en particulier pour la grammaire et le style, Correction automatique en milieu industriel ou pour certains documents (courriels, etc.), Correction automatisée dans les traitements de texte, Réduction de 65 à 75 % du temps de correction, Relativiser les fausses erreurs. Forum des Industries de la Langue, 17 mars 2010 9

Quelques exemples de fautes En contexte très réduit : doublons, apostrophes, tirets, pléonasmes, typographie en général. Nous convenons ensemble qu’il a solutionné ce point En contexte réduit : homophonie, fautes d’accord dans le groupe, compléments de nom Ces rideaux groseilles, sa me fait plaisir ! En contexte global : fautes d’accord sujet-verbe attribut, homographie, concordance des temps Les enseignes furent convoquées par l’amiral Forum des Industries de la Langue, 17 mars 2010 10

Problème des fausses corrections En correction assistée, tous les correcteurs proposent de fausses corrections, Ce qui énerve certains utilisateurs, ceux qui maîtrisent bien la grammaire Ce qui perturbe la plupart des utilisateurs, qui en viennent à accepter des fausses erreurs mais à refuser de vraies corrections ! Difficulté de mesurer ces biais à la correction mais apparemment bien supérieurs à 2% ! Forum des Industries de la Langue, 17 mars 2010 11

Les nouvelles tendances Correction orthographique des noms propres (très délicate mais très importante), recapitalisation, Utilisation des trigrammes sur l’ensemble du Web (cf. Google), Limites des approches par apprentissage, même sur des corpus comme Wikipedia ou le Web, Meilleure intégration dans les logiciels (par exemple soulignement des fautes en couleur dans Open Office) Forum des Industries de la Langue, 17 mars 2010 12

Un domaine de recherche Bien que passée au domaine industriel, la correction reste un domaine du TAL, suppose un analyseur syntaxique de très bon niveau mais aux caractéristiques spécifiques, suppose des ressources linguistiques très complètes et mises à jour (même les fautes évoluent !), fait de plus en plus appel à la sémantique et à l’ergonomie. Forum des Industries de la Langue, 17 mars 2010 13

Un domaine industriel Utilisation de la correction automatique avant indexation (QUAERO, Exalead), Utilisation de la correction automatique avant traduction (commentaires, blogs), Utilisation de la correction automatique par le grand public, depuis Cordial 2010, Intégration de la correction automatique dans la version Office Familial diffusée en FNAC. Forum des Industries de la Langue, 17 mars 2010 14

Merci pour votre attention ! Vos questions sont bienvenues ! Forum des Industries de la Langue, 17 mars 2010 15