Forum des Industries de la Langue, 17 mars 2010

Slides:



Advertisements
Présentations similaires
Par Aline Mahot et Charlyne Routier
Advertisements

Cordial, le TAL et les aides à la rédaction
Forum des Industries de la Langue, 17 mars 2010
Dominique LAURENT Patrick SEGUELA
Bibliothèque Centrale de l’École Polytechnique Session pratique Recherches documentaires en sciences dures PSC 2011 septembre/octobre 2011 Denis Roura,
INITIATION A LA RECHERCHE EC151 ET EC251 COMMENT REUSSIR SON MEMOIRE DE M2 : Aide et méthode pour le construire.
Outil Système Complet d'Assistance Réseau CRDP de l'académie de Lyon Documentation librement inspirée de la présentation.
Animation pédagogique AVION Déc Étude de la langue Cycle 3 Grammaire Équipe de circonscription d'Avion.
De l’implicite à l’explicite
Correcteurs automatiques 25/09/2016. Nom, Prénom2 Qu'est-ce que c'est ? ● Un correcteur automatique est un outil permettant d'analyser un texte afin de.
Savoirs en partage Le portail de ressources de l'AUF Objectifs ● Proposer de.
Recherche de GED Recherche d’une GED permettant un classement de documents de type(Words/PowerPoint/Excel etc…) avec une arborescence simple et un logiciel.
Master ESEEC Rédaction de documents (longs) structurés Patrice Séébold Bureau 109, Bât B.
Cycle élémentaire Année scolaire: Classe: CE1 Discipline: Français Éducatrice: Mme. Bernadette Melhem.
LES OUTILS APPRÉHENDÉS ET LEUR UTILITÉ
Workflow basique Traitement de texte
Utilisation des signaux sonores et lumineux
LA TRADUCTION A L’ONU ISTI, 7 octobre 2014.
Gestion des accès C’est pour chez-nous 29 mai 2017.
LES BASES DE LA TRADUCTOLOGIE
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le profil du terminologue – reloaded
Rechercher des articles et des sites web
Missions maîtrise de la langue et maternelle Année scolaire
Cordial, le TAL et les aides à la rédaction
Recherche subsidiée par la Communauté française de Belgique
IV : EVALUATION DE L’ORTHOGRAPHE
Aide à la correction de l’évaluation initiale
LES BASES DE LA TRADUCTOLOGIE
Interprétation des indicateurs?
Information, Calcul, Communication
Échanger, sʼexprimer en ligne
FLEx 1 Introduction et installation
Comment lire un article de dictionnaire?
Le CECRL.
ORTHOGRAPHE LEXICALE - GRAMMATICALE
POUR RELIRE MON ECRIT.
Période 1 Période 2 Période 3 Période 4 Période 5 La phrase
Acquisition et apprentissage du français langue étrangère
Cyber-Sphinx Séance 2.
Joseph Larmarange – Atelier d’écriture – Abidjan – Octobre 2017
La dictée-quatuor.
Le Club informatique 21 février 2008
Le site FORUM liste de diffusion DROPBOX GESTAPRC Travail collaboratif
Epreuve de mise en situation professionnelle
Faire la synthèse d’un chapitre d’histoire ou de géographie
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
Les applications de groupware
Mise en œuvre d’une solution de portail
Le FLE en contexte migratoire
02- Evaluation Access 2003 Cette évaluation comporte des QCM (1 seule réponse) et des Zones à déterminer dans des copies d’écran.
P A C H O T POUR RELIRE MON ECRIT
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
L'Épreuve 2 NM L'évaluation.
Programmation Web : Introduction à XML
Etudes d’approfondissement
Dictionnaire personnel
Etudes d’approfondissement M2PGI Option SRR
LE FORMATAGE DU MEMOIRE
Enseigner la grammaire amazighe à l’école primaire
Etudes d’approfondissement
Epreuve de mise en situation professionnelle
Epreuve de mise en situation professionnelle
Tous Mes Voeux pour cette nouvelle année Liberté Égalité Fraternité
Examen oral Comment ça marche ?.
Etudes d’approfondissement M2GI Option SRR
Formation Dragon NaturallySpeaking
Question 12 - instructions
RECOMMANDATIONS POUR LE FRANÇAIS ET L’HISTOIRE/GÉOGRAPHIE
MÉTHODOLOGIE DU TRAVAIL DE SYNTHÈSE (2)
Transcription de la présentation:

Forum des Industries de la Langue, 17 mars 2010 La correction grammaticale du français D. LAURENT SYNAPSE Développement Forum des Industries de la Langue, 17 mars 2010 1

Correction = TAL industriel Correcteurs orthographiques, années 80, Correcteurs grammaticaux, années 90, Correcteurs sémantiques, années 2000, Un domaine très compétitif, Un domaine en évolution permanente (16 versions de Cordial entre 1995 et 2010 !) La technologie TAL la plus utilisée par le grand public, devant la traduction. Forum des Industries de la Langue, 17 mars 2010 2

Où en sont les correcteurs ? Bonnes corrections et faux messages, Entre 90 % et 96 % de suggestion unique juste sur la correction orthographique, entre 90 % et 100 % de correction typographique correcte (problème des capitales et des tirets), entre 50 % et 80 % de correction grammaticale correcte. entre 0 % et 70 % des homophones corrigés, entre 0 % et 50 % des erreurs de style rectifiées. Forum des Industries de la Langue, 17 mars 2010 3

Qui utilise les correcteurs ? La plupart des utilisateurs de traitement de texte pour la correction orthographique, une proportion plus réduite pour la correction grammaticale car : non installée par défaut, moins performante, fausses erreurs d’où un manque de confiance. considérée comme moins importante suppose une maîtrise de la grammaire. Forum des Industries de la Langue, 17 mars 2010 4

La correction, comment ça marche ? Basée sur un analyseur syntaxique, Aidée par un désambiguïseur sémantique. Utilise des données cumulées au long de la correction, Utilise de très importantes et diverses bases lexicales, Ensemble de règles de typographie et de contexte nul, Ensemble de règles de contexte réduit, Ensemble de règles de grammaire sur le contexte global, Collocations importantes pour les homophonies, Mémoire des erreurs commises. Forum des Industries de la Langue, 17 mars 2010 5

Les ressources linguistiques utilisées Dictionnaire de noms communs (215 000 lemmes), Dictionnaire de noms propres (778 000 lemmes), Dictionnaire d’abréviations (35 000 abréviations), Dictionnaire de grammaire et de sémantique (71 000 entrées simples dont 9 000 mots polysémiques, plus de 50 000 syntagmes nominaux, verbaux, adverbiaux...), Dictionnaire de collocations sur un corpus d ’1,2 milliard de mots, Dictionnaire de synonymes (4,5 millions), Faux amis, homophones, anglicismes, etc. Forum des Industries de la Langue, 17 mars 2010 6

Les aides à la rédaction Thématique, Analyse statistique et stylistique, mots-clés, concepts-clés, mots et concepts délaissés. Forum des Industries de la Langue, 17 mars 2010 7

Vers la correction automatique Quid de ce qui est appelé actuellement correction automatique ? Correction assistée, dictionnaire de règles Attentes importantes du monde industriel pour une correction automatique orthographique, typographique et grammaticale. Demande aussi d’une partie du grand public, découragée par le temps passé à corriger les textes, Actuellement 80 % des erreurs peuvent être corrigées automatiquement, avec un taux d’erreur inférieur à 2% Craintes face à la correction automatique, Forum des Industries de la Langue, 17 mars 2010 8

Corrections automatiques ou non Forum des Industries de la Langue, 17 mars 2010 9

Automatisation ou automatique ? Difficultés de la correction automatique, en particulier pour la grammaire et le style, Correction automatique en milieu industriel ou pour certains documents (courriels, etc.), Correction automatisée dans les traitements de texte, Réduction de 65 à 75 % du temps de correction, Relativiser les fausses erreurs. Forum des Industries de la Langue, 17 mars 2010 10

Quelques exemples de fautes En contexte très réduit : doublons, apostrophes, tirets, pléonasmes, typographie en général. Nous convenons ensemble qu’il a solutionné ce point En contexte réduit : homophonie, fautes d’accord dans le groupe, compléments de nom Ces rideaux groseilles, sa me fait plaisir ! En contexte global : fautes d’accord sujet-verbe attribut, homographie, concordance des temps Les enseignes furent convoquées par l’amiral Forum des Industries de la Langue, 17 mars 2010 11

Problème des fausses corrections En correction assistée, tous les correcteurs proposent de fausses corrections, Ce qui énerve certains utilisateurs, ceux qui maîtrisent bien la grammaire Ce qui perturbe la plupart des utilisateurs, qui en viennent à accepter des fausses erreurs mais à refuser de vraies corrections ! Difficulté de mesurer ces biais à la correction mais apparemment bien supérieurs à 2% ! Forum des Industries de la Langue, 17 mars 2010 12

Perspectives pour les correcteurs Correction orthographique des noms propres (très délicate mais très importante), recapitalisation, Utilisation des trigrammes sur l’ensemble du Web (cf. Google), Limites des approches par apprentissage, même sur des corpus comme Wikipedia ou le Web, Meilleure intégration dans les logiciels (par exemple soulignement des fautes en couleur dans Open Office) Forum des Industries de la Langue, 17 mars 2010 13

Un domaine de recherche Bien que passée au domaine industriel, la correction reste un domaine du TAL, suppose un analyseur syntaxique de très bon niveau mais aux caractéristiques spécifiques, suppose des ressources linguistiques très complètes et mises à jour (même les fautes évoluent !), fait de plus en plus appel à la sémantique et à l’ergonomie. . Forum des Industries de la Langue, 17 mars 2010 14

Un domaine industriel Utilisation de la correction automatique avant indexation (QUAERO, Exalead), Utilisation de la correction automatique avant traduction (commentaires, blogs), Utilisation de la correction automatique par le grand public, depuis Cordial 2010, Intégration de la correction automatique dans la version Office Familial diffusée en FNAC. Forum des Industries de la Langue, 17 mars 2010 15

Merci pour votre attention ! Vos questions sont bienvenues ! Forum des Industries de la Langue, 17 mars 2010 16