Forum des Industries de la Langue, 17 mars 2010 La correction grammaticale du français D. LAURENT SYNAPSE Développement Forum des Industries de la Langue, 17 mars 2010 1
Correction = TAL industriel Correcteurs orthographiques, années 80, Correcteurs grammaticaux, années 90, Correcteurs sémantiques, années 2000, Un domaine très compétitif, Un domaine en évolution permanente (16 versions de Cordial entre 1995 et 2010 !) La technologie TAL la plus utilisée par le grand public, devant la traduction. Forum des Industries de la Langue, 17 mars 2010 2
Où en sont les correcteurs ? Bonnes corrections et faux messages, Entre 90 % et 96 % de suggestion unique juste sur la correction orthographique, entre 90 % et 100 % de correction typographique correcte (problème des capitales et des tirets), entre 50 % et 80 % de correction grammaticale correcte. entre 0 % et 70 % des homophones corrigés, entre 0 % et 50 % des erreurs de style rectifiées. Forum des Industries de la Langue, 17 mars 2010 3
Qui utilise les correcteurs ? La plupart des utilisateurs de traitement de texte pour la correction orthographique, une proportion plus réduite pour la correction grammaticale car : non installée par défaut, moins performante, fausses erreurs d’où un manque de confiance. considérée comme moins importante suppose une maîtrise de la grammaire. Forum des Industries de la Langue, 17 mars 2010 4
La correction, comment ça marche ? Basée sur un analyseur syntaxique, Aidée par un désambiguïseur sémantique. Utilise des données cumulées au long de la correction, Utilise de très importantes et diverses bases lexicales, Ensemble de règles de typographie et de contexte nul, Ensemble de règles de contexte réduit, Ensemble de règles de grammaire sur le contexte global, Collocations importantes pour les homophonies, Mémoire des erreurs commises. Forum des Industries de la Langue, 17 mars 2010 5
Les ressources linguistiques utilisées Dictionnaire de noms communs (215 000 lemmes), Dictionnaire de noms propres (778 000 lemmes), Dictionnaire d’abréviations (35 000 abréviations), Dictionnaire de grammaire et de sémantique (71 000 entrées simples dont 9 000 mots polysémiques, plus de 50 000 syntagmes nominaux, verbaux, adverbiaux...), Dictionnaire de collocations sur un corpus d ’1,2 milliard de mots, Dictionnaire de synonymes (4,5 millions), Faux amis, homophones, anglicismes, etc. Forum des Industries de la Langue, 17 mars 2010 6
Les aides à la rédaction Thématique, Analyse statistique et stylistique, mots-clés, concepts-clés, mots et concepts délaissés. Forum des Industries de la Langue, 17 mars 2010 7
Vers la correction automatique Quid de ce qui est appelé actuellement correction automatique ? Correction assistée, dictionnaire de règles Attentes importantes du monde industriel pour une correction automatique orthographique, typographique et grammaticale. Demande aussi d’une partie du grand public, découragée par le temps passé à corriger les textes, Actuellement 80 % des erreurs peuvent être corrigées automatiquement, avec un taux d’erreur inférieur à 2% Craintes face à la correction automatique, Forum des Industries de la Langue, 17 mars 2010 8
Corrections automatiques ou non Forum des Industries de la Langue, 17 mars 2010 9
Automatisation ou automatique ? Difficultés de la correction automatique, en particulier pour la grammaire et le style, Correction automatique en milieu industriel ou pour certains documents (courriels, etc.), Correction automatisée dans les traitements de texte, Réduction de 65 à 75 % du temps de correction, Relativiser les fausses erreurs. Forum des Industries de la Langue, 17 mars 2010 10
Quelques exemples de fautes En contexte très réduit : doublons, apostrophes, tirets, pléonasmes, typographie en général. Nous convenons ensemble qu’il a solutionné ce point En contexte réduit : homophonie, fautes d’accord dans le groupe, compléments de nom Ces rideaux groseilles, sa me fait plaisir ! En contexte global : fautes d’accord sujet-verbe attribut, homographie, concordance des temps Les enseignes furent convoquées par l’amiral Forum des Industries de la Langue, 17 mars 2010 11
Problème des fausses corrections En correction assistée, tous les correcteurs proposent de fausses corrections, Ce qui énerve certains utilisateurs, ceux qui maîtrisent bien la grammaire Ce qui perturbe la plupart des utilisateurs, qui en viennent à accepter des fausses erreurs mais à refuser de vraies corrections ! Difficulté de mesurer ces biais à la correction mais apparemment bien supérieurs à 2% ! Forum des Industries de la Langue, 17 mars 2010 12
Perspectives pour les correcteurs Correction orthographique des noms propres (très délicate mais très importante), recapitalisation, Utilisation des trigrammes sur l’ensemble du Web (cf. Google), Limites des approches par apprentissage, même sur des corpus comme Wikipedia ou le Web, Meilleure intégration dans les logiciels (par exemple soulignement des fautes en couleur dans Open Office) Forum des Industries de la Langue, 17 mars 2010 13
Un domaine de recherche Bien que passée au domaine industriel, la correction reste un domaine du TAL, suppose un analyseur syntaxique de très bon niveau mais aux caractéristiques spécifiques, suppose des ressources linguistiques très complètes et mises à jour (même les fautes évoluent !), fait de plus en plus appel à la sémantique et à l’ergonomie. . Forum des Industries de la Langue, 17 mars 2010 14
Un domaine industriel Utilisation de la correction automatique avant indexation (QUAERO, Exalead), Utilisation de la correction automatique avant traduction (commentaires, blogs), Utilisation de la correction automatique par le grand public, depuis Cordial 2010, Intégration de la correction automatique dans la version Office Familial diffusée en FNAC. Forum des Industries de la Langue, 17 mars 2010 15
Merci pour votre attention ! Vos questions sont bienvenues ! Forum des Industries de la Langue, 17 mars 2010 16