La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La correction grammaticale du français D. LAURENT SYNAPSE Développement Forum des Industries de la Langue, 17 mars 2010.

Présentations similaires


Présentation au sujet: "La correction grammaticale du français D. LAURENT SYNAPSE Développement Forum des Industries de la Langue, 17 mars 2010."— Transcription de la présentation:

1 La correction grammaticale du français D. LAURENT SYNAPSE Développement Forum des Industries de la Langue, 17 mars 2010

2 Correction = TAL industriel Correcteurs orthographiques, années 80, Correcteurs grammaticaux, années 90, Correcteurs sémantiques, années 2000, Un domaine très compétitif, Un domaine en évolution permanente (16 versions de Cordial entre 1995 et 2010 !) La technologie TAL la plus utilisée par le grand public, devant la traduction. Forum des Industries de la Langue, 17 mars 2010

3 Où en sont les correcteurs ? Bonnes corrections et faux messages, Entre 90 % et 96 % de suggestion unique correcte sur la correction orthographique, entre 90 % et 100 % de correction typographique correcte (problème des capitales et des tirets), entre 50 % et 80 % de correction grammaticale correcte. entre 0 % et 70 % des homophones corrigés, entre 0 % et 50 % des erreurs de style rectifiées. Forum des Industries de la Langue, 17 mars 2010

4 Qui utilise les correcteurs ? La plupart des utilisateurs de traitement de texte pour la correction orthographique, une proportion plus réduite pour la correction grammaticale car : – non installée par défaut, – moins performante, – fausses erreurs doù un manque de confiance, – considérée comme moins importante, – suppose une maîtrise de la grammaire. Forum des Industries de la Langue, 17 mars 2010

5 La correction, comment ça marche ? Basée sur un analyseur syntaxique, Aidée par un désambiguïseur sémantique. Utilise des données cumulées au long de la correction, Utilise de très importantes et diverses bases lexicales, Ensemble de règles de typographie et de contexte nul, Ensemble de règles de contexte réduit, Ensemble de règles de grammaire sur le contexte global, Collocations importantes pour les homophonies, Mémoire des erreurs commises. Forum des Industries de la Langue, 17 mars 2010

6 Les ressources linguistiques utilisées Dictionnaire de noms communs ( lemmes), Dictionnaire de noms propres ( lemmes), Dictionnaire dabréviations ( abréviations), Dictionnaire de grammaire et de sémantique ( entrées simples dont mots polysémiques, plus de syntagmes nominaux, verbaux, adverbiaux...), Dictionnaire de collocations sur un corpus d 1,2 milliard de mots, Dictionnaire de synonymes (4,5 millions), Faux amis, homophones, anglicismes, etc. Forum des Industries de la Langue, 17 mars 2010

7 Vers la correction automatique Quid de ce qui est appelé actuellement correction automatique ? Correction assistée, dictionnaire de règles Attentes importantes du monde industriel pour une correction automatique orthographique, typographique et grammaticale. Demande aussi dune partie du grand public, découragée par le temps passé à corriger les textes, Actuellement 80 % des erreurs peuvent être corrigées automatiquement, avec un taux derreur inférieur à 2% Craintes face à la correction automatique, Forum des Industries de la Langue, 17 mars 2010

8 Corrections automatiques ou non Forum des Industries de la Langue, 17 mars 2010

9 Automatisation ou automatique ? 1. Difficultés de la correction automatique, en particulier pour la grammaire et le style, 2. Correction automatique en milieu industriel ou pour certains documents (courriels, etc.), 3. Correction automatisée dans les traitements de texte, 4. Réduction de 65 à 75 % du temps de correction, 5. Relativiser les fausses erreurs. Forum des Industries de la Langue, 17 mars 2010

10 Quelques exemples de fautes En contexte très réduit : doublons, apostrophes, tirets, pléonasmes, typographie en général. – Nous convenons ensemble quil a solutionné ce point En contexte réduit : homophonie, fautes daccord dans le groupe, compléments de nom – Ces rideaux groseilles, sa me fait plaisir ! En contexte global : fautes daccord sujet-verbe attribut, homographie, concordance des temps – Les enseignes furent convoquées par lamiral Forum des Industries de la Langue, 17 mars 2010

11 Problème des fausses corrections En correction assistée, tous les correcteurs proposent de fausses corrections, Ce qui énerve certains utilisateurs, ceux qui maîtrisent bien la grammaire Ce qui perturbe la plupart des utilisateurs, qui en viennent à accepter des fausses erreurs mais à refuser de vraies corrections ! Difficulté de mesurer ces biais à la correction mais apparemment bien supérieurs à 2% ! Forum des Industries de la Langue, 17 mars 2010

12 Les nouvelles tendances Correction orthographique des noms propres (très délicate mais très importante), recapitalisation, Utilisation des trigrammes sur lensemble du Web (cf. Google), Limites des approches par apprentissage, même sur des corpus comme Wikipedia ou le Web, Meilleure intégration dans les logiciels (par exemple soulignement des fautes en couleur dans Open Office) Forum des Industries de la Langue, 17 mars 2010

13 Un domaine de recherche Forum des Industries de la Langue, 17 mars 2010 Bien que passée au domaine industriel, la correction reste un domaine du TAL, suppose un analyseur syntaxique de très bon niveau mais aux caractéristiques spécifiques, suppose des ressources linguistiques très complètes et mises à jour (même les fautes évoluent !), fait de plus en plus appel à la sémantique et à lergonomie.

14 Un domaine industriel Utilisation de la correction automatique avant indexation (QUAERO, Exalead), Utilisation de la correction automatique avant traduction (commentaires, blogs), Utilisation de la correction automatique par le grand public, depuis Cordial 2010, Intégration de la correction automatique dans la version Office Familial diffusée en FNAC. Forum des Industries de la Langue, 17 mars 2010

15 Merci pour votre attention ! Vos questions sont bienvenues ! Forum des Industries de la Langue, 17 mars 2010


Télécharger ppt "La correction grammaticale du français D. LAURENT SYNAPSE Développement Forum des Industries de la Langue, 17 mars 2010."

Présentations similaires


Annonces Google