Correction orthographique: état de l’art et perspectives pour la langue wolof s Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion 23ème Conférence sur le Traitement Automatique des Langues Naturelles,AtelierTALAf, Inalco, Paris, 4-8 Juillet 2016 TALAf : JEP-TALN-RECITAL 2016 Alla LO, El hadji M. NGUER, Cheikh B. DIONE, Mathieu MANGEOT, Mouhamadou KHOULE, Sokhna BAO DIOP, Mame T. CISSE PRESENTE PAR : EL Hadji M. NGUER LANI, Université Gaston Berger, Saint-Louis, Sénégal LIG, Université de Grenoble Alpes, France. ARCIV, Université Cheikh Anta Diop de Dakar, Sénégal
Contexte Problématique Notion de correction Orthographique Contexte EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Moins de 20% de la population sénégalaise parle le français et plus de 80% parle le wolof langue véhiculaire. Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Pour un accès général à l’information et à la formation, le français seul ne suffit pas. Solution: Utiliser les langues nationales comme le wolof comme alternative.
Contexte Problématique Notion de correction Orthographique Problematique EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Limites: La langue wolof n’est pas dotée d’outils modernes du TALN comme le dictionnaire et le correcteur. Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Objectifs: Faire l’état de l’art de la correction orthographique Dégager des perspectives de mise en place d’un correcteur orthographique pour la langue wolof.
Contexte Problématique Notion de correction orthographique Correction Orthographique = Détection + Correction EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Détection : détection des erreurs potentielles dans un texte donné. Correction : Suggestion ordonnée pour corriger l’erreur identifiée Notion d’erreur: Forme qui ne correspond à aucune forme mémorisée dans le lexique ou générée Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion
Techniques de détection Techniques de correction Techniques de détection EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion N-gramme: une séquence de n caractères construite à partir d’un mot. Ex: waskat: _wa was ask ska kat at_ (3-gramme) Apres avoir transformé le mot en une suite de n-gramme, chaque séquence : sera cherché dans la matrice de n-gramme du correcteur, et sa probabilité d’erreur obtenue à partir du corpus d’apprentissage. Si un mot contient par ex. 2 n-grammes avec une prob. d’erreur qui dépasse le seuil, il sera « marqué » erroné. NB: Un mot avec un n-gramme absent ds la matrice est erroné.
Consultation de dictionnaire: Techniques de détection Techniques de correction Techniques de détection Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Cette méthode consiste à chercher le mot dans le lexique du correcteur. Suivant la structure utilisée pour construire le lexique, on crée une fonction permettant de l’explorer efficacement. Ainsi si le mot se trouve dans le lexique, il est considéré comme correcte Cependant le fait de ne pas trouver le mot dans le lexique ne signifie pas qu’il soit erroné. -En effet pour des raison de performance, seules les formes de base sont gardées dans le lexique du correcteur. - Ainsi un analyseur morphologique sera utilisé pour savoir si le mot peut être dérivé à partir d’un mot du lexique du correcteur.
Techniques de détection Techniques de correction EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Alpha-code Alpha-code: Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Ex: Mots Alpha-code Gan, gann, nag, naag gna Amaan, Man, namm, naam, maanaa mna L’alpha-code d’un mot est une chaine de caractères correspondant à l’ensemble des lettres du mot classées par ordre alphabétique, les consonnes avant les voyelles.
Pour corriger un mot : 1.il faut d’abord construire son alpha-code. 2. on cherche les mots ayant ce même alpha-code dans la table des alpha-code du correcteur. 3. Ainsi les mots ayant le même code seront utilisé dans la liste de suggestion. Cependant cette technique n’est bien efficace car : o elle génère des mots sans relation avec le mot à corriger. o Solution: utiliser la distance d’édition pour filtrer et ordonnancer les résultats. EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion
Distance lexicographique : Distance lexicographique : La distance de Levenshtein est le plus souvent utilisée Y A A L I YALLAYALLA 2 opérations suffisent pour passer de « yalla « à « yaali » EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion
: N-gramme: EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion La correction de mots par n-gramme se fait en: appliquant les opération d’édition sur le mot erroné appliquant les opération d’édition sur le mot erroné et en utilisant les mots corrects trouvés comme liste de suggestion et en utilisant les mots corrects trouvés comme liste de suggestion
Suppression EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion
Insertion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion
Transposition EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion
Substitution Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL
Organigramme Critères d’écritures Analyseur Morphologique Organigramme du correcteur EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion
Organigramme Critères d’écritures Recherche dans un dictionnaire Analyseur Morphologique Les différentes étapes de vérifications EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Etape1: vérification des critères d’écritures Pas d’occurrence de trois lettres consécutives identiques Pas d’occurrence de trois consonnes identique ni de quatre voyelles Pas de sourde au début Pas de géminable doublé Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion
Etape2: Recherche sur dictionnaire: Organigramme Critères d’écritures Recherche dans un dictionnaire Analyseur Morphologique EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Les différentes étapes de vérifications Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Il s’agit ici de fonctions simples de recherche de chaine dans un dictionnaire;
Organigramme Critères d’écritures Analyseur Morphologique EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Etape3: Formalisme des dérivations simples RadicalSuffixe PrefixeRadical PrefixeRadicalSuffixe Permutation Consonantique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion
EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Analyseur Morphologique Automate de base de l’analyseur Organigramme Critères d’écritures Analyseur Morphologique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion
EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Analyseur Morphologique Organigramme Critères d’écritures Analyseur Morphologique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion L’automate proposé ci-dessus permet de faire la des- affixation d’un mot wolof. Son principe de fonctionnement : chercher d’abord le préfixe du mot et l’enlever s’il en trouve. chercher les suffixes puis pour les enlever eux aussi. Précisons : la suppression des suffixes se fait de la droite vers la gauche en enlevant toujours le suffixe le plus long.
EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Analyseur Morphologique Organigramme Critères d’écritures Analyseur Morphologique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Exemple : Pour le mot « dawalkat » : « daw »+ « al »+ « kat » qui est composé du lemme « daw » suivis des suffixes « al » et « kat », le transducteur ne trouve pas de préfixe, mais va trouver le suffixe kat qu’il enlève en premier, pour ensuite enlever le suffixe « al ». Apres ceci il renvoie la chaine « daw » qui est un lemme reconnu du correcteur.
z Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Conclusion fait l’état de l’art de la correction orthographique. et réalisé un prototype de correcteur orthographique pour la langue wolof Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Dans ce travail qui rentre dans le plan de recherche de l’équipe TAL de l’UGB qui vise à doter les langues du Sénégal (particulièrement le wolof) d’outils modernes du TAL à la hauteur de son utilisation, nous avons :
z Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Perspectives l’analyseur morphologique (Dione, 2012) en cours de finalisation entre l’université de Bergen de Norvège et l’UGB Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Ce travail sera utilisé pour la mise en œuvre d’un correcteur orthographique pour la langue wolof qui requiert l’utilisation d’un dictionnaire comme lexique et d’un analyseur morphologique. Ainsi, il sera utilisé dans la suite le dictionnaire issu du projet ibaatukaay en cours d’élaboration entre l’Université de Grenoble et l’UGB.
Merci de votre attention
Nous sommes prêt à répondre à vos questions