La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Correction orthographique: état de l’art et perspectives pour la langue wolof s Plan Introduction Présentation des Approches Prototype d’un correcteur.

Présentations similaires


Présentation au sujet: "Correction orthographique: état de l’art et perspectives pour la langue wolof s Plan Introduction Présentation des Approches Prototype d’un correcteur."— Transcription de la présentation:

1 Correction orthographique: état de l’art et perspectives pour la langue wolof s Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion 23ème Conférence sur le Traitement Automatique des Langues Naturelles,AtelierTALAf, Inalco, Paris, 4-8 Juillet 2016 TALAf : JEP-TALN-RECITAL 2016 Alla LO, El hadji M. NGUER, Cheikh B. DIONE, Mathieu MANGEOT, Mouhamadou KHOULE, Sokhna BAO DIOP, Mame T. CISSE PRESENTE PAR : EL Hadji M. NGUER LANI, Université Gaston Berger, Saint-Louis, Sénégal LIG, Université de Grenoble Alpes, France. ARCIV, Université Cheikh Anta Diop de Dakar, Sénégal

2 Contexte Problématique Notion de correction Orthographique Contexte EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 20163 Moins de 20% de la population sénégalaise parle le français et plus de 80% parle le wolof langue véhiculaire. Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Pour un accès général à l’information et à la formation, le français seul ne suffit pas. Solution: Utiliser les langues nationales comme le wolof comme alternative.

3 Contexte Problématique Notion de correction Orthographique Problematique EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 20164 Limites: La langue wolof n’est pas dotée d’outils modernes du TALN comme le dictionnaire et le correcteur. Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Objectifs: Faire l’état de l’art de la correction orthographique Dégager des perspectives de mise en place d’un correcteur orthographique pour la langue wolof.

4 Contexte Problématique Notion de correction orthographique Correction Orthographique = Détection + Correction EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 20165 Détection : détection des erreurs potentielles dans un texte donné. Correction : Suggestion ordonnée pour corriger l’erreur identifiée Notion d’erreur: Forme qui ne correspond à aucune forme mémorisée dans le lexique ou générée Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

5 Techniques de détection Techniques de correction Techniques de détection EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 20166 Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion N-gramme: une séquence de n caractères construite à partir d’un mot. Ex: waskat: _wa was ask ska kat at_ (3-gramme) Apres avoir transformé le mot en une suite de n-gramme, chaque séquence : sera cherché dans la matrice de n-gramme du correcteur, et sa probabilité d’erreur obtenue à partir du corpus d’apprentissage. Si un mot contient par ex. 2 n-grammes avec une prob. d’erreur qui dépasse le seuil, il sera « marqué » erroné. NB: Un mot avec un n-gramme absent ds la matrice est erroné.

6 Consultation de dictionnaire: Techniques de détection Techniques de correction Techniques de détection Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 20167 Cette méthode consiste à chercher le mot dans le lexique du correcteur. Suivant la structure utilisée pour construire le lexique, on crée une fonction permettant de l’explorer efficacement. Ainsi si le mot se trouve dans le lexique, il est considéré comme correcte Cependant le fait de ne pas trouver le mot dans le lexique ne signifie pas qu’il soit erroné. -En effet pour des raison de performance, seules les formes de base sont gardées dans le lexique du correcteur. - Ainsi un analyseur morphologique sera utilisé pour savoir si le mot peut être dérivé à partir d’un mot du lexique du correcteur.

7 Techniques de détection Techniques de correction EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 20168 Alpha-code Alpha-code: Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Ex: Mots Alpha-code Gan, gann, nag, naag gna Amaan, Man, namm, naam, maanaa mna L’alpha-code d’un mot est une chaine de caractères correspondant à l’ensemble des lettres du mot classées par ordre alphabétique, les consonnes avant les voyelles.

8 Pour corriger un mot : 1.il faut d’abord construire son alpha-code. 2. on cherche les mots ayant ce même alpha-code dans la table des alpha-code du correcteur. 3. Ainsi les mots ayant le même code seront utilisé dans la liste de suggestion. Cependant cette technique n’est bien efficace car : o elle génère des mots sans relation avec le mot à corriger. o Solution: utiliser la distance d’édition pour filtrer et ordonnancer les résultats. EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 20169 Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

9 Distance lexicographique : Distance lexicographique : La distance de Levenshtein est le plus souvent utilisée. 012345 10125 220234 331112 542212 552222 Y A A L I YALLAYALLA 2 opérations suffisent pour passer de « yalla « à « yaali » EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201610 Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

10 : N-gramme: EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201611 Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion La correction de mots par n-gramme se fait en: appliquant les opération d’édition sur le mot erroné appliquant les opération d’édition sur le mot erroné et en utilisant les mots corrects trouvés comme liste de suggestion et en utilisant les mots corrects trouvés comme liste de suggestion

11 Suppression EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201612 Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

12 Insertion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201613 Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

13 Transposition EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201614 Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

14 Substitution Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201615

15 Organigramme Critères d’écritures Analyseur Morphologique Organigramme du correcteur EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201616 Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

16 Organigramme Critères d’écritures Recherche dans un dictionnaire Analyseur Morphologique Les différentes étapes de vérifications EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201617 Etape1: vérification des critères d’écritures Pas d’occurrence de trois lettres consécutives identiques Pas d’occurrence de trois consonnes identique ni de quatre voyelles Pas de sourde au début Pas de géminable doublé Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

17 Etape2: Recherche sur dictionnaire: Organigramme Critères d’écritures Recherche dans un dictionnaire Analyseur Morphologique EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201618 Les différentes étapes de vérifications Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Il s’agit ici de fonctions simples de recherche de chaine dans un dictionnaire;

18 Organigramme Critères d’écritures Analyseur Morphologique EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201619 Etape3: Formalisme des dérivations simples RadicalSuffixe PrefixeRadical PrefixeRadicalSuffixe Permutation Consonantique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

19 EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 2016 20 Analyseur Morphologique Automate de base de l’analyseur Organigramme Critères d’écritures Analyseur Morphologique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

20 EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201620 Analyseur Morphologique Organigramme Critères d’écritures Analyseur Morphologique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion L’automate proposé ci-dessus permet de faire la des- affixation d’un mot wolof. Son principe de fonctionnement : chercher d’abord le préfixe du mot et l’enlever s’il en trouve. chercher les suffixes puis pour les enlever eux aussi. Précisons : la suppression des suffixes se fait de la droite vers la gauche en enlevant toujours le suffixe le plus long.

21 EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201620 Analyseur Morphologique Organigramme Critères d’écritures Analyseur Morphologique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Exemple : Pour le mot « dawalkat » : « daw »+ « al »+ « kat » qui est composé du lemme « daw » suivis des suffixes « al » et « kat », le transducteur ne trouve pas de préfixe, mais va trouver le suffixe kat qu’il enlève en premier, pour ensuite enlever le suffixe « al ». Apres ceci il renvoie la chaine « daw » qui est un lemme reconnu du correcteur.

22 z Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201621 Conclusion fait l’état de l’art de la correction orthographique. et réalisé un prototype de correcteur orthographique pour la langue wolof Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Dans ce travail qui rentre dans le plan de recherche de l’équipe TAL de l’UGB qui vise à doter les langues du Sénégal (particulièrement le wolof) d’outils modernes du TAL à la hauteur de son utilisation, nous avons :

23 z Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL 201621 Perspectives l’analyseur morphologique (Dione, 2012) en cours de finalisation entre l’université de Bergen de Norvège et l’UGB Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Ce travail sera utilisé pour la mise en œuvre d’un correcteur orthographique pour la langue wolof qui requiert l’utilisation d’un dictionnaire comme lexique et d’un analyseur morphologique. Ainsi, il sera utilisé dans la suite le dictionnaire issu du projet ibaatukaay en cours d’élaboration entre l’Université de Grenoble et l’UGB.

24 Merci de votre attention

25 Nous sommes prêt à répondre à vos questions


Télécharger ppt "Correction orthographique: état de l’art et perspectives pour la langue wolof s Plan Introduction Présentation des Approches Prototype d’un correcteur."

Présentations similaires


Annonces Google