Correction orthographique: état de l’art et perspectives pour la langue wolof s Plan Introduction Présentation des Approches Prototype d’un correcteur.

Slides:



Advertisements
Présentations similaires
Étude de marché - 02 Formulation des objectifs et du problème de recherche.
Advertisements

Comment les élèves déchiffrent un mot ? Processus normaux et pathologiques Quelles opérations cognitives sont sollicitées dans les actes de lire et d’écrire.
1 Chaîne éditoriale et catalogue de formation Université de Picardie Jules Verne.
Digraphie des langues ouest africaines : Latin2Ajami : un algorithme de translittération automatique Introduction Translittération du wolof Algorithme.
IBaatukaay: un projet de base lexicale multilingue contributive sur le web à structure pivot pour les langues africaines notamment sénégalaises. Mouhamadou.
Le travail écrit Niveau Moyen. EN QUOI CONSISTE CETTE EPREUVE ? Le travail écrit est basé sur un des sujets du tronc commun : communications et médias.
Correcteurs automatiques 25/09/2016. Nom, Prénom2 Qu'est-ce que c'est ? ● Un correcteur automatique est un outil permettant d'analyser un texte afin de.
Le socle commun : des pistes pour la technologie Plan de la présentation : - Introduction - Contexte (socle commun et document eduscol) - Repérage des.
Le système Raid 5 Table des matières Qu'est ce que le RAID ? Les objectifs Le raid 5 Les avantages et les inconvénients Les composants d’un Raid.
L’arabe maghrébin standard: Principe et bibliographie Houcemeddine Turki*, Emad Adel^ * Faculté de médecine de Sfax, Université de Sfax, Sfax, Tunisie.
Plan de travail A Du mardi 4 septembre au vendredi 14 septembre Voici la liste des compétences qui seront travaillées durant les deux prochaines semaines.
TP 1 Maths De la séquence à la séance… en passant par la classe.
La résolution de problèmes ouverts au cycle 2 et cycle 3 « Mettre les élèves en situation d’essayer, conjecturer, tester, prouver. » (IREM de Lyon)
BRITT-MARI BARTH Ouvrage : L’apprentissage de l’abstraction Par M-Alexandra Bergiers et Mikel Gjoni Cours de différenciation des apprentissages – Mme Martella.
SITUATION DE REFERENCE
Classement alphabétique
Groupe Départemental Langue française
Prepare par : Karimi Khadija ELardi Soumia
Je collecte l’information Je mets en place une veille informationnelle
Construire des requêtes
CONCOURS EXTERNE DE PROFESSEURS DE SPORT SESSION 2015
Représentation des nombres réels
Information, Calcul, Communication
Tice (logiciels) et aide personnalisée.
Chercher un mot dans le dictionnaire
Information, Calcul, Communication
o Une dissertation économique est avant tout une démonstration. o Elle permet de tester les capacités de raisonnement et de logique.
Forum des Industries de la Langue, 17 mars 2010
Préparer par : Intissare et kaoutare
Les chantiers d’écriture
Séminaire 2017 d'accompagnement des programmes de technologie au collège Elaborer une séquence dans une progression de cycle 4 De la progression vers la.
Centralisation de logs
Bddictionnairique Phase 1
Qu’est-ce que lire?.
Mise en situation professionnelle – capes documentation 2017– 9 juin
 .
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Détection et correction des erreurs
Cours N°9: Algorithmiques Les Tableaux 1
Orthographe à retenir :
Manipulation D’Une Base De Données
QU’EST-CE QUE LA LEXICOLOGIE ?
Structure D’une Base De Données Relationnelle
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
METHODE DES CHAÎNONS Méthode permettant d’implanter des postes de travail dans les usines ou entrepôts. Optimisation recherchée Gain sur le temps de fabrication.
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
Bases de données sous Access. Initiation aux bases de données  Structure d’une base de données.
DÉTECTION DE DÉFAUTS DANS DES HOLOGRAMMES DE PHASE
L’analyse morpho-syntaxique dans un synthétiseur de parole.
23ème Conférence sur le Traitement Automatique des Langues Naturelles,Atelier TALAf, Inalco, Paris, 4-8 Juillet 2016 iBaatukaay: Manipulation de dictionnaires.
Présentation de la base Frantext
Les méthodes non paramétriques
Mots de passe Apprenez à composer.
Difficultés d’apprentissage
ECG Radiographie IRM Analyse Q R Système Observateur Gain Cadre et contexte 2.
Plan Introduction Problématique et Objectif Solution Proposé Conception et Modélisation Réalisation Conclusion et perspective
Chapitre IV Protection contre les erreurs
Correction de la fabrication de la page de garde.
Chapitre IV Chapitre IV Protection contre les erreurs Les Réseaux Informatiques 1.
LE FORMATAGE DU MEMOIRE
METHODE DES CHAÎNONS Méthode permettant d’implanter des postes de travail dans les usines ou entrepôts. Optimisation recherchée Gain sur le temps de fabrication.
Piles et files.
Chapitre 2 : Représentation de l’information dans la machine Introduction Représentation des nombres négatifs –Signe / valeur absolue –Complément à 1 –Complément.
Formation Dragon NaturallySpeaking
ECRIRE POUR APPRENDRE A LIRE
Codification et représentation de l’information Enseignant: Mahseur mohammed Groupe FB: mi2016ua1 Chaine YT: Cours informatique.
Modélisation fonctionnelle : ETUDE DE CAS. 01 Modélisation fonctionnelle :étude de cas Ce chapitre va nous permettre d’illustrer pas à pas, sur une première.
UX DESIGN User exprérience en anglais Expérience Utilisateur en français Concevoir, Créer, dessiner UX DESIGN, consiste à penser et concevoir un site web.
Transcription de la présentation:

Correction orthographique: état de l’art et perspectives pour la langue wolof s Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion 23ème Conférence sur le Traitement Automatique des Langues Naturelles,AtelierTALAf, Inalco, Paris, 4-8 Juillet 2016 TALAf : JEP-TALN-RECITAL 2016 Alla LO, El hadji M. NGUER, Cheikh B. DIONE, Mathieu MANGEOT, Mouhamadou KHOULE, Sokhna BAO DIOP, Mame T. CISSE PRESENTE PAR : EL Hadji M. NGUER LANI, Université Gaston Berger, Saint-Louis, Sénégal LIG, Université de Grenoble Alpes, France. ARCIV, Université Cheikh Anta Diop de Dakar, Sénégal

Contexte Problématique Notion de correction Orthographique Contexte EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Moins de 20% de la population sénégalaise parle le français et plus de 80% parle le wolof langue véhiculaire. Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Pour un accès général à l’information et à la formation, le français seul ne suffit pas. Solution: Utiliser les langues nationales comme le wolof comme alternative.

Contexte Problématique Notion de correction Orthographique Problematique EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Limites: La langue wolof n’est pas dotée d’outils modernes du TALN comme le dictionnaire et le correcteur. Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Objectifs: Faire l’état de l’art de la correction orthographique Dégager des perspectives de mise en place d’un correcteur orthographique pour la langue wolof.

Contexte Problématique Notion de correction orthographique Correction Orthographique = Détection + Correction EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Détection : détection des erreurs potentielles dans un texte donné. Correction : Suggestion ordonnée pour corriger l’erreur identifiée Notion d’erreur: Forme qui ne correspond à aucune forme mémorisée dans le lexique ou générée Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

Techniques de détection Techniques de correction Techniques de détection EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion N-gramme: une séquence de n caractères construite à partir d’un mot. Ex: waskat: _wa was ask ska kat at_ (3-gramme) Apres avoir transformé le mot en une suite de n-gramme, chaque séquence : sera cherché dans la matrice de n-gramme du correcteur, et sa probabilité d’erreur obtenue à partir du corpus d’apprentissage. Si un mot contient par ex. 2 n-grammes avec une prob. d’erreur qui dépasse le seuil, il sera « marqué » erroné. NB: Un mot avec un n-gramme absent ds la matrice est erroné.

Consultation de dictionnaire: Techniques de détection Techniques de correction Techniques de détection Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Cette méthode consiste à chercher le mot dans le lexique du correcteur. Suivant la structure utilisée pour construire le lexique, on crée une fonction permettant de l’explorer efficacement. Ainsi si le mot se trouve dans le lexique, il est considéré comme correcte Cependant le fait de ne pas trouver le mot dans le lexique ne signifie pas qu’il soit erroné. -En effet pour des raison de performance, seules les formes de base sont gardées dans le lexique du correcteur. - Ainsi un analyseur morphologique sera utilisé pour savoir si le mot peut être dérivé à partir d’un mot du lexique du correcteur.

Techniques de détection Techniques de correction EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Alpha-code Alpha-code: Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Ex: Mots Alpha-code Gan, gann, nag, naag gna Amaan, Man, namm, naam, maanaa mna L’alpha-code d’un mot est une chaine de caractères correspondant à l’ensemble des lettres du mot classées par ordre alphabétique, les consonnes avant les voyelles.

Pour corriger un mot : 1.il faut d’abord construire son alpha-code. 2. on cherche les mots ayant ce même alpha-code dans la table des alpha-code du correcteur. 3. Ainsi les mots ayant le même code seront utilisé dans la liste de suggestion. Cependant cette technique n’est bien efficace car : o elle génère des mots sans relation avec le mot à corriger. o Solution: utiliser la distance d’édition pour filtrer et ordonnancer les résultats. EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

Distance lexicographique : Distance lexicographique : La distance de Levenshtein est le plus souvent utilisée Y A A L I YALLAYALLA 2 opérations suffisent pour passer de « yalla « à « yaali » EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

: N-gramme: EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion La correction de mots par n-gramme se fait en: appliquant les opération d’édition sur le mot erroné appliquant les opération d’édition sur le mot erroné et en utilisant les mots corrects trouvés comme liste de suggestion et en utilisant les mots corrects trouvés comme liste de suggestion

Suppression EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

Insertion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

Transposition EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

Substitution Techniques de détection Techniques de correction Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL

Organigramme Critères d’écritures Analyseur Morphologique Organigramme du correcteur EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

Organigramme Critères d’écritures Recherche dans un dictionnaire Analyseur Morphologique Les différentes étapes de vérifications EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Etape1: vérification des critères d’écritures Pas d’occurrence de trois lettres consécutives identiques Pas d’occurrence de trois consonnes identique ni de quatre voyelles Pas de sourde au début Pas de géminable doublé Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

Etape2: Recherche sur dictionnaire: Organigramme Critères d’écritures Recherche dans un dictionnaire Analyseur Morphologique EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Les différentes étapes de vérifications Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Il s’agit ici de fonctions simples de recherche de chaine dans un dictionnaire;

Organigramme Critères d’écritures Analyseur Morphologique EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Etape3: Formalisme des dérivations simples RadicalSuffixe PrefixeRadical PrefixeRadicalSuffixe Permutation Consonantique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Analyseur Morphologique Automate de base de l’analyseur Organigramme Critères d’écritures Analyseur Morphologique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion

EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Analyseur Morphologique Organigramme Critères d’écritures Analyseur Morphologique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion L’automate proposé ci-dessus permet de faire la des- affixation d’un mot wolof. Son principe de fonctionnement : chercher d’abord le préfixe du mot et l’enlever s’il en trouve. chercher les suffixes puis pour les enlever eux aussi. Précisons : la suppression des suffixes se fait de la droite vers la gauche en enlevant toujours le suffixe le plus long.

EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Analyseur Morphologique Organigramme Critères d’écritures Analyseur Morphologique Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Exemple : Pour le mot « dawalkat » : « daw »+ « al »+ « kat » qui est composé du lemme « daw » suivis des suffixes « al » et « kat », le transducteur ne trouve pas de préfixe, mais va trouver le suffixe kat qu’il enlève en premier, pour ensuite enlever le suffixe « al ». Apres ceci il renvoie la chaine « daw » qui est un lemme reconnu du correcteur.

z Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Conclusion fait l’état de l’art de la correction orthographique. et réalisé un prototype de correcteur orthographique pour la langue wolof Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Dans ce travail qui rentre dans le plan de recherche de l’équipe TAL de l’UGB qui vise à doter les langues du Sénégal (particulièrement le wolof) d’outils modernes du TAL à la hauteur de son utilisation, nous avons :

z Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion Plan Introduction Présentation des Approches Etude de cas de la langue wolof Conclusion EL Hadji M. NGUER TALAf : JEP-TALN-RECITAL Perspectives l’analyseur morphologique (Dione, 2012) en cours de finalisation entre l’université de Bergen de Norvège et l’UGB Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Plan Introduction Présentation des Approches Prototype d’un correcteur pour le wolof Conclusion Ce travail sera utilisé pour la mise en œuvre d’un correcteur orthographique pour la langue wolof qui requiert l’utilisation d’un dictionnaire comme lexique et d’un analyseur morphologique. Ainsi, il sera utilisé dans la suite le dictionnaire issu du projet ibaatukaay en cours d’élaboration entre l’Université de Grenoble et l’UGB.

Merci de votre attention

Nous sommes prêt à répondre à vos questions