IBaatukaay: un projet de base lexicale multilingue contributive sur le web à structure pivot pour les langues africaines notamment sénégalaises. Mouhamadou.

Slides:



Advertisements
Présentations similaires
TALAf 2014 Vers la Mise en place d’un lexique basé sur LMF pour la langue Wolof ème Traitement Automatique des Langues Naturelles, Marseille, 2014.
Advertisements

Développement d'un service Web de transformation des données routières : application à un système géomatique mobile (M 2 G) Karl Guillotte Direction :
Projet de fin d'étude pour l'obtention du Diplôme Nationale d'Ingénieur en Informatique Conception et développement des modules de GED pour l’ indexation.
Catalog fonctionne sur vos données Catalog est préconfiguré pour fonctionner directement avec les données – WinBooks Accounting – WinBooks Logistics –
GCstar Gestionnaire de collections personnelles Christian Jodar (Tian)
3èmes Assises européennes du plurilinguisme, Rome, 2014 Pour un dialogue intersectoriel sur la politique formelle de développement linguistique des multinationales.
Animation pédagogique AVION Déc Étude de la langue Cycle 3 Grammaire Équipe de circonscription d'Avion.
1 Chaîne éditoriale et catalogue de formation Université de Picardie Jules Verne.
Digraphie des langues ouest africaines : Latin2Ajami : un algorithme de translittération automatique Introduction Translittération du wolof Algorithme.
Correction orthographique: état de l’art et perspectives pour la langue wolof s Plan Introduction Présentation des Approches Prototype d’un correcteur.
Correcteurs automatiques 25/09/2016. Nom, Prénom2 Qu'est-ce que c'est ? ● Un correcteur automatique est un outil permettant d'analyser un texte afin de.
Créer un site Web avec Eva Spip Première approche B. Gugger – Mars 2006 – Département RTC.
L’arabe maghrébin standard: Principe et bibliographie Houcemeddine Turki*, Emad Adel^ * Faculté de médecine de Sfax, Université de Sfax, Sfax, Tunisie.
REUNION DU GROUPE AFRICAIN SUR LA COMPTABILITE NATIONALE Plan d’action pour la mise en œuvre du SCN 2008 Présenté par: Monsieur Tassiou ALMADJIR, Chef.
Semaine 01 La programmation créative Introduction.
Baladodiffusion Sandra Laine, Service national du RÉCIT Domaine des langues Source image: Wikimedia CommonsWikimedia Commons.
ANNEE ACADEMIQUE Institut Supérieur Emmanuelle D’Alzon de Butembo COURS: THEORIE DE BASE DE DONNEES : 45H PROMOTION: G2 Gestion Informatique.
Reprojection de Données Vectorielles sur Saga:
SITUATION DE REFERENCE
LA TRADUCTION A L’ONU ISTI, 7 octobre 2014.
Classement alphabétique
Téléchargement de fichiers
Exploitation de logiciels :
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Rechercher des articles et des sites web

Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
Introduction au Langage Pascal
Environnement du développement de BD ORACLE REPORTS 10g
Commerce International L’organisation Module : Examen final
Initiation aux bases de données et à la programmation événementielle
Méthodologie 2e secondaire
FLEx 1 Introduction et installation
Forum des Industries de la Langue, 17 mars 2010
PRÉSENTATION DE L’ASSOCIATION ALUMNI/IFP SÉNÉGAL
Centralisation de logs
Agir s’exprimer (ET COMPRENDRE) avec son corps
LE MASHUP.
Présentation multimédia avec open office
Sujet 1 : Wrapper stats sur les jeux de données ARN non codants
Mieux maîtriser la langue pour mieux réussir
République Algérienne Démocratique et Populaire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Université Saad.
Gestion du cours Aissa Boulmerka.
PROGRAMMATION INFORMATIQUE D’INGÉNIERIE II
Module 1: Généralités sur les systèmes informatiques Chapitre 1: Définitions et notions de base.
Programmation en C++ C++ de base
REVUE DE LITTERATURE. Introduction Première partie majeure dans la rédaction du mémoire, la réalisation d’une revue de littérature consiste à effectuer.
Modélisation avec UML 2.0 Partie II Diagramme de classes.
Observatoire de la gouvernance de la sécurité privée en Afrique francophone: Le Rôle des OSC dans la Bonne Gouvernance du Secteur de la Sécurité Privée.
Le Réseau d ’Information du MENR
HARMONISATION DES POLITIQUES
CAPES DOC 2018 ep 2 MSP SUJET 2 Valeria Malva Guicheney.
Guide de vocabulaire BonPatron
L’analyse morpho-syntaxique dans un synthétiseur de parole.
UTILISATION OVTM ETAPE 1.
23ème Conférence sur le Traitement Automatique des Langues Naturelles,Atelier TALAf, Inalco, Paris, 4-8 Juillet 2016 iBaatukaay: Manipulation de dictionnaires.
STS Web Services libres Créer un service libre
Présentation de la base Frantext
Cadre institutionnel et gestion des ressources des SSN
La thèse Quelques conseils
Littérature scientifique
Techniques de publication et de diffusion électroniques : L’Annuaire statistique.
Encyclopaedia Universalis
BUFFER CIRCULAIRE Meryem EL BAKRI. PLAN Introduction Buffer circulaire Fonctionnement.
Enseigner et apprendre l’agro-écologie
LE FORMATAGE DU MEMOIRE
Tableau de bord d’un système de recommandation
Quelle démarche qualité pour l'éducation et la formation ?
compte des forêts et ressources en bois du Sénégal
Transcription de la présentation:

iBaatukaay: un projet de base lexicale multilingue contributive sur le web à structure pivot pour les langues africaines notamment sénégalaises. Mouhamadou KHOULE (1), Mathieu Mangeot(3), El hadji Mamadou NGUER(1), Mame Thierno CISSE (2). (1) LANI, Université Gaston Berger, BP 234 Saint Louis, Sénégal (2) ARCIV, Université Cheikh Anta Diop de Dakar, BP 5005 Dakar-Fann, Sénégal (3) LIG, Université de Grenoble Alpes, Saint Martin D’HERES, France. 23ème Conférence sur le Traitement Automatique des Langues Naturelles, Atelier TALAf, Inalco, Paris, 4-8 Juillet 2016

PLAN I.Introduction. II.Présentation du projet iBaatukaay. III.Méthodologie de transformation des données. IV.Conclusion et Perspectives. 2

Introduction Au Sénégal, la reconnaissance des langues nationales est mentionnée dès l’article premier de la constitution du 22 janvier 2001: Français Wolof «La langue officielle de la République du Sénégal est le Français. Les langues nationales sont le Diola, le Malinké, le Pular, le Sérère, le Soninké, le Wolof et toute autre langue nationale qui sera codifiée». 3

Situation actuelle pour les langues d'Afrique  Langues nationales peu dotées en outils de TAL.  Ressources existantes au format papier.  Langues peu ou pas du tout standardisées. 4

Introduction iBaatukaay Le but du projet iBaatukaay : Étude et mise en œuvre d’une base lexicale multilingue de laquelle nous pourrons extraire: des dictionnaires destinés à l’enseignement moyen et secondaire mais aussi produire des dictionnaires bilingues (langue locale-langue étrangère et langue locale 1 - langue locale 2 ). une base pour la constitution de correcteurs orthographiques, de traducteurs automatiques et autres dictionnaires électroniques. 5

Présentation iBaatukaay base lexicale multilingue contributive sur le Web pour les langues africaines notamment sénégalaises. Doit supporter les types d’écriture (Latine et Adjami)[Nguer et al, 2016] collaboratif C'est un projet collaboratif. téléchargeables gratuitement Les données seront téléchargeables gratuitement à travers la plateforme. À cela s’ajoute le fait qu’il n’y a pas souvent de normes définies pour ces langues. 6

Choix des langues du projet 25 langues endogènes 25 langues endogènes cohabitent avec le français, l'anglais, l’arabe et les autres langues étrangères. 3 langues choisis en prioritaire pour le projet ( wolof, Pulaar, ou peul, ou peulh, ou fulfulde et bambara ). 7

Choix des langues du projet LangueNombre de locuteursPays parlées wolof10 MillionsSénégal, Mauritanie et Gambie bambara> 10 MillionsAfrique de l’ouest(Sénégal, Mali, Burkina Fasso..) Pulaar, ou peul, ou peulh, ou fulfulde. > 22 MillionsAfrique de l’ouest (Sénégal, Mali, Guinéé, Niger, Nigéria..) 8

Macrostructure de la base lexicale volumes  Pour rappel un dictionnaire est composé d’un ensemble de volumes. Chaque volume est composé d’un ensemble d’articles. nomenclature du dictionnaire  La liste ordonnée de ces articles constitue la nomenclature du dictionnaire. ordre alphabétique  L’ordre utilisé est généralement l’ ordre alphabétique des mots-vedettes de la langue.  Un article est composé d’un mot-vedette (appelée aussi entrée ou terme) et d’un corps.  La macrostructure  La macrostructure d'un dictionnaire représente l'organisation des volumes du dictionnaire. 9

Macrostructure de la base lexicale  Une architecture pivot basée sur la thèse de Gilles Sérasset (Sérasset, 1994),  Expérimentée à petite échelle dans le projet papillon (Mangeot, 2001).  Chaque langue du projet sera décrite dans un volume monolingue.  Ensuite ces volumes seront reliés entre eux par un volume pivot de liens interlingues appelés acceptions interlingues (axies). 10

Macrostructure iBaatukaay 11

Macrostructure détaillée iBaatukaay 12

Nomenclature des volumes  Chaque article décrit un mot-forme associé à une catégorie grammaticale.  Nous avons décidé de fusionner les vocables homographes de même catégorie grammaticale.  Par exemple, nous ne distinguerons pas de vocables homographes pour le verbe français « voler ». Il sera l'objet d'un seul article. 13

Microstructure des articles 14

Fonctionnement du projet Au début, nous allons procéder à la récupération automatique de ressources existantes au format XML. fichiers Word  Dans le cas où on trouve des fichiers Word, nous adopterons la méthodologie DiLAF (Enguehard et al.2011). dictionnaires imprimés  Si nous trouvons des dictionnaires imprimés nous adopterons la méthodologie jibiki-Cesselin (Mangeot, 2016). nous ne trouvons pas de ressources  Si nous ne trouvons pas de ressources pour une langue donnée, un travail de terrain sera envisagé. 15

Méthodologie de transformation des données 16

Liste des ressources existantes. 17

Le projet de dictionnaire unilingue wolof et bilingue wolof-français de Cissé & al,  Objetifs du projet:  De produire une sortie au format XML pour la réutilisation dans des outils d'ingénierie linguistique, ainsi que des modèles XSL permettant à quiconque de consulter le dictionnaire en ligne ou hors ligne.  D’étudier la faisabilité de la production d'un correcteur orthographique intégré (MySpell / OpenOffice) basé sur le dictionnaire.  Outils utilisé:Toolbox.  Nombre d’entrées générés:

Autres ressources du Wolof 19  un petit corpus sur le Web (60000 mots).  des lexiques du Laboratoire Dynamique du Langage (32000mots).  un analyseur morpho-syntaxique (Dione, 2014)  Une banque terminologique Microsoft.  Un dictionnaire bilingue wolof-français disponible sur glosbe.com.

Le dictionnaire bambara- français du projet DiLAF  Le projet DiLAF (Dictionnaires Langues Africaines -Français) (Enguehard et al., 2011); vise à convertir des dictionnaires éditoriaux bilingues (bambara, haoussa, kanouri, tamajaq, songhai-zarma,wolof)-français  Le dictionnaire éditorial utilisé: bambara-français du Père Charles Bailleul (édition 1996) comportant entrées. 20

Les dictionnaires fulfulde-français, fulfulde- anglais et fulfulde-français-anglais Plusieurs dictionnaires existent et ont été convertis dans le cadre des projets DiLAF et ALFFA. Le tableau suivant donne les caractéristiques de chaque dictionnaire. 21

Les dictionnaires fulfulde-français, fulfulde-anglais et fulfulde-français-anglais Nom du volumeSourceCiblesNombre d’entrées DictionnaireFulNiger_ful_fr a FulFra4526 DictionnaireFulUS_eng_fulEngful9997 DictionnaireFulUS_fra_fulFraful10293 DictionnaireFulUS_ful_fra- eng FulFra eng

Méthodologie de transformation des données Les étapes de conversion sont les suivantes: 1.La préparation: Elle consiste à couper l’entête et le pied de page du volume XML. 2. Le tri des articles du dictionnaire XML selon l'ordre alphabétique. 3. La fusion des vocables homographes et la création des sens de mot équivalents. 4. La conversion de la structure originale vers la structure iBaatukaay 23

Résultats primaires avec les données du wolof en utilisant des scripts PERL ad’hoc 24

« aada » Article « aada » au format d'origine après récupération avec l'outil toolbox 25

« aada » Article « aada » après transformation au format cible. 26

En cours de développement (un outil générique de manipulation de dictionnaire XML).  Ainsi un outil générique de manipulation de dictionnaire XML est en cours de développement.  Cet outil nous permettra d'effectuer des opérations sur un dictionnaire au format XML (préparation, tri, concaténation, fusion, transformation, etc.) en utilisant les pointeurs CDM obtenus avec iPoLex, un entrepôt de bases lexicales disponible avec la plateforme Jibiki (Zhang et al.2014). 27

Mise en ligne des données du wolof avec Jibiki Présentation de la plate-forme jibiki  Jibiki (Mangeot, 2003) est une plate-forme générique en ligne pour manipuler des ressources lexicales avec gestion d'utilisateurs et groupes, consultation de ressources hétérogènes et édition générique d'articles de dictionnaires.  La plate-forme est programmée entièrement en Java, basée sur  projet GDEF de dictionnaire bilingue estonien-français (Chalvin & Mangeot, 2006), du projet MotÀMot (Mangeot, 2009) et du projet DiLAF (Enguehard et al.2011). 28

Mise en ligne des données du Wolof avec Jibiki o Instance iBaatukaay avec Jibiki o Le site du projet est disponible à l’adresse: o Les données du wolof sont mises en ligne. 29

Conclusion et perspectives  Les langues du Sénégal comme la plupart des langues africaines nécessitent d’être outillées pour leur visibilité sur la toile et leur insertion dans le système académique.  D’où le projet iBaatukaay.  Nous nous appuierons sur le CLAD à travers ses étudiants pour la contribution en ligne et la vérification des données, 30

Conclusion et perspectives  Dans nos futurs travaux nous comptons:  terminer l'outil générique de manipulation de dictionnaires au format XML;  ensuite mettre les données sur jibiki en respectant la macrostructure d’iBaatukaay (Architecture pivot);  ouvrir les contributions en ligne;  convertir chaque dictionnaire monolingue au format LMF ( Lexical Marckup Framework );  utiliser l'analyseur morphologique du wolof développé par Cheikh Bamba Dione (2012) comme lemmatiseur pour faire ce qu'on appelle de la lecture active pour le wolof dans le projet iBaatukaay ;  implémenter des analyseurs morphologiques pour le pulaar et les autres langues ; 31

Conclusion et perspectives  utiliser ces analyseurs pour en faire des correcteurs orthographiques;  implémenter des corpus pour chaque langue nationale;  Programmer des outils de traduction automatique. 32

Merci de votre attention 33