Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)
L’aire mandingue
Quelques informations sur le mandingue Nombre de locuteurs (L1 + L2): jusqu’à 40 millions. 4 variétés les plus importantes sociolinguistiquement: le bambara (Mali); le maninka (Guinée + Liberia, Sierra Leone); le dioula (Côte d’Ivoire, Burkina Faso); le mandinka (Gambie, Sénégal, Guinée Bissau). Plusieurs variétés « secondaires »: khassonka, mahou, konya, manya, marke-dafing, bolong, etc. Une « guerre des écritures »: latine, adjami, N’ko.
Quelques caractéristiques linguistiques langues isolantes, très peu de morphologie flexionnelle; langues tonales, des nombreuses règles de modifications tonales contextuelles, un article tonal (les tons ne sont pas normalement notés dans les transcriptions latines; les réalisations tonales sont notées dans le N’ko).
L’historique du projet « Corpus mandingue »: 2009: le démarrage avril 2012 : le Corpus Bambara de Référence est affiché à l’Internet (1 mln. de mots) février 2014: le Corpus Maninka de Référence est en ligne (3 mln. de mots, 90% en N’ko) mai 2014: le Corpus Bambara de Référence a atteint mots, dont mots dans le sous-corpus désambiguïsé.
Les logiciels Daba (Kirill Maslinsky) le métaediteur (une interface graphique pour l’introduction des métadonnées); l’analyseur morphologique; le désambiguïsateur (une interface graphique pour la désambiguïsation semi-automatique); les convertisseurs (l’ancienne orthographe la nouvelle orthographe; le N’ko l’orthographe latine) sont intégrés dans l’analyseur morphologique.
Dictionnaires: Bamadaba (Bamana DataBase), dérivé du dictionnaire de Charles Bailleul (sérieusement modifié), en évolution permanente; dictionnaires auxiliaires: prénoms humains; noms claniques; toponymes; «encyclopédique» Malidaba, un dictionnaire maninka-français dérivé de la première version du corpus maninka.
Caractéristiques du CBR Un premier grand corpus d’une langue subsaharienne à l’accès libre. Un corpus balancé: tous les genres écrits y sont représentés (journaux, prose, poésie, épopées, contes populaires, textes religieux, littérature fonctionnelle, documents juridiques…). Un corpus annoté morphologiquement à plusieurs niveaux (POS, gloses françaises).
Le processus de l’intégration des textes dans le CBR (une faible présence du bambara à l’Internet) 1) la saisie manuelle double suivie du collationnement 2) l’introduction de l’information métatextuelle 3) l’analyse morphologique automatique 4) l’intégration des textes dans le sous-corpus non-désambiguïsé, ou: 5) désambiguïsation sémi-automatique 6) intégration dans le sous-corpus désambiguïsé.
Le Corpus Maninka: une grande activité sur l’Internet; la disponibilité des textes électroniques en N’ko; le retardement en ce qui concerne l’outillage (le dictionnaire, les données métatextuelles, l’élaboration du site).
Le site du Corpus Bambara de Référence (à voir sur l’Internet)
Les outils sur la base du CBR le correcteur d’orthographe bambara: commencé par Andrij Rovenchak, continué par Jean Jacques Méric; le logiciel pour l’OCR des textes bambara, par J.J.Méric
L’utilisation du CBR dans l’enseignement du bambara préparation des matériaux didactique pour l’enseignement du bambara; désambiguïsation des textes par les étudiants; études ponctuelles sur les sujets grammaticaux, orthographiques et sémantiques par les étudiants.