Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental d'Afrique noire) (institut de recherche) – linguiste, linguistique des langues africaines Koeln : institut de phonétique
Double objectif, double cible Dictionnaire électronique Disponibilité de données standardisées pour la recherche (Unicode, XML) Dico existants : uniquement bilingues et sans définition 2e dico : inalco, diouf jean-léopold 11 % locuteurs francophones
Matériel source Base : dictionnaires existants non numérisés (± 5 000 entrées) Confrontation et enrichissement : Quelques textes numérisés (citoyenneté) Numérisation d'un corpus de textes (+ métadonnées biblio) Littérature (portion congrue) Alphabétisation fonctionnelle (adultes, ms textes à visée productiviste) Citoyenneté (guide du votant
Traitement par concordancier (Wordsmith) 115 000 formes (tokens) 14 700 formes Complément statistique Complément source
Base de données Outil : Toolbox (version 1.5.0) Modèle des données (fiche) Retraitement des formes fléchies Retraitement des données des dictionnaires Toolbox = logiciel d'analyse morphosyntaxique pour le linguiste de terrain. A partir des corpus encodés, il permet de configurer un dictionnaire publiable en ligne Mais aussi et surtout, il permet une sortie XML des données. Modèles des données= Modèle lexicographique standard pour un dico de cet ordre; informations concernant la linguistique de corpus: champs contexte d'attestation et source du contexte. Retraitement des formes fléchies Retraitement des données des dictionnaires = complément des informations des dicos qui ne sont que traductifs en donnant une définition en wolof
Sorties électroniques Pour la réutilisation des données Export XML Toolbox, balisé ou CSV XSL de mappage vers des vocabulaires standards (TEI, Geneter, etc.) Pour la consultation en et hors ligne HTML Capacités d'interrogation
Conclusions et perspectives Premier corpus numérisé réexploitable Recherche PoS, etc. Applications Vérificateur orthographique, conjugueur, etc. Restrictions : faiblesse de la taille du corpus