La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental.

Présentations similaires


Présentation au sujet: "Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental."— Transcription de la présentation:

1 Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental d'Afrique noire) (institut de recherche) – linguiste, linguistique des langues africaines Koeln : institut de phonétique

2 Double objectif, double cible
Dictionnaire électronique Disponibilité de données standardisées pour la recherche (Unicode, XML) Dico existants : uniquement bilingues et sans définition 2e dico : inalco, diouf jean-léopold 11 % locuteurs francophones

3 Matériel source Base : dictionnaires existants non numérisés (± entrées) Confrontation et enrichissement : Quelques textes numérisés (citoyenneté) Numérisation d'un corpus de textes (+ métadonnées biblio) Littérature (portion congrue) Alphabétisation fonctionnelle (adultes, ms textes à visée productiviste) Citoyenneté (guide du votant

4 Traitement par concordancier (Wordsmith)
formes (tokens) formes Complément statistique Complément source

5 Base de données Outil : Toolbox (version 1.5.0)
Modèle des données (fiche) Retraitement des formes fléchies Retraitement des données des dictionnaires Toolbox = logiciel d'analyse morphosyntaxique pour le linguiste de terrain. A partir des corpus encodés, il permet de configurer un dictionnaire publiable en ligne Mais aussi et surtout, il permet une sortie XML des données. Modèles des données= Modèle lexicographique standard pour un dico de cet ordre; informations concernant la linguistique de corpus: champs contexte d'attestation et source du contexte. Retraitement des formes fléchies Retraitement des données des dictionnaires = complément des informations des dicos qui ne sont que traductifs en donnant une définition en wolof

6 Sorties électroniques
Pour la réutilisation des données Export XML Toolbox, balisé ou CSV XSL de mappage vers des vocabulaires standards (TEI, Geneter, etc.) Pour la consultation en et hors ligne HTML Capacités d'interrogation

7 Conclusions et perspectives
Premier corpus numérisé réexploitable Recherche PoS, etc. Applications Vérificateur orthographique, conjugueur, etc. Restrictions : faiblesse de la taille du corpus


Télécharger ppt "Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental."

Présentations similaires


Annonces Google