La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)

Présentations similaires


Présentation au sujet: "Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)"— Transcription de la présentation:

1 Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)

2 L’aire mandingue

3 Quelques informations sur le mandingue Nombre de locuteurs (L1 + L2): jusqu’à 40 millions. 4 variétés les plus importantes sociolinguistiquement: le bambara (Mali); le maninka (Guinée + Liberia, Sierra Leone); le dioula (Côte d’Ivoire, Burkina Faso); le mandinka (Gambie, Sénégal, Guinée Bissau). Plusieurs variétés « secondaires »: khassonka, mahou, konya, manya, marke-dafing, bolong, etc. Une « guerre des écritures »: latine, adjami, N’ko.

4 Quelques caractéristiques linguistiques langues isolantes, très peu de morphologie flexionnelle; langues tonales, des nombreuses règles de modifications tonales contextuelles, un article tonal (les tons ne sont pas normalement notés dans les transcriptions latines; les réalisations tonales sont notées dans le N’ko).

5 L’historique du projet « Corpus mandingue »: 2009: le démarrage avril 2012 : le Corpus Bambara de Référence est affiché à l’Internet (1 mln. de mots) février 2014: le Corpus Maninka de Référence est en ligne (3 mln. de mots, 90% en N’ko) mai 2014: le Corpus Bambara de Référence a atteint 1 770 000 mots, dont 290 000 mots dans le sous-corpus désambiguïsé.

6 Les logiciels Daba (Kirill Maslinsky) le métaediteur (une interface graphique pour l’introduction des métadonnées); l’analyseur morphologique; le désambiguïsateur (une interface graphique pour la désambiguïsation semi-automatique); les convertisseurs (l’ancienne orthographe  la nouvelle orthographe; le N’ko  l’orthographe latine) sont intégrés dans l’analyseur morphologique.

7 Dictionnaires: Bamadaba (Bamana DataBase), dérivé du dictionnaire de Charles Bailleul (sérieusement modifié), en évolution permanente; dictionnaires auxiliaires: prénoms humains; noms claniques; toponymes; «encyclopédique» Malidaba, un dictionnaire maninka-français dérivé de la première version du corpus maninka.

8 Caractéristiques du CBR Un premier grand corpus d’une langue subsaharienne à l’accès libre. Un corpus balancé: tous les genres écrits y sont représentés (journaux, prose, poésie, épopées, contes populaires, textes religieux, littérature fonctionnelle, documents juridiques…). Un corpus annoté morphologiquement à plusieurs niveaux (POS, gloses françaises).

9 Le processus de l’intégration des textes dans le CBR (une faible présence du bambara à l’Internet) 1) la saisie manuelle double suivie du collationnement 2) l’introduction de l’information métatextuelle 3) l’analyse morphologique automatique 4) l’intégration des textes dans le sous-corpus non-désambiguïsé, ou: 5) désambiguïsation sémi-automatique 6) intégration dans le sous-corpus désambiguïsé.

10 Le Corpus Maninka: une grande activité sur l’Internet; la disponibilité des textes électroniques en N’ko; le retardement en ce qui concerne l’outillage (le dictionnaire, les données métatextuelles, l’élaboration du site).

11 Le site du Corpus Bambara de Référence (à voir sur l’Internet)

12 Les outils sur la base du CBR le correcteur d’orthographe bambara: commencé par Andrij Rovenchak, continué par Jean Jacques Méric; le logiciel pour l’OCR des textes bambara, par J.J.Méric

13 L’utilisation du CBR dans l’enseignement du bambara préparation des matériaux didactique pour l’enseignement du bambara; désambiguïsation des textes par les étudiants; études ponctuelles sur les sujets grammaticaux, orthographiques et sémantiques par les étudiants.


Télécharger ppt "Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)"

Présentations similaires


Annonces Google