La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Corpus Maninka de Référence Valentin Vydrin, INALCO – LLACAN Labex EFL, Axe 6.

Présentations similaires


Présentation au sujet: "Corpus Maninka de Référence Valentin Vydrin, INALCO – LLACAN Labex EFL, Axe 6."— Transcription de la présentation:

1 Corpus Maninka de Référence Valentin Vydrin, INALCO – LLACAN Labex EFL, Axe 6

2 Langues mandé

3 Les informations de base -publié le 15 avril 2016 ; -ouvert pour le public ; -deux sous-corpus : 1)Corpus Maninka (« Sous-corpus latin »), en orthographe latin, actuellement 792 778 mots ; 2) Corpus (sous-corpus) N’ko, 3 105 879 mots.

4 Les instruments Le paquet de programmes Daba initialement développé par Kirill Maslinsky pour le Corpus Bambara de Référence (à partir du 2010) : -Metaeditor (l’interface de l’introduction des méta- données) ; -Gparser (l’interface de l’analyse morphologique du texte) ; -Gdesamb (l’interface de la désambiguïsation manuelle); -le fichier grammatical (la liste des affixes et les règles formalisées de leurs combinaisons).

5 Le moteur de recherche NoSketchEngine, une version adaptée d’abord à la spécificité du Corpus Bambara. L’adaptation au Corpus Maninka de Référence. La grande difficulté: l’option du choix transparent de la direction de l’écriture (le N’ko est écrit de droit à gauche), car les textes en N’ko ont plusieurs couches d’annotation en caractères latins. La solution: le NoSketchEngine a été adapté de la façon que la direction de l’écriture est choisie automatiquement en fonction de l’écriture prédominante dans la ligne.

6 La digraphie du Corpus maninka Le Sous-corpus N’ko est entièrement doublé par une transcription latine, en deux versions: non- tonalisée et tonalisée, en accord avec les principes de notation tonale, les mêmes que pour le Corpus Bambara. Le Sous-corpus latin est doublé par une transcription en N’ko, avec une notation tonale générée automatiquement (les marques tonales sont mises par défaut). Les convertisseurs N’ko  Latin et Latin  N’ko ont été développés par Andrij Rovenchak.

7

8 La collection des textes 1.Les textes en caractères latins: -la période de la 1 ère République (1958-1984), l’ancienne orthographe: beaucoup de textes ont été créés, mais relativement peu ont été conservés. Le plus souvent, une très mauvaise qualité d’orthographe (l’abondance des fautes d’orthographe, surtout en ce qui concerne la séparation des mots); -après 1984, la nouvelle orthographe: moins de textes, leur qualité est variable. Pratiquement tous les textes n’ont été disponibles qu’en version papier (à l’exception du texte de l’Ancien Testament mis en notre disposition par les missionnaires en version électronique).

9 Les textes en N’ko Tous les textes ont été mis en notre disposition en version électronique par le Nko Dunbu (l’Académie N’ko), ou téléchargés des sites de la presse N’ko. Les difficultés: la nécessité de la conversion des polices N’ko pré-Unicodes  la police N’ko Unicode (et, éventuellement,  l’orthographe latine). Le travail de conversion a été fait par Andrij Rovenchak.

10 La composition du Corpus Les Sous-corpus N’ko: -environ 700 000 mots: les publications périodiques; -environ 500 000 mots: le Coran (avec le Tafsi ̄ r); -belles-lettres, littérature sur l’histoire, la culture, la religion, documents diverses. Le sous-corpus latin: -manuels scolaires; -livres d’alphabétisation fonctionnelle; -publications de littérature orale (contes, épopées, proverbes); -documents diverses.

11 Le dictionnaire électronique La situation de départ: pas de dictionnaire maninka- français, mais il y a eu plusieurs sources: -dictionnaire français-maninka en N’ko (Kantè 2012), environ 4000 entrées, en version électronique; -dictionnaire monolingue maninka (N’ko), environ 33 000 entrées, en version électronique; -Manding-English Dictionary (Vydrine 1999), une version mise à jour (2015, partiellement gallicisée); -un concordancier des mots-formes maninka d’un corpus de 2 mln. mots, rangé en ordre de fréquences.

12 Le développement du dictionnaire Malidaba -les 300 mots les plus fréquents du concordancier ont été désambiguïsés et dotés des gloses et étiquettes POS; -le dictionnaire Français-N’ko a été « renversé »; -toutes les données concernant le maninka ont été extraits automatiquement du Manding-English Dictionary. Les trois sources ont été fusionnés. Cette première version du Malidaba (environ 8300 entrées) permet d’annoter plus de 90% de toutes les occurrences du Corpus, mais la qualité d’annotation est très mauvaises (les gloses non- adaptées; des nombreux doublons).

13 Le perspectives 1.L’amélioration du Malidaba. Entre décembre 2015 et début juillet 2016, les premières 1300 entrées ont été « purifiés » (du coup, environ 470 doublons ont été éliminés, ce qui a ramené le nombre d’entrées à 7830). Le tâche le plus urgent: la « purification » primaire du Malidaba (élimination des doublons, l’introduction/la correction de la glose et de la marque du POS). L’étape suivant: la mise à point approfondie du Malidaba (l’analyse des lexèmes composés; le traitement de la polysémie). L’enrichissement du Malidaba.

14 2. L’introduction des métadonnées à tous les fichiers (ce travail n’est qu’à ces débuts). 3. La désambiguïsation des textes (pour le moment, pas de textes désambiguïsés, sauf quelques essaies). 4. Développement d’un correcteur automatique d’orthographe pour les textes N’ko (une première tentative a été faite par Jean Jacques Méric en 2013).


Télécharger ppt "Corpus Maninka de Référence Valentin Vydrin, INALCO – LLACAN Labex EFL, Axe 6."

Présentations similaires


Annonces Google