Corpus Maninka de Référence Valentin Vydrin, INALCO – LLACAN Labex EFL, Axe 6.

Slides:

Advertisements

Présentations similaires

Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)

Advertisements

Plan de l’exposé Introduction

1 Comité de suivi régional du SINP LR - 8 juin 2012 Comité technique du SINP LR Montpellier, 8 juin 2012.

La base de données de jurisprudence francophone.  Juricaf est composé de deux parties : - Le menu de gauche avec les différentes fonctions - La partie.

Le programme du cycle III Collèges Faverney, Jussey et Scey-sur-Saône Écoles du secteur 09 mars 2016.

Digraphie des langues ouest africaines : Latin2Ajami : un algorithme de translittération automatique Introduction Translittération du wolof Algorithme.

Correcteurs automatiques 25/09/2016. Nom, Prénom2 Qu'est-ce que c'est ? ● Un correcteur automatique est un outil permettant d'analyser un texte afin de.

Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.

La question sur corpus.

Cycle élémentaire Année scolaire: Classe :CE2 A / B Discipline:Français Éducatrice:Nada Sfeir.

Cycle élémentaire Année scolaire Classe de 6 e Discipline : Français Professeur : Andressa Bitar.

Cahier des charges.

Recherche Summon - HINARI (Module 3)

Groupe Départemental Langue française

Projet de programme et recommandations

Table des matières, citation, mise en page

et sa politique d‘assurance qualité dans l‘éducation

E. Malengreau, Assistante pédagogique QAP-Polytech

tt Société Française de Médecine Générale ff

La Bibliothèque numérique élève: Prisecariu mihaela classe – la Xe a professeur coordinateur: Bengescu otiliA.

La représentation des atomes

Plateforme CountrySTAT Aperçu global de la préparation des tableaux dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME.

Bddictionnairique Phase 1

Activités algorithmiques

corpus spéciale et spécialisée

ECRITURE COLLABORATIVE

D'où vient tout ce Français ?

Apprendre des mots au cycle 2 Quelle progression ?

Recherches sous Elan.

Le cours d’Education musicale

Le logiciel HYPERBASE-LATIN :

Les grandes étapes de la recherche

Formation ELAN Fonctions avancées 2

La section internationale / OIB

LIRE ECRIRE au CYCLE 2 Lundi 28 novembre 2016

Mise en œuvre du programme de spécialité économie approfondie

CountrySTAT / FENIX Aperçu globale de la préparation des tableaux dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME.

Filière Littéraire Littérature, langues, littérature étrangère en langue étrangère, philosophie, histoire-géographie, arts... le bac L est une série.

SEMINAIRE DEPARTEMENTAL DU 31 MAI 2018 LYCEE DU PARC EVRY

Mieux maîtriser la langue pour mieux réussir

FAIRE UN BLOG D'ECOLE Un exemple détaillé.

Utiliser PowerPoint dans le cadre des TPE

Méthodologie de la dissertation

Introduction à l’utilisation des corpus

Rentrée académique Ecole de français langue étrangère Faculté des Lettres Unil Inscriptions aux enseignements et aux évaluations Diplôme FLE.

Zeendoc et les logiciels comptables

Atelier de préparation à l’examen de langue française

Affichage et tri des résultats

La recherche avancée.

Langues vivantes Programme d’enseignement de spécialité - 1re

Langues vivantes Programme d’enseignement de spécialité - 1re

Logiciel de présentation

Réforme du lycée Objectif général :

LE FORMATAGE DU MEMOIRE

Comment la faire ? Quand la faire ?

Procédure: Dans Atrium, déposer et retirer un dossier de candidature pour un Appel à projets 23/01/2019 Procédure: Déposer et retirer un dossier de candidature.

Guide à l’usage des enseignants sadiracais

Langues vivantes Programme d’enseignement de spécialité - 1re

Ceintures d’orthographe

Formation ELAN Fonctions avancées 2

Présentation de l’épreuve E3 : Economie, Droit et Management

Sigle optionnel en français FBD

Des évaluations au service de la réussite des élèves

Sigle optionnel en français FBD

Humanités, Littérature et philosophie

Observation Réfléchie de la Langue.

Économie-Gestion LE bac 2021

Les données structurées et leur traitement

De la validation du socle commun au DNB 2011

Rentrée académique Ecole de français langue étrangère Faculté des Lettres Unil Inscriptions aux enseignements et aux évaluations Diplôme FLE.

Transcription de la présentation:

Corpus Maninka de Référence Valentin Vydrin, INALCO – LLACAN Labex EFL, Axe 6

Langues mandé

Les informations de base -publié le 15 avril 2016 ; -ouvert pour le public ; -deux sous-corpus : 1)Corpus Maninka (« Sous-corpus latin »), en orthographe latin, actuellement mots ; 2) Corpus (sous-corpus) N’ko, mots.

Les instruments Le paquet de programmes Daba initialement développé par Kirill Maslinsky pour le Corpus Bambara de Référence (à partir du 2010) : -Metaeditor (l’interface de l’introduction des méta- données) ; -Gparser (l’interface de l’analyse morphologique du texte) ; -Gdesamb (l’interface de la désambiguïsation manuelle); -le fichier grammatical (la liste des affixes et les règles formalisées de leurs combinaisons).

Le moteur de recherche NoSketchEngine, une version adaptée d’abord à la spécificité du Corpus Bambara. L’adaptation au Corpus Maninka de Référence. La grande difficulté: l’option du choix transparent de la direction de l’écriture (le N’ko est écrit de droit à gauche), car les textes en N’ko ont plusieurs couches d’annotation en caractères latins. La solution: le NoSketchEngine a été adapté de la façon que la direction de l’écriture est choisie automatiquement en fonction de l’écriture prédominante dans la ligne.

La digraphie du Corpus maninka Le Sous-corpus N’ko est entièrement doublé par une transcription latine, en deux versions: non- tonalisée et tonalisée, en accord avec les principes de notation tonale, les mêmes que pour le Corpus Bambara. Le Sous-corpus latin est doublé par une transcription en N’ko, avec une notation tonale générée automatiquement (les marques tonales sont mises par défaut). Les convertisseurs N’ko  Latin et Latin  N’ko ont été développés par Andrij Rovenchak.

La collection des textes 1.Les textes en caractères latins: -la période de la 1 ère République ( ), l’ancienne orthographe: beaucoup de textes ont été créés, mais relativement peu ont été conservés. Le plus souvent, une très mauvaise qualité d’orthographe (l’abondance des fautes d’orthographe, surtout en ce qui concerne la séparation des mots); -après 1984, la nouvelle orthographe: moins de textes, leur qualité est variable. Pratiquement tous les textes n’ont été disponibles qu’en version papier (à l’exception du texte de l’Ancien Testament mis en notre disposition par les missionnaires en version électronique).

Les textes en N’ko Tous les textes ont été mis en notre disposition en version électronique par le Nko Dunbu (l’Académie N’ko), ou téléchargés des sites de la presse N’ko. Les difficultés: la nécessité de la conversion des polices N’ko pré-Unicodes  la police N’ko Unicode (et, éventuellement,  l’orthographe latine). Le travail de conversion a été fait par Andrij Rovenchak.

La composition du Corpus Les Sous-corpus N’ko: -environ mots: les publications périodiques; -environ mots: le Coran (avec le Tafsi ̄ r); -belles-lettres, littérature sur l’histoire, la culture, la religion, documents diverses. Le sous-corpus latin: -manuels scolaires; -livres d’alphabétisation fonctionnelle; -publications de littérature orale (contes, épopées, proverbes); -documents diverses.

Le dictionnaire électronique La situation de départ: pas de dictionnaire maninka- français, mais il y a eu plusieurs sources: -dictionnaire français-maninka en N’ko (Kantè 2012), environ 4000 entrées, en version électronique; -dictionnaire monolingue maninka (N’ko), environ entrées, en version électronique; -Manding-English Dictionary (Vydrine 1999), une version mise à jour (2015, partiellement gallicisée); -un concordancier des mots-formes maninka d’un corpus de 2 mln. mots, rangé en ordre de fréquences.

Le développement du dictionnaire Malidaba -les 300 mots les plus fréquents du concordancier ont été désambiguïsés et dotés des gloses et étiquettes POS; -le dictionnaire Français-N’ko a été « renversé »; -toutes les données concernant le maninka ont été extraits automatiquement du Manding-English Dictionary. Les trois sources ont été fusionnés. Cette première version du Malidaba (environ 8300 entrées) permet d’annoter plus de 90% de toutes les occurrences du Corpus, mais la qualité d’annotation est très mauvaises (les gloses non- adaptées; des nombreux doublons).

Le perspectives 1.L’amélioration du Malidaba. Entre décembre 2015 et début juillet 2016, les premières 1300 entrées ont été « purifiés » (du coup, environ 470 doublons ont été éliminés, ce qui a ramené le nombre d’entrées à 7830). Le tâche le plus urgent: la « purification » primaire du Malidaba (élimination des doublons, l’introduction/la correction de la glose et de la marque du POS). L’étape suivant: la mise à point approfondie du Malidaba (l’analyse des lexèmes composés; le traitement de la polysémie). L’enrichissement du Malidaba.

2. L’introduction des métadonnées à tous les fichiers (ce travail n’est qu’à ces débuts). 3. La désambiguïsation des textes (pour le moment, pas de textes désambiguïsés, sauf quelques essaies). 4. Développement d’un correcteur automatique d’orthographe pour les textes N’ko (une première tentative a été faite par Jean Jacques Méric en 2013).