Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)

Slides:



Advertisements
Présentations similaires
Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental.
Advertisements

Été INF1025 Driouch Elmahdi
Création de matériaux pédagogiques et approche par tâches
Prof. Assist. Dr Penphan THIPKONG
Synthèses de la législation européenne: une introduction 2008.
Synthèses de la législation européenne: une introduction 2009.
Harmonisation des cadres législatifs et réglementaire dans lespace ARTAO 04 Février 2007.
Épidémiologie.
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
Afrique de lOuest et du Centre Finance rurale Stratégie & Plan dAction en AOC M. Manssouri, Chargé de portefeuille Atelier sur lexécution des projets,
SITE WEB DU BREDA Pour atteindre les objectifs du cadre d Action de Dakar. Léducation «pour chaque citoyen dans chaque société» le BREDA met au service.
Présentation générale
Site Internet 29 Mai Le site internet aujourdhui 2.
SYSTRAN Un outil du TAL Victoria AUPERT Marjorie LORSUNG.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
Cours présentielle avec 1er année.
Cordial, le TAL et les aides à la rédaction
Il faut… DES SAVOIR-FAIRE!!!
Une brève histoire du roman
Académie de Versailles - Inspection pédagogique régionale de lettres
Le Club informatique de lAPRUM Deuxième réunion portant sur les traitements de textes.
CIBLE : le catalogue des Bibliothèques de lULB Luc Verdebout -
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Forum des Industries de la Langue, 17 mars 2010
CUME 330: Didactique des études sociales à lélémentaire Les ressources dapprentissage et la recherche dans les outils de Présenté par David Martin Préparé.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
COMMUNICATION ORGANISATION
Stage Veille sur Internet
DSCG UE 7 Relations professionnelles
Un site de travail collaboratif :

ANTHE 110: Ethnologie du sexe, de l’âge et du pouvoir Présenté par Kim Frail et Isabelle Lorrain Le 3 mars 2005 Bibliothèque Saint-Jean Travail d’application.
Content Management System CMS. Pourquoi ? Obligation de ressaisir des contenus publiés à plusieurs endroits Pas d’outils de gestion de qualité de l’information.
16 décembre /10/09 Sandrine Reyes – Groupe Information Scientifique (SI) - Archives Historiques du CERN Projet de numérisation des documents du.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Réaliser un herbier numérique de plantes médicinales
L’approche du code au cycle 2
Un site sous SPIP Un nouveau système de publication sur le net Collège Charles Rieu A.T.I. Pélofi Stéphane.
Techniques de l’enseignement de l’anglais pour les dyslexiques Catherine Euvrard Apedys Janvier 06.
L’approche axée sur la compréhension
Liaison collège Lycée Michelet / Behal
Balzac, L’auberge rouge, 1831.
La Gouvernance de l’Internet en Côte d’Ivoire 2 ème Rencontre Régionale du Forum de la Gouvernance de l’Internet de l’Afrique de l’Ouest.
L’étude de la langue autrement à l’école élémentaire
Human Knowledge La nouvelle génération de moteurs sémantiques.
Mise en forme efficace d’un document Logiciel Microsoft Word
Les pays de la francophonie Les Cultures Et Toi!.
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Écrire au cycle 2.
Le portail documentaire de l ’Université d ’Orléans
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Diaporama réalisé par Florence Mezzoud,
SUJET. Analyse du sujet -1- Eléments issus de la lecture du sujet Niveau : Discipline partenaire/ Collaboration : professeur Thème : Sujet : Production.
Progression/Programmation – Français (1/3)
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
Bibliographie et liste de références
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Sciences du langage et de la communication Responsable du pilier : Corinne Rossari Professeure de linguistique française Présentation : Tobias von Waldkirch.
Bibliothèque cantonale et universitaire de Fribourg Compétences documentaires pour étudiants – lundi 30 mai 2016 Recherche documentaire.
Initiation à la recherche documentaire Initiation à la recherche documentaire L.Berger Collège St Paul Roanne.
1 Ecrire par et sur le Net Recherche subsidiée par la Communauté française de Belgique Comment associer les TIC à l'apprentissage de l'écriture ? Véronique.
Regional Food Security and Nutrition Working Group Food Security and Nutrition Update FAO - WFP 28 avril 2016.
Organiser l’information trouvée sur internet Félix Langevin Harnois Bibliothécaire Service de la bibliothèque École de technologie supérieure Hiver 2016.
LES TPE AU CDI Quelques conseils de recherche documentaire
Ecriture Cycle 3 Programmes 2015
Compétences informationnelles Choisir ses sources Connaître les outils de repérage.
À la recherche d’indices discriminant des accents ouest- africains en français Philippe Boula de Mareüil LIMSI-CNRS, Orsay.
Corpus Maninka de Référence Valentin Vydrin, INALCO – LLACAN Labex EFL, Axe 6.
Transcription de la présentation:

Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)

L’aire mandingue

Quelques informations sur le mandingue Nombre de locuteurs (L1 + L2): jusqu’à 40 millions. 4 variétés les plus importantes sociolinguistiquement: le bambara (Mali); le maninka (Guinée + Liberia, Sierra Leone); le dioula (Côte d’Ivoire, Burkina Faso); le mandinka (Gambie, Sénégal, Guinée Bissau). Plusieurs variétés « secondaires »: khassonka, mahou, konya, manya, marke-dafing, bolong, etc. Une « guerre des écritures »: latine, adjami, N’ko.

Quelques caractéristiques linguistiques langues isolantes, très peu de morphologie flexionnelle; langues tonales, des nombreuses règles de modifications tonales contextuelles, un article tonal (les tons ne sont pas normalement notés dans les transcriptions latines; les réalisations tonales sont notées dans le N’ko).

L’historique du projet « Corpus mandingue »: 2009: le démarrage avril 2012 : le Corpus Bambara de Référence est affiché à l’Internet (1 mln. de mots) février 2014: le Corpus Maninka de Référence est en ligne (3 mln. de mots, 90% en N’ko) mai 2014: le Corpus Bambara de Référence a atteint mots, dont mots dans le sous-corpus désambiguïsé.

Les logiciels Daba (Kirill Maslinsky) le métaediteur (une interface graphique pour l’introduction des métadonnées); l’analyseur morphologique; le désambiguïsateur (une interface graphique pour la désambiguïsation semi-automatique); les convertisseurs (l’ancienne orthographe  la nouvelle orthographe; le N’ko  l’orthographe latine) sont intégrés dans l’analyseur morphologique.

Dictionnaires: Bamadaba (Bamana DataBase), dérivé du dictionnaire de Charles Bailleul (sérieusement modifié), en évolution permanente; dictionnaires auxiliaires: prénoms humains; noms claniques; toponymes; «encyclopédique» Malidaba, un dictionnaire maninka-français dérivé de la première version du corpus maninka.

Caractéristiques du CBR Un premier grand corpus d’une langue subsaharienne à l’accès libre. Un corpus balancé: tous les genres écrits y sont représentés (journaux, prose, poésie, épopées, contes populaires, textes religieux, littérature fonctionnelle, documents juridiques…). Un corpus annoté morphologiquement à plusieurs niveaux (POS, gloses françaises).

Le processus de l’intégration des textes dans le CBR (une faible présence du bambara à l’Internet) 1) la saisie manuelle double suivie du collationnement 2) l’introduction de l’information métatextuelle 3) l’analyse morphologique automatique 4) l’intégration des textes dans le sous-corpus non-désambiguïsé, ou: 5) désambiguïsation sémi-automatique 6) intégration dans le sous-corpus désambiguïsé.

Le Corpus Maninka: une grande activité sur l’Internet; la disponibilité des textes électroniques en N’ko; le retardement en ce qui concerne l’outillage (le dictionnaire, les données métatextuelles, l’élaboration du site).

Le site du Corpus Bambara de Référence (à voir sur l’Internet)

Les outils sur la base du CBR le correcteur d’orthographe bambara: commencé par Andrij Rovenchak, continué par Jean Jacques Méric; le logiciel pour l’OCR des textes bambara, par J.J.Méric

L’utilisation du CBR dans l’enseignement du bambara préparation des matériaux didactique pour l’enseignement du bambara; désambiguïsation des textes par les étudiants; études ponctuelles sur les sujets grammaticaux, orthographiques et sémantiques par les étudiants.