Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental.

Slides:



Advertisements
Présentations similaires
1 Agence pour la Simplification Administrative Dominique De Vos Journée détude 11/12/2007 Réutilisation des informations publiques, …en quelques mots…
Advertisements

Mise en œuvre des recommandations et des conclusions du Conseil FRANCE Groupe d experts de la Commission européenne - Luxembourg - 13 décembre 2007.
DTD Sylvain Salvati
Niveau Intermédiaire 12/01/ Visualiser votre groupe de TD ( Visualiser mon emploi du temps) 12/01/
Introduction : plasticité des IHMs – Page 1 IHM et plasticité 1 IHM et Différents supports Différents utilisateurs Différents environnements Problématique.
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
JXDVDTEK – Une DVDthèque en Java et XML
Domaines nominaux XSLT
Sauvegarde, archivage et sécurisation des fichiers
Jean-Christophe PAZZAGLIA
Métadonnées pour les thèses numériques françaises
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation novembre 2002 Réalisation:
Août 2010 Présentation de NetIS Une plate-forme complète de publication électronique.
CREATION DE FEUILLE DE STYLE pour structuré le document XML
Cordial, le TAL et les aides à la rédaction
Exposé Duan Kun Alexandra Moraru M2 Pro Traductique, INALCO
Chapitre 4 : la gestion électronique des documents
Limpact de la technologie sur la gestion de données terminologiques : lexemple du Visuel Anne Rouleau, rédactrice en chef Les Éditions Québec Amérique.
E.Dot – juillet 2005 Page 1 Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.
Intégrer IdRef dans les applications documentaires de votre université. Pourquoi ? Comment ? Atelier JABES2011.
LE ROBERT ELECTRONIQUE
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Secret et libre accès des thèses électroniques Joachim Schöpfel Hélène Prost Séminaire doctoral GERiiCO Lille, 11 avril 2013.
* solutions pour linformation numérique ajlsm Exploiter, diffuser et conserver vos images numériques – Aspects techniques Martin Sévigny / AJLSM / 10 et.
- Projet LO43 - Médiathèque
Dégradation élégante dinterfaces- utilisateur. Description du problème Construction dinterfaces-utilisateur pour: des systèmes dinformation multiplate-formes.
Normes et standards pour les plate-formes de e-learning
Standards pour les ressources documentaires description – organisation – diffusion – production Séminaire Normes et standards pour les TICE Saint-Clément-les-Places.
Vers des composants TAL réutilisables
Moteur de recherche d’information
OUTILEX Présentation des résultats
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Mise en oeuvre dun outil original daide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama.
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
Introduction à lutilisation des corpus 2. Comment constituer un corpus?
GENIE MULTIMEDIA Introduction
École de bibliothéconomie et des sciences de linformation 1 Gestion de linformation électronique (GIE) Maîtrise en sciences de linformation EBSI Université.
Projet de Master première année 2007 / 2008
SIMON-VERMOT Christophe. ET2
Solvent eXtraction Database - INTERNET -
Inventaire et audit de parc
Vers une génération automatique du mapping de sources biomédicales
XML Plan du cours Introduction au fichier XML
La monarchie absolue en France
Centre de ressources numériques TELMA Une plate forme de publications Richard Walter, IRHT.
Projet des corpus écrits des langues manding : le bambara, le maninka Valentin Vydrin INALCO – LLACAN (CNRS, UMR-8135)
Groupe Corpus d'état anciens de la langue Groupe concerné par les thématiques de plusieurs autres groupes (1, 3 et 4, 6, 8, 9, 10, 11) Enjeux : Etat des.
TALAf 2014 Vers la Mise en place d’un lexique basé sur LMF pour la langue Wolof ème Traitement Automatique des Langues Naturelles, Marseille, 2014.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Direction de la normalisation terminologique (DNT) Mai 2010 La terminologie : une passion, des métiers !
Soutenance du mémoire de synthèse
Dossier de Lecture Par Julie Dubé But : rassembler l’information pertinente à l’aide de fiches et indiquer les références exactes. Constituez un dossier.
Séquence pédagogique Claire-Anne Judic
Chapitre 4 : Les feuilles de style (généralités) XML fournit aux applications une structure, mais pas la signification ou la manière de mettre en évidence.
1 XForms 1.0 Les formulaires de demain Marina MILIC & Gwénaël SAUNIER Etudiants en Master 1 Informatique.
La valorisation de l’information scientifique Colloque IFAN, 27 novembre 2007.
Introduction à MathML Par Katia Larrivée UQO Le 18 mars 2004.
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Formats d’échange ? Chap B11 FP10 page 143 Les enjeux …
GMC / FIED 20 mars Contenus "en ligne" Gérard-Michel COCHARD Délégué TIC et e-formation Simple numérisation ou rénovation pédagogique ?
Dreamweaver (2) ● les calques (layers) ● les comportements
Amalia Todirascu 1.  Enseignants: Amalia Todirascu groupe  Contrôle de connaissances: examen.
Bibliothèque Centrale de l’École Polytechnique PSC X2014 Mai-Juin 2015 Module 3 Rédiger sa biblio Formation à la recherche documentaire Module 1 Où trouver.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Mise en oeuvre d’un outil original d’aide en ligne à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP)
Transcription de la présentation:

Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental d'Afrique noire) (institut de recherche) – linguiste, linguistique des langues africaines Koeln : institut de phonétique

Double objectif, double cible Dictionnaire électronique Disponibilité de données standardisées pour la recherche (Unicode, XML) Dico existants : uniquement bilingues et sans définition 2e dico : inalco, diouf jean-léopold 11 % locuteurs francophones

Matériel source Base : dictionnaires existants non numérisés (± 5 000 entrées) Confrontation et enrichissement : Quelques textes numérisés (citoyenneté) Numérisation d'un corpus de textes (+ métadonnées biblio) Littérature (portion congrue) Alphabétisation fonctionnelle (adultes, ms textes à visée productiviste) Citoyenneté (guide du votant

Traitement par concordancier (Wordsmith) 115 000 formes (tokens) 14 700 formes Complément statistique Complément source

Base de données Outil : Toolbox (version 1.5.0) Modèle des données (fiche) Retraitement des formes fléchies Retraitement des données des dictionnaires Toolbox = logiciel d'analyse morphosyntaxique pour le linguiste de terrain. A partir des corpus encodés, il permet de configurer un dictionnaire publiable en ligne Mais aussi et surtout, il permet une sortie XML des données. Modèles des données= Modèle lexicographique standard pour un dico de cet ordre; informations concernant la linguistique de corpus: champs contexte d'attestation et source du contexte. Retraitement des formes fléchies Retraitement des données des dictionnaires = complément des informations des dicos qui ne sont que traductifs en donnant une définition en wolof

Sorties électroniques Pour la réutilisation des données Export XML Toolbox, balisé ou CSV XSL de mappage vers des vocabulaires standards (TEI, Geneter, etc.) Pour la consultation en et hors ligne HTML Capacités d'interrogation

Conclusions et perspectives Premier corpus numérisé réexploitable Recherche PoS, etc. Applications Vérificateur orthographique, conjugueur, etc. Restrictions : faiblesse de la taille du corpus