TALAf 2014 Vers la Mise en place d’un lexique basé sur LMF pour la langue Wolof. 1 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014.

Slides:



Advertisements
Présentations similaires
Un environnement de développement éducatif
Advertisements

Sintaks : Tentative de guide de mise en œuvre Michel Hassenforder.
Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français IFAN (Institut fondamental.
LA QUALITE LOGICIELLE Plan du cours La modélisation d’activité 1 h ½
Module 4- Caractéristiques générales de l'évaluation
CAMPAGNE DE PROMOTION DE L’AGRICULTURE BIOLOGIQUE
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Transformation de documents XML
JXDVDTEK – Une DVDthèque en Java et XML
Tutoriel XSLT F. Sajous ERSS – 01/04/2005.
Diffusion Nationale TOULOUSE -Avril 2006 STS Web Services libres Créer un service libre.
Conception d’une application de gestion de fiches études
Travaux pratiques sur Nooj
S.T.S. S.I.O. 1ère année La gestion de projets
Construire une base de données bibliographiques Elaborer un site web
1- Accueil et introduction Cours MGP Accueil et introduction Gilles Corriveau Maîtrise en Gestion de Projet UQTR Automne 1998.
Control des objectifs des technologies de l’information COBIT
SEANCE DU DIDACTIQUE D’ECONOMIE Module MSECO31.
Présentation du Cadre Européen Commun de Référence des Langues
Introduction à la conception de Bases de Données Relationnelles
Les programmes 2007 au cycle II Le programme du cycle des apprentissages fondamentaux Pour la rentrée 2007/2008.
Enseignement Spécifique (Coefficient 7) Enseignements de spécialité (Coefficient 9)
Recherche Documentaire et traitement de l’information
ÉPREUVE - ÉCONOMIE DROIT
SCIENCES DE L ’INGENIEUR
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Chapitre 3 Syntaxe et sémantique.
Projet de Master première année 2007 / 2008
L’approche MAD* Par Sabrina Dubé-Morneau
Programmation linéaire en nombres entiers : les méthodes de troncature
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
JEE 5 F.Pfister 2 institut eerie JEE – Une plateforme serveur  Développement et exécution d'applications réparties.
Management.
Veolia Consommateurs Contenu
TRAITEMENT INSTRUMENTÉ DE CORPUS
1 Choix d’une méthode de programmation participative pour l’élaboration du Plan régional de santé publique dans le Nord - Pas-de-Calais E. VERITE, C. LAHOUTE,
‘‘Open Data base Connectivity‘‘
Kampala, Uganda, June 2014 Documents d’Edition et de Révision Hiroshi Ota and Vijay Mauree ITU/TSB Forum de normalisation pour l'Afrique (Kampala,
ANALYSE METHODE & OUTILS
Marc Bouissou, Guillaume Torrente, EDF
Création et présentation d’un tableau avec Word 2007
Rappel au Code de sécurité des travaux 1 Code de sécurité des travaux, 5 e édition, 2008 Rappel du personnel initié Chapitre Lignes de transport (Aériennes)
Dépense Gestion des avances et des acomptes
Paradigmes des Langages de Programmation
420-B63 Programmation Web Avancée Auteur : Frédéric Thériault 1.
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Les Réseaux Le modèle à 7 couches
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
IFRAME SMS SERVICE Comment ajouter facilement le SMS à votre site web... Robert MASSE (KLUGHER.COM)
Chapitre 2: COMMUNICATION TECHNIQUE
Enseigner le lexique à l’école primaire
Création d’une communauté web scénarisée : le projet Crealys
Sysml et le domaine de l’architecture et construction
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Implémentation d’un.
Management Définition: Le management est le processus par lequel le gestionnaire maximise l’utilisation des ressources de l’entreprise dans le but d’atteindre.
Contenus riches et logique d'industrialisation Contenus riches et logique d'industrialisation Modélisation, production, génération, gestion Stéphane Crozat.
Brassard Caroline – Projet - Québec
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
Direction de la normalisation terminologique (DNT) Mai 2010 La terminologie : une passion, des métiers !
28/05/20021 DOE : une mise en œuvre d’une méthode de structuration différentielle pour les ontologies Raphaël TroncyAntoine Isaac
Supports de formation au SQ Unifié
Spécification géométrique des produits ( GPS)
Etude des performances cinématiques de la plateforme 6 axes
Présente Conception d’un petit site Web. 2 4-nov-03© Préambule Cette présentation fait suite à celle intitulée « Imaginer, concevoir, mettre.
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Human Knowledge La nouvelle génération de moteurs sémantiques.
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
Dominique LAURENT Patrick SEGUELA
Transcription de la présentation:

TALAf 2014 Vers la Mise en place d’un lexique basé sur LMF pour la langue Wolof ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Mouhamadou KHOULE, Mouhamad Ndiankho THIAM, El hadji Mamadou NGUER LANI, Université Gaston Berger de Saint Louis du Sénégal,

PLAN Introduction Introduction Travaux antérieurs sur les lexiques pour la langue Wolof Travaux antérieurs sur les lexiques pour la langue Wolof Vers une élaboration du lexique basé sur LMF. Vers une élaboration du lexique basé sur LMF. Conclusion et perspectives. Conclusion et perspectives. 2

Introduction Contexte. Au Sénégal, vingt cinq (25) langues endogènes, selon la Direction de l’Alphabétisation et des Langues Nationales, cohabitent avec le français, l’arabe et d’autres langues étrangères. 80 % 80 % de la population ne comprennent pas le français (seule langue officielle). Pour pallier à ce problème il s’avère nécessaire d’utiliser les langues nationales comme le wolof compris par plus de 80 % de la population 3

Introduction Contexte ( Contexte (Sur la vitalité du Wolof) C'est la langue la plus parlée au Sénégal. Elle s'impose de plus en plus dans les débats télévisés, les émissions radio et les panneaux publicitaires. Elle est parmi les langues nationales ayant fait l’objet de plus d’études et de recherche. Elle devance les autres sur les contenus. En effet elle est la seule langue nationale présente sur Wikipedia, sur les outils de Windows et sur ceux de Google. La constitution, le coran et la bible sont entièrement traduits en Wolof. Elle fait partie avec le Pulaar des langues nationales choisies par l’Académie Africaine des Langues (Acalan.org) Etc. 4

Introduction Problématique. wolof Néanmoins, comparée aux langues étrangères comme le français et l’anglais, le wolof n’a pas profité des avancées du TALN dont la principale base de travail est le lexique. lexique une étude linguistique Notons qu’un tel lexique, qui n’est toujours pas mis en place pour la langue Wolof, requiert au préalable une étude linguistique de la structuration des données de cette langue. 5

Introduction Solution proposée. (Cissé et al. 2007) base de données multifonctionnelle Mettre en place un lexique pour la langue Wolof en partant du travail de restructuration effectué dans (Cissé et al. 2007) pour la mise au point d’une base de données multifonctionnelle pour cette langue. fiches lexicales Cette base de données lexicale est composée d’un ensemble de fiches lexicales. Notons que certaines informations morphologiques relatives au lexème ne sont pas disponibles sur les fiches lexicales. beaucoup de répétitions De plus il y’a beaucoup de répétitions au niveau des entrées lexicales de la base. 6

Introduction Méthodologie LMF Structurer ces fiches lexicales suivant le standard LMF (Lexical Markcup Framework). Dans la suite du document, nous présenterons d’abord: (Cissé et al., 2007 les travaux effectués dans (Cissé et al., 2007 ), ensuite nous parlerons du standard LMF pour enfin terminer par la structuration des fiches en suivant l’esprit LMF. L’objectif final consiste à exporter l’ensemble des fiches structurées au format LMF dans une base de données lexicale qui servira de base de travail pour la mise en œuvre d’un correcteur orthographique interactif pour la langue wolof. 7

Travaux antérieurs sur les lexiques pour la langue Wolof A notre connaissance (Cissé et al. 2007) est le seul projet de mise au point d’une base de données lexicale multifonctionnelle Il est question dans ce projet de constituer une base de données lexicale à partir de laquelle extraire à la fois un dictionnaire unilingue wolof et un dictionnaire bilingue wolof/français. Il se fixe parmi ses objectifs de produire des sorties XML et de concevoir des modèles XSL pour l’interrogation. 8

Travaux antérieurs sur les lexiques pour la langue Wolof La figure suivante présente une illustration d’une entrée ainsi que les champs qui lui sont associés. L’image est obtenue à partir de l’outil Toolbox que les concepteurs ont utilisé pour la conception de la base de données. 9

Travaux antérieurs sur les lexiques pour la langue Wolof Au niveau des entrées on note beaucoup de répétitions De plus certaines informations morphologiques du lexème telles que les formes dérivées et fléchies n’y sont pas disponibles. 10

Structuration des fiches en suivant l’esprit LMF. Choix de LMF. Concernant les standards, nous avons porté notre choix sur LMF devenu norme ISO numéro :2008 en novembre 2008 pour plusieurs raisons. Tout d’abord les objectifs de LMF sont de fournir un modèle commun pour la création et l’utilisation de ressources lexicales, mais aussi de permettre l’interopérabilité entre ces ressources (Francopoulo et al. 2006). Elle permet la spécification de ressources linguistiques monolingues et multilingues destinées à l’usage éditorial et du TALN. Les langues couvertes par LMF ne se limitent pas aux langues européennes mais à toutes les langues naturelles. De plus elle assure une modélisation extensible et modulaire couvrant tous les niveaux de description linguistique (morphologique, syntaxiques, sémantique, etc.). 11

Présentation générale de LMF 12 LMF est une initiative au sein de l'ISO en faveur de la normalisation de la représentation des ressources lexicales. méta-modèle noyau obligatoire (Francopoulo et al. 2006). LMF propose un méta-modèle constitué d’un noyau obligatoire autour duquel gravitent des extensions (morphologique, syntaxique, sémantique et MRD) (Francopoulo et al. 2006).

Présentation générale de LMF 13 Le noyau de LMF est présenté par la figure suivante. L’objet «Lexical Entry » contient un ou plusieurs objets « Form » et un ou plusieurs objets « Sense». On structure maintenant les fiches en suivant ce méta-modèle.

Structuration des fiches 14 Les fiches produites dans les travaux dans (Cissé et al.2007) sont disponibles au format XML. On les structurer au format LMF en suivant les deux étapes suivantes. Etape 1: Ajout des balises de structuration (voir diapo 14). Etape 2: Passage au format LMF. (Voir diapo 15) balise «fiche» la balise «bloc-vedette» l’objet « form» la balise «bloc-sémantique» En faisant correspondre la balise «fiche» à l’objet «Lexical Entry», la balise «bloc-vedette» à l’objet « form» et la balise «bloc-sémantique» à l’objet «Sense» en prenant juste les informations dont nous avons besoin au niveau de la fiche lexicale. Nous ajouterons ensuite certaines balises de restructuration pour prendre en compte les formes fléchies et les formes dérivées

askan ɐ sk ɐ n turu bokkaale w- Mbooleem ñi bokk dëkkandoo Texte juridique Déclaration universelle des droits de l'homme ( Njaboot nekk na meññeef gu am solo ci askan wi. population nom La progéniture constitue une ressource importante pour la population askan askan ɐ sk ɐ n turu bokkaale w- Mbooleem ñi bokk dëkkandoo Texte juridique Déclaration universelle des droits de l'homme ( Njaboot nekk na meññeef gu am solo ci askan wi. population nom La progéniture constitue une ressource importante pour la population askan 15

16

Conclusion Objectif: (Cissé et al. 2007) Objectif: mettre en place un lexique basé sur LMF pour la langue Wolof en partant des résultats de (Cissé et al. 2007) dont le but principal est l’étude de la structuration de la langue Wolof et la mise au point de base de données multifonctionnelle. restructuré ces fiches lexicales Méthode: restructuré ces fiches lexicales en différents blocs pour ensuite proposer une méthode de conversion de ses fiches lexicales en suivant des formes fléchies et dérivées le standard LMF, tout en y ajoutant certaines balises pour la prise en charge des formes fléchies et dérivées relatives au lexème. 17

Apports et Perspectives Ce lexique constitue une base de travail nécessaire pour le développement d’un correcteur interactif et un traducteur automatique pour cette langue. Dans nos futurs travaux, nous comptons automatiser la structuration des fiches selon LMF en utilisant une feuille de style XSLT, pour mettre en place une base de données lexicale normalisée LMF pour la langue Wolof Concevoir un outil d’intégration des différentes fiches lexicales structurées suivant l’esprit LMF et un outil d’enrichissement et d’interrogation de la base de données normalisée. 18

19