Mathieu Mangeot Lerebours

Slides:



Advertisements
Présentations similaires
LES NOMBRES PREMIERS ET COMPOSÉS
Advertisements

Qualité du Premier Billot. 2 3 Défauts reliés à labattage.
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Produit Gammes Nomenclatures Modules Techniques Prix de Revient Prix de Vente Modules Techniques Client Marges Mise en route Temps Unitaire Prix (Ex:
Convergence d’intérêts entre
Distance inter-locuteur
Le pluriel des noms
Classe : …………… Nom : …………………………………… Date : ………………..
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
JXDVDTEK – Une DVDthèque en Java et XML
T ravail E tude R echerche COUREUX Éric DUCK Christian ZENGERLÉ Olivier COUREUX Éric DUCK Christian ZENGERLÉ Olivier EncadrantsEncadrants M. Crescenzo.
Le Modèle Logique de Données
Directeur de Thèse : Pr. Witold Litwin
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Indicateurs de position
1 Efficient Data and Program Integration Using Binding Patterns Ioana Manolescu, Luc Bouganim, Francoise Fabret, Eric Simon INRIA.
JOME, un Composant Logiciel pour le Télé-Enseignement des Mathématiques via le WEB, Compatible OpenMath et MathML Laurent DIRAT OVE / I3S-UNSA.
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
Niveau 6ème Calcul mental Exercices Vrai / Faux Q. C. M.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
Développement d’applications web
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
le profil UML en temps réel MARTE
1 Choisir une catégorie. Vous recevrez la réponse, vous devez donner la question. Cliquez pour commencer.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Virtual Local Area Network
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Titre : Implémentation des éléments finis sous Matlab
Pro Senectute Vaud Unité Centres de rencontre Centre Val Paisible Lausanne.
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
Académie de Créteil - B.C Quest-ce quune Inscription 1)1 action + 1 stagiaire + 1 client 2)Parcours individuel (avec son Prix de Vente) 3)Un financement.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
Gestion des bases de données
F Copyright © Oracle Corporation, Tous droits réservés. Créer des programmes avec Procedure Builder.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
Projet Génie Logiciel & UML, Bases de Données & Interfaces
PLD GHome H4214 Piccolo Thomas Gu Lei Deville Romain Huang Yachen
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
1. 2 PLAN DE LA PRÉSENTATION - SECTION 1 : Code HTML - SECTION 2.1. : CSS (Méthode 1) - SECTION 2.2. : CSS (Méthode 2) - SECTION 3 : JavaScript - SECTION.
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Titre : Implémentation des éléments finis en Matlab
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
JEE 5 F.Pfister 2 institut eerie JEE – Une plateforme serveur  Développement et exécution d'applications réparties.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Introduction.
CALENDRIER-PLAYBOY 2020.
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
Outil de gestion des cartes grises
Projet de stage d’année IIR4 sous le thème:
Les Chiffres Prêts?
1 Formation à l’usage éco-performant de votre pc 1 ère Partie.
Projet Implémentation du protocole MMT sous Linux
Partie II: Temps et évolution Energie et mouvements des particules
Introduction à SolidWorks
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Technologies web et web sémantique TP3 - XML. XML eXtensible Markup Language (langage extensible de balisage) – Caractéristiques: méta-langage = un langage.
1/20 19/04/2015 Visualisation et Navigation dans les Bases de Données dictionnairiques Mathieu Mangeot-Lerebours XRCE & GETA-CLIPS
Transcription de la présentation:

Mathieu Mangeot Lerebours Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue Mathieu Mangeot Lerebours GETA-CLIPS & XRCE Grenoble, France Mathieu.Mangeot@imag.fr Jeudi 27 septembre 2001

Situation Problème industriel Problème social pour la francophonie Projet EDR : dictionnaire ja-en de 300 000 articles, 1500 hommes/année, prix prohibitif Projet GENELEX : seulement 3000 articles publics Problème social pour la francophonie Manque de dictionnaires fr-autre langue Problème logique Comment créer des dictionnaires multilingues ? EURODICAUTOM fonctionne pour 12 langues mais c’est une base terminologique. GENELEX : dire plus d’infos : partenaires temps EDR, temps Progrès sur La récupération de dictionnaires (thèse de Haï Doan) La construction coopérative de dictionnaires EDict ja-en de Jim Breen SAIKAM ja-th Jeudi 27 septembre 2001

Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique"  et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001

Objectifs Concevoir un environnement qui permette : la manipulation de ressources hétérogènes Utilisation de ressources distantes Récupération de ressources existantes Export dans des formats variables la consultation de plusieurs ressources Par des humains et des machines la construction en collaboration sur Internet de ressources multilingues Jeudi 27 septembre 2001

Problèmes durs Unifier et réutiliser les ressources Structures internes hétérogènes Format commun ? Formalisme générique ? Visualisation d'une grande quantité de données Développer des ressources en collaboration Concevoir des outils accessibles et portables Contributeurs aux compétences variées Risque de pollution par contributions erronées Jeudi 27 septembre 2001

Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique"  et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001

Jeudi 27 septembre 2001

Consultation de ressources hétérogènes en ligne : DicoWeb Fichiers source au format d’origine (SGML) Temps de réponse très convenable (< 1s) Outil programmé en CGI Perl 270 lignes pour le module principal 1000 lignes en tout 1 mois de programmation Fréquentation du serveur à XRCE 110 requêtes/jour sur un intranet de 120 machines Jeudi 27 septembre 2001

Construction "démocratique" menu spécial boutons des macros Entrée UW Catégorie française Équivalent français Glose Catégorie anglaise Jeudi 27 septembre 2001

Construction en ligne Jeudi 27 septembre 2001

Personnalisation du résultat villes Jeudi 27 septembre 2001

Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique"  et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001

Idées forces Pour la manipulation des données Pour la consultation Formalisme souple et générique Technologie XML Pour la consultation Outils annexes : lemmatiseurs, conjugueurs, etc. Personnalisation du résultat des requêtes Annotation des articles Les idées forces viennent d'une série d'expérimentations préliminaires Pour la construction Droits d'accès (Utilisateurs et groupes) Contrôle des contributions (spécialistes lexicologues) Jeudi 27 septembre 2001

Architecture externe DicOrig DicDist Service Import Noyau Export DicGen Service API service API fournisseur Lemmatiseur Phonétiseur Ressource distante Serveur partenaire DicDist Articles Consulteurs Contributeur Lexicographe API consultation API modification API préférences Dire ce que j'ai fait : Après avoir raffiné l'architecture et défini des interfaces (API) ... Jeudi 27 septembre 2001

Manipulation avec le formalisme SUBLIM Architecture interne DicOrig SUBLIM = G. Sérasset Poids Historique Import Ressources locales Manipulation avec le formalisme SUBLIM Format propre Format DML Export PRODUCDIC Récupération et Export partiellement réglé : thèse de Haï avec les méthodes RÉCUPDIC et PRODUCDIC Manipulation des ressources partiellement réglé : thèse de Gilles avec le formalisme générique SUBLIM J'ai ajouté les éléments en bleu Spécialiste Lexicologue Administrateur Prefs Users & Groups Profils DicGen Jeudi 27 septembre 2001

Gestion des ressources Format propre DicDist Ressources locales Format DML Purgatoire DicRec2 DicRec1 Consultation DicRec3 Récupération Format S Paradis Intégration DicOrig DicRec4 Import Structure S Contrib1 Contrib5 Intégration Récupération = RÉCUPDIC Export = PRODUCDIC De Haï Doan Contrib2 Contrôle Contrib4 DicGen Export Contrib3 Jeudi 27 septembre 2001

Le formalisme SUBLIM LEXARD architecture lexicale, macrostructure Définition de bases lexicales contenant les dictionnaires Définition de dictionnaires monolingues, bilingues, etc. LINGARD architecture linguistique, microstructure Définitions d'objets linguistiques : arbres, graphes, automates, structures de traits, liens, fonctions, etc. Langage de vérification de contraintes sur les objets définis en LEXARD et LINGARD Microstructure = structure d’un article de dictionnaire Jeudi 27 septembre 2001

Exemple d'utilisation de LEXARD (define-monolingual-dictionary eng :language "English" :owner "GETA" ) (define-monolingual-dictionary fra :language "French" ... (define-interlingual-dictionary int :links (eng fra jpn tha) :owner "GETA") (define-lexical-database GETA-base :dictionaries (eng fra jpn tha int) :comment "base lexicale du GETA") Dictionnaire multilingue à structure pivot Fra Jpn Int Eng Tha Jeudi 27 septembre 2001

Extensions de SUBLIM Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Jeudi 27 septembre 2001

Extension de LEXARD Ajout d'un niveau : les volumes Ensemble d'objets linguistiques de même structure Ajout des utilisateurs et groupes Profils, préférences, annotations, contributions Ajout de méta-information sur les ressources Dates, domaine, taille, propriétaire, droits, etc. Ajout des API fournisseur, consultation, etc. Fra Eng Monolingue Bilingue Base lexicale Dictionnaires 1 volume 2 volumes Le volume = métaphore du livre Jeudi 27 septembre 2001

Extensions de SUBLIM (2) Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Besoin de descripteurs communs dans les dictionnaires => Définir un ensemble d'éléments communs ayant la même sémantique pour tous les dictionnaires Jeudi 27 septembre 2001

Éléments communs CDM Common Dictionary Markup Critères pragmatiques après une études des différentes normes (TEI, GENELEX, EAGLES, PAROLE, GENETER, etc) Les maisons d’édition n’utilisent pas ces normes, chacune définit ses propres unités d’information Jeudi 27 septembre 2001

Extensions de SUBLIM (3) Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Besoin de descripteurs communs dans les dictionnaires Définition de l’ensemble d’éléments communs CDM Gestion des données avec la technologie XML Jeudi 27 septembre 2001

Gestion des données avec XML Espace de noms DML (Dictionary Markup Language) <MyElement xmlns:dml="http://clips.imag.fr/geta/services/dml"> Types génériques Langue, date, durée, historique, ids, etc. Objets lexicaux de LEXARD++ Base lexicale, dico, volume, profils, prefs, API Objets linguistiques de LINGARD Arbre, graphe, automate, lien, fonction, etc. Sous-ensemble d'éléments communs CDM => Schéma XML de 1500 lignes pour DML Jeudi 27 septembre 2001

Exemple de représentation en XML : Le régime d'enseigner : X enseigne Y à Z à Vinf à N 4 Automate : N N à N 1 2 3 6   Régime = Réalisation syntaxique des arguments du prédicat 5 N (rare) Pierre enseigne la grammaire / à faire cela Pierre enseigne la grammaire à ses élèves Exemples : Jeudi 27 septembre 2001

Passage de SUBLIM à XML (def-linguistic-class régime  (feature-structure ( (automate automate-régime)    (exemples exemples-regime)) ) (def-linguistic-class automate-régime   automaton :arcs real-args) (def-linguistic-class exemples-régime  (set-of (feature-structure (    (réalisations (list-of (string))    (exemple string))) <element name="régime">  <complexType><sequence>    <element ref="automate-regime"/> <element ref="exemples-regime"/>   </sequence></complexType> </element> <element name="automate-regime" type="automaton"/> <complexType name="arcType"> <extension base="arcType"> <sequence>    <element name="real-args"/>   </sequence></extension> </complexType> <element name="exemples-regime"> <complexType><sequence>    <element name="realisations"/>    <element name="exemple"/> Jeudi 27 septembre 2001

Bilan sur l'environnement Notre environnement permet de : Récupérer, manipuler et exporter des ressources hétérogènes existantes Définir de nouvelles structures de dictionnaires Gérer des utilisateurs et groupes avec leurs préférences et leurs profils Construire, compléter et corriger des données lexicales en collecticiel et à distance avec contrôle Consulter plusieurs ressources hétérogènes en même temps avec des outils d'aide Jeudi 27 septembre 2001

Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique"  et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001

Une Application : le projet Papillon Objectif de départ : Dictionnaire multilingue incluant le français et le japonais Initiateurs : Emmanuel Planas, François Brown de Colstoun & Mutsuko Tomokiyo Motivations : Manque d'informations dans les ressources existantes (spécificateurs, kanji+kana+romaji) Très peu de ressources existantes Partenaires : National Institute of Informatics à Tokyo, Japon GETA-CLIPS à Grenoble Dicos existent mais pour des japonais: Pas utilisables par des français car que ecriture japonaise Et le petit fuji que romanisé Le CLIPS est un labo de communication langagière et interaction personne systèmes Le GETA est une équipe du CLIPS, c'est le Groupe d'étude sur la Traduction Automatique Jeudi 27 septembre 2001

Méthodologie de construction Récupération de ressources existantes Base DiCo (fr, 3 000 articles) FeM (fr-en-ms, 20 000 art; 70 000 lexies fr) JMDict (ja-en, 70 000 art), (ja-fr, 10 000 art) SAIKAM (th-ja, 4 000 art) Correction/ajout par des contributeurs bénévoles Disponibilité des ressources en logiciel libre Dictionnaires pour humains et machines FeM effort GETA et l’UTMK en Malaisie (Mathieu Lafourcade) Jeudi 27 septembre 2001

Intérêts scientifiques du projet Application concrète de notre environnement Personnalisation du résultat des requêtes Enrichissement de la consultation Mise au point des interfaces utilisateurs Dictionnaire à structure pivot Utilisation de liens interlingues ou axies Développement de dictionnaires en communauté Paradigme de construction de LINUX Profils et préférences utilisateurs Jeudi 27 septembre 2001

Couche de présentation Architecture externe Couche données (data) Couche de travail (business) Serveur Enhydra Web dynamique HTML + CSS + Applet Java Manipulant des données XML Listes de distribution Couche de présentation (presentation) MHonArc SGBD Relationnel PostgreSQL (UNICODE) table d'objets XML Instanciation de l'architecture générale => collaboratif sur le Web Intégré dans un environnement plus large - listes de distribution - site Web avec possibilité de mise à jour en ligne Schéma XML de Papillon : 1300 lignes Pour mes expériences, les fichiers XML conviennent, quand ça devient très gros, il faut des BD. Comment avoir les avantages et pas les inconvénients : On découpe les fichiers XML et on les stocke en petits bouts. On gère le tout avec l’environnement en se plaçant au dessus Il y a une seule table dans laquelle on stocke tous les bouts de dicos. Table avec un champ ID et un autre champ = l’objet texte XML Table pour l’historique Table pour les poids Jeudi 27 septembre 2001

Gestion des ressources Papillon DicDist Format propre Ressources locales Format DML Soupe lexicale FeM SAIKAM Consultation JMDict Récupération Intégration Format Papillon DicOrig DiCo Import Contrib1 Spap Expliquer soupe lexicale Expliquer le purgatoire + structure Papillon Contrib5 Contrib2 Intégration Contrôle Contrib4 DicGen Export Contrib3 Jeudi 27 septembre 2001

Macrostructure de la base DiCo français DiCo anglais lexie affection Vocable affection N Vocable affection n.f. lexie affection.1 (tendresse) lexie affection.2 (médecine) Liens interlingues Liens de raffinement Vocable disease N lexie disease 1 concept = 3 acceptions Vocable maladie n.f. lexie maladie 病気 【びょうき】 DiCo japonais Dire le mot japonais Les liens entre lexies de différentes langues sont constatés sur des liens de traduction. Les liens de raffinement sont des étapes intermédiaires L'acception est motivée par des critères proches de la syntaxe L'onomasiologie est une étude sémantique des dénominations. Elle part du concept et recherche les signes linguistiques qui lui correspondent. Par opposition la sémasiologie est une étude qui part du signe pour aller vers la détermination du concept. C'est dire que la démarche sémasiologique type est celle de la lexicologie structurale, visant à représenter des structures (axe paradigmatique et axe syntagmatique) rendant compte d'une unité lexicale. Jeudi 27 septembre 2001

Article monolingue : lexie Nom de l'unité lexicale : MEURTRE Propriétés grammaticales : nom, masc Formule sémantique : action de tuer: ~ PAR L'individu X DE L'individu Y Régime : X = I = de N, A-poss Y = II = de N, A-poss Fonctions lexicales : {QSyn} assassinat, homicide#1; crime/*Quasi synonymes*/ {Oper1} accomplir, commettre, perpétrer [ART ~]; tremper [dans ART ~] /*Causer que X fasse un M.*/ {S1} auteur [de ART Ø] // meurtrier-n /*Nom pour X*/ {S2} victime [de ART Ø] /*Nom pour Y*/ Exemples : La mésentente pourrait être le mobile du meurtre. Idiomes : _appel au meurtre_ _crier au meurtre_ Lien vers une acception interlingue axie Il y a d’autres infos : un id, des poids, chaque chaîne est en fait un doublet écriture/prononciation, etc. Si on a 2 résultats différents pour une meme FL sur un mot : On en fait 2 lexies exemple : A0(Blanchir) = blanchissage / blanchiment Structure DiCo d'Alain Polguère dérivée du DEC d'Igor Mel'čuk Jeudi 27 septembre 2001

Article interlingue : axie <axie id="a01">   <semantic-cat>entity</semantic-cat>   <fra>     <reflexie href="meurtre$1"/>   </fra>   <eng>     <reflexie href="murder$1"/>   </eng>   <external-references>     <UNL resource="UNL-fr.unl">       <uw>murder(icl>action,agt>human,obj>human)</uw>     </UNL>     <WordNet resource="Wordnet.txt">       <synset>00143589</synset>     </WordNet>   </external-references> </axie> Jeudi 27 septembre 2001

Interface de consultation Implémentation pour Papillon Fonctionnalités limitées , effort minimal sur l'interface de consultation permettant le test de la personnalisation du résultat. Jeudi 27 septembre 2001

Présentation à la DEC Jeudi 27 septembre 2001

Présentation compacte (LAF) Expliquer le LAF Dico d’usage papier généré à partir de DiCo Jeudi 27 septembre 2001

Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique"  et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001

Principes dégagés devant ce travail Gestion des données Héritage Traçabilité Protection des données Structuration logique Exhaustivité Abstraction du niveau de données Aspect collaboratif Mutualisation Consultation gratuite Personnalisation générale Mise en œuvre Récupération totale Réciprocité Jeudi 27 septembre 2001

Problèmes restants à résoudre Interfaces pour lexicologues Pour récupérer et exporter des ressources Pour spécifier des structures de dictionnaires Pour visualiser et contrôler le contenu de la base Gestion des liens interlingues (axies) Automatiser la fusion des liens Calcul automatique des profils utilisateurs Intérêts, compétences, réalisations Jeudi 27 septembre 2001

Perspectives à court terme PostDoc sur le projet Papillon à Tokyo : Implémentation du serveur Préparation de la soupe lexicale Récupérer des ressources existantes et les convertir Recherche sur les interfaces pour lexicologues : manipulation des ressources pour consulteurs : spécifier ses préférences pour contributeurs : contribuer sur des articles en ligne Jeudi 27 septembre 2001