La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1/43Jeudi 27 septembre 2001 Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue Mathieu Mangeot Lerebours.

Présentations similaires


Présentation au sujet: "1/43Jeudi 27 septembre 2001 Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue Mathieu Mangeot Lerebours."— Transcription de la présentation:

1 1/43Jeudi 27 septembre 2001 Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue Mathieu Mangeot Lerebours GETA-CLIPS & XRCE Grenoble, France

2 2/43Jeudi 27 septembre 2001 Situation Problème industriel Projet EDR : dictionnaire ja-en de articles, 1500 hommes/année, prix prohibitif Projet GENELEX : seulement 3000 articles publics Problème social pour la francophonie Manque de dictionnaires fr-autre langue Problème logique Comment créer des dictionnaires multilingues ? EURODICAUTOM fonctionne pour 12 langues mais cest une base terminologique. Progrès sur La récupération de dictionnaires (thèse de Haï Doan) La construction coopérative de dictionnaires EDict ja-en de Jim Breen SAIKAM ja-th

3 3/43Jeudi 27 septembre 2001 Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives

4 4/43Jeudi 27 septembre 2001 Objectifs Concevoir un environnement qui permette : la manipulation de ressources hétérogènes Utilisation de ressources distantes Récupération de ressources existantes Export dans des formats variables la consultation de plusieurs ressources Par des humains et des machines la construction en collaboration sur Internet de ressources multilingues

5 5/43Jeudi 27 septembre 2001 Problèmes durs Unifier et réutiliser les ressources Structures internes hétérogènes Format commun ? Formalisme générique ? Visualisation d'une grande quantité de données Développer des ressources en collaboration Concevoir des outils accessibles et portables Contributeurs aux compétences variées Risque de pollution par contributions erronées

6 6/43Jeudi 27 septembre 2001 Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives

7 7/43Jeudi 27 septembre 2001

8 8/43Jeudi 27 septembre 2001 Consultation de ressources hétérogènes en ligne : DicoWeb Fichiers source au format dorigine (SGML) Temps de réponse très convenable (< 1s) Outil programmé en CGI Perl 270 lignes pour le module principal 1000 lignes en tout 1 mois de programmation Fréquentation du serveur à XRCE 110 requêtes/jour sur un intranet de 120 machines

9 9/43Jeudi 27 septembre 2001 Construction "démocratique" Glose Catégorie anglaise Entrée UW Catégorie française Équivalent français menu spécial boutons des macros

10 10/43Jeudi 27 septembre 2001 Construction en ligne

11 11/43Jeudi 27 septembre 2001 Personnalisation du résultat villes

12 12/43Jeudi 27 septembre 2001 Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives

13 13/43Jeudi 27 septembre 2001 Idées forces Pour la manipulation des données Formalisme souple et générique Technologie XML Pour la consultation Outils annexes : lemmatiseurs, conjugueurs, etc. Personnalisation du résultat des requêtes Annotation des articles Pour la construction Droits d'accès (Utilisateurs et groupes) Contrôle des contributions (spécialistes lexicologues)

14 14/43Jeudi 27 septembre 2001 Architecture externe Service API service API fournisseur Lemmatiseur Phonétiseur Ressource distante Serveur partenaire DicDist Noyau Import Export DicOrig DicGen Articles Consulteurs Contributeur Lexicographe API consultationAPI modificationAPI préférences Articles

15 15/43Jeudi 27 septembre 2001 Architecture interne Import Ressources locales DicOrig DicGen Administrateur Prefs Users & Groups Profils Export PRODUCDIC Spécialiste Lexicologue SUBLIM = G. Sérasset Poids Historique Format propre Format DML Manipulation avec le formalisme SUBLIM

16 16/43Jeudi 27 septembre 2001 Gestion des ressources Ressources locales Export Intégration Récupération DicDist DicOrig DicGen Contrib1 Contrib2 Contrib5 DicRec3 Contrib3 Contrib4 Contrôle Format propre Format DML Purgatoire Format S Paradis Import Intégration Structure S DicRec2 DicRec1 DicRec4 Récupération = R É CUPDIC Export = PRODUCDIC De Haï Doan Consultation

17 17/43Jeudi 27 septembre 2001 Le formalisme SUBLIM LEXARD architecture lexicale, macrostructure Définition de bases lexicales contenant les dictionnaires Définition de dictionnaires monolingues, bilingues, etc. LINGARD architecture linguistique, microstructure Définitions d'objets linguistiques : arbres, graphes, automates, structures de traits, liens, fonctions, etc. Langage de vérification de contraintes sur les objets définis en LEXARD et LINGARD

18 18/43Jeudi 27 septembre 2001 Exemple d'utilisation de LEXARD Fra EngTha Jpn Int Dictionnaire multilingue à structure pivot (define-monolingual-dictionary eng :language "English" :owner "GETA" ) (define-monolingual-dictionary fra :language "French" :owner "GETA" )... (define-interlingual-dictionary int :links (eng fra jpn tha) :owner "GETA") (define-lexical-database GETA-base :dictionaries (eng fra jpn tha int) :owner "GETA" :comment "base lexicale du GETA")

19 19/43Jeudi 27 septembre 2001 Extensions de SUBLIM Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources

20 20/43Jeudi 27 septembre 2001 Extension de LEXARD Ajout d'un niveau : les volumes Ensemble d'objets linguistiques de même structure Ajout des utilisateurs et groupes Profils, préférences, annotations, contributions Ajout de méta-information sur les ressources Dates, domaine, taille, propriétaire, droits, etc. Ajout des API fournisseur, consultation, etc. Fra Eng Fra Eng Monolingue Bilingue Base lexicale Dictionnaires Eng Fra Eng Fra Eng 1 volume2 volumes

21 21/43Jeudi 27 septembre 2001 Extensions de SUBLIM (2) Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Besoin de descripteurs communs dans les dictionnaires => Définir un ensemble d'éléments communs ayant la même sémantique pour tous les dictionnaires

22 22/43Jeudi 27 septembre 2001 Éléments communs CDM Common Dictionary Markup

23 23/43Jeudi 27 septembre 2001 Extensions de SUBLIM (3) Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Besoin de descripteurs communs dans les dictionnaires Définition de lensemble déléments communs CDM Gestion des données avec la technologie XML

24 24/43Jeudi 27 septembre 2001 Gestion des données avec XML Espace de noms DML (Dictionary Markup Language) Types génériques Langue, date, durée, historique, ids, etc. Objets lexicaux de LEXARD++ Base lexicale, dico, volume, profils, prefs, API Objets linguistiques de LINGARD Arbre, graphe, automate, lien, fonction, etc. Sous-ensemble d'éléments communs CDM => Schéma XML de 1500 lignes pour DML

25 25/43Jeudi 27 septembre 2001 Exemple de représentation en XML : Le régime d'enseigner : X enseigne Y à Z Pierre enseigne la grammaire / à faire cela Pierre enseigne la grammaire à ses élèves Automate : Exemples : X YZ NNà N N (rare) à Vinf

26 26/43Jeudi 27 septembre 2001 Passage de SUBLIM à XML (def-linguistic-class régime (feature-structure ( (automate automate-régime) (exemples exemples-regime)) ) (def-linguistic-class automate- régime automaton :arcs real-args) ) (def-linguistic-class exemples- régime (set-of (feature-structure ( (réalisations (list-of (string)) (exemple string))) )

27 27/43Jeudi 27 septembre 2001 Bilan sur l'environnement Notre environnement permet de : Récupérer, manipuler et exporter des ressources hétérogènes existantes Définir de nouvelles structures de dictionnaires Gérer des utilisateurs et groupes avec leurs préférences et leurs profils Construire, compléter et corriger des données lexicales en collecticiel et à distance avec contrôle Consulter plusieurs ressources hétérogènes en même temps avec des outils d'aide

28 28/43Jeudi 27 septembre 2001 Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives

29 29/43Jeudi 27 septembre 2001 Une Application : le projet Papillon Objectif de départ : Dictionnaire multilingue incluant le français et le japonais Initiateurs : Emmanuel Planas, François Brown de Colstoun & Mutsuko Tomokiyo Motivations : Manque d'informations dans les ressources existantes (spécificateurs, kanji+kana+romaji) Très peu de ressources existantes Partenaires : National Institute of Informatics à Tokyo, Japon GETA-CLIPS à Grenoble

30 30/43Jeudi 27 septembre 2001 Méthodologie de construction Récupération de ressources existantes Base DiCo (fr, articles) FeM (fr-en-ms, art; lexies fr) JMDict (ja-en, art), (ja-fr, art) SAIKAM (th-ja, art) Correction/ajout par des contributeurs bénévoles Disponibilité des ressources en logiciel libre Dictionnaires pour humains et machines

31 31/43Jeudi 27 septembre 2001 Intérêts scientifiques du projet Application concrète de notre environnement Personnalisation du résultat des requêtes Enrichissement de la consultation Mise au point des interfaces utilisateurs Dictionnaire à structure pivot Utilisation de liens interlingues ou axies Développement de dictionnaires en communauté Paradigme de construction de LINUX Profils et préférences utilisateurs

32 32/43Jeudi 27 septembre 2001 Architecture externe Couche données (data) Couche de travail (business) Serveur Enhydra Web dynamique Couche de présentation (presentation) MHonArc HTML + CSS + Applet Java Manipulant des données XML Listes de distribution SGBD Relationnel PostgreSQL (UNICODE) table d'objets XML SGBD

33 33/43Jeudi 27 septembre 2001 Gestion des ressources Papillon Ressources locales Export Intégration Récupération DicDist DicOrig DicGen Contrib1 Contrib2 Contrib5 FeM JMDict SAIKAM DiCo Contrib3 Contrib4 Contrôle Format propre Format DML Soupe lexicale Format Papillon Import Intégration S pap Consultation

34 34/43Jeudi 27 septembre 2001 Macrostructure de la base DiCo français Vocable affection n.f. lexie affection.1 (tendresse) lexie affection.2 (médecine) Liens interlingues lexie maladie Vocable maladie n.f. Liens de raffinement 1 concept = 3 acceptions DiCo anglais Vocable disease N lexie disease lexie affection Vocable affection N DiCo japonais

35 35/43Jeudi 27 septembre 2001 Article monolingue : lexie Nom de l'unité lexicale : MEURTRE Propriétés grammaticales : nom, masc Formule sémantique : action de tuer: ~ PAR L'individu X DE L'individu Y Régime : X = I = de N, A-poss Y = II = de N, A-poss Fonctions lexicales : {QSyn} assassinat, homicide#1; crime/*Quasi synonymes*/ {Oper1} accomplir, commettre, perpétrer [ART ~]; tremper [dans ART ~] /*Causer que X fasse un M.*/ {S1} auteur [de ART Ø] // meurtrier-n /*Nom pour X*/ {S2} victime [de ART Ø] /*Nom pour Y*/ Exemples : La mésentente pourrait être le mobile du meurtre. Idiomes : _appel au meurtre_ _crier au meurtre_ Lien vers une acception interlingue axie Structure DiCo d'Alain Polguère dérivée du DEC d'Igor Mel'čuk

36 36/43Jeudi 27 septembre 2001 Article interlingue : axie entity murder(icl>action,agt>human,obj>human)

37 37/43Jeudi 27 septembre 2001 Interface de consultation

38 38/43Jeudi 27 septembre 2001 Présentation à la DEC

39 39/43Jeudi 27 septembre 2001 Présentation compacte (LAF)

40 40/43Jeudi 27 septembre 2001 Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives

41 41/43Jeudi 27 septembre 2001 Principes dégagés devant ce travail Aspect collaboratif Mutualisation Consultation gratuite Personnalisation générale Gestion des données Héritage Traçabilité Protection des données Structuration logique Exhaustivité Abstraction du niveau de données Mise en œuvre Récupération totale Réciprocité

42 42/43Jeudi 27 septembre 2001 Problèmes restants à résoudre Interfaces pour lexicologues Pour récupérer et exporter des ressources Pour spécifier des structures de dictionnaires Pour visualiser et contrôler le contenu de la base Gestion des liens interlingues (axies) Automatiser la fusion des liens Calcul automatique des profils utilisateurs Intérêts, compétences, réalisations

43 43/43Jeudi 27 septembre 2001 Perspectives à court terme PostDoc sur le projet Papillon à Tokyo : Implémentation du serveur Préparation de la soupe lexicale Récupérer des ressources existantes et les convertir Recherche sur les interfaces pour lexicologues : manipulation des ressources pour consulteurs : spécifier ses préférences pour contributeurs : contribuer sur des articles en ligne


Télécharger ppt "1/43Jeudi 27 septembre 2001 Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue Mathieu Mangeot Lerebours."

Présentations similaires


Annonces Google