La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Mathieu Mangeot Lerebours

Présentations similaires


Présentation au sujet: "Mathieu Mangeot Lerebours"— Transcription de la présentation:

1 Mathieu Mangeot Lerebours
Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue Mathieu Mangeot Lerebours GETA-CLIPS & XRCE Grenoble, France Jeudi 27 septembre 2001

2 Situation Problème industriel Problème social pour la francophonie
Projet EDR : dictionnaire ja-en de articles, 1500 hommes/année, prix prohibitif Projet GENELEX : seulement 3000 articles publics Problème social pour la francophonie Manque de dictionnaires fr-autre langue Problème logique Comment créer des dictionnaires multilingues ? EURODICAUTOM fonctionne pour 12 langues mais c’est une base terminologique. GENELEX : dire plus d’infos : partenaires temps EDR, temps Progrès sur La récupération de dictionnaires (thèse de Haï Doan) La construction coopérative de dictionnaires EDict ja-en de Jim Breen SAIKAM ja-th Jeudi 27 septembre 2001

3 Plan de l'exposé Présentation de la problématique
Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique"  et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001

4 Objectifs Concevoir un environnement qui permette :
la manipulation de ressources hétérogènes Utilisation de ressources distantes Récupération de ressources existantes Export dans des formats variables la consultation de plusieurs ressources Par des humains et des machines la construction en collaboration sur Internet de ressources multilingues Jeudi 27 septembre 2001

5 Problèmes durs Unifier et réutiliser les ressources
Structures internes hétérogènes Format commun ? Formalisme générique ? Visualisation d'une grande quantité de données Développer des ressources en collaboration Concevoir des outils accessibles et portables Contributeurs aux compétences variées Risque de pollution par contributions erronées Jeudi 27 septembre 2001

6 Plan de l'exposé Présentation de la problématique
Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique"  et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001

7 Jeudi 27 septembre 2001

8 Consultation de ressources hétérogènes en ligne : DicoWeb
Fichiers source au format d’origine (SGML) Temps de réponse très convenable (< 1s) Outil programmé en CGI Perl 270 lignes pour le module principal 1000 lignes en tout 1 mois de programmation Fréquentation du serveur à XRCE 110 requêtes/jour sur un intranet de 120 machines Jeudi 27 septembre 2001

9 Construction "démocratique"
menu spécial boutons des macros Entrée UW Catégorie française Équivalent français Glose Catégorie anglaise Jeudi 27 septembre 2001

10 Construction en ligne Jeudi 27 septembre 2001

11 Personnalisation du résultat
villes Jeudi 27 septembre 2001

12 Plan de l'exposé Présentation de la problématique
Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique"  et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001

13 Idées forces Pour la manipulation des données Pour la consultation
Formalisme souple et générique Technologie XML Pour la consultation Outils annexes : lemmatiseurs, conjugueurs, etc. Personnalisation du résultat des requêtes Annotation des articles Les idées forces viennent d'une série d'expérimentations préliminaires Pour la construction Droits d'accès (Utilisateurs et groupes) Contrôle des contributions (spécialistes lexicologues) Jeudi 27 septembre 2001

14 Architecture externe DicOrig DicDist Service Import Noyau Export
DicGen Service API service API fournisseur Lemmatiseur Phonétiseur Ressource distante Serveur partenaire DicDist Articles Consulteurs Contributeur Lexicographe API consultation API modification API préférences Dire ce que j'ai fait : Après avoir raffiné l'architecture et défini des interfaces (API) ... Jeudi 27 septembre 2001

15 Manipulation avec le formalisme SUBLIM
Architecture interne DicOrig SUBLIM = G. Sérasset Poids Historique Import Ressources locales Manipulation avec le formalisme SUBLIM Format propre Format DML Export PRODUCDIC Récupération et Export partiellement réglé : thèse de Haï avec les méthodes RÉCUPDIC et PRODUCDIC Manipulation des ressources partiellement réglé : thèse de Gilles avec le formalisme générique SUBLIM J'ai ajouté les éléments en bleu Spécialiste Lexicologue Administrateur Prefs Users & Groups Profils DicGen Jeudi 27 septembre 2001

16 Gestion des ressources
Format propre DicDist Ressources locales Format DML Purgatoire DicRec2 DicRec1 Consultation DicRec3 Récupération Format S Paradis Intégration DicOrig DicRec4 Import Structure S Contrib1 Contrib5 Intégration Récupération = RÉCUPDIC Export = PRODUCDIC De Haï Doan Contrib2 Contrôle Contrib4 DicGen Export Contrib3 Jeudi 27 septembre 2001

17 Le formalisme SUBLIM LEXARD architecture lexicale, macrostructure
Définition de bases lexicales contenant les dictionnaires Définition de dictionnaires monolingues, bilingues, etc. LINGARD architecture linguistique, microstructure Définitions d'objets linguistiques : arbres, graphes, automates, structures de traits, liens, fonctions, etc. Langage de vérification de contraintes sur les objets définis en LEXARD et LINGARD Microstructure = structure d’un article de dictionnaire Jeudi 27 septembre 2001

18 Exemple d'utilisation de LEXARD
(define-monolingual-dictionary eng :language "English" :owner "GETA" ) (define-monolingual-dictionary fra :language "French" ... (define-interlingual-dictionary int :links (eng fra jpn tha) :owner "GETA") (define-lexical-database GETA-base :dictionaries (eng fra jpn tha int) :comment "base lexicale du GETA") Dictionnaire multilingue à structure pivot Fra Jpn Int Eng Tha Jeudi 27 septembre 2001

19 Extensions de SUBLIM Extension du langage LEXARD
Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Jeudi 27 septembre 2001

20 Extension de LEXARD Ajout d'un niveau : les volumes
Ensemble d'objets linguistiques de même structure Ajout des utilisateurs et groupes Profils, préférences, annotations, contributions Ajout de méta-information sur les ressources Dates, domaine, taille, propriétaire, droits, etc. Ajout des API fournisseur, consultation, etc. Fra Eng Monolingue Bilingue Base lexicale Dictionnaires 1 volume 2 volumes Le volume = métaphore du livre Jeudi 27 septembre 2001

21 Extensions de SUBLIM (2)
Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Besoin de descripteurs communs dans les dictionnaires => Définir un ensemble d'éléments communs ayant la même sémantique pour tous les dictionnaires Jeudi 27 septembre 2001

22 Éléments communs CDM Common Dictionary Markup
Critères pragmatiques après une études des différentes normes (TEI, GENELEX, EAGLES, PAROLE, GENETER, etc) Les maisons d’édition n’utilisent pas ces normes, chacune définit ses propres unités d’information Jeudi 27 septembre 2001

23 Extensions de SUBLIM (3)
Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Besoin de descripteurs communs dans les dictionnaires Définition de l’ensemble d’éléments communs CDM Gestion des données avec la technologie XML Jeudi 27 septembre 2001

24 Gestion des données avec XML
Espace de noms DML (Dictionary Markup Language) <MyElement xmlns:dml=" Types génériques Langue, date, durée, historique, ids, etc. Objets lexicaux de LEXARD++ Base lexicale, dico, volume, profils, prefs, API Objets linguistiques de LINGARD Arbre, graphe, automate, lien, fonction, etc. Sous-ensemble d'éléments communs CDM => Schéma XML de 1500 lignes pour DML Jeudi 27 septembre 2001

25 Exemple de représentation en XML : Le régime d'enseigner : X enseigne Y à Z
à Vinf à N 4 Automate : N N à N 1 2 3 6 Régime = Réalisation syntaxique des arguments du prédicat 5 N (rare) Pierre enseigne la grammaire / à faire cela Pierre enseigne la grammaire à ses élèves Exemples : Jeudi 27 septembre 2001

26 Passage de SUBLIM à XML (def-linguistic-class régime
 (feature-structure ( (automate automate-régime)    (exemples exemples-regime)) ) (def-linguistic-class automate-régime   automaton :arcs real-args) (def-linguistic-class exemples-régime  (set-of (feature-structure (    (réalisations (list-of (string))    (exemple string))) <element name="régime">  <complexType><sequence>    <element ref="automate-regime"/> <element ref="exemples-regime"/>   </sequence></complexType> </element> <element name="automate-regime" type="automaton"/> <complexType name="arcType"> <extension base="arcType"> <sequence>    <element name="real-args"/>   </sequence></extension> </complexType> <element name="exemples-regime"> <complexType><sequence>    <element name="realisations"/>    <element name="exemple"/> Jeudi 27 septembre 2001

27 Bilan sur l'environnement
Notre environnement permet de : Récupérer, manipuler et exporter des ressources hétérogènes existantes Définir de nouvelles structures de dictionnaires Gérer des utilisateurs et groupes avec leurs préférences et leurs profils Construire, compléter et corriger des données lexicales en collecticiel et à distance avec contrôle Consulter plusieurs ressources hétérogènes en même temps avec des outils d'aide Jeudi 27 septembre 2001

28 Plan de l'exposé Présentation de la problématique
Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique"  et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001

29 Une Application : le projet Papillon
Objectif de départ : Dictionnaire multilingue incluant le français et le japonais Initiateurs : Emmanuel Planas, François Brown de Colstoun & Mutsuko Tomokiyo Motivations : Manque d'informations dans les ressources existantes (spécificateurs, kanji+kana+romaji) Très peu de ressources existantes Partenaires : National Institute of Informatics à Tokyo, Japon GETA-CLIPS à Grenoble Dicos existent mais pour des japonais: Pas utilisables par des français car que ecriture japonaise Et le petit fuji que romanisé Le CLIPS est un labo de communication langagière et interaction personne systèmes Le GETA est une équipe du CLIPS, c'est le Groupe d'étude sur la Traduction Automatique Jeudi 27 septembre 2001

30 Méthodologie de construction
Récupération de ressources existantes Base DiCo (fr, articles) FeM (fr-en-ms, art; lexies fr) JMDict (ja-en, art), (ja-fr, art) SAIKAM (th-ja, art) Correction/ajout par des contributeurs bénévoles Disponibilité des ressources en logiciel libre Dictionnaires pour humains et machines FeM effort GETA et l’UTMK en Malaisie (Mathieu Lafourcade) Jeudi 27 septembre 2001

31 Intérêts scientifiques du projet
Application concrète de notre environnement Personnalisation du résultat des requêtes Enrichissement de la consultation Mise au point des interfaces utilisateurs Dictionnaire à structure pivot Utilisation de liens interlingues ou axies Développement de dictionnaires en communauté Paradigme de construction de LINUX Profils et préférences utilisateurs Jeudi 27 septembre 2001

32 Couche de présentation
Architecture externe Couche données (data) Couche de travail (business) Serveur Enhydra Web dynamique HTML + CSS + Applet Java Manipulant des données XML Listes de distribution Couche de présentation (presentation) MHonArc SGBD Relationnel PostgreSQL (UNICODE) table d'objets XML Instanciation de l'architecture générale => collaboratif sur le Web Intégré dans un environnement plus large - listes de distribution - site Web avec possibilité de mise à jour en ligne Schéma XML de Papillon : 1300 lignes Pour mes expériences, les fichiers XML conviennent, quand ça devient très gros, il faut des BD. Comment avoir les avantages et pas les inconvénients : On découpe les fichiers XML et on les stocke en petits bouts. On gère le tout avec l’environnement en se plaçant au dessus Il y a une seule table dans laquelle on stocke tous les bouts de dicos. Table avec un champ ID et un autre champ = l’objet texte XML Table pour l’historique Table pour les poids Jeudi 27 septembre 2001

33 Gestion des ressources Papillon
DicDist Format propre Ressources locales Format DML Soupe lexicale FeM SAIKAM Consultation JMDict Récupération Intégration Format Papillon DicOrig DiCo Import Contrib1 Spap Expliquer soupe lexicale Expliquer le purgatoire + structure Papillon Contrib5 Contrib2 Intégration Contrôle Contrib4 DicGen Export Contrib3 Jeudi 27 septembre 2001

34 Macrostructure de la base
DiCo français DiCo anglais lexie affection Vocable affection N Vocable affection n.f. lexie affection.1 (tendresse) lexie affection.2 (médecine) Liens interlingues Liens de raffinement Vocable disease N lexie disease 1 concept = 3 acceptions Vocable maladie n.f. lexie maladie 病気 【びょうき】 DiCo japonais Dire le mot japonais Les liens entre lexies de différentes langues sont constatés sur des liens de traduction. Les liens de raffinement sont des étapes intermédiaires L'acception est motivée par des critères proches de la syntaxe L'onomasiologie est une étude sémantique des dénominations. Elle part du concept et recherche les signes linguistiques qui lui correspondent. Par opposition la sémasiologie est une étude qui part du signe pour aller vers la détermination du concept. C'est dire que la démarche sémasiologique type est celle de la lexicologie structurale, visant à représenter des structures (axe paradigmatique et axe syntagmatique) rendant compte d'une unité lexicale. Jeudi 27 septembre 2001

35 Article monolingue : lexie
Nom de l'unité lexicale : MEURTRE Propriétés grammaticales : nom, masc Formule sémantique : action de tuer: ~ PAR L'individu X DE L'individu Y Régime : X = I = de N, A-poss Y = II = de N, A-poss Fonctions lexicales : {QSyn} assassinat, homicide#1; crime/*Quasi synonymes*/ {Oper1} accomplir, commettre, perpétrer [ART ~]; tremper [dans ART ~] /*Causer que X fasse un M.*/ {S1} auteur [de ART Ø] // meurtrier-n /*Nom pour X*/ {S2} victime [de ART Ø] /*Nom pour Y*/ Exemples : La mésentente pourrait être le mobile du meurtre. Idiomes : _appel au meurtre_ _crier au meurtre_ Lien vers une acception interlingue axie Il y a d’autres infos : un id, des poids, chaque chaîne est en fait un doublet écriture/prononciation, etc. Si on a 2 résultats différents pour une meme FL sur un mot : On en fait 2 lexies exemple : A0(Blanchir) = blanchissage / blanchiment Structure DiCo d'Alain Polguère dérivée du DEC d'Igor Mel'čuk Jeudi 27 septembre 2001

36 Article interlingue : axie
<axie id="a01">   <semantic-cat>entity</semantic-cat>   <fra>     <reflexie href="meurtre$1"/>   </fra>   <eng>     <reflexie href="murder$1"/>   </eng>   <external-references>     <UNL resource="UNL-fr.unl">       <uw>murder(icl>action,agt>human,obj>human)</uw>     </UNL>     <WordNet resource="Wordnet.txt">       <synset> </synset>     </WordNet>   </external-references> </axie> Jeudi 27 septembre 2001

37 Interface de consultation
Implémentation pour Papillon Fonctionnalités limitées , effort minimal sur l'interface de consultation permettant le test de la personnalisation du résultat. Jeudi 27 septembre 2001

38 Présentation à la DEC Jeudi 27 septembre 2001

39 Présentation compacte (LAF)
Expliquer le LAF Dico d’usage papier généré à partir de DiCo Jeudi 27 septembre 2001

40 Plan de l'exposé Présentation de la problématique
Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique"  et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001

41 Principes dégagés devant ce travail
Gestion des données Héritage Traçabilité Protection des données Structuration logique Exhaustivité Abstraction du niveau de données Aspect collaboratif Mutualisation Consultation gratuite Personnalisation générale Mise en œuvre Récupération totale Réciprocité Jeudi 27 septembre 2001

42 Problèmes restants à résoudre
Interfaces pour lexicologues Pour récupérer et exporter des ressources Pour spécifier des structures de dictionnaires Pour visualiser et contrôler le contenu de la base Gestion des liens interlingues (axies) Automatiser la fusion des liens Calcul automatique des profils utilisateurs Intérêts, compétences, réalisations Jeudi 27 septembre 2001

43 Perspectives à court terme
PostDoc sur le projet Papillon à Tokyo : Implémentation du serveur Préparation de la soupe lexicale Récupérer des ressources existantes et les convertir Recherche sur les interfaces pour lexicologues : manipulation des ressources pour consulteurs : spécifier ses préférences pour contributeurs : contribuer sur des articles en ligne Jeudi 27 septembre 2001


Télécharger ppt "Mathieu Mangeot Lerebours"

Présentations similaires


Annonces Google