Mathieu Mangeot Lerebours Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue Mathieu Mangeot Lerebours GETA-CLIPS & XRCE Grenoble, France Mathieu.Mangeot@imag.fr Jeudi 27 septembre 2001
Situation Problème industriel Problème social pour la francophonie Projet EDR : dictionnaire ja-en de 300 000 articles, 1500 hommes/année, prix prohibitif Projet GENELEX : seulement 3000 articles publics Problème social pour la francophonie Manque de dictionnaires fr-autre langue Problème logique Comment créer des dictionnaires multilingues ? EURODICAUTOM fonctionne pour 12 langues mais c’est une base terminologique. GENELEX : dire plus d’infos : partenaires temps EDR, temps Progrès sur La récupération de dictionnaires (thèse de Haï Doan) La construction coopérative de dictionnaires EDict ja-en de Jim Breen SAIKAM ja-th Jeudi 27 septembre 2001
Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001
Objectifs Concevoir un environnement qui permette : la manipulation de ressources hétérogènes Utilisation de ressources distantes Récupération de ressources existantes Export dans des formats variables la consultation de plusieurs ressources Par des humains et des machines la construction en collaboration sur Internet de ressources multilingues Jeudi 27 septembre 2001
Problèmes durs Unifier et réutiliser les ressources Structures internes hétérogènes Format commun ? Formalisme générique ? Visualisation d'une grande quantité de données Développer des ressources en collaboration Concevoir des outils accessibles et portables Contributeurs aux compétences variées Risque de pollution par contributions erronées Jeudi 27 septembre 2001
Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001
Jeudi 27 septembre 2001
Consultation de ressources hétérogènes en ligne : DicoWeb Fichiers source au format d’origine (SGML) Temps de réponse très convenable (< 1s) Outil programmé en CGI Perl 270 lignes pour le module principal 1000 lignes en tout 1 mois de programmation Fréquentation du serveur à XRCE 110 requêtes/jour sur un intranet de 120 machines Jeudi 27 septembre 2001
Construction "démocratique" menu spécial boutons des macros Entrée UW Catégorie française Équivalent français Glose Catégorie anglaise Jeudi 27 septembre 2001
Construction en ligne Jeudi 27 septembre 2001
Personnalisation du résultat villes Jeudi 27 septembre 2001
Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001
Idées forces Pour la manipulation des données Pour la consultation Formalisme souple et générique Technologie XML Pour la consultation Outils annexes : lemmatiseurs, conjugueurs, etc. Personnalisation du résultat des requêtes Annotation des articles Les idées forces viennent d'une série d'expérimentations préliminaires Pour la construction Droits d'accès (Utilisateurs et groupes) Contrôle des contributions (spécialistes lexicologues) Jeudi 27 septembre 2001
Architecture externe DicOrig DicDist Service Import Noyau Export DicGen Service API service API fournisseur Lemmatiseur Phonétiseur Ressource distante Serveur partenaire DicDist Articles Consulteurs Contributeur Lexicographe API consultation API modification API préférences Dire ce que j'ai fait : Après avoir raffiné l'architecture et défini des interfaces (API) ... Jeudi 27 septembre 2001
Manipulation avec le formalisme SUBLIM Architecture interne DicOrig SUBLIM = G. Sérasset Poids Historique Import Ressources locales Manipulation avec le formalisme SUBLIM Format propre Format DML Export PRODUCDIC Récupération et Export partiellement réglé : thèse de Haï avec les méthodes RÉCUPDIC et PRODUCDIC Manipulation des ressources partiellement réglé : thèse de Gilles avec le formalisme générique SUBLIM J'ai ajouté les éléments en bleu Spécialiste Lexicologue Administrateur Prefs Users & Groups Profils DicGen Jeudi 27 septembre 2001
Gestion des ressources Format propre DicDist Ressources locales Format DML Purgatoire DicRec2 DicRec1 Consultation DicRec3 Récupération Format S Paradis Intégration DicOrig DicRec4 Import Structure S Contrib1 Contrib5 Intégration Récupération = RÉCUPDIC Export = PRODUCDIC De Haï Doan Contrib2 Contrôle Contrib4 DicGen Export Contrib3 Jeudi 27 septembre 2001
Le formalisme SUBLIM LEXARD architecture lexicale, macrostructure Définition de bases lexicales contenant les dictionnaires Définition de dictionnaires monolingues, bilingues, etc. LINGARD architecture linguistique, microstructure Définitions d'objets linguistiques : arbres, graphes, automates, structures de traits, liens, fonctions, etc. Langage de vérification de contraintes sur les objets définis en LEXARD et LINGARD Microstructure = structure d’un article de dictionnaire Jeudi 27 septembre 2001
Exemple d'utilisation de LEXARD (define-monolingual-dictionary eng :language "English" :owner "GETA" ) (define-monolingual-dictionary fra :language "French" ... (define-interlingual-dictionary int :links (eng fra jpn tha) :owner "GETA") (define-lexical-database GETA-base :dictionaries (eng fra jpn tha int) :comment "base lexicale du GETA") Dictionnaire multilingue à structure pivot Fra Jpn Int Eng Tha Jeudi 27 septembre 2001
Extensions de SUBLIM Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Jeudi 27 septembre 2001
Extension de LEXARD Ajout d'un niveau : les volumes Ensemble d'objets linguistiques de même structure Ajout des utilisateurs et groupes Profils, préférences, annotations, contributions Ajout de méta-information sur les ressources Dates, domaine, taille, propriétaire, droits, etc. Ajout des API fournisseur, consultation, etc. Fra Eng Monolingue Bilingue Base lexicale Dictionnaires 1 volume 2 volumes Le volume = métaphore du livre Jeudi 27 septembre 2001
Extensions de SUBLIM (2) Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Besoin de descripteurs communs dans les dictionnaires => Définir un ensemble d'éléments communs ayant la même sémantique pour tous les dictionnaires Jeudi 27 septembre 2001
Éléments communs CDM Common Dictionary Markup Critères pragmatiques après une études des différentes normes (TEI, GENELEX, EAGLES, PAROLE, GENETER, etc) Les maisons d’édition n’utilisent pas ces normes, chacune définit ses propres unités d’information Jeudi 27 septembre 2001
Extensions de SUBLIM (3) Extension du langage LEXARD Traitement de l'aspect communication (API) Gestion des utilisateurs et groupes Ajout d'information sur les ressources Besoin de descripteurs communs dans les dictionnaires Définition de l’ensemble d’éléments communs CDM Gestion des données avec la technologie XML Jeudi 27 septembre 2001
Gestion des données avec XML Espace de noms DML (Dictionary Markup Language) <MyElement xmlns:dml="http://clips.imag.fr/geta/services/dml"> Types génériques Langue, date, durée, historique, ids, etc. Objets lexicaux de LEXARD++ Base lexicale, dico, volume, profils, prefs, API Objets linguistiques de LINGARD Arbre, graphe, automate, lien, fonction, etc. Sous-ensemble d'éléments communs CDM => Schéma XML de 1500 lignes pour DML Jeudi 27 septembre 2001
Exemple de représentation en XML : Le régime d'enseigner : X enseigne Y à Z à Vinf à N 4 Automate : N N à N 1 2 3 6 Régime = Réalisation syntaxique des arguments du prédicat 5 N (rare) Pierre enseigne la grammaire / à faire cela Pierre enseigne la grammaire à ses élèves Exemples : Jeudi 27 septembre 2001
Passage de SUBLIM à XML (def-linguistic-class régime (feature-structure ( (automate automate-régime) (exemples exemples-regime)) ) (def-linguistic-class automate-régime automaton :arcs real-args) (def-linguistic-class exemples-régime (set-of (feature-structure ( (réalisations (list-of (string)) (exemple string))) <element name="régime"> <complexType><sequence> <element ref="automate-regime"/> <element ref="exemples-regime"/> </sequence></complexType> </element> <element name="automate-regime" type="automaton"/> <complexType name="arcType"> <extension base="arcType"> <sequence> <element name="real-args"/> </sequence></extension> </complexType> <element name="exemples-regime"> <complexType><sequence> <element name="realisations"/> <element name="exemple"/> Jeudi 27 septembre 2001
Bilan sur l'environnement Notre environnement permet de : Récupérer, manipuler et exporter des ressources hétérogènes existantes Définir de nouvelles structures de dictionnaires Gérer des utilisateurs et groupes avec leurs préférences et leurs profils Construire, compléter et corriger des données lexicales en collecticiel et à distance avec contrôle Consulter plusieurs ressources hétérogènes en même temps avec des outils d'aide Jeudi 27 septembre 2001
Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001
Une Application : le projet Papillon Objectif de départ : Dictionnaire multilingue incluant le français et le japonais Initiateurs : Emmanuel Planas, François Brown de Colstoun & Mutsuko Tomokiyo Motivations : Manque d'informations dans les ressources existantes (spécificateurs, kanji+kana+romaji) Très peu de ressources existantes Partenaires : National Institute of Informatics à Tokyo, Japon GETA-CLIPS à Grenoble Dicos existent mais pour des japonais: Pas utilisables par des français car que ecriture japonaise Et le petit fuji que romanisé Le CLIPS est un labo de communication langagière et interaction personne systèmes Le GETA est une équipe du CLIPS, c'est le Groupe d'étude sur la Traduction Automatique Jeudi 27 septembre 2001
Méthodologie de construction Récupération de ressources existantes Base DiCo (fr, 3 000 articles) FeM (fr-en-ms, 20 000 art; 70 000 lexies fr) JMDict (ja-en, 70 000 art), (ja-fr, 10 000 art) SAIKAM (th-ja, 4 000 art) Correction/ajout par des contributeurs bénévoles Disponibilité des ressources en logiciel libre Dictionnaires pour humains et machines FeM effort GETA et l’UTMK en Malaisie (Mathieu Lafourcade) Jeudi 27 septembre 2001
Intérêts scientifiques du projet Application concrète de notre environnement Personnalisation du résultat des requêtes Enrichissement de la consultation Mise au point des interfaces utilisateurs Dictionnaire à structure pivot Utilisation de liens interlingues ou axies Développement de dictionnaires en communauté Paradigme de construction de LINUX Profils et préférences utilisateurs Jeudi 27 septembre 2001
Couche de présentation Architecture externe Couche données (data) Couche de travail (business) Serveur Enhydra Web dynamique HTML + CSS + Applet Java Manipulant des données XML Listes de distribution Couche de présentation (presentation) MHonArc SGBD Relationnel PostgreSQL (UNICODE) table d'objets XML Instanciation de l'architecture générale => collaboratif sur le Web Intégré dans un environnement plus large - listes de distribution - site Web avec possibilité de mise à jour en ligne Schéma XML de Papillon : 1300 lignes Pour mes expériences, les fichiers XML conviennent, quand ça devient très gros, il faut des BD. Comment avoir les avantages et pas les inconvénients : On découpe les fichiers XML et on les stocke en petits bouts. On gère le tout avec l’environnement en se plaçant au dessus Il y a une seule table dans laquelle on stocke tous les bouts de dicos. Table avec un champ ID et un autre champ = l’objet texte XML Table pour l’historique Table pour les poids Jeudi 27 septembre 2001
Gestion des ressources Papillon DicDist Format propre Ressources locales Format DML Soupe lexicale FeM SAIKAM Consultation JMDict Récupération Intégration Format Papillon DicOrig DiCo Import Contrib1 Spap Expliquer soupe lexicale Expliquer le purgatoire + structure Papillon Contrib5 Contrib2 Intégration Contrôle Contrib4 DicGen Export Contrib3 Jeudi 27 septembre 2001
Macrostructure de la base DiCo français DiCo anglais lexie affection Vocable affection N Vocable affection n.f. lexie affection.1 (tendresse) lexie affection.2 (médecine) Liens interlingues Liens de raffinement Vocable disease N lexie disease 1 concept = 3 acceptions Vocable maladie n.f. lexie maladie 病気 【びょうき】 DiCo japonais Dire le mot japonais Les liens entre lexies de différentes langues sont constatés sur des liens de traduction. Les liens de raffinement sont des étapes intermédiaires L'acception est motivée par des critères proches de la syntaxe L'onomasiologie est une étude sémantique des dénominations. Elle part du concept et recherche les signes linguistiques qui lui correspondent. Par opposition la sémasiologie est une étude qui part du signe pour aller vers la détermination du concept. C'est dire que la démarche sémasiologique type est celle de la lexicologie structurale, visant à représenter des structures (axe paradigmatique et axe syntagmatique) rendant compte d'une unité lexicale. Jeudi 27 septembre 2001
Article monolingue : lexie Nom de l'unité lexicale : MEURTRE Propriétés grammaticales : nom, masc Formule sémantique : action de tuer: ~ PAR L'individu X DE L'individu Y Régime : X = I = de N, A-poss Y = II = de N, A-poss Fonctions lexicales : {QSyn} assassinat, homicide#1; crime/*Quasi synonymes*/ {Oper1} accomplir, commettre, perpétrer [ART ~]; tremper [dans ART ~] /*Causer que X fasse un M.*/ {S1} auteur [de ART Ø] // meurtrier-n /*Nom pour X*/ {S2} victime [de ART Ø] /*Nom pour Y*/ Exemples : La mésentente pourrait être le mobile du meurtre. Idiomes : _appel au meurtre_ _crier au meurtre_ Lien vers une acception interlingue axie Il y a d’autres infos : un id, des poids, chaque chaîne est en fait un doublet écriture/prononciation, etc. Si on a 2 résultats différents pour une meme FL sur un mot : On en fait 2 lexies exemple : A0(Blanchir) = blanchissage / blanchiment Structure DiCo d'Alain Polguère dérivée du DEC d'Igor Mel'čuk Jeudi 27 septembre 2001
Article interlingue : axie <axie id="a01"> <semantic-cat>entity</semantic-cat> <fra> <reflexie href="meurtre$1"/> </fra> <eng> <reflexie href="murder$1"/> </eng> <external-references> <UNL resource="UNL-fr.unl"> <uw>murder(icl>action,agt>human,obj>human)</uw> </UNL> <WordNet resource="Wordnet.txt"> <synset>00143589</synset> </WordNet> </external-references> </axie> Jeudi 27 septembre 2001
Interface de consultation Implémentation pour Papillon Fonctionnalités limitées , effort minimal sur l'interface de consultation permettant le test de la personnalisation du résultat. Jeudi 27 septembre 2001
Présentation à la DEC Jeudi 27 septembre 2001
Présentation compacte (LAF) Expliquer le LAF Dico d’usage papier généré à partir de DiCo Jeudi 27 septembre 2001
Plan de l'exposé Présentation de la problématique Objectifs et problèmes durs Expériences préliminaires Consultation de ressources hétérogènes Constructions "démocratique" et en ligne Personnalisation du résultat Spécification de l'environnement Architecture générale et noyau Gestion des données avec XML Application au projet Papillon Description du projet Exemples d'utilisation Conclusion Bilan, problèmes restants et perspectives Jeudi 27 septembre 2001
Principes dégagés devant ce travail Gestion des données Héritage Traçabilité Protection des données Structuration logique Exhaustivité Abstraction du niveau de données Aspect collaboratif Mutualisation Consultation gratuite Personnalisation générale Mise en œuvre Récupération totale Réciprocité Jeudi 27 septembre 2001
Problèmes restants à résoudre Interfaces pour lexicologues Pour récupérer et exporter des ressources Pour spécifier des structures de dictionnaires Pour visualiser et contrôler le contenu de la base Gestion des liens interlingues (axies) Automatiser la fusion des liens Calcul automatique des profils utilisateurs Intérêts, compétences, réalisations Jeudi 27 septembre 2001
Perspectives à court terme PostDoc sur le projet Papillon à Tokyo : Implémentation du serveur Préparation de la soupe lexicale Récupérer des ressources existantes et les convertir Recherche sur les interfaces pour lexicologues : manipulation des ressources pour consulteurs : spécifier ses préférences pour contributeurs : contribuer sur des articles en ligne Jeudi 27 septembre 2001