Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D) LEXTER Logiciel d’extraction de terminologie WORLDTREK ED Interface d’édition de terminologie Yasmina ABBAS EDF - Division Recherche et Développement (Division R&D)
Journées ATALA - CHU de la Pitié-Salpêtrière Le contexte Développement initial (1990 - 1994) Thèse de D. Bourigault à EDF - Direction Etudes et Recherches (DER) Utilisation et développement à EDF - DER (1994 - 1996) Depuis 1996 Utilisation à EDF - DER Utilisation et développement à l’ERSS de Toulouse Disponibilité Propriété d ’EDF Licences délivrées aux laboratoires de recherches Contacts Henry Boccon-Gibod henry.boccon-gibod@edf.fr Daniela Garcia daniela.garcia@edf.fr 29/11/99 Journées ATALA - CHU de la Pitié-Salpêtrière
Journées ATALA - CHU de la Pitié-Salpêtrière LEXTER analyseur syntaxique robuste dédié au repérage de syntagmes nominaux pour corpus spécialisé pour la constitution de ressources terminologiques thesaurus index référentiels terminologiques ontologies 29/11/99 Journées ATALA - CHU de la Pitié-Salpêtrière
Journées ATALA - CHU de la Pitié-Salpêtrière Le pré-traitement du corpus Nettoyage des fichiers Word et enregistrement en format RTF 1 Macro Word Conversion des fichiers textes format RTF en HTML 2 Rtf_to_Html Découpage des fichiers HTML en unités textuelles précédées d ’un identifiant 3 Html_to_UT 4 Etiquetage ( Sylex® , Cordial®...) Etiquetage des phrases 29/11/99 Journées ATALA - CHU de la Pitié-Salpêtrière
Journées ATALA - CHU de la Pitié-Salpêtrière Le traitement LEXTER Deux étapes découpage : identification de syntagmes nominaux maximaux par repérage de frontière. décomposition : décomposition syntaxique binaire (Tête Expansion) des syntagmes nominaux maximaux. Principe : apprentissage endogène acquisition automatique d’information de sous-catégorisation pour résoudre les ambiguïtés de rattachement. Sortie : un réseau de candidats termes Réseau exploitable par : ZELLIG (B. Habert) LEXICLASS (H. Assadi) FASTR (C. Jacquemin) SYNOTERM (T. Hamon) 29/11/99 Journées ATALA - CHU de la Pitié-Salpêtrière
Journées ATALA - CHU de la Pitié-Salpêtrière HTL Boutons de validation Candidats termes Unités textuelles Décomposition 29/11/99 Journées ATALA - CHU de la Pitié-Salpêtrière
Journées ATALA - CHU de la Pitié-Salpêtrière WORLDTREK ED 29/11/99 Journées ATALA - CHU de la Pitié-Salpêtrière
Journées ATALA - CHU de la Pitié-Salpêtrière Des exemples d’applications à EDF Le Référentiel Méthodologique d’Ingénierie (RMI-DE) Le projet : Harmonisation et mise en cohérence de l’ensemble des documents liés aux métiers de l’ingénierie (doctrines, dictionnaires, thesaurus, …) de la Direction de l’Equipement d’EDF ( aujourd’hui Division Ingénierie & Services ) L’application : Construction d’une terminologie de référence dans le cadre de ce projet pour être intégrée dans une application d’aide à la rédaction. Le corpus : Dossiers de Systèmes Elémentaires (DSE) (documentation des centrales nucléaires) représentant 18.000 pages de documents organisés par systèmes élémentaires. Ils sont multi-auteurs et homogènes sur le plan de la structure. Le traitement : Analyse du corpus, extraction des candidats termes, validation auprès des experts de la Direction de l’Equipement et structuration des termes en domaines et sous-domaines. Les Systèmes de Consultation de la Documentation technique (SCDT) 29/11/99 Journées ATALA - CHU de la Pitié-Salpêtrière
Journées ATALA - CHU de la Pitié-Salpêtrière Des exemples d’applications hors EDF Service informatique de l ’hôpital Broussais Société ANACOM Centre de terminologie et néologie (CTN) du LLI Paris XIII Centre de Recherches en Ingénierie Multilingue (CRIM) de l ’Inalco XEROX Grenoble (XRCE), CRIM de l ’Inalco et CTN Société LEXICON PLANETE Département informatique de l ’hôpital de la Pitié-Salpêtrière Groupe « terminologie et intelligence artificielle » Projet de recherches sur l ’aide au codage des comptes rendus d ’anatomie pathologique Travaux pratiques d’alignement terminologique (DESS) Projet de construction d ’un lexique bilingue français-anglais sur les droits de l ’Homme Evaluation des méthodes d’alignement terminologique développées au Centre de recherches XEROX de Grenoble Construction d’un glossaire pour une société d ’assurances Tests pour l’enrichissement d’un dictionnaire bilingue Construction de l ’index d’un ouvrage collectif sur l ’Ingénierie des conaissances publié chez Eyrolles Participation à un projet de construction de thesaurus sur l ’ingénierie linguistique pour le Web (soutenu par la Délégation Générale à la Langue Française 29/11/99 Journées ATALA - CHU de la Pitié-Salpêtrière