Formalisation de règles d'indexation MeSH pour un usage automatique

Slides:



Advertisements
Présentations similaires
Sandrine Peraldi (ISIT) Jean-Philippe KOTOWICZ (INSA Rouen)
Advertisements

Classification et prédiction
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Une approche informationnelle de la restauration d’images
Test statistique : principe
1 Balisage automatique de dictionnaires anciens : une application dINTEX Agnès Tutin Unité Mixte de Recherche SILEX, CNRS & Université de Grenoble III.
Répartition des anomalies cytogénétiques dans la leucémie lymphoïde chronique à Blida A propos de 95 cas S Taoussi ; S Oukid ; Y Bouchakor ; MT Abad Service.
1 Ce que vous faites Le référentiel dactivités et de compétences du / de la Représentant(e) des Usagers du système de santé _________________________________________________.
ASTRID et la traçabilité
Cours n°1ue304b (S. Sidhom) UE 304 b Cours_L2.documentation_n°1 Gestion des documents : Technologies de lInformation et de la Communication Par : Sahbi.
Mise en œuvre d’une démarche et d’un outil de gestion de « connaissances métier » basés sur la collaboration. Cyril BEYLIER
1 Lévaluation des pratiques professionnelles à lhôpital : enjeux et réalités Lévaluation des pratiques professionnelles à lhôpital : enjeux et réalités.
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Indicateurs de position
Indexation textuelle : Systèmes de recherche d’informations
Institut national du cancer Mise en place de la veille sur le cancer Lyon, 26 octobre 2005 Ingrid Aubry.
IronWEB : Une architecture distribuée
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Safae LAQRICHI, Didier Gourc, François Marmier {safae
Par Clément en vacances sur la Côte d’Azur Le 17 décembre 2011
Interface Homme Machine IHM Pro
Sélection automatique d’index et de vues matérialisées
Caroline Patenaude Bibliothécaire – responsable informatique et Web Bibliothèque des lettres et sciences humaines, Université de Montréal 4 novembre 2010.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Educnet, le site de la SDTICE
Tarif et qualification des traducteurs : des indicateurs de qualité ?
LITTERATURE SCIENTIFIQUE STRATÉGIES DE RECHERCHE PMSS
le profil UML en temps réel MARTE
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan.
Projet Master 2 Nouvelles Technologies et Handicap
Représentation du Thésaurus MeSH et de la Terminologie CISMeF en OWL
OLAP : Un pas vers la navigation
Bases de données documentaires Faculté de Médecine PCEM2.
Département fédéral de lintérieur DFI Office fédéral de la statistique OFS La qualité de lemploi en Suisse Silvia Perrenoud Journées suisses de la statistique.
Tecsan Technologies pour la santé et l'autonomie
MeSH Pierre Claveirole – CDRMG / UNAFORMEC.
Guide d’utilisation. Décembre 2006 Réalisé à partir des informations
Recherche Documentaire et traitement de l’information
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Traducteur Technique en Interne Christophe Jovelin DESS ILTS 2005
SCIENCES DE L ’INGENIEUR
Journées de Rencontre Jeune Chercheurs
13e édition de la Semaine des infrastructures urbaines 1 PLAN D'INTERVENTION ET STRATÉGIES D'INVESTISSEMENTS DU RÉSEAU ROUTIER, TEL QUE VU PAR LA JAMAICA.
24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Article présentée par : Étudiante en 2ème année mastère F.S.T. Tunisie
Page 1 / Titre / Auteur / Date / Confidentiel D? LA DEMARCHE COLLEGES METIER.
Institut Supérieur des Etudes Technologiques de Djerba Exposé du Traitement de Données Réalisé par: Khalifa Marwa Magroun Amira Jawadi Souad L2MDW.
École de bibliothéconomie et des sciences de linformation 1 Gestion de linformation électronique (GIE) Maîtrise en sciences de linformation EBSI Université.
Projet de Master première année 2007 / 2008
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
«CISMeF-patients», cousin d’Alazea ? Roma, 16 giugno 2005 Bibliothèque médicale Centre hospitalier universitaire de Rouen.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Département fédéral de l’intérieur DFI Office fédéral de la statistique OFS Rapport sur le développement durable 2012 – Le système d’indicateurs MONET.
Supports de formation au SQ Unifié
France Bilodeau et Catherine Lamy 17 octobre 2014 La recherche dans les bases de données Repère, Cairn, Érudit et Google Scholar.
DESC Réanimation médicale
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
SGBD Système de gestion de Base documentaire (Logiciel documentaire)
PubMed MeSH Medical Subject Headings Module 4.3. HINARI | July | Table des Matières Présentation de la terminologie MeSH La base de données MeSH.
Recherche d’information
Service documentation / Mission formation - E. Blondet / C. Mayault - Formation MH - Aide méthodologique à la recherche des données validées sur des sites.
Les bases d’utilisation
Module : Langage XML (21h)
LITTERATURE SCIENTIFIQUE STRATEGIES DE RECHERCHE PMSS
CISMeF Pierre Claveirole UNAFORMEC. CISMeF (CHU de Rouen) catalogue des sites médicaux francophones interrogation par langage MeSH français indexation.
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
Bibliothèque cantonale et universitaire de Fribourg Compétences documentaires pour étudiants – lundi 30 mai 2016 Recherche documentaire.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
Transcription de la présentation:

Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol1,2, F. Florea1, B. Thirion2, SJ. Darmoni1,2 Laboratoire PSI FRE CNRS 2645 - INSA de Rouen & Université de Rouen Equipe CISMeF & L@STICS, CHU de Rouen.

Plan Contexte: recherche d’information en santé (CISMeF) Objectif : Indexation et codage des documents médicaux Algorithme d’indexation Construction de ressources terminologiques Dictionnaire électronique médical Bibliothèque de transducteurs (Implémentation de règles) Perspectives Conclusion: impact sur l’indexation

Indexation et codage de documents médicaux Depuis une dizaine d’années: Augmentation croissante du nombre de ressources médicales électroniques (dossiers patients, articles scientifiques, recommandations, etc. ) Forte demande sur les professionnels de santé et les documentalistes pour une indexation ou un codage normalisé des informations à l’aide de terminologies (MeSH, CIM10, SNOMED…) Automatisation nécessaire

Exemple d’indexation: notice CISMeF Thésaurus MeSH (Medical Subject Headings) de la National Library of Medicine (NLM): ~23.000 mots clés (ex:tumeurs du sein, grossesse) organisés hiérarchiquement (ex: tumeurs du sein est un fils de tumeurs) 84 qualificatifs (ex:diagnostic, thérapeutique …) 265 Types de ressource CISMeF (ex: cours, mammographie, arbres de décision)

Affiliation de Qualificatifs et de Types de Ressource Qualificatif: précise le mot clé en délimitant la thématique traitée par un texte. eg. tumeurs du sein/diagnostic pied/radiographie Type de ressource: précise le mot clé (ou la paire MC/Q) en dénotant le support de l’information eg. tumeurs du sein/diagnostic\image pied\radiographie

Indexation Automatique dans CISMeF Objectifs définis par l’équipe après test de logiciels d’indexation existants: Augmenter la couverture du catalogue Aujourd’hui: ajout manuel de ~55 nouvelles ressources par semaine – 3.000+ ressources en attente Maintenir une indexation respectant les standards de l’indexation manuelle Notamment, associations Mot Clés/Qualificatifs, et Mot clé/Qualificatifs\Type de Ressource

Algorithme d’indexation INTEX 1. Repérage des éléments textuels 2. Mapping vers les termes MeSH (MC, Q) et CISMeF (TR) 3. Utilisation des propriétés de la terminologie - Hiérarchie - Associations Mot Clé / Qualificatif 4. Sélection (quasi) systématique des check tags 5. Calcul de score (normalisation tf*idf) 6. Constitution de l’index à l’aide d’une fonction de rupture 7. Pondération Majeur/Mineur

Construction des dictionnaires : Principe Format ~ DELA: FormeMeSH,MotCléMeSH.InfoFlexionnelle eg: grippe,grippe.N:fs (DELA) acariose,acarioses.N:fs (*DELA) Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs TR pour les types de ressource, MALADIE pour les mot-clés des arborescences C-F03, … eg: grippe,grippe.N+MeSH+MALADIE:fs diagnostic,diagnostic.N+QMeSH:ms

Construction des dictionnaires : réalisation Utilisation de l’existant: Dictionnaires DELA, Ressources UMLF (corpus Vidal) Production d’entrées complémentaires: Entrées semi-automatiques (maladies, syndromes, carences, tumeurs, …) Inclusion des synonymes MeSH et CISMeF (génération des entrées puis validation des pluriels) Traduction automatique de synonymes MeSH non traduits (EN/FR) Entrées manuelles Bilan: ~40.000 entrées (soit 83% du MeSH): en moyenne, 2,1 entrées/MC.

Apport lexicographique Concept Code Arbo MeSH Nb termes Mot clé MeSH MeSH - 19032 Qualificatif MeSH QMeSH 84 Type de Ressource CISMeF TR 8 Maladie MALADIE C, F03 4065 Organe ORGANE A 1311 Composé chimique SUBSTANCE D sauf D05, D12, D13, D25, D27.505 3995 Technique Thérapeutique TECHNIQUE E 1661 Vaccin VACCIN D24.310.894 71 Personne Hum M 231 Lieu Géographique Top Z 353

Extrait du dictionnaire de mots simples Entrée « triviale »: accidents,accidents.N+MeSH:mp Dérivation: accidentel,accidents.A+MeSH:ms Flexions: accident,accidents.N+MeSH:ms accidentelle,accidents.A+MeSH:fs accidentelles,accidents.A+MeSH:fp accidentels,accidents.A+MeSH:mp

Extrait du dictionnaire de mots composés Entrée « triviale »: diabete insulinodependant,diabete de type I.N+MeSH:ms Variante orthographique: diabete insulino-dependant,diabete de type I.N+MeSH:ms Synonymes: diabete juvenile,diabete de type I.N+MeSH:ms Flexion: diabetes de type I,diabete de type I.N+MeSH:mp diabetes juveniles,diabete insulinodependant.N+MeSH:mp (synonyme) Dérivation: diabetique de type I,diabete de type I.N+MeSH:ms (synonyme) diabetiques de type I,diabete de type I.N+MeSH:mp (synonyme)

Construction des transducteurs Règles: Associations Mot clé/Qualificatifs (Indexation de textes) Associations Mot clé/Qualificatifs\Type de Ressource (Indexation texte-image) Priorité aux Qualifs et TR les plus fréquents Bilan: ~15 transducteurs

Méthode Entretien avec un expert MeSH: travail sur corpus indexé Identification de comportements d’indexation récurrents: élaboration des règles Validation par l’expert Implémentation

Associations MC/Q Règle: indication de la technique T -> technique T / UT !! indication de la substance S -> substance S / TU

Associations MC\TR Règle: Image I de l’Organe O -> Organe O\Image I (« Fig. 1: radiographie du pied » ->pied\radiographie) Image I confirmer Maladie M -> Maladie M\Image I (« la radiographie met en évidence une fracture de l’humérus » -> humérus, fracture\radiographie)

Règles non prises en charge Si le mot clé <biopsie> est sélectionné, ainsi qu’une MALADIE de l’arborescence C04 → la paire <MALADIE/anatomie pathologique> doit être utilisée pour l’indexation. "ArthroScanner de l'épaule " → <épaule\tomodensitométrie> + <épaule\arthrographie> + <épaule, fracture\tomodensitométrie> + <épaule, fracture\arthrographie> + …

Impact sur l’indexation Indexation de 82 ressources extraites aléatoirement de CISMeF: Couverture MeSH des mots clés utilisés par les documentalistes pour indexer le corpus de test: 33% puis 60% On considère qu’un mot-clé est « couvert » s ’il existe au moins une entrée DELA pour ce MC.

Résultats: rang vs. F-measure

Remarques Extraction des mots clés: Limite des dictionnaires: aucun bruit, mais silence du: Ponctuation, typographie Variantes non répertoriées Mot clés « implicites » (eg. étude comparée) Combinaison avec une méthode d’indexation statistique (kNN)

Perspectives Amélioration du système: Mise en production: Automne 2005 Enrichissement des ressources linguistiques Distinction Majeur/Mineur Mise en production: Automne 2005 Indexation entièrement automatique des ressources portant sur des thèmes déjà largement couverts Indexation semi-automatique (automatique+validation) pour les autres ressources Evaluation par les documentalistes (qualitative et quantitative)

Merci de votre attention! Contact: aneveol@insa-rouen.fr Références: [1]   Darmoni SJ, Leroy JP, Thirion B, Baudic F, Douyère M and Piot J. CISMeF: a structured Health resource guide. Meth Inf Med 2000: 39(1): 30-5 [2] Névéol A, Rogozan A, Darmoni SJ. Indexation automatique de ressources de santé à l’aide de paires de descripteurs MeSH (2005) TALN, sous presse. [3]   Douyère M. Soualmia LF., Névéol A., Rogozan A., Dahamna B., Leroy JP., Thirion B., Darmoni SJ. (2004) Enhancing the MeSH thesaurus to retrieve French online health resources in a quality-controlled gateway. Health Info Libr J. 2004 Dec;21(4):253-6. [4]   Florea FI, Rogozan A, Bensrhair A and Darmoni SJ. Medical image retrieval by content and keyword in a on-line health-catalogue context, Proc. Mirage 2005 : 229-36