Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol1,2, F. Florea1, B. Thirion2, SJ. Darmoni1,2 Laboratoire PSI FRE CNRS 2645 - INSA de Rouen & Université de Rouen Equipe CISMeF & L@STICS, CHU de Rouen.
Plan Contexte: recherche d’information en santé (CISMeF) Objectif : Indexation et codage des documents médicaux Algorithme d’indexation Construction de ressources terminologiques Dictionnaire électronique médical Bibliothèque de transducteurs (Implémentation de règles) Perspectives Conclusion: impact sur l’indexation
Indexation et codage de documents médicaux Depuis une dizaine d’années: Augmentation croissante du nombre de ressources médicales électroniques (dossiers patients, articles scientifiques, recommandations, etc. ) Forte demande sur les professionnels de santé et les documentalistes pour une indexation ou un codage normalisé des informations à l’aide de terminologies (MeSH, CIM10, SNOMED…) Automatisation nécessaire
Exemple d’indexation: notice CISMeF Thésaurus MeSH (Medical Subject Headings) de la National Library of Medicine (NLM): ~23.000 mots clés (ex:tumeurs du sein, grossesse) organisés hiérarchiquement (ex: tumeurs du sein est un fils de tumeurs) 84 qualificatifs (ex:diagnostic, thérapeutique …) 265 Types de ressource CISMeF (ex: cours, mammographie, arbres de décision)
Affiliation de Qualificatifs et de Types de Ressource Qualificatif: précise le mot clé en délimitant la thématique traitée par un texte. eg. tumeurs du sein/diagnostic pied/radiographie Type de ressource: précise le mot clé (ou la paire MC/Q) en dénotant le support de l’information eg. tumeurs du sein/diagnostic\image pied\radiographie
Indexation Automatique dans CISMeF Objectifs définis par l’équipe après test de logiciels d’indexation existants: Augmenter la couverture du catalogue Aujourd’hui: ajout manuel de ~55 nouvelles ressources par semaine – 3.000+ ressources en attente Maintenir une indexation respectant les standards de l’indexation manuelle Notamment, associations Mot Clés/Qualificatifs, et Mot clé/Qualificatifs\Type de Ressource
Algorithme d’indexation INTEX 1. Repérage des éléments textuels 2. Mapping vers les termes MeSH (MC, Q) et CISMeF (TR) 3. Utilisation des propriétés de la terminologie - Hiérarchie - Associations Mot Clé / Qualificatif 4. Sélection (quasi) systématique des check tags 5. Calcul de score (normalisation tf*idf) 6. Constitution de l’index à l’aide d’une fonction de rupture 7. Pondération Majeur/Mineur
Construction des dictionnaires : Principe Format ~ DELA: FormeMeSH,MotCléMeSH.InfoFlexionnelle eg: grippe,grippe.N:fs (DELA) acariose,acarioses.N:fs (*DELA) Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs TR pour les types de ressource, MALADIE pour les mot-clés des arborescences C-F03, … eg: grippe,grippe.N+MeSH+MALADIE:fs diagnostic,diagnostic.N+QMeSH:ms
Construction des dictionnaires : réalisation Utilisation de l’existant: Dictionnaires DELA, Ressources UMLF (corpus Vidal) Production d’entrées complémentaires: Entrées semi-automatiques (maladies, syndromes, carences, tumeurs, …) Inclusion des synonymes MeSH et CISMeF (génération des entrées puis validation des pluriels) Traduction automatique de synonymes MeSH non traduits (EN/FR) Entrées manuelles Bilan: ~40.000 entrées (soit 83% du MeSH): en moyenne, 2,1 entrées/MC.
Apport lexicographique Concept Code Arbo MeSH Nb termes Mot clé MeSH MeSH - 19032 Qualificatif MeSH QMeSH 84 Type de Ressource CISMeF TR 8 Maladie MALADIE C, F03 4065 Organe ORGANE A 1311 Composé chimique SUBSTANCE D sauf D05, D12, D13, D25, D27.505 3995 Technique Thérapeutique TECHNIQUE E 1661 Vaccin VACCIN D24.310.894 71 Personne Hum M 231 Lieu Géographique Top Z 353
Extrait du dictionnaire de mots simples Entrée « triviale »: accidents,accidents.N+MeSH:mp Dérivation: accidentel,accidents.A+MeSH:ms Flexions: accident,accidents.N+MeSH:ms accidentelle,accidents.A+MeSH:fs accidentelles,accidents.A+MeSH:fp accidentels,accidents.A+MeSH:mp
Extrait du dictionnaire de mots composés Entrée « triviale »: diabete insulinodependant,diabete de type I.N+MeSH:ms Variante orthographique: diabete insulino-dependant,diabete de type I.N+MeSH:ms Synonymes: diabete juvenile,diabete de type I.N+MeSH:ms Flexion: diabetes de type I,diabete de type I.N+MeSH:mp diabetes juveniles,diabete insulinodependant.N+MeSH:mp (synonyme) Dérivation: diabetique de type I,diabete de type I.N+MeSH:ms (synonyme) diabetiques de type I,diabete de type I.N+MeSH:mp (synonyme)
Construction des transducteurs Règles: Associations Mot clé/Qualificatifs (Indexation de textes) Associations Mot clé/Qualificatifs\Type de Ressource (Indexation texte-image) Priorité aux Qualifs et TR les plus fréquents Bilan: ~15 transducteurs
Méthode Entretien avec un expert MeSH: travail sur corpus indexé Identification de comportements d’indexation récurrents: élaboration des règles Validation par l’expert Implémentation
Associations MC/Q Règle: indication de la technique T -> technique T / UT !! indication de la substance S -> substance S / TU
Associations MC\TR Règle: Image I de l’Organe O -> Organe O\Image I (« Fig. 1: radiographie du pied » ->pied\radiographie) Image I confirmer Maladie M -> Maladie M\Image I (« la radiographie met en évidence une fracture de l’humérus » -> humérus, fracture\radiographie)
Règles non prises en charge Si le mot clé <biopsie> est sélectionné, ainsi qu’une MALADIE de l’arborescence C04 → la paire <MALADIE/anatomie pathologique> doit être utilisée pour l’indexation. "ArthroScanner de l'épaule " → <épaule\tomodensitométrie> + <épaule\arthrographie> + <épaule, fracture\tomodensitométrie> + <épaule, fracture\arthrographie> + …
Impact sur l’indexation Indexation de 82 ressources extraites aléatoirement de CISMeF: Couverture MeSH des mots clés utilisés par les documentalistes pour indexer le corpus de test: 33% puis 60% On considère qu’un mot-clé est « couvert » s ’il existe au moins une entrée DELA pour ce MC.
Résultats: rang vs. F-measure
Remarques Extraction des mots clés: Limite des dictionnaires: aucun bruit, mais silence du: Ponctuation, typographie Variantes non répertoriées Mot clés « implicites » (eg. étude comparée) Combinaison avec une méthode d’indexation statistique (kNN)
Perspectives Amélioration du système: Mise en production: Automne 2005 Enrichissement des ressources linguistiques Distinction Majeur/Mineur Mise en production: Automne 2005 Indexation entièrement automatique des ressources portant sur des thèmes déjà largement couverts Indexation semi-automatique (automatique+validation) pour les autres ressources Evaluation par les documentalistes (qualitative et quantitative)
Merci de votre attention! Contact: aneveol@insa-rouen.fr Références: [1] Darmoni SJ, Leroy JP, Thirion B, Baudic F, Douyère M and Piot J. CISMeF: a structured Health resource guide. Meth Inf Med 2000: 39(1): 30-5 [2] Névéol A, Rogozan A, Darmoni SJ. Indexation automatique de ressources de santé à l’aide de paires de descripteurs MeSH (2005) TALN, sous presse. [3] Douyère M. Soualmia LF., Névéol A., Rogozan A., Dahamna B., Leroy JP., Thirion B., Darmoni SJ. (2004) Enhancing the MeSH thesaurus to retrieve French online health resources in a quality-controlled gateway. Health Info Libr J. 2004 Dec;21(4):253-6. [4] Florea FI, Rogozan A, Bensrhair A and Darmoni SJ. Medical image retrieval by content and keyword in a on-line health-catalogue context, Proc. Mirage 2005 : 229-36