La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Formalisation de règles d'indexation MeSH pour un usage automatique

Présentations similaires


Présentation au sujet: "Formalisation de règles d'indexation MeSH pour un usage automatique"— Transcription de la présentation:

1 Formalisation de règles d'indexation MeSH pour un usage automatique
Aurélie Névéol1,2, F. Florea1, B. Thirion2, SJ. Darmoni1,2 Laboratoire PSI FRE CNRS INSA de Rouen & Université de Rouen Equipe CISMeF & CHU de Rouen.

2 Plan Contexte: recherche d’information en santé (CISMeF)
Objectif : Indexation et codage des documents médicaux Algorithme d’indexation Construction de ressources terminologiques Dictionnaire électronique médical Bibliothèque de transducteurs (Implémentation de règles) Perspectives Conclusion: impact sur l’indexation

3 Indexation et codage de documents médicaux
Depuis une dizaine d’années: Augmentation croissante du nombre de ressources médicales électroniques (dossiers patients, articles scientifiques, recommandations, etc. ) Forte demande sur les professionnels de santé et les documentalistes pour une indexation ou un codage normalisé des informations à l’aide de terminologies (MeSH, CIM10, SNOMED…) Automatisation nécessaire

4 Exemple d’indexation: notice CISMeF
Thésaurus MeSH (Medical Subject Headings) de la National Library of Medicine (NLM): ~ mots clés (ex:tumeurs du sein, grossesse) organisés hiérarchiquement (ex: tumeurs du sein est un fils de tumeurs) 84 qualificatifs (ex:diagnostic, thérapeutique …) 265 Types de ressource CISMeF (ex: cours, mammographie, arbres de décision)

5 Affiliation de Qualificatifs et de Types de Ressource
Qualificatif: précise le mot clé en délimitant la thématique traitée par un texte. eg. tumeurs du sein/diagnostic pied/radiographie Type de ressource: précise le mot clé (ou la paire MC/Q) en dénotant le support de l’information eg. tumeurs du sein/diagnostic\image pied\radiographie

6 Indexation Automatique dans CISMeF
Objectifs définis par l’équipe après test de logiciels d’indexation existants: Augmenter la couverture du catalogue Aujourd’hui: ajout manuel de ~55 nouvelles ressources par semaine – ressources en attente Maintenir une indexation respectant les standards de l’indexation manuelle Notamment, associations Mot Clés/Qualificatifs, et Mot clé/Qualificatifs\Type de Ressource

7 Algorithme d’indexation
INTEX 1. Repérage des éléments textuels 2. Mapping vers les termes MeSH (MC, Q) et CISMeF (TR) 3. Utilisation des propriétés de la terminologie - Hiérarchie - Associations Mot Clé / Qualificatif 4. Sélection (quasi) systématique des check tags 5. Calcul de score (normalisation tf*idf) 6. Constitution de l’index à l’aide d’une fonction de rupture 7. Pondération Majeur/Mineur

8 Construction des dictionnaires : Principe
Format ~ DELA: FormeMeSH,MotCléMeSH.InfoFlexionnelle eg: grippe,grippe.N:fs (DELA) acariose,acarioses.N:fs (*DELA) Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs TR pour les types de ressource, MALADIE pour les mot-clés des arborescences C-F03, … eg: grippe,grippe.N+MeSH+MALADIE:fs diagnostic,diagnostic.N+QMeSH:ms

9 Construction des dictionnaires : réalisation
Utilisation de l’existant: Dictionnaires DELA, Ressources UMLF (corpus Vidal) Production d’entrées complémentaires: Entrées semi-automatiques (maladies, syndromes, carences, tumeurs, …) Inclusion des synonymes MeSH et CISMeF (génération des entrées puis validation des pluriels) Traduction automatique de synonymes MeSH non traduits (EN/FR) Entrées manuelles Bilan: ~ entrées (soit 83% du MeSH): en moyenne, 2,1 entrées/MC.

10 Apport lexicographique
Concept Code Arbo MeSH Nb termes Mot clé MeSH MeSH - 19032 Qualificatif MeSH QMeSH 84 Type de Ressource CISMeF TR 8 Maladie MALADIE C, F03 4065 Organe ORGANE A 1311 Composé chimique SUBSTANCE D sauf D05, D12, D13, D25, D27.505 3995 Technique Thérapeutique TECHNIQUE E 1661 Vaccin VACCIN D 71 Personne Hum M 231 Lieu Géographique Top Z 353

11 Extrait du dictionnaire de mots simples
Entrée « triviale »: accidents,accidents.N+MeSH:mp Dérivation: accidentel,accidents.A+MeSH:ms Flexions: accident,accidents.N+MeSH:ms accidentelle,accidents.A+MeSH:fs accidentelles,accidents.A+MeSH:fp accidentels,accidents.A+MeSH:mp

12 Extrait du dictionnaire de mots composés
Entrée « triviale »: diabete insulinodependant,diabete de type I.N+MeSH:ms Variante orthographique: diabete insulino-dependant,diabete de type I.N+MeSH:ms Synonymes: diabete juvenile,diabete de type I.N+MeSH:ms Flexion: diabetes de type I,diabete de type I.N+MeSH:mp diabetes juveniles,diabete insulinodependant.N+MeSH:mp (synonyme) Dérivation: diabetique de type I,diabete de type I.N+MeSH:ms (synonyme) diabetiques de type I,diabete de type I.N+MeSH:mp (synonyme)

13 Construction des transducteurs
Règles: Associations Mot clé/Qualificatifs (Indexation de textes) Associations Mot clé/Qualificatifs\Type de Ressource (Indexation texte-image) Priorité aux Qualifs et TR les plus fréquents Bilan: ~15 transducteurs

14 Méthode Entretien avec un expert MeSH: travail sur corpus indexé
Identification de comportements d’indexation récurrents: élaboration des règles Validation par l’expert Implémentation

15 Associations MC/Q Règle: indication de la technique T -> technique T / UT !! indication de la substance S -> substance S / TU

16 Associations MC\TR Règle: Image I de l’Organe O -> Organe O\Image I
(« Fig. 1: radiographie du pied » ->pied\radiographie) Image I confirmer Maladie M -> Maladie M\Image I (« la radiographie met en évidence une fracture de l’humérus » -> humérus, fracture\radiographie)

17 Règles non prises en charge
Si le mot clé <biopsie> est sélectionné, ainsi qu’une MALADIE de l’arborescence C04 → la paire <MALADIE/anatomie pathologique> doit être utilisée pour l’indexation. "ArthroScanner de l'épaule " → <épaule\tomodensitométrie> + <épaule\arthrographie> + <épaule, fracture\tomodensitométrie> + <épaule, fracture\arthrographie> + …

18 Impact sur l’indexation
Indexation de 82 ressources extraites aléatoirement de CISMeF: Couverture MeSH des mots clés utilisés par les documentalistes pour indexer le corpus de test: 33% puis 60% On considère qu’un mot-clé est « couvert » s ’il existe au moins une entrée DELA pour ce MC.

19 Résultats: rang vs. F-measure

20 Remarques Extraction des mots clés:
Limite des dictionnaires: aucun bruit, mais silence du: Ponctuation, typographie Variantes non répertoriées Mot clés « implicites » (eg. étude comparée) Combinaison avec une méthode d’indexation statistique (kNN)

21 Perspectives Amélioration du système: Mise en production: Automne 2005
Enrichissement des ressources linguistiques Distinction Majeur/Mineur Mise en production: Automne 2005 Indexation entièrement automatique des ressources portant sur des thèmes déjà largement couverts Indexation semi-automatique (automatique+validation) pour les autres ressources Evaluation par les documentalistes (qualitative et quantitative)

22 Merci de votre attention!
Contact: Références: [1]   Darmoni SJ, Leroy JP, Thirion B, Baudic F, Douyère M and Piot J. CISMeF: a structured Health resource guide. Meth Inf Med 2000: 39(1): 30-5 [2] Névéol A, Rogozan A, Darmoni SJ. Indexation automatique de ressources de santé à l’aide de paires de descripteurs MeSH (2005) TALN, sous presse. [3]   Douyère M. Soualmia LF., Névéol A., Rogozan A., Dahamna B., Leroy JP., Thirion B., Darmoni SJ. (2004) Enhancing the MeSH thesaurus to retrieve French online health resources in a quality-controlled gateway. Health Info Libr J Dec;21(4):253-6. [4]   Florea FI, Rogozan A, Bensrhair A and Darmoni SJ. Medical image retrieval by content and keyword in a on-line health-catalogue context, Proc. Mirage 2005 :


Télécharger ppt "Formalisation de règles d'indexation MeSH pour un usage automatique"

Présentations similaires


Annonces Google