La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire.

Présentations similaires


Présentation au sujet: "FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire."— Transcription de la présentation:

1 FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire PSI FRE CNRS INSA de Rouen & Université de Rouen Equipe CISMeF & CHU de Rouen.

2 Diapo 2 Plan Contexte: recherche dinformation en santé (CISMeF) Objectif : Indexation et codage des documents médicaux Algorithme dindexation Construction de ressources terminologiques Dictionnaire électronique médical Bibliothèque de transducteurs (Implémentation de règles) Perspectives Conclusion: impact sur lindexation

3 Diapo 3 Indexation et codage de documents médicaux Depuis une dizaine dannées: Augmentation croissante du nombre de ressources médicales électroniques (dossiers patients, articles scientifiques, recommandations, etc. ) Forte demande sur les professionnels de santé et les documentalistes pour une indexation ou un codage normalisé des informations à laide de terminologies (MeSH, CIM10, SNOMED…) Automatisation nécessaire

4 Diapo 4 Exemple dindexation: notice CISMeF Thésaurus MeSH (Medical Subject Headings) de la National Library of Medicine (NLM): ~ mots clés (ex:tumeurs du sein, grossesse) organisés hiérarchiquement (ex: tumeurs du sein est un fils de tumeurs) 84 qualificatifs (ex:diagnostic, thérapeutique …) 265 Types de ressource CISMeF (ex: cours, mammographie, arbres de décision)

5 Diapo 5 Affiliation de Qualificatifs et de Types de Ressource Qualificatif: précise le mot clé en délimitant la thématique traitée par un texte. eg. tumeurs du sein/diagnostic pied/radiographie Type de ressource: précise le mot clé (ou la paire MC/Q) en dénotant le support de linformation eg. tumeurs du sein/diagnostic\image pied\radiographie

6 Diapo 6 Indexation Automatique dans CISMeF Objectifs définis par léquipe après test de logiciels dindexation existants: Augmenter la couverture du catalogue Aujourdhui: ajout manuel de ~55 nouvelles ressources par semaine – ressources en attente Maintenir une indexation respectant les standards de lindexation manuelle Notamment, associations Mot Clés/Qualificatifs, et Mot clé/Qualificatifs\Type de Ressource

7 Diapo 7 Algorithme dindexation 1. Repérage des éléments textuels 2. Mapping vers les termes MeSH (MC, Q) et CISMeF (TR) 3. Utilisation des propriétés de la terminologie - Hiérarchie - Associations Mot Clé / Qualificatif 4. Sélection (quasi) systématique des check tags 5. Calcul de score (normalisation tf*idf) 6. Constitution de lindex à laide dune fonction de rupture 7. Pondération Majeur/Mineur INTEX

8 Diapo 8 Construction des dictionnaires : Principe Format ~ DELA: FormeMeSH,MotCléMeSH.InfoFlexionnelle eg:grippe,grippe.N:fs(DELA) acariose,acarioses.N:fs(*DELA) Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs TR pour les types de ressource, MALADIE pour les mot-clés des arborescences C-F03, … eg:grippe,grippe.N+MeSH+MALADIE:fs diagnostic,diagnostic.N+QMeSH:ms

9 Diapo 9 Construction des dictionnaires : réalisation Utilisation de lexistant: Dictionnaires DELA, Ressources UMLF (corpus Vidal) Production dentrées complémentaires: Entrées semi-automatiques (maladies, syndromes, carences, tumeurs, …) Inclusion des synonymes MeSH et CISMeF (génération des entrées puis validation des pluriels) Traduction automatique de synonymes MeSH non traduits (EN/FR) Entrées manuelles Bilan: ~ entrées (soit 83% du MeSH): en moyenne, 2,1 entrées/MC.

10 Diapo 10 Apport lexicographique ConceptCodeArbo MeSHNb termes Mot clé MeSHMeSH Qualificatif MeSHQMeSH-84 Type de Ressource CISMeFTR-8 MaladieMALADIEC, F OrganeORGANEA1311 Composé chimiqueSUBSTANCED sauf D05, D12, D13, D25, D Technique ThérapeutiqueTECHNIQUEE1661 VaccinVACCIND PersonneHumM231 Lieu GéographiqueTopZ353

11 Diapo 11 Extrait du dictionnaire de mots simples Entrée « triviale »: accidents,accidents.N+MeSH:mp Dérivation: accidentel,accidents.A+MeSH:ms Flexions: accident,accidents.N+MeSH:ms accidentelle,accidents.A+MeSH:fs accidentelles,accidents.A+MeSH:fp accidentels,accidents.A+MeSH:mp

12 Diapo 12 Extrait du dictionnaire de mots composés Entrée « triviale »: diabete insulinodependant,diabete de type I.N+MeSH:ms Variante orthographique: diabete insulino-dependant,diabete de type I.N+MeSH:ms Synonymes: diabete juvenile,diabete de type I.N+MeSH:ms diabete insulinodependant,diabete de type I.N+MeSH:ms Flexion: diabetes de type I,diabete de type I.N+MeSH:mp diabetes juveniles,diabete insulinodependant.N+MeSH:mp (synonyme) Dérivation: diabetique de type I,diabete de type I.N+MeSH:ms (synonyme) diabetiques de type I,diabete de type I.N+MeSH:mp (synonyme)

13 Diapo 13 Construction des transducteurs Règles: Associations Mot clé/Qualificatifs (Indexation de textes) Associations Mot clé/Qualificatifs\Type de Ressource (Indexation texte-image) Priorité aux Qualifs et TR les plus fréquents Bilan: ~15 transducteurs

14 Diapo 14 Méthode Entretien avec un expert MeSH: travail sur corpus indexé Identification de comportements dindexation récurrents: élaboration des règles Validation par lexpert Implémentation

15 Diapo 15 Associations MC/Q Règle: indication de la technique T -> technique T / UT !! indication de la substance S -> substance S / TU

16 Diapo 16 Associations MC\TR Règle: Image I de lOrgane O -> Organe O\Image I (« Fig. 1: radiographie du pied » ->pied\radiographie) Image I confirmer Maladie M -> Maladie M\Image I (« la radiographie met en évidence une fracture de lhumérus » -> humérus, fracture\radiographie)

17 Diapo 17 Règles non prises en charge Si le mot clé est sélectionné, ainsi quune MALADIE de larborescence C04 la paire doit être utilisée pour lindexation. "ArthroScanner de l'épaule " …

18 Diapo 18 Impact sur lindexation Indexation de 82 ressources extraites aléatoirement de CISMeF: Couverture MeSH des mots clés utilisés par les documentalistes pour indexer le corpus de test: 33% puis 60% On considère quun mot-clé est « couvert » s il existe au moins une entrée DELA pour ce MC.

19 Diapo 19 Résultats: rang vs. F-measure

20 Diapo 20 Remarques Extraction des mots clés: Limite des dictionnaires: aucun bruit, mais silence du: Ponctuation, typographie Variantes non répertoriées Mot clés « implicites » (eg. étude comparée) Combinaison avec une méthode dindexation statistique (kNN)

21 Diapo 21 Perspectives Amélioration du système: Enrichissement des ressources linguistiques Distinction Majeur/Mineur Mise en production: Automne 2005 Indexation entièrement automatique des ressources portant sur des thèmes déjà largement couverts Indexation semi-automatique (automatique+validation) pour les autres ressources Evaluation par les documentalistes (qualitative et quantitative)

22 Diapo 22 Merci de votre attention! Contact: Références: [1] Darmoni SJ, Leroy JP, Thirion B, Baudic F, Douyère M and Piot J. CISMeF: a structured Health resource guide. Meth Inf Med 2000: 39(1): 30-5 [2] Névéol A, Rogozan A, Darmoni SJ. Indexation automatique de ressources de santé à laide de paires de descripteurs MeSH (2005) TALN, sous presse. [3] Douyère M. Soualmia LF., Névéol A., Rogozan A., Dahamna B., Leroy JP., Thirion B., Darmoni SJ. (2004) Enhancing the MeSH thesaurus to retrieve French online health resources in a quality-controlled gateway. Health Info Libr J Dec;21(4): [4] Florea FI, Rogozan A, Bensrhair A and Darmoni SJ. Medical image retrieval by content and keyword in a on-line health-catalogue context, Proc. Mirage 2005 :


Télécharger ppt "FRE 2645 Formalisation de règles d'indexation MeSH pour un usage automatique Aurélie Névéol 1,2, F. Florea 1, B. Thirion 2, SJ. Darmoni 1,2 Laboratoire."

Présentations similaires


Annonces Google