La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan.

Présentations similaires


Présentation au sujet: "Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan."— Transcription de la présentation:

1 Automatisation des tâches documentaires dans un catalogue de santé en ligne
Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS, Laboratoire PSI FRE CNRS 2645 – INSA & Université de Rouen Equipe CISMeF, CHU de Rouen.

2 Plan Introduction Tâches documentaires Indexation automatique MeSH
Présentation Veille et description documentaires Indexation automatique MeSH Description du système MAIF Approche TAL Approche k-PPV Fusion des approches Indexation d’un texte avec MAIF Evaluation du système MAIF (vs. systèmes francophones, MTI) Conclusion et perspectives

3 Introduction Objectifs :
Vers la « compréhension » des documents de Santé par la machine Automatisation des tâches documentaires Contexte: le Catalogue et Index des Sites Médicaux Francophones Projet initié in 1995 (http://www. cismef.org) ~14,000 ressources  professionnels de santé, étudiants, patients Mise à jour manuelle: 55 nouvelles ressources par semaine ~ ressources en attente Automatisation des tâches documentaires nécessaire, en particulier pour l ’indexation. Démarche expérimentale « Bottom-up » : modélisation des problèmes, expérimentation, analyse des résultats, + itération

4 Tâches documentaires : présentation
W. W. W. Veille Manuelle Ressources hors CISMeF Validation Manuelle Ressources à inclure Description Notice CISMeF « noyau » CISMeF (indexation manuelle) Indexation Manuelle Utilisateur Requête Doc’CISMeF Interrogation Expert

5 Tâches documentaires : présentation
Veille documentaire Identifier les ressources susceptibles d’être intégrées au catalogue Sélectionner les ressources à intégrer Description des ressources à intégrer : notice CISMeF Classification en spécialités médicales Indexation de textes à l’aide de descripteurs MeSH Indexation bimodale texte/image (FF – 2ème année de thèse) Recherche d’information Outil de recherche (LS – thèse soutenue en 2004) Dialogue avec l’utilisateur (AL – 2ème année de thèse)

6 Tâches documentaires : veille
Conception du Veilleur Automatique CISMeF (CVA) : formalisation de la veille manuelle. Fréquence de la veille Profondeur d’exploration Création de listes de liens « connus » ou « à éviter » Validation manuelle: mise à jour de la liste des URLs « à indexer ».

7 Tâches documentaires : description des ressources dans une notice
Terminologie CISMeF: 135 métatermes Liste ordonnée de métatermes CISMeF Thésaurus MeSH® (Medical Subject Headings): ~ mots clés et 83 qualificatifs Liste pondérée de mots clés MeSH ou de paires mot clé/qualificatif MeSH Terminologie CISMeF: 263 types de ressource Liste pondérée de types de ressource CISMeF

8 Tâches documentaires : création d’une notice semi-automatique
Extraction automatique (à partir d’une URL) des éléments suivants : Indexation MeSH (+ titre et format de la ressource) Catégorisation en spécialités médicales ou « métatermes » (notices longues) Les autres éléments restent extraits manuellement (Résumé, nom d’auteur, date de publication, etc. )

9 Tâches documentaires : catégorisation en spécialités médicales
Avant l’indexation : optique de désambigüisation. En cardiologie l’acronyme « IVG » dénote une <insuffisance ventriculaire gauche > tandis qu’en chirurgie il dénote une <interruption volontaire de grossesse>. Modèles de Compression [AIME 2003] Après l’indexation : utilisation de l’indexation MeSH On peut déduire qu’une ressource indexée par le mot clé <diarrhée du nourrisson> relève de pédiatrie. Liens Sémantiques [IJMI 2004] La seconde méthode est utilisée en pratique

10 Indexation Automatique MeSH
Objectifs définis par l’équipe après des tests infructueux de logiciels d’indexation existants : Augmenter la couverture du catalogue Permettre un gain de temps Maintenir une indexation respectant les principes de l’indexation manuelle: Descripteurs obligatoires (check tags) Associations mot clé / qualificatif Taille variable de l’index

11 Indexation Automatique MeSH : le système MAIF
L’indexation comme traduction conceptuelle: approche Traitement Automatique du Langage Naturel [IPM 2005] Dictionnaires électroniques MeSH Bibliothèque de transducteurs Formalisation de règles d’indexation L’indexation comme une catégorisation fine : approche k Plus Proches Voisins Extraction automatique de Titres Fusion des approches et sélection de l’index final [TALN 2005] mots clés MeSH, qualificatifs, paires Notices CISMeF Texte Intégral Titre INTEX+ Dic. MeSH K-PPV Fusion Liste ordonnée de mots clés et paires MeSH mots clés + paires Extraction de termes MeSH Association de paires MeSH

12 Le système MAIF : approche TAL
L’algorithme suit la méthode manuelle [Lancaster, 1991] 1. Analyse de la ressource pour en extraire des concepts: Repérage des éléments textuels (analyse de surface) 2. Traduction dans le vocabulaire contrôlé : Mapping vers les termes MeSH 3. Correction en fonction des règles d’indexation Utilisation des propriétés de la terminologie Sélection (quasi) systématique des check tags Application de règles d’indexation

13 MAIF – TAL : dictionnaires électroniques MeSH
Format DELA (Dictionnaire Electronique du LADL, le Laboratoire d'Automatique Documentaire et Linguistique créé par M. Gross) Versions contenant les formes fléchies: DELAF pour les mots simples et DELACF pour les mots composés. FormeFléchie,FormeCanonique.InfoFlexionnelle

14 MAIF – TAL : dictionnaires électroniques MeSH - Principe
Format ~ DELA: FormeMeSH,TermeMeSH.InfoFlexionnelle ex: grippe,grippe.N:fs (DELA) acariose,acarioses.N:fs (*DELA) Définition de classes de termes ex: MALADIE (C et F03) ACTION ( D27.505) SUBSTANCE (D sauf D05, D12, D13, D25, D27.505) Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs, MALADIE, etc. ex: grippe,grippe.N+MeSH+MALADIE:fs diagnostic,diagnostic.N+QMeSH:ms

15 MAIF – TAL : dictionnaires électroniques MeSH - Source
Dictionnaires DELA existants ex : grippe,grippe.N+MeSH+MALADIE+z1:ms Ressources UMLF Flexions et dérivations pour les mots simples Validation manuelle : *spironolactoner,spironolactone.V+MeSH  entrée rejetée diagnostiquer,diagnostic.V+MeSH  entrée conservée Synonymes MeSH et CISMeF ex : sorroche,mal des montagnes.N+MeSH+MALADIE:ms Génération puis validation des pluriels

16 MAIF – TAL : dictionnaires électroniques MeSH Traduction automatique de synonymes
Collaboration avec S. Ozdowska (ERSS, Toulouse) : méthode d’appariement par propagation syntaxique Le couple amorce (protective/protecteur) permet d’apparier les termes (clothing/vêtements) par propagation de la relation ADJ-N : Traduction directe et compositionelle [EGC 2005], [TIA 2005] Corpus CISMeF, RCP, Hansard

17 MAIF – TAL : dictionnaires électroniques MeSH Bilan [INTEX04]
Couverture de ~83% du MeSH (soit ~ 2,23 entrées/terme) Extrait du dictionnaire Entrée « triviale » : diabete de type i,diabete de type i.N+MeSH:ms Variante orthographique : diabete de type 1, diabete de type i.N+MeSH:ms Synonymes : diabete juvenile, diabete de type i.N+MeSH:ms diabete insulinodependant, diabete de type i.N+MeSH:ms Flexions : diabetes de type i, diabete de type i.N+MeSH:mp diabetes juveniles, diabete de type i.N+MeSH:mp (synonyme) Dérivations : diabetique de type 1, diabete de type i.N+MeSH:ms (variante) diabetiques de type i, diabete de type i.N+MeSH:mp

18 MAIF – TAL : transducteurs MeSH
Description des termes complexes à l’aide de grammaires locales

19 MAIF – TAL : Formalisation des règles d’usage des qualificatifs
Règles implémentées pour l’extraction de paires mot clé / qualificatif – ex : Identification de déclencheurs tels que « lutter contre la MALADIE » ou « vaccin anti-MALADIE »  La paire < MALADIE/PC> doit être utilisée pour l’indexation.

20 MAIF – TAL : Formalisation des règles d’usage des qualificatifs
Règles non implémentées Identification de déclencheurs tels que « traitement de la MALADIE » ou « traiter la MALADIE »  Si ACTION ET SUBSTANCE <MALADIE/DT> ET <ACTION/TU> ET < SUBSTANCE /TU> Si ACTION ET NON SUBSTANCE Si NON ACTION ET NON MALADIE <MALADIE/TH> (défaut) OU <MALADIE/SU> (intervention E04) OU< MALADIE/RT> (traitement par rayons)

21 MAIF – TAL : (1) Analyse de la ressource (2) traduction MeSH des concepts
INTEX/NooJ [Silberztein, 93] : Outils linguistiques d’analyse de corpus utilisables en ligne de commande Implémentent des fonctions pour automates et transducteurs temps de traitement indépendant de la taille des dictionnaires (~ mots clés MeSH) Application des dictionnaires et transducteurs Mots clés MeSH Qualificatifs MeSH Paires mot clé / qualificatif MeSH

22 MAIF – TAL : (3) Correction de l’indexation
Hiérarchie : indexation au plus précis diabète diabète de type II diabète gestationnel diabète de type I report des occurrences de <diabète> vers ses fils Associations MC / Q : validation et appariement à l’intérieur d’une même phrase avec les MC les + fréquents sinon Calcul de score: tf*idf Check Tags: promus au rang 1 si fréquence > 2

23 MAIF – TAL : Bilan Extraction précise des termes apparaissant explicitement en corpus Mais silence sur les termes à portée globale ex : <étude comparative> Nécessité d’une autre approche Méthode de classification La norme « indexation » [NF Z , 1978] souligne l’importance des titres

24 Le système MAIF : k-PPV, approche des k Plus Proches Voisins
Une ressource est représentée par son titre: les mots grammaticaux et non significatifs étant filtrés, un « sac de mots » est constitué. eg: Le diabète de type 1 ->{diabète, type, 1} Similarité avec une autre ressource: nombre de mots du titre en commun (vs. distance d’édition) Candidats à l’indexation: les mots clés (ou paires) utilisés pour indexer les k-PPV, avec un score compris entre 1 (le MC appartient à l’index d’un voisin) et k (le MC appartient à l’index des k voisins)

25 MAIF k-PPV: bilan Extraction des termes à portée globale
Mais fiabilité aléatoire Significativité du titre Disponibilité de voisins réellement proches Nécessité de fusionner les approches TAL et k-PPV

26 Le système MAIF : fusion des approches TAL et k-PPV
Score fusionné : Importance égale pour les deux approches Rang vs. score relatif : résultats équivalents Application de Règles d’indexation après fusion Substitution (MeSH) « MC1/Q1  MC2 » ex : <cœur/TR> <transplantation cardiaque> Adjonction (CISMeF) «  MC1/Q1  MC1/Q1 + MC2 /Q2 » ex :<appendicectomie>  <appendicectomie> + <appendicite/SU>

27 Le système MAIF : fusion des approches TAL et k-PPV fonction de rupture
Soit une liste de N candidats à l’indexation ordonnée en fonction des scores Si décroissants. Le seuil T est : Ainsi, seuls les T candidats de rang i=1, …, T sont retenus pour l’index final.

28 Indexation d’un texte avec MAIF : pré-traitement
{L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique}1 {Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. }2 {Aux Etats-Unis et au Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. }3 {En France ou la premiere serie de cas vient d'être publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. }4 {Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce probleme de sante publique potentiel.}5 (…) L'apparition du diabète de type 2 chez l'enfant et ses implications en santé publique Alors que l'épidémie d'obésité s'étend dans le monde industrialisé, les cliniciens décrivent les premières séries de cas de diabète de type 2 chez l'enfant dans diverses parties du monde. Aux Etats-Unis et au Royaume-Uni, des enquêtes épidémiologiques sont en cours visant à mieux définir l'ampleur et l'évolution du problème et à caractériser les enfants diagnostiqués afin de mieux différencier le diabète de type 2 du type 1. En France où la première série de cas vient d'être publiée, le diabète de type 2 de l'enfant pourrait également être méconnu, mal classé ou non rapporté. Le programme national de prévention en nutrition constitue la première étape de lutte contre ce problème de santé publique potentiel.

29 Indexation d’un texte avec MAIF: analyse de surface, traduction MeSH
{L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique}1 {Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. }2 {Aux Etats-Unis et au Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. }3 {En France ou la premiere serie de cas vient d'être publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. }4 {Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce probleme de sante publique potentiel.}5 Eléments textuels diabete de type 2 enfant enfants sante publique epidemie obesite Etats-Unis Royaume-Uni epidemiologiques cours diagnostiques France mal prevention nutrition lutte MeSH <diabète de type 2> <diabète> <enfant> <santé publique> <santé> <épidémie> <obésité> <Etats-Unis d'Amérique> <Grande Bretagne> </EP> </ED> </DG> <France> <douleur > </PC> <nutrition> <lutte> Freq. 4 3 1 2 ce probleme de sante publique potentiel = Le diabete de type 2

30 Indexation d’un texte avec MAIF: analyse de surface, traduction MeSH
{L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique}1 {Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. }2 {Aux Etats-Unis et au Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. }3 {En France ou la premiere serie de cas vient d'être publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. }4 {Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce probleme de sante publique potentiel.}5 {Le programme national de prevention en nutrition constitue la premiere etape de lutte contre le diabete de type 2. }5-ALT Eléments textuels diabete de type 2  enfant enfants sante publique epidemie obesite Etats-Unis Royaume-Uni epidemiologiques cours diagnostiques France mal prevention nutrition Lutte contre le diabète de type 2 MeSH <diabète de type 2> <enfant> <santé publique> <épidémie> <obésité> <Etats-Unis d'Amérique> <Grande Bretagne> </EP> </ED> </DG> <France> <douleur > </PC> <nutrition> <diabète de type 2/PC> Freq. 3 1 2

31 Indexation d’un texte avec MAIF: appariement des qualificatifs isolés
A l’intérieur des phrases Avec les mots clés les plus fréquents Phrase Mots clés Qualificatifs Appariements 3 <Etats-Unis> <Royaume-Uni> <enfant> <diabète de type 2> </épidémiologie> </enseignement et éducation> </diagnostic> <diabète de type 2/épidemiologie> <diabète de type 2/enseignement et éducation> <diabète de type 2/diagnostic> 5 <nutrition> <lutte> <santé publique> </prévention et contrôle> - Mots clés les plus fréquents Qualificatifs Appariements <diabète de type 2> <enfant> </prévention et contrôle> <diabète de type 2/prévention et contrôle>

32 Indexation d’un texte avec MAIF: scores et post-traitement
Descripteurs F. Score tf*idf <diabète de type 2> <enfant> <santé publique> <épidémie> <obésité> <Etats-Unis d'Amérique> <Grande Bretagne> <diabète de type 2/épidemiologie> <diabète de type 2/enseignement et éducation> <diabète de type 2/diagnostic> <France> <douleur > <diabète de type 2/prévention et contrôle> <nutrition> <lutte> 4 2 1 21,64 8,93 6,88 5,09 4,94 5,61 7,32 7,09 7,12 2,15 9,52 7,22 4,79 Descripteurs F. Score <diabète de type 2> <enfant> <santé publique> <épidémie> <obésité> <Etats-Unis d'Amérique> <Grande Bretagne> <diabète de type 2/épidemiologie> <diabète de type 2/enseignement et éducation> <diabète de type 2/diagnostic> <France> <douleur > <diabète de type 2/prévention et contrôle> <nutrition> <lutte> 4 2 1 21,64 9,04 8,93 6,88 5,09 4,94 5,61 7,32 7,09 7,12 2,15 9,52 7,22 4,79 Hiérarchie Check tags

33 Indexation d’un texte avec MAIF: recherche des Plus Proches Voisins
Réduction du risque de diabète de type 2 chez les enfants autochtones du Canada Diabète de type 2 ou diabète non insulino-dépendant Allergies et hypersensibilités de type 1 chez l'enfant et chez l'adulte Descripteurs Score <diabète de type 2> < allergènes > < dépistage systématique > < dépistage systématique/NO > < dépistage systématique/UT > < diabète de type 2/DG > < diabète de type 2/PC > < hypersensibilité > < hypersensibilité/DG > < hypersensibilité/ET > < hypersensibilité/PP > < hypersensibilité/TH > < prévention primaire > 2 1 dépistage systématique dépistage systématique/NO dépistage systématique/UT diabète de type 2 diabète de type 2/DG diabète de type 2/PC prévention primaire allergènes hypersensibilité hypersensibilité/DG hypersensibilité/ET hypersensibilité/PH hypersensibilité/TH

34 Indexation d’un texte avec MAIF: Fusion, sélection de l’index
Descripteurs Score fusioné <enfant> <diabète de type 2> <diabète de type 2/ PC> <diabète de type 2/ DG> <douleur> <santé publique> <diabète de type 2/ EP> <allergènes> <dépistage systématique> <dépistage systématique/ NO> <dépistage systématique/ UT> <hypersensibilité> <hypersensibilité/ DG> <hypersensibilité/ ET> <hypersensibilité/ PP> <hypersensibilité/ TH> <prévention primaire> <diabète de type 2/ ED> <épidémie> <Grande Bretagne> <obésité> <nutrition> <Etats-Unis d'Amérique> <France> <lutte> 32,21 13,12 12,98 7,88 7,40 7,32 7,14 5,87 5,70 4,65 4,22 3,97 3,93 1,78 0,83 0,42 0,01 0,00 0,24 0,03 0,10 0,05 0,37 0,36 - Indexation Manuelle: *<diabète de type 2> <enfant> <Etats-Unis d'Amérique> <France> <Grande Bretagne>

35 (73 ressources traitées)
Évaluation de MAIF Corpus de 83 ressources – couverture MeSH de MAIF-TAL: 35% Indexation à l’aide de paires mot clé / qualificatif Evaluation de la correction (précision) et de l’exhaustivité (rappel) du système Une autre évaluation a mis en évidence un silence de l’indexation manuelle auquel le système automatique peut pallier Rg MAIF-TAL MAIF-10PPV (73 ressources traitées) MAIF 1 4 10 50 T Précision - Rappel 36 – 5 32 – 16 22 – 27 8 – 40 27 – 21 (Tmoy =12) 49 – 6 34 – 15 20 – 22 7 – 36 49 – 16 (Tmoy =3) 58 – 7 37 – 18 26 – 33 10 – 54 33 – 25 (Tmoy =9)

36 Evaluation des sytèmes d’indexation MeSH Francophones [AIME 2005]
Corpus de 83 ressources – couverture MeSH de MAIF-TAL: 35% Indexation à l’aide de mots clés isolés Pour MeSHMap, les performances sont inférieures à celles observées sur des abstracts en anglais (vs. Textes intégraux en Français ici) Rg NOMINDEX HON-MeSHMapper MAIF - TAL - MeSHMap 1 4 10 50 T Précision - Rappel (Tmoy=6,6) Précision - Rappel (Tmoy =4.6) Précision - Rappel (Tmoy =12) Précision - Rappel – , ,57 11, ,20 5, ,39 12,22 - 5,13 (Tmoy =3,09)

37 Résultats: F-measure / rang (couverture MeSH de MAIF ~35%)

38 Résultats: F-measure / rang (Couverture MeSH de MAIF ~35%)

39 Résultats: F-measure / rang (Couverture MeSH de MAIF ~60%)

40 Evaluation de MTI et MAIF sur un corpus parallèle (50 ressources) [AMIA 2005]
MTI offre de meilleures performances L’évaluation a permis une comparaison des méthodes d’indexation Pour MAIF, l’approche k-PPV est limitée par la taille de la base d’apprentissage (N~ vs. 10,6 millions pour MTI)

41 Le système MAIF : Bilan Le développement de MAIF a permis d’enrichir les ressources terminologiques et de formaliser les règles d’indexation Le système MAIF Respecte les critères de l’indexation manuelle (indexation par paires MC/Q, index de taille variable, …) Peut contribuer à combler le silence de l’indexation manuelle Evaluation MAIF offre des performances équivalentes ou supérieures aux systèmes Francophones existants MTI offre de meilleures performances sur l’anglais, mais MAIF peut apporter des améliorations (indexation par paires, fonction de rupture)

42 Conclusion : Automatisation des tâches documentaires
W. W. W. CVA Veille Manuelle Ressources hors CISMeF Validation Manuelle PRIORITÉ HAUTE PRIORITÉ BASSE à inclure (N=1500) Validation Automatique (sites éditeurs) Index. Auto MeSH Index. Auto Plein Texte Notice Auto. Index. Auto. Plein Texte Description Index. Auto. MeSH « noyau » CISMeF (Index. Man. MeSH) Validation et Complément Manuels Notice CISMeF Utilisateur Requête Doc’CISMeF Interrogation Expert: Cogni-CISMeF

43 Conclusion Terminologie Médicale : Indexation MeSH : Evaluation :
Mise à disposition de la communauté d’un dictionnaire et d’une bibliothèque de transducteurs MeSH Indexation MeSH : Le système MAIF prouve la faisabilité d’une indexation automatique MC/Q Evaluation : Mise en place d’une campagne d’évaluation des systèmes d’indexation MeSH francophones –> réflexion sur les outils d’évaluation

44 Perspectives Finalisation de l’intégration de MAIF dans le processus CISMeF Evaluation opérationnelle de l’utilisation semi-automatique de MAIF par les indexeurs CISMeF : évaluation qualitative (précision, impact sur le silence de l’indexation manuelle) évaluation quantitative (réduction des délais d’indexation) Amélioration des approches TAL et k-PPV, de la fusion Post-Doc NLM : Adaptation de l’extraction de paires MC/Q MeSH dans MTI Application de la fonction de rupture

45 Généralisation des travaux
Indexation avec d’autres terminologies médicales (SP 1ére année de thèse) : Intégration de MAIF Application des approches TAL et k-PPV sur CIM-10, CCAM et SNOMED (UMLS) Formalisation de règles à l’aide de transducteurs : Application à l’analyse des RCP avec un thésaurus du VIDAL Application à l’indexation par triplets MC/Q\TR Classification : Création d’un outil bibliométrique [BMC Medical Informatics 2006] Application « documents proches », et illustration cartographique

46 Quelques publications détaillant ces travaux:
Revues Névéol A., Rogozan A., Darmoni SJ. Automatic indexing of health resources in French with a controlled vocabulary for the CISMeF catalogue; IPM 2006 Névéol A., Soualmia LF., Douyère M., Rogozan A., Thirion B., Darmoni SJ. Using CISMeF MeSH “Encapsulated” Terminology and a Rule-based Algorithm for Health Resources Categorization ; IJMI 2004 Darmoni SJ, Névéol A., Renard, JM., Gehano JF., Soualmia LF., Dahamna B., et al. A MEDLINE categorization algorithm; BMC 2006 Conférences internationales Névéol A., Mork JG., Aronson AR., Darmoni SJ. Evaluation of French and English MeSH Indexing systems with a parallel corpus ; AMIA 2005 Névéol A., Mary, V., Gaudinat, A., Boyer, C., Rogozan, A., Darmoni, SJ. A Benchmark Evaluation of the French MeSH Indexing Systems. AIME 2005 Conférences Nationales Névéol A., Ozdowska S.: Extraction bilingue de termes médicaux dans un corpus parallèle anglais/français. EGC 2005 Névéol A., Douyère M., Rogozan A., Darmoni SJ. Construction de ressources terminologiques en santé pour un système d’indexation automatique; Journées INTEX/NOOJ 2004;

47 Discussion: MAIF Les deux méthodes: Méthode k-NN: Méthode TALN:
Respectent les critères de l’indexation manuelle (indexation par paires MC/Q, index de taille variable, …) Tiennent compte dans une certaine mesure des méthodes d’indexation manuelle Méthode k-NN: Fondée sur les titres (?superficiel?) Non productif (perpétue le silence) Méthode TALN: Traite la ressource complète (?trop de détail?) Peut combler les silences de l’indexation manuelle Fusion: l’efficacité dépend des résultats k-NN…

48 Catégorisation après l’indexation
Méthode: [Névéol et al. 04, IJMI] Grâce aux liens sémantiques de la terminologie CISMeF les spécialités Médicales (=« métatermes ») sont inférées de la description d’une ressource (MeSH + types de ressource). Structure de la terminologie CISMeF

49 Résultats sur 125 ressources
Précision de ~80% %, rappel 93% Cette méthode est actuellement utilisée pour la catégorisation des ressources CISMeF. Pas d'apprentissage préalable L’analyse des résultats a permis d’enrichir la terminologie (création de nouveaux liens et de nouveaux métatermes) Développement d’un outil bibliométrique fondé sur une méthode similaire [Darmoni et al. 05, à paraître dans BMC]

50 Analyse des résultats d’une évaluation préliminaire (TALN)
Check tags Silence de l’indexation manuelle -> valeur ajoutée du système Sélection de mots clefs non représentatifs Utilisation de « probabilités de sélection » pour pondérer les scores des candidats. Pour chaque terme t, on a: avec R une ressource du catalogue, et IR l’indexation de cette ressource.

51 Extraction Automatique du titre et du format

52 Résultats sur 339 URLs 68% d ’extractions pertinentes Nb ressources %
de Titre Exemple Commentaires 89 26% Obstacle technique - PDF vérouillés, formats non traités (.zip…) 21 6% Extraction d’un titre non significatif " BMbioch.fm ", "Corel Office Document" L’auteur n’a pas spécifié de titre significatif 57 17% Titres rhématique, nom d’auteur, d’éditeur… "Publications “, "Faculté de Médecine de Lyon Sud: cours" Le titre extrait ne décrit pas le contenu de la ressource 172 51% Extraction d’un titre significatif "Trisomie 21", "Fondements de l'ergothérapie" Le titre extrait décrit bien le contenu de la ressource 68% d ’extractions pertinentes

53 Traduction compositionelle
They may care for immunocompromised patients (including premature infants) Ils peuvent s'occuper de patients immunodéprimés (y compris de bébés prématurés) premature  prématuré The infant can be vaccinated at birth L'enfant pourra être vacciné après sa naissance birth  naissance premature birth  naissance prématurée


Télécharger ppt "Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan."

Présentations similaires


Annonces Google