La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Présentations similaires


Présentation au sujet: "FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,"— Transcription de la présentation:

1 FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS, Laboratoire PSI FRE CNRS 2645 – INSA & Université de Rouen Equipe CISMeF, CHU de Rouen.

2 Diapo 2 Plan Introduction Tâches documentaires Présentation Veille et description documentaires Indexation automatique MeSH Description du système MAIF Approche TAL Approche k-PPV Fusion des approches Indexation dun texte avec MAIF Evaluation du système MAIF (vs. systèmes francophones, MTI) Conclusion et perspectives

3 Diapo 3 Introduction Objectifs : Vers la « compréhension » des documents de Santé par la machine Automatisation des tâches documentaires Contexte: le Catalogue et Index des Sites Médicaux Francophones Projet initié in 1995 (http://www. cismef.org) ~14,000 ressources professionnels de santé, étudiants, patients Mise à jour manuelle: 55 nouvelles ressources par semaine ~ ressources en attente Automatisation des tâches documentaires nécessaire, en particulier pour l indexation. Démarche expérimentale « Bottom-up » : modélisation des problèmes, expérimentation, analyse des résultats, + itération

4 Diapo 4 Tâches documentaires : présentation Utilisateur Requête DocCISMeF Interrogation Expert W. W. W. Veille Manuelle Ressources hors CISMeF Validation Manuelle Ressources à inclure Description Notice CISMeF « noyau » CISMeF (indexation manuelle) Indexation Manuelle

5 Diapo 5 Tâches documentaires : présentation Veille documentaire Identifier les ressources susceptibles dêtre intégrées au catalogue Sélectionner les ressources à intégrer Description des ressources à intégrer : notice CISMeF Classification en spécialités médicales Indexation de textes à laide de descripteurs MeSH Indexation bimodale texte/image (FF – 2ème année de thèse) Recherche dinformation Outil de recherche (LS – thèse soutenue en 2004) Dialogue avec lutilisateur (AL – 2ème année de thèse)

6 Diapo 6 Tâches documentaires : veille Conception du Veilleur Automatique CISMeF (CVA) : formalisation de la veille manuelle. Fréquence de la veille Profondeur dexploration Création de listes de liens « connus » ou « à éviter » Validation manuelle: mise à jour de la liste des URLs « à indexer ».

7 Diapo 7 Tâches documentaires : description des ressources dans une notice Tâches documentaires : description des ressources dans une notice Thésaurus MeSH ® (Medical Subject Headings): ~ mots clés et 83 qualificatifs Liste pondérée de mots clés MeSH ou de paires mot clé/qualificatif MeSH Terminologie CISMeF: 263 types de ressource Liste pondérée de types de ressource CISMeF Terminologie CISMeF: 135 métatermes Liste ordonnée de métatermes CISMeF

8 Diapo 8 Tâches documentaires : création dune notice semi-automatique Extraction automatique (à partir dune URL) des éléments suivants : Indexation MeSH (+ titre et format de la ressource) Catégorisation en spécialités médicales ou « métatermes » (notices longues) Les autres éléments restent extraits manuellement (Résumé, nom dauteur, date de publication, etc. )

9 Diapo 9 Tâches documentaires : catégorisation en spécialités médicales Avant lindexation : optique de désambigüisation. En cardiologie lacronyme « IVG » dénote une tandis quen chirurgie il dénote une. Modèles de Compression [AIME 2003] Après lindexation : utilisation de lindexation MeSH On peut déduire quune ressource indexée par le mot clé relève de pédiatrie. Liens Sémantiques [IJMI 2004] La seconde méthode est utilisée en pratique

10 Diapo 10 Indexation Automatique MeSH Objectifs définis par léquipe après des tests infructueux de logiciels dindexation existants : Augmenter la couverture du catalogue Permettre un gain de temps Maintenir une indexation respectant les principes de lindexation manuelle: Descripteurs obligatoires (check tags) Associations mot clé / qualificatif Taille variable de lindex

11 Diapo 11 Indexation Automatique MeSH : le système MAIF Lindexation comme traduction conceptuelle: approche Traitement Automatique du Langage Naturel [IPM 2005] Dictionnaires électroniques MeSH Bibliothèque de transducteurs Formalisation de règles dindexation Lindexation comme une catégorisation fine : approche k Plus Proches Voisins Extraction automatique de Titres Fusion des approches et sélection de lindex final [TALN 2005] mots clés MeSH, qualificatifs, paires Notices CISMeF Texte Intégral Titre INTEX+ Dic. MeSH K-PPV Fusion Liste ordonnée de mots clés et paires MeSH mots clés + paires Extraction de termes MeSH Association de paires MeSH

12 Diapo 12 Le système MAIF : approche TAL Lalgorithme suit la méthode manuelle [Lancaster, 1991] 1. Analyse de la ressource pour en extraire des concepts: Repérage des éléments textuels (analyse de surface) 2. Traduction dans le vocabulaire contrôlé : Mapping vers les termes MeSH 3. Correction en fonction des règles dindexation Utilisation des propriétés de la terminologie Sélection (quasi) systématique des check tags Application de règles dindexation

13 Diapo 13 MAIF – TAL : dictionnaires électroniques MeSH Format DELA (Dictionnaire Electronique du LADL, le Laboratoire d'Automatique Documentaire et Linguistique créé par M. Gross) Versions contenant les formes fléchies: DELAF pour les mots simples et DELACF pour les mots composés. FormeFléchie,FormeCanonique.InfoFlexionnelle

14 Diapo 14 MAIF – TAL : dictionnaires électroniques MeSH - Principe Format ~ DELA: FormeMeSH,TermeMeSH.InfoFlexionnelle ex:grippe,grippe.N:fs(DELA) acariose,acarioses.N:fs(*DELA) Définition de classes de termes ex:MALADIE (C et F03) ACTION ( D27.505) SUBSTANCE (D sauf D05, D12, D13, D25, D27.505) Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs, MALADIE, etc. ex:grippe,grippe.N+MeSH+MALADIE:fs diagnostic,diagnostic.N+QMeSH:ms

15 Diapo 15 MAIF – TAL : dictionnaires électroniques MeSH - Source Dictionnaires DELA existants ex : grippe,grippe.N+MeSH+MALADIE+z1:ms Ressources UMLF Flexions et dérivations pour les mots simples Validation manuelle : *spironolactoner,spironolactone.V+MeSH entrée rejetée diagnostiquer,diagnostic.V+MeSH entrée conservée Synonymes MeSH et CISMeF ex :sorroche,mal des montagnes.N+MeSH+MALADIE:ms Génération puis validation des pluriels

16 Diapo 16 MAIF – TAL : dictionnaires électroniques MeSH Traduction automatique de synonymes Collaboration avec S. Ozdowska (ERSS, Toulouse) : méthode dappariement par propagation syntaxique Le couple amorce (protective/protecteur) permet dapparier les termes (clothing/vêtements) par propagation de la relation ADJ-N : Traduction directe et compositionelle [EGC 2005], [TIA 2005] Corpus CISMeF, RCP, Hansard

17 Diapo 17 MAIF – TAL : dictionnaires électroniques MeSH Bilan [INTEX04] Couverture de ~83% du MeSH (soit ~ 2,23 entrées/terme) Extrait du dictionnaire Entrée « triviale » : diabete de type i,diabete de type i.N+MeSH:ms Variante orthographique : diabete de type 1, diabete de type i.N+MeSH:ms Synonymes : diabete juvenile, diabete de type i.N+MeSH:ms diabete insulinodependant, diabete de type i.N+MeSH:ms Flexions : diabetes de type i, diabete de type i.N+MeSH:mp diabetes juveniles, diabete de type i.N+MeSH:mp (synonyme) Dérivations : diabetique de type 1, diabete de type i.N+MeSH:ms (variante) diabetiques de type i, diabete de type i.N+MeSH:mp

18 Diapo 18 MAIF – TAL : transducteurs MeSH Description des termes complexes à laide de grammaires locales

19 Diapo 19 MAIF – TAL : Formalisation des règles dusage des qualificatifs Règles implémentées pour lextraction de paires mot clé / qualificatif – ex : Identification de déclencheurs tels que « lutter contre la MALADIE » ou « vaccin anti-MALADIE » La paire doit être utilisée pour lindexation.

20 Diapo 20 MAIF – TAL : Formalisation des règles dusage des qualificatifs Règles non implémentées Identification de déclencheurs tels que « traitement de la MALADIE » ou « traiter la MALADIE » 1.Si ACTION ET SUBSTANCE ET 2.Si ACTION ET NON SUBSTANCE ET 3.Si NON ACTION ET NON MALADIE (défaut) OU (intervention E04) OU (traitement par rayons)

21 Diapo 21 MAIF – TAL : (1) Analyse de la ressource (2) traduction MeSH des concepts INTEX/NooJ [Silberztein, 93] : Outils linguistiques danalyse de corpus utilisables en ligne de commande Implémentent des fonctions pour automates et transducteurs temps de traitement indépendant de la taille des dictionnaires (~ mots clés MeSH) Application des dictionnaires et transducteurs Mots clés MeSH Qualificatifs MeSH Paires mot clé / qualificatif MeSH

22 Diapo 22 MAIF – TAL : (3) Correction de lindexation Hiérarchie : indexation au plus précis diabète diabète de type II diabète gestationnel diabète de type I … report des occurrences de vers ses fils Associations MC / Q : validation et appariement à lintérieur dune même phrase avec les MC les + fréquents sinon Calcul de score: tf*idf Check Tags: promus au rang 1 si fréquence > 2

23 Diapo 23 MAIF – TAL : Bilan Extraction précise des termes apparaissant explicitement en corpus Mais silence sur les termes à portée globale ex : Nécessité dune autre approche Méthode de classification La norme « indexation » [NF Z , 1978] souligne limportance des titres

24 Diapo 24 Le système MAIF : k-PPV, approche des k Plus Proches Voisins Une ressource est représentée par son titre: les mots grammaticaux et non significatifs étant filtrés, un « sac de mots » est constitué. eg: Le diabète de type 1 ->{diabète, type, 1} Similarité avec une autre ressource: nombre de mots du titre en commun (vs. distance dédition) Candidats à lindexation: les mots clés (ou paires) utilisés pour indexer les k-PPV, avec un score compris entre 1 (le MC appartient à lindex dun voisin) et k (le MC appartient à lindex des k voisins)

25 Diapo 25 MAIF k-PPV: bilan Extraction des termes à portée globale Mais fiabilité aléatoire Significativité du titre Disponibilité de voisins réellement proches Nécessité de fusionner les approches TAL et k-PPV

26 Diapo 26 Le système MAIF : fusion des approches TAL et k-PPV Score fusionné : Importance égale pour les deux approches Rang vs. score relatif : résultats équivalents Application de Règles dindexation après fusion Substitution (MeSH) « MC 1 /Q 1 MC 2 » ex : Adjonction (CISMeF) « MC 1 /Q 1 MC 1 /Q 1 + MC 2 /Q 2 » ex : +

27 Diapo 27 Le système MAIF : fusion des approches TAL et k-PPV fonction de rupture Soit une liste de N candidats à lindexation ordonnée en fonction des scores S i décroissants. Le seuil T est : Ainsi, seuls les T candidats de rang i=1, …, T sont retenus pour lindex final.

28 Diapo 28 Indexation dun texte avec MAIF : pré-traitement (…) L'apparition du diabète de type 2 chez l'enfant et ses implications en santé publique Alors que l'épidémie d'obésité s'étend dans le monde industrialisé, les cliniciens décrivent les premières séries de cas de diabète de type 2 chez l'enfant dans diverses parties du monde. Aux Etats- Unis et au Royaume-Uni, des enquêtes épidémiologiques sont en cours visant à mieux définir l'ampleur et l'évolution du problème et à caractériser les enfants diagnostiqués afin de mieux différencier le diabète de type 2 du type 1. En France où la première série de cas vient d'être publiée, le diabète de type 2 de l'enfant pourrait également être méconnu, mal classé ou non rapporté. Le programme national de prévention en nutrition constitue la première étape de lutte contre ce problème de santé publique potentiel. (…) {L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique} 1 {Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. } 2 {Aux Etats-Unis et au Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. } 3 {En France ou la premiere serie de cas vient d'être publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. } 4 {Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce probleme de sante publique potentiel.} 5

29 Diapo 29 Indexation dun texte avec MAIF: analyse de surface, traduction MeSH {L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique} 1 {Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. } 2 {Aux Etats-Unis et au Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. } 3 {En France ou la premiere serie de cas vient d'être publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. } 4 {Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce probleme de sante publique potentiel.} 5 Eléments textuels diabete de type 2 enfant enfants sante publique epidemie obesite Etats-Unis Royaume-Uni epidemiologiques cours diagnostiques France mal prevention nutrition lutte MeSH Freq ce probleme de sante publique potentiel = Le diabete de type 2

30 Diapo 30 Indexation dun texte avec MAIF: analyse de surface, traduction MeSH Eléments textuels diabete de type 2 enfant enfants sante publique epidemie obesite Etats-Unis Royaume-Uni epidemiologiques cours diagnostiques France mal prevention nutrition Lutte contre le diabète de type 2 MeSH Freq {L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique} 1 {Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. } 2 {Aux Etats-Unis et au Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. } 3 {En France ou la premiere serie de cas vient d'être publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. } 4 {Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce probleme de sante publique potentiel.} 5 {Le programme national de prevention en nutrition constitue la premiere etape de lutte contre le diabete de type 2. } 5-ALT

31 Diapo 31 Indexation dun texte avec MAIF: appariement des qualificatifs isolés PhraseMots clésQualificatifsAppariements A lintérieur des phrases Avec les mots clés les plus fréquents Mots clés les plus fréquents QualificatifsAppariements

32 Diapo 32 Indexation dun texte avec MAIF: scores et post-traitement DescripteursF.Score ,64 9,04 8,93 6,88 5,09 4,94 5,61 7,32 7,09 7,12 2,15 9,52 7,22 4,79 1 DescripteursF.Score tf*idf ,64 8,93 6,88 5,09 4,94 5,61 7,32 7,09 7,12 2,15 9,52 7,22 4,79 1 Hiérarchie Check tags

33 Diapo 33 Indexation dun texte avec MAIF: recherche des Plus Proches Voisins Réduction du risque de diabète de type 2 chez les enfants autochtones du Canada Diabète de type 2 ou diabète non insulino-dépendant Allergies et hypersensibilités de type 1 chez l'enfant et chez l'adulte dépistage systématique dépistage systématique/NO dépistage systématique/UT diabète de type 2 diabète de type 2/DG diabète de type 2/PC prévention primaire diabète de type 2 allergènes hypersensibilité hypersensibilité/DG hypersensibilité/ET hypersensibilité/PH hypersensibilité/TH DescripteursScore

34 Diapo 34 Indexation dun texte avec MAIF: Fusion, sélection de lindex DescripteursScore fusioné 32,21 13,12 12,98 7,88 7,40 7,32 7,14 5,87 5,70 4,65 4,22 3,97 3,93 1,78 0,83 0 0,42 0,01 0,00 0,24 0,03 0,01 0 0,10 0,01 0,10 0,05 0,03 0,01 0,37 0,36 - Indexation Manuelle: *

35 Diapo 35 Évaluation de MAIF RgMAIF-TALMAIF-10PPV (73 ressources traitées) MAIF T Précision - Rappel 36 – 5 32 – – 27 8 – – 21 ( T moy =12) Précision - Rappel 49 – 6 34 – – 22 7 – – 16 ( T moy =3) Précision - Rappel 58 – 7 37 – – – – 25 ( T moy =9) Corpus de 83 ressources – couverture MeSH de MAIF-TAL: 35% Indexation à laide de paires mot clé / qualificatif Evaluation de la correction (précision) et de lexhaustivité (rappel) du système Une autre évaluation a mis en évidence un silence de lindexation manuelle auquel le système automatique peut pallier

36 Diapo 36 Evaluation des sytèmes dindexation MeSH Francophones [AIME 2005] Corpus de 83 ressources – couverture MeSH de MAIF-TAL: 35% Indexation à laide de mots clés isolés Pour MeSHMap, les performances sont inférieures à celles observées sur des abstracts en anglais (vs. Textes intégraux en Français ici) RgNOMINDEX HON- MeSHMapper MAIF - TAL - MeSHMap T Précision - Rappel (T moy =6,6) Précision - Rappel (T moy =4.6) Précision - Rappel (T moy =12) Précision - Rappel – , ,57 11, ,20 5, ,39 12,22 - 5,13 (T moy =3,09)

37 Diapo 37 Résultats: F-measure / rang (couverture MeSH de MAIF ~35%)

38 Diapo 38 Résultats: F-measure / rang (Couverture MeSH de MAIF ~35%)

39 Diapo 39 Résultats: F-measure / rang (Couverture MeSH de MAIF ~60%)

40 Diapo 40 Evaluation de MTI et MAIF sur un corpus parallèle (50 ressources) [AMIA 2005] MTI offre de meilleures performances Lévaluation a permis une comparaison des méthodes dindexation Pour MAIF, lapproche k-PPV est limitée par la taille de la base dapprentissage (N~ vs. 10,6 millions pour MTI)

41 Diapo 41 Le système MAIF : Bilan Le développement de MAIF a permis denrichir les ressources terminologiques et de formaliser les règles dindexation Le système MAIF Respecte les critères de lindexation manuelle (indexation par paires MC/Q, index de taille variable, …) Peut contribuer à combler le silence de lindexation manuelle Evaluation MAIF offre des performances équivalentes ou supérieures aux systèmes Francophones existants MTI offre de meilleures performances sur langlais, mais MAIF peut apporter des améliorations (indexation par paires, fonction de rupture)

42 Diapo 42 Conclusion : Automatisation des tâches documentaires Utilisateur Requête DocCISMeF Interrogation Expert: Cogni-CISMeF Index. Auto MeSH Index. Auto Plein Texte Notice Auto. Index. Auto. Plein Texte Description Index. Auto. MeSH « noyau » CISMeF (Index. Man. MeSH) Validation et Complément Manuels Notice CISMeF W. W. W. CVA Veille Manuelle Ressources hors CISMeF Validation Manuelle PRIORITÉ HAUTE PRIORITÉ BASSE Ressources à inclure Ressources à inclure (N=1500) Ressources à inclure Validation Automatique (sites éditeurs)

43 Diapo 43 Conclusion Terminologie Médicale : Mise à disposition de la communauté dun dictionnaire et dune bibliothèque de transducteurs MeSH Indexation MeSH : Le système MAIF prouve la faisabilité dune indexation automatique MC/Q Evaluation : Mise en place dune campagne dévaluation des systèmes dindexation MeSH francophones –> réflexion sur les outils dévaluation

44 Diapo 44 Perspectives Finalisation de lintégration de MAIF dans le processus CISMeF Evaluation opérationnelle de lutilisation semi-automatique de MAIF par les indexeurs CISMeF : évaluation qualitative (précision, impact sur le silence de lindexation manuelle) évaluation quantitative (réduction des délais dindexation) Amélioration des approches TAL et k-PPV, de la fusion Post-Doc NLM : Adaptation de lextraction de paires MC/Q MeSH dans MTI Application de la fonction de rupture

45 Diapo 45 Généralisation des travaux Indexation avec dautres terminologies médicales (SP 1ére année de thèse) : Intégration de MAIF Application des approches TAL et k-PPV sur CIM-10, CCAM et SNOMED (UMLS) Formalisation de règles à laide de transducteurs : Application à lanalyse des RCP avec un thésaurus du VIDAL Application à lindexation par triplets MC/Q\TR Classification : Création dun outil bibliométrique [BMC Medical Informatics 2006] Application « documents proches », et illustration cartographique

46 Diapo 46 Quelques publications détaillant ces travaux: Revues Névéol A., Rogozan A., Darmoni SJ. Automatic indexing of health resources in French with a controlled vocabulary for the CISMeF catalogue; IPM 2006 Névéol A., Soualmia LF., Douyère M., Rogozan A., Thirion B., Darmoni SJ. Using CISMeF MeSH Encapsulated Terminology and a Rule-based Algorithm for Health Resources Categorization ; IJMI 2004 Darmoni SJ, Névéol A., Renard, JM., Gehano JF., Soualmia LF., Dahamna B., et al. A MEDLINE categorization algorithm; BMC 2006 Conférences internationales Névéol A., Mork JG., Aronson AR., Darmoni SJ. Evaluation of French and English MeSH Indexing systems with a parallel corpus ; AMIA 2005 Névéol A., Mary, V., Gaudinat, A., Boyer, C., Rogozan, A., Darmoni, SJ. A Benchmark Evaluation of the French MeSH Indexing Systems. AIME 2005 Conférences Nationales Névéol A., Ozdowska S.: Extraction bilingue de termes médicaux dans un corpus parallèle anglais/français. EGC 2005 Névéol A., Douyère M., Rogozan A., Darmoni SJ. Construction de ressources terminologiques en santé pour un système dindexation automatique; Journées INTEX/NOOJ 2004;

47 Diapo 47 Discussion: MAIF Les deux méthodes: Respectent les critères de lindexation manuelle (indexation par paires MC/Q, index de taille variable, …) Tiennent compte dans une certaine mesure des méthodes dindexation manuelle Méthode k-NN: Fondée sur les titres (?superficiel?) Non productif (perpétue le silence) Méthode TALN: Traite la ressource complète (?trop de détail?) Peut combler les silences de lindexation manuelle Fusion: lefficacité dépend des résultats k-NN…

48 Diapo 48 Catégorisation après lindexation Structure de la terminologie CISMeF Méthode: [Névéol et al. 04, IJMI] Grâce aux liens sémantiques de la terminologie CISMeF les spécialités Médicales (=« métatermes ») sont inférées de la description dune ressource (MeSH + types de ressource).

49 Diapo 49 Résultats sur 125 ressources Précision de ~80% %, rappel 93% Cette méthode est actuellement utilisée pour la catégorisation des ressources CISMeF. Pas d'apprentissage préalable Lanalyse des résultats a permis denrichir la terminologie (création de nouveaux liens et de nouveaux métatermes) Développement dun outil bibliométrique fondé sur une méthode similaire [Darmoni et al. 05, à paraître dans BMC]

50 Diapo 50 Analyse des résultats dune évaluation préliminaire (TALN) Check tags Silence de lindexation manuelle -> valeur ajoutée du système Sélection de mots clefs non représentatifs Utilisation de « probabilités de sélection » pour pondérer les scores des candidats. Pour chaque terme t, on a: avec R une ressource du catalogue, et I R lindexation de cette ressource.

51 Diapo 51 Extraction Automatique du titre et du format

52 Diapo 52 Résultats sur 339 URLs Nb ressources%Extraction de Titre ExempleCommentaires 8926%Obstacle technique-PDF vérouillés, formats non traités (.zip…) 216%Extraction dun titre non significatif " BMbioch.fm ", "Corel Office Document" Lauteur na pas spécifié de titre significatif 5717%Titres rhématique, nom dauteur, déditeur… "Publications , "Faculté de Médecine de Lyon Sud: cours" Le titre extrait ne décrit pas le contenu de la ressource 17251%Extraction dun titre significatif "Trisomie 21", "Fondements de l'ergothérapie" Le titre extrait décrit bien le contenu de la ressource 68% d extractions pertinentes

53 Diapo 53 Traduction compositionelle They may care for immunocompromised patients (including premature infants) Ils peuvent s'occuper de patients immunodéprimés (y compris de bébés prématurés) premature prématuré The infant can be vaccinated at birth L'enfant pourra être vacciné après sa naissance birth naissance premature birth naissance prématurée


Télécharger ppt "FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,"

Présentations similaires


Annonces Google